文本轉(zhuǎn)圖片的危險(xiǎn)算法“達(dá)利”降臨：“造假”程度絕了

時(shí)間：2022-04-17 14:23:45

論算法創(chuàng)新，OpenAI好像永遠(yuǎn)都不會(huì)讓我們失望。

這個(gè)世界最牛逼的人工智能實(shí)驗(yàn)室之一，推出過(guò)包括GPT2、GPT3等極為強(qiáng)大的自然語(yǔ)言處理模型，威震人工智能圈。而在創(chuàng)始人馬斯克退出，微軟數(shù)十億美金重金接手后，他們便開(kāi)始逐步向技術(shù)商業(yè)化之路做出妥協(xié)。

但這并沒(méi)有影響他們?cè)凇盁o(wú)人之境”的奔跑速度。

這一次，我們又在不同領(lǐng)域一流期刊雜志上，看到了OpenAI的名字。這一次與他們名字同時(shí)出現(xiàn)的，是大量色彩斑斕到讓人心生愉悅，但卻似真非真、似假非假的圖片。

以及圖片背后一個(gè)具有致命創(chuàng)造力和吸引力的新算法。

OpenAI新算法生成的圖像，這些圖像未曾在現(xiàn)實(shí)中出現(xiàn)

這個(gè)算法的名字叫DALL-E2（達(dá)利），據(jù)說(shuō)是為了致敬2008年的動(dòng)畫(huà)電影《機(jī)器人瓦力》和超現(xiàn)實(shí)主義畫(huà)家薩爾瓦多·達(dá)利而取的。這就意味著，算法可能具備了一些超出人類想像的能力。

簡(jiǎn)單來(lái)說(shuō)，它是一個(gè)可以將文本描述轉(zhuǎn)換為圖像的系統(tǒng)——只要寫(xiě)下你想看到的東西，達(dá)利就會(huì)為你繪制出來(lái)，非常像一個(gè)二維版的3D打印機(jī)。

舉個(gè)例子，當(dāng)你在達(dá)利搜索欄里，輸入“長(zhǎng)得像牛油果的茶壺”，它會(huì)在大約5秒時(shí)間內(nèi)，生成多達(dá)10張與“牛油果茶壺”詞義相符的圖片。

結(jié)果顯然100%扣題。而且因?yàn)榉直媛屎芨?，所以這些圖像看起來(lái)更像是真實(shí)的照片。

但這個(gè)例子其實(shí)非?！艾F(xiàn)實(shí)主義”，因?yàn)榕Ｓ凸螤畹牟鑹?，我們極有可能在創(chuàng)意商店中買到。但是“會(huì)下棋的貓”呢？OpenAI工程師Alex Nichol在輸入“會(huì)下棋的貓”后，生成了這樣一張圖片：

老夫的少女心……看起來(lái)毫無(wú)違和感

還有難度更高的文字描述詞，譬如“一個(gè)雨夜，一個(gè)超級(jí)英雄棲息在城市上空，風(fēng)格就像一本漫畫(huà)書(shū)”，輸出結(jié)果沒(méi)有一處不符合詞義：

而輸入“位于城市中心的巴比倫空中花園，達(dá)利畫(huà)風(fēng)”，輸出的藝術(shù)效果簡(jiǎn)直妙不可言：

此外，達(dá)利系統(tǒng)還輸出了很多文字描述復(fù)雜，但輸出結(jié)果不僅精準(zhǔn)，而且堪稱藝術(shù)品的圖片，都被放在了 OpenAI 的instergram上：

想想我們平時(shí)在百度里搜圖時(shí)出來(lái)的垃圾結(jié)果，就隱約能明白達(dá)利的強(qiáng)大創(chuàng)造力意味著什么。

本質(zhì)上，與很多人工智能算法模型一樣，DALL-E就是一個(gè)模擬了大腦神經(jīng)元網(wǎng)絡(luò)的數(shù)學(xué)系統(tǒng)，它自然需要分析大量數(shù)據(jù)來(lái)學(xué)習(xí)技能。

譬如剛才講的牛油果茶壺，在識(shí)別出一顆牛油果之前，OpenAI說(shuō)，達(dá)利至少觀摩了上千個(gè)大大小小、奇形怪狀的牛油果。而更重要的是，它還需要在圖像與描述圖像的文字之間，找到一種關(guān)系模式。

事實(shí)上，這個(gè)系統(tǒng)引發(fā)人工智能研究圈討論的關(guān)鍵之一，便在于它能夠同時(shí)處理文字語(yǔ)言與圖像，并且在自然語(yǔ)言理解與計(jì)算機(jī)視覺(jué)之間構(gòu)建起更加緊密的關(guān)系。而此前的研究，的確還沒(méi)有到達(dá)這樣的水平。

《MIT技術(shù)評(píng)論》給出的評(píng)價(jià)，一定程度上代表了學(xué)術(shù)領(lǐng)域?qū)_(dá)利系統(tǒng)的部分態(tài)度：“雖然這些被制作的圖像既超現(xiàn)實(shí)又呈現(xiàn)卡通化，但它們證明了，人工智能已經(jīng)學(xué)會(huì)‘世界被組合在一起的基礎(chǔ)邏輯’。這些圖像實(shí)在是令人驚嘆?！?/p>

這個(gè)圖像輸入Dalle的搜索文字是：“一輛未來(lái)汽車在霧中滑行”

不過(guò)，從Dalle2這個(gè)名字就能看出，OpenAI曾在此前推出過(guò)向大眾開(kāi)放的第一代版本，然而我在試用后，嚴(yán)重懷疑第一代達(dá)利，可能僅僅裝了一個(gè)印象派畫(huà)風(fēng)濾鏡。

譬如，當(dāng)我輸入“馬斯克是個(gè)‘吹牛逼大王’”，出來(lái)的都是臉部扭曲的馬斯克大頭照：

歪臉的馬斯克

但短短2年，第二代達(dá)利就取得了驚人的進(jìn)步，而這取決于算法模型的重新設(shè)計(jì)，因?yàn)槌醮姹净蚨嗷蛏偈荊PT-3的一種擴(kuò)展。

當(dāng)然，新版本也有不少問(wèn)題。

譬如，輸入“把艾菲爾鐵塔送上月球”后，出現(xiàn)的圖像僅僅是一張“夜晚下的埃菲爾鐵塔”。所以，OpenAI的科學(xué)家們還在輸入更多數(shù)據(jù)改進(jìn)它。另外，仔細(xì)觀察這些生成的圖像，你會(huì)發(fā)現(xiàn)一些“弱點(diǎn)”：

像很多剛“出生”的算法模型一樣，達(dá)利在描繪“手腳”等細(xì)節(jié)上仍然非常吃力。很明顯，宇航員的手腳，以及貓的爪子都有一點(diǎn)不自然。

輸入文字：騎著馬的宇航員。很明顯手腳細(xì)節(jié)有問(wèn)題

但無(wú)論如何，達(dá)利都是個(gè)值得讓我們贊一聲“牛逼”的技術(shù)進(jìn)步。甚至于，由于這波能力表現(xiàn)突出，它引發(fā)的恐慌，不亞于此前文字生成模型GPT3帶來(lái)的文字造假爭(zhēng)議。

亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)教授蘇巴拉奧的話直言不諱：“你可以用它來(lái)做好事，但你肯定可以用它來(lái)做更加瘋狂的事情，包括深度偽造的照片和視頻?！?/p>

沒(méi)錯(cuò)，雖然工程師展示出的這些作品，看起來(lái)藝術(shù)創(chuàng)造水平非凡，但與所有人工智能系統(tǒng)的典型特征相同，它一定會(huì)從訓(xùn)練自己的大量數(shù)據(jù)屬性中繼承某種“偏見(jiàn)”。

譬如，當(dāng)你輸入“律師”，系統(tǒng)結(jié)果都是這樣的：

所有律師都是男性，且大多看起來(lái)是白人

算法的性別與人種偏見(jiàn)問(wèn)題，自誕生之日便在歐美地區(qū)爭(zhēng)議多年，迄今都無(wú)法解決，甚至有愈演愈烈之勢(shì)。這也是導(dǎo)致包括亞馬遜、谷歌等公司無(wú)法大規(guī)模部署人臉識(shí)別系統(tǒng)的關(guān)鍵原因之一。

另外，試想一下，當(dāng)初在“換頭”算法盛行，外網(wǎng)網(wǎng)友喜歡把特朗普等領(lǐng)導(dǎo)人的頭像移植到某個(gè)搞笑電視劇里，引發(fā)捧腹大笑；而達(dá)利的出現(xiàn)，是否有能力讓我們不費(fèi)吹灰之力，便可以做到任意輸出大量政治造假照片。

甚至于，當(dāng)輸入“某某吸毒、打架斗毆”這類顯然足以陷害他人，改變他人命運(yùn)的關(guān)鍵詞，如果都會(huì)出現(xiàn)毫無(wú)違和感的圖像，那么會(huì)帶來(lái)什么后果？

與工程師對(duì)技術(shù)的癡迷不同，紐約時(shí)報(bào)的讀者們對(duì)達(dá)利算法的評(píng)價(jià)極為犀利，思考深度不可小覷，甚至可以說(shuō)直擊人類的靈魂：

人們將不得不對(duì)他們?cè)诰W(wǎng)上看到的幾乎所有東西持懷疑態(tài)度。

這個(gè)系統(tǒng)的出現(xiàn)，會(huì)讓“天平”向一個(gè)更加奇異與危險(xiǎn)的世界傾斜。

人類還沒(méi)有在哲學(xué)上發(fā)展到能夠負(fù)責(zé)任地使用技術(shù)的程度。就像加密貨幣一樣，騙子似乎也總是被技術(shù)那“厭惡人類”的一面所吸引。

我很高興這個(gè)工具沒(méi)有被公開(kāi)。如果這件事公開(kāi)了，（我）最明智的做法是完全脫離網(wǎng)絡(luò)和電視，避免與那些想告訴你自己在網(wǎng)絡(luò)上看到什么東西的人有任何接觸。如果未來(lái)全息影像成為主流，那么我們將為子孫后代創(chuàng)造一個(gè)反烏托邦式的地獄。

正如社交媒體與技術(shù)革命一樣，硅谷的能力遠(yuǎn)遠(yuǎn)超過(guò)人們的批判性思維。我們現(xiàn)在生活在一個(gè)教育被忽視了幾十年的世界里，人們分析事物的能力已經(jīng)讓位于“應(yīng)用公式”。

與此同時(shí)，硅谷技術(shù)的發(fā)展正在提供不可抗拒的便利。因?yàn)槲覀兒芏嗳硕济τ谏?，所以我們支持這種便利，甚至沒(méi)有時(shí)間來(lái)反思它的影響。因此，我們現(xiàn)在不再是揮舞錘子的人，而是大多數(shù)的釘子。

輸入“空乘工作者”，出現(xiàn)的都是女性乘務(wù)員形象

我認(rèn)為，關(guān)于人工智能的普及已經(jīng)足有七八年，而大眾之如今仍然會(huì)心生恐懼，是因?yàn)轶w驗(yàn)過(guò)被監(jiān)控和數(shù)據(jù)之網(wǎng)牢牢困住的感覺(jué)后，即便驚喜于達(dá)利系統(tǒng)的強(qiáng)大創(chuàng)造力，也早就超越了“事不關(guān)己、高高掛起”的心態(tài)：

不知道這些曾經(jīng)的笑話，什么時(shí)候會(huì)落到自己頭上。

正是鑒于西方社會(huì)這種對(duì)達(dá)利又驚又恐的態(tài)度，OpenAI已經(jīng)反復(fù)公開(kāi)強(qiáng)調(diào)，這絕對(duì)不是一個(gè)產(chǎn)品，自己僅僅是想了解算法的能力與局限性。

他們保證會(huì)嚴(yán)格控制達(dá)利的使用權(quán)，只會(huì)向一小部分經(jīng)過(guò)嚴(yán)格審查的測(cè)試人員開(kāi)放；未來(lái)只會(huì)在藝術(shù)家工具層面做一些有限制的嘗試。

比較有趣的是，他們還給達(dá)利設(shè)定了一個(gè)“反欺凌過(guò)濾器”。比如，輸入“一頭長(zhǎng)著羊頭的豬”，系統(tǒng)就拒絕輸出。因?yàn)镺penAI解釋，“豬”和“羊”同時(shí)出現(xiàn)應(yīng)該觸犯了過(guò)濾器設(shè)定的禁令。

另外，關(guān)于偏見(jiàn)問(wèn)題，為了減少對(duì)女性的傷害，OpenAI希望過(guò)濾掉所有訓(xùn)練數(shù)據(jù)中的“性別內(nèi)容”。但他們發(fā)現(xiàn)，當(dāng)他們嘗試過(guò)濾掉這些信息時(shí)，達(dá)利系統(tǒng)產(chǎn)生的女性圖像變少了。

因?yàn)檫@又觸及了另一種現(xiàn)實(shí)世界中職場(chǎng)存在的局限性（有些產(chǎn)業(yè)和職位，女性就是很少），因而導(dǎo)致了另一種對(duì)女性的傷害: 抹殺。

輸入文字：熊貓寶寶在銀河盡頭彈鋼琴。OpenAI的公開(kāi)圖片里，大部分都是動(dòng)物，盡量避免男女性別帶來(lái)的爭(zhēng)議

但是，世界上聰明的程序員還有很多很多，可能很快就會(huì)有其他企業(yè)和國(guó)家能能夠開(kāi)發(fā)出類似的技術(shù)。畢竟，人類追求技術(shù)創(chuàng)新的動(dòng)機(jī)非常多樣化，而利益是其中最大的推動(dòng)力之一。

而他們本身的人類道德感是否值得信任，這就很難說(shuō)了，因?yàn)楹芏鄤?dòng)機(jī)與造福人類顯然是相悖離的。

但我們又不能因此一棒子打死，全面限制人類追求算法創(chuàng)新的速度。那么，就應(yīng)該思考這樣一個(gè)問(wèn)題：

如何才能真正改變所有算法創(chuàng)新參與者的潛在激勵(lì)結(jié)構(gòu)?

但對(duì)我個(gè)人來(lái)說(shuō)，只能說(shuō)對(duì)技術(shù)的應(yīng)用相對(duì)悲觀，或者說(shuō)謹(jǐn)慎樂(lè)觀：

因?yàn)槲覐膩?lái)不會(huì)對(duì)技術(shù)失望，但我也從來(lái)不輕易相信人性。

關(guān)鍵詞：文本轉(zhuǎn)圖片的危險(xiǎn)算法達(dá)利降臨造假

延伸閱讀:

版權(quán)聲明：
凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來(lái)源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文