世界消息！文字生成圖像已經(jīng)過時(shí) Meta推出文字生成視頻AI系統(tǒng)

時(shí)間：2022-10-03 08:05:24

(資料圖片僅供參考)

IT之家 10 月 2 日消息，Meta 公司近日發(fā)布了一個(gè)人工智能系統(tǒng)，可以根據(jù)文字提示生成短視頻。

IT之家了解到，這個(gè)系統(tǒng)名為 Make-A-Video，允許用戶輸入一連串的詞語，比如“一只穿著超級(jí)英雄服裝、披著紅色斗篷在天空中飛翔的狗”，然后生成一個(gè)五秒鐘的短視頻。

雖然效果相當(dāng)粗糙，但這個(gè)系統(tǒng)顯然要比文字轉(zhuǎn)圖片 AI 系統(tǒng)更高級(jí)。

上個(gè)月，人工智能實(shí)驗(yàn)室 OpenAI 向所有人提供了其最新的文本轉(zhuǎn)圖像人工智能系統(tǒng) DALL-E，而人工智能初創(chuàng)公司 Stability.AI 則推出了 Stable Diffusion，這是一個(gè)開源的文本轉(zhuǎn)圖像系統(tǒng)。

但文本轉(zhuǎn)視頻 AI 系統(tǒng)伴隨著一些更大的挑戰(zhàn)。首先，這些模型需要大量的計(jì)算能力。它們比大型文本到圖像的人工智能模型的計(jì)算量還要大，后者使用數(shù)百萬張圖像進(jìn)行訓(xùn)練，因?yàn)閮H僅拼湊一個(gè)短視頻就需要數(shù)百張圖像。這意味著在可預(yù)見的未來，只有大型科技公司才有能力建立這些系統(tǒng)。它們的訓(xùn)練也比較棘手，因?yàn)闆]有大規(guī)模的高質(zhì)量視頻與文本配對(duì)的數(shù)據(jù)集。

為了解決這個(gè)問題，Meta 結(jié)合了三個(gè)開源圖像和視頻數(shù)據(jù)集的數(shù)據(jù)來訓(xùn)練其模型。標(biāo)準(zhǔn)的文本轉(zhuǎn)圖像數(shù)據(jù)集的標(biāo)記靜態(tài)圖像幫助人工智能學(xué)習(xí)物體的名稱和它們的樣子。一個(gè)視頻數(shù)據(jù)庫幫助它學(xué)習(xí)這些物體應(yīng)該如何在世界中移動(dòng)。這兩種方法的結(jié)合幫助 Make-A-Video 能夠從文本中大規(guī)模地生成視頻。

Meta 公司稱，該技術(shù)可以“為創(chuàng)作者和藝術(shù)家?guī)硇碌臋C(jī)會(huì)”。但是，隨著技術(shù)的發(fā)展，人們擔(dān)心它可能被用作創(chuàng)造和傳播錯(cuò)誤信息和深度偽造的有力工具，它可能會(huì)使人們更難區(qū)分網(wǎng)上的真實(shí)和虛假內(nèi)容。

打造 Make-A-Video 的研究人員過濾掉了攻擊性的圖片和文字，但對(duì)于由數(shù)百萬和數(shù)以百萬計(jì)的文字和圖片組成的數(shù)據(jù)集，幾乎不可能完全刪除有偏見和有害的內(nèi)容。

Meta 公司的一位發(fā)言人說，目前還沒有向公眾提供這個(gè)模型，“作為這項(xiàng)研究的一部分，我們將繼續(xù)探索進(jìn)一步完善和減少潛在風(fēng)險(xiǎn)的方法”。

關(guān)鍵詞：人工智能 meta

延伸閱讀:

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文