AI自動(dòng)生成的字幕,能離譜到什么程度?
不僅把“螃蟹”(crab)誤聽成“廢話”(crap),當(dāng)場(chǎng)爆粗:
甚至還能把“玉米”(corn)給翻譯成p*rn……
關(guān)鍵在于,這些是AI給兒童節(jié)目自動(dòng)生成的字幕。
被AAAI 2022收錄的一篇新研究發(fā)現(xiàn),在7013個(gè)兒童視頻中,接近40%的節(jié)目出現(xiàn)了少兒不宜或臟話等詞匯。
甚至在一個(gè)113集的兒童機(jī)器人學(xué)習(xí)欄目中,AI就“爆粗”了103次,平均接近一集一次!
對(duì)此,油管(YouTube)在接受《連線》采訪時(shí)回應(yīng):
我們?yōu)?3歲以下的兒童開發(fā)了YouTube Kids,這個(gè)APP會(huì)關(guān)閉字幕生成功能。
但如果真有字幕需求的話,如何才能想辦法減少這種AI生成錯(cuò)誤?
一起來看看。
亞馬遜谷歌都很“祖安”
先來看看這篇論文的調(diào)查結(jié)果。
研究人員一共從油管上選出了24個(gè)兒童頻道,分別記錄了這些頻道的播放量和訂閱量。
可以看出,這些篩選出來的視頻播放量基本都達(dá)到了百萬級(jí),訂閱人數(shù)也同樣不少。
然后,研究人員分別試了一下谷歌和AWS(亞馬遜網(wǎng)頁服務(wù))的字幕生成效果。
結(jié)果顯示,AI字幕的“少兒不宜”率可謂離譜:
在7013個(gè)視頻中,谷歌AI出現(xiàn)錯(cuò)誤字幕的次數(shù)達(dá)到2768次,接近40%。
亞馬遜的AI字幕錯(cuò)誤率還要更高,達(dá)到了3672次,超過52%。
具體來說,兩個(gè)AI分別容易在這些“不太恰當(dāng)”的字詞上出錯(cuò):
圖左亞馬遜,圖右谷歌
在這些數(shù)據(jù)集中,有一些詞語又尤為“少兒不宜”,例如一些罵人的臟詞:
經(jīng)過作者們?nèi)斯z查(例如確認(rèn)原視頻是否真的說了臟話),發(fā)現(xiàn)AI主要容易在以下幾種情況中出錯(cuò):
背景音樂嘈雜
說話者為嬰兒
說話者為兒童
說話者以英語為第二語言
說話者在唱歌
包括但不限于這些情況
那么,有沒有什么辦法減少這種情況發(fā)生呢?
語序連貫的錯(cuò)誤更容易修復(fù)
研究人員提出了一個(gè)新的數(shù)據(jù)集,利用近音字詞來構(gòu)建禁忌詞的“替換”備選。
例如,對(duì)于crap這一可能出現(xiàn)的“粗口”,研究人員就給它設(shè)置了crab、craft等讀音相似的字詞,便于AI在搞錯(cuò)時(shí)進(jìn)行替換。
具體來說,他們?cè)贐ERT、XLM、XLNet等NLP模型上,針對(duì)“完形填空”任務(wù)進(jìn)行了重新訓(xùn)練,也就是用[MASK]遮住部分單詞,讓AI來填寫對(duì)應(yīng)的內(nèi)容。
結(jié)果顯示,在語序正常、前后文案有邏輯的視頻中,AI替換的準(zhǔn)確率更高(藍(lán)色為正確替換詞):
然而在一些邏輯不強(qiáng)的文案中,成功替換的效果就沒有那么好了:
最終,Megatron和Levenshtein等模型展現(xiàn)出了最好的修復(fù)效果,分別給亞馬遜AI帶來了超過25%的正確修復(fù)率,給谷歌AI帶來了超過28%的修復(fù)率。
看來AI在字幕生成能力上還是任重道遠(yuǎn)啊。
關(guān)鍵詞:
網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
阳曲县| 大洼县| 攀枝花市| 青田县| 赤壁市| 鄱阳县| 九台市| 凤城市| 嘉义市| 广州市| 鄱阳县| 桐梓县| 绥化市| 巴里| 临朐县| 岫岩| 巢湖市| 高阳县| 永春县| 古浪县| 城市| 南汇区| 浦江县| 鄢陵县| 湘潭县| 岳阳县| 凤台县| 赣榆县| 黄大仙区| 阜南县| 华池县| 十堰市| 巴南区| 明光市| 来宾市| 乌海市| 拉萨市| 临清市| 华阴市| 利津县| 家居|