中國(guó)團(tuán)隊(duì)在視覺(jué)常識(shí)推理領(lǐng)域獲新突破研究機(jī)構(gòu)紛紛參與

時(shí)間：2020-12-02 09:33:46

視覺(jué)常識(shí)推理VCR (Visual Commonsense Reasoning )是人工智能領(lǐng)域的前沿?zé)狳c(diǎn)問(wèn)題，從處理類(lèi)型單一的數(shù)據(jù)到跨媒體認(rèn)知、學(xué)習(xí)和推理的“跨媒體智能”被認(rèn)為是五大智能方向。

近日，騰訊微視視頻理解團(tuán)隊(duì)在多模態(tài)理解領(lǐng)域最權(quán)威排行榜之一VCR任務(wù)中榮登榜首。該團(tuán)隊(duì)提出的BLENDer(BimodaL ENcoDer)模型超越多家研究機(jī)構(gòu)的模型效果，一舉成為單、多模型的三項(xiàng)指標(biāo)第一，值得注意的是，BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果，賦予了機(jī)器更強(qiáng)大的理解和認(rèn)知能力，并深度應(yīng)用到短視頻領(lǐng)域。

VisualCommonsense Reasoning (VCR)任務(wù)于2018年由華盛頓大學(xué)的研究人員首次提出，任務(wù)旨在將圖像和自然語(yǔ)言理解二者結(jié)合，驗(yàn)證多模態(tài)模型高階認(rèn)知和常識(shí)推理的能力，讓機(jī)器擁有“看圖說(shuō)話”的能力,例如VCR能夠通過(guò)圖片中人物的行為，進(jìn)一步推理出其動(dòng)機(jī)、情緒等信息。VCR榜單是多模態(tài)理解領(lǐng)域最權(quán)威的排行榜之一，也是當(dāng)前圖像理解和多模態(tài)領(lǐng)域?qū)哟巫钌?、門(mén)檻最高的任務(wù)之一，吸引了微軟、谷歌、Facebook、百度、UCLA等國(guó)內(nèi)外公司和研究機(jī)構(gòu)紛紛參與。

據(jù)相關(guān)負(fù)責(zé)人介紹，BLENDer模型賦予了平臺(tái)更強(qiáng)大的認(rèn)知能力，使得包含文本、音頻、視頻等多種媒體信息在內(nèi)的短視頻內(nèi)容，能夠更好的做到分類(lèi)和識(shí)別，更加精準(zhǔn)理解和挖掘這些海量的跨媒體信息。

在BLENDer模型中，第一階段以NLP中的Bert模型為起點(diǎn)，結(jié)合海量數(shù)據(jù)中抽取得到的數(shù)百萬(wàn)張圖片和對(duì)應(yīng)描述文本作為BLENDer的輸入進(jìn)行多模態(tài)訓(xùn)練;第二階段，在視覺(jué)常識(shí)推理數(shù)據(jù)集上學(xué)習(xí)電影中的場(chǎng)景和情節(jié)，使模型在新數(shù)據(jù)上獲得更好的遷移能力;第三階段，引入最終問(wèn)答任務(wù)，讓BLENDer利用已有的知識(shí)和常識(shí)對(duì)現(xiàn)有問(wèn)題進(jìn)行人物-人物、人物-場(chǎng)景之間關(guān)系的挖掘和關(guān)聯(lián)進(jìn)行推理，得到最終的答案。

未來(lái)，人工智能將具備更加多元、深度的交流學(xué)習(xí)能力，而技術(shù)的創(chuàng)新和精進(jìn)將進(jìn)一步推動(dòng)AI技術(shù)在短視頻業(yè)務(wù)中智能交互場(chǎng)景的落地。(張銘陽(yáng))

關(guān)鍵詞：中國(guó)團(tuán)隊(duì) 視覺(jué)常識(shí)推理

延伸閱讀:

版權(quán)聲明：
凡注明來(lái)網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來(lái)源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來(lái)源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考并自行核實(shí)。

熱文