蓋世汽車訊 據(jù)外媒報道,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)、微軟和康奈爾大學(Cornell University)的科學家們創(chuàng)建出算法“STEGO”,可在完全沒有任何人類標簽的情況下共同發(fā)現(xiàn)和分割對象,乃至像素。
圖片來源:MIT CSAIL
STEGO學習了“語義分割”——想象一下為圖像中的每個像素分配標簽的過程。語義分割是當今計算機視覺系統(tǒng)的一項重要技能,因為圖像可能會被物體弄得雜亂無章。更具挑戰(zhàn)性的是這些對象并不總是適合文字框。相對于植被、天空和土豆泥等,算法往往更適用于人和汽車等離散的“事物”。以前的系統(tǒng)可能只是將狗在公園里玩耍的細微場景視為狗,但通過為圖像的每個像素分配一個標簽,STEGO可以將圖像分解為其主要成分:狗、天空、草和它的主人。
為了降低耗時,在沒有人類幫助的情況下發(fā)現(xiàn)對象,STEGO會尋找出現(xiàn)在整個數(shù)據(jù)集中的相似對象。然后,它會將這些相似的對象關聯(lián)在一起,以在它學習的所有圖像中構建一致的世界視圖。
看世界
可以“看到”的機器對于自動駕駛汽車和醫(yī)療診斷預測模型等各種新興技術至關重要。由于STEGO可以在沒有標簽的情況下學習,它可以檢測不同領域的對象,甚至是人類尚未完全理解的對象。
麻省理工學院電氣工程和計算機科學博士生、麻省理工CSAIL的研究附屬機構、微軟的軟件工程師,以及STEGO相關論文的主要作者Mark Hamilton表示:“如果你正在查看腫瘤掃描、行星表面或高分辨率生物圖像,若沒有專業(yè)知識,很難知道要尋找什么物體。在新興領域,有時甚至人類專家也不知道什么是正確的對象。在這些情況下,我們想要設計一種在科學邊界上運行的方法,而不是指望人類在機器之前搞清楚狀況?!?/p>
視頻來源:MIT CSAIL
STEGO在一系列視覺領域進行了測試,包括一般圖像、駕駛圖像和高空航拍照片。在每個領域,STEGO都能夠識別和分割與人類判斷密切相關的對象。 STEGO最多樣化的基準是COCO-Stuff數(shù)據(jù)集,由世界各地的不同圖像組成,從室內場景到運動的人,再到樹木和奶牛。在大多數(shù)情況下,以前最先進的系統(tǒng)可以捕捉場景的低分辨率要點,但在精細細節(jié)上卻差強人意:人是一團的、摩托車被識別為人,甚至還無法辨別所有鵝類。在相同的場景中,STEGO將先前系統(tǒng)的性能提高了一倍,并可發(fā)現(xiàn)動物、建筑物、人、家具等許多概念。
STEGO不僅在COCO-Stuff基準測試中將先前系統(tǒng)的性能提高了一倍,而且在其他視覺領域也取得了類似的飛躍。當應用于無人駕駛汽車數(shù)據(jù)集時,STEGO比以前的系統(tǒng)具有更高的分辨率和粒度,可成功分割出道路、人和路牌。在來自太空的圖像上,該系統(tǒng)將地球表面的每一平方英尺分解為道路、植被和建筑物。
連接像素
STEGO,代表“基于能量的圖優(yōu)化的自我監(jiān)督變壓器(Self-supervised Transformer with Energy-based Graph Optimization)”,是建立在DINO算法之上,該算法通過ImageNet數(shù)據(jù)庫中的1400萬張圖像了解世界。STEGO通過一個學習過程來完善DINO骨干,該過程模仿我們自己將世界的各個部分拼接在一起以產生意義的方式。
例如,人可能會想象兩張狗在公園里散步的圖像。盡管它們是不同的狗,擁有不同的主人,在不同的公園,STEGO依然可以(不依靠人類)分辨出每個場景的對象是如何相互關聯(lián)的。研究院甚至探究了STEGO的大腦,想知道圖像中每個棕色毛茸茸的小東西有何相似之處,以及與草和人等其他共享對象的相似之處。 通過跨圖像連接對象,STEGO構建了一致的單詞視圖。
Hamilton表示:“這些類型的算法可以在很大程度上以自動化的方式找到一致的分組,因此我們人類不必自己這樣做。理解復雜的視覺數(shù)據(jù)集(如生物圖像)可能需要數(shù)年時間,但如果我們能夠避免花費1,000小時梳理數(shù)據(jù)并對其進行標記,我們就可以找到并發(fā)現(xiàn)我們可能錯過的新信息。我們希望這將有助于我們以更經(jīng)驗為基礎的方式理解視覺詞。”
圖片來源:MIT CSAIL
展望未來
盡管進行了改進,STEGO仍然面臨著一定的挑戰(zhàn)。一是標簽可以是任意的。例如,COCO-Stuff數(shù)據(jù)集的標簽區(qū)分了像香蕉和雞翅這樣的“食物”和像玉米片和意大利面這樣的“食物”,STEGO并沒有看到太大的區(qū)別。在其他情況下,STEGO也會對奇怪的圖像困惑,比如一個香蕉坐在電話接收器上,而接收器被標記為“食品”而不是“原材料”。
未來,研究人員計劃探索為STEGO提供更多的靈活性,而不僅僅是將像素標記為固定數(shù)量的類別,因為現(xiàn)實世界中的事物有時可能同時是多個事物(例如“食物”、“植物”和“水果”)。研究人員希望這將為算法提供不確定性、權衡和更抽象思維的空間。
Hamilton表示:“在制作用于理解潛在復雜數(shù)據(jù)集的通用工具時,我們希望這種類型的算法可以自動化從圖像中發(fā)現(xiàn)對象的科學過程。在不同的領域中,人工標記的成本過高,或者人類根本不知道具體的結構,例如某些生物和天體物理學領域。我們希望未來能夠應用于較為廣泛的數(shù)據(jù)集。由于不需要任何人工標簽,我們現(xiàn)在可以開始更廣泛地應用ML工具?!?/p>
關鍵詞: STEGO
網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
信丰县| 屏边| 蒙阴县| 博罗县| 宁阳县| 游戏| 扬州市| 罗甸县| 容城县| 广饶县| 巴东县| 吴川市| 桑日县| 平凉市| 凤城市| 南陵县| 长治市| 赞皇县| 泰宁县| 翼城县| 读书| 瑞丽市| 丁青县| 宜昌市| 长宁区| 富锦市| 张掖市| 开化县| 德格县| 库伦旗| 资中县| 广饶县| 安岳县| 扎鲁特旗| 蕉岭县| 金塔县| 繁峙县| 宁武县| 印江| 澄城县| 开江县|