一個(gè)名叫Visual Genome" />
56aa142f26785.jpg
幾年前,人工智能技術(shù)之機(jī)器學(xué)習(xí)有了一項(xiàng)重大的突破:能夠識(shí)別圖片中的事物,而且準(zhǔn)確率極高。而目前該技術(shù)的瓶頸在于,機(jī)器能否理解圖片中事物蘊(yùn)含的意義。

一個(gè)名叫Visual Genome的新圖像數(shù)據(jù)庫(kù)或?qū)⑼苿?dòng)計(jì)算機(jī)實(shí)現(xiàn)此目標(biāo),并幫助測(cè)量計(jì)算機(jī)在理解真實(shí)世界進(jìn)程中獲得的進(jìn)步。教導(dǎo)計(jì)算機(jī)分析視覺(jué)場(chǎng)景是人工智能的根本。這不僅將產(chǎn)生更多有用的視覺(jué)算法, 而且能夠幫助訓(xùn)練計(jì)算機(jī)更有效地進(jìn)行交流。因?yàn)?,語(yǔ)言與物質(zhì)世界的表現(xiàn)具有非常緊密的聯(lián)系。

Visual Genome由專(zhuān)門(mén)從事計(jì)算機(jī)視覺(jué)研究的教授以及斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任李菲菲(音譯)與幾位同事合作開(kāi)發(fā)。“我們關(guān)注計(jì)算機(jī)視覺(jué)中最困難的問(wèn)題,它們是連接從感知到認(rèn)知的橋梁。”李菲菲表示,“不只是輸入像數(shù)數(shù)據(jù)然后識(shí)別顏色、陰影等這類(lèi)要素,而是真正將其轉(zhuǎn)化成3D的認(rèn)識(shí),以及對(duì)完整的視覺(jué)語(yǔ)義世界的理解。”

李菲菲和同事曾創(chuàng)立ImageNet,一個(gè)包含了超過(guò)100萬(wàn)張帶有內(nèi)容標(biāo)記的圖片的數(shù)據(jù)庫(kù)。每一年的ImageNet大型視覺(jué)識(shí)別挑戰(zhàn)賽,就是使用這個(gè)數(shù)據(jù)庫(kù)來(lái)測(cè)試計(jì)算機(jī)自動(dòng)識(shí)別圖像內(nèi)容的能力。最近一次ImageNet大賽是在2015年12月,微軟憑借多達(dá)152層的深層神經(jīng)網(wǎng)絡(luò)獲勝。

計(jì)算機(jī)視覺(jué)革命是一場(chǎng)持久的斗爭(zhēng)。2012年,這項(xiàng)技術(shù)迎來(lái)了關(guān)鍵的轉(zhuǎn)折點(diǎn),那時(shí)加拿大多倫多大學(xué)贏(yíng)得了ImageNet比賽,他們使用非監(jiān)督的逐層貪心訓(xùn)練算法成功讓機(jī)器基于目前最大的圖像數(shù)據(jù)庫(kù)進(jìn)行分類(lèi)識(shí)別,而不是依靠人為制定的規(guī)則。多倫多團(tuán)隊(duì)的成就標(biāo)志著深度學(xué)習(xí)的繁榮以及更普遍人工智能的復(fù)興。深度學(xué)習(xí)已經(jīng)在許多其它領(lǐng)域得到了應(yīng)用,也讓計(jì)算機(jī)能更好地處理其它重要任務(wù),比如音頻和文本處理。

多倫多大學(xué)團(tuán)隊(duì)的成就標(biāo)志著深度學(xué)習(xí)研究的熱潮興起,以及人工智能的復(fù)興。深度學(xué)習(xí)開(kāi)始應(yīng)用于多個(gè)領(lǐng)域,使得計(jì)算機(jī)在執(zhí)行音頻和文本處理等任務(wù)時(shí)變得越來(lái)越能干。

Visual Genome圖像的標(biāo)記比ImageNet更多,包括圖像中各種物體的名稱(chēng)和細(xì)節(jié)、這些物體之間的關(guān)系以及正在發(fā)生的動(dòng)作蘊(yùn)含的信息等等。這些識(shí)別標(biāo)記是使用眾包方式完成的,該技術(shù)由李菲菲的斯坦福同事Michael Bernstein開(kāi)發(fā)。

未來(lái),使用Visual Genome的案例訓(xùn)練出來(lái)的算法不只是能夠識(shí)別物體,還應(yīng)該擁有對(duì)更復(fù)雜視覺(jué)場(chǎng)景的分析能力。

何為場(chǎng)景分析?李菲菲說(shuō)道:“一個(gè)人坐在一間辦公室內(nèi),但是什么樣的布局,里面的人是誰(shuí),他在做什么,周?chē)惺裁磾[設(shè),當(dāng)時(shí)正發(fā)生什么事?——我們需要將感知、認(rèn)知與語(yǔ)言相連接。”

而這些技術(shù)最終可以應(yīng)用中方方面面,比如除了在線(xiàn)圖片管理等較簡(jiǎn)單的應(yīng)用,它還可以用于幫助機(jī)器人或自動(dòng)駕駛汽車(chē)更精確地識(shí)別周?chē)鷪?chǎng)景。它們可以指導(dǎo)計(jì)算機(jī)理解物質(zhì)世界,從而獲得更多的常識(shí)。

機(jī)器學(xué)習(xí)專(zhuān)家兼人工智能初創(chuàng)公司MetaMind創(chuàng)始人Richard Sochar表示,語(yǔ)言很大程度上是關(guān)于描述視覺(jué)世界的。
Visual Genome并不是唯一一個(gè)面向人工智能研究的圖像數(shù)據(jù)庫(kù)。比如,微軟也有一個(gè)名叫Common Objects in Context的數(shù)據(jù)庫(kù),同時(shí),谷歌、Facebook和其它公司也在加強(qiáng)人工智能算法分析視覺(jué)場(chǎng)景的能力。
 
智能界(moderndentistryformadison.com)中國(guó)智能科技聚合推薦平臺(tái),秉承“引領(lǐng)未來(lái)智能生活”的理念,專(zhuān)注報(bào)道智能家居、可穿戴設(shè)備、智能醫(yī)療、機(jī)器人、3D打印、智能汽車(chē)等諸多科技前沿領(lǐng)域。聚合品牌宣傳、代理招商、產(chǎn)品評(píng)測(cè)、原創(chuàng)視頻、FM電臺(tái)與試用眾測(cè),深入智能硬件行業(yè),全平臺(tái)多維度為用戶(hù)及廠(chǎng)商提供服務(wù),致力成為中國(guó)最具影響力的智能硬件聚合推薦平臺(tái)。

 

人已收藏

相關(guān)文章

評(píng)論列表(已有條評(píng)論)

最新評(píng)論