當前位置:財富500強首頁 > 科技 > 新聞正文

Facebook 的開源算法讓計算機的視覺更像人

來源于互聯(lián)網(wǎng) 2016年08月30日 閱讀(

8月25號,F(xiàn)acebook開放的一款計算機視覺算法就可以賦予計算機這種能力。該算法不僅可以識別圖像中的對象,還能識別與特定對象匹配的形狀。這看似雕蟲小技,實則超出了現(xiàn)有視覺系統(tǒng)的能力,且用編程實現(xiàn)難度很高。

目前為止,這個算法還只是一項研究工具,但將來可能會促成多種重要應用:比如,讓圖像編輯程序自動改變圖片背景或增強人像;為計算機盲人用戶詳細描述圖像;甚至還可以為皮卡丘識別要攀爬的物體,從而使Pokémon Go等增強現(xiàn)實游戲更逼真等。

近年來,計算機視覺取得了很多重大進展,但大多集中于識別物體或場景類型上。研究人員已開始轉(zhuǎn)向更深度的圖像理解,這對提高機器的整體智能很重要。

“(對計算機來說)最難的就是理解現(xiàn)實——理解眼前的東西,”參與該算法研究的Facebook研究經(jīng)理Larry Zitnick說?!皥D像分割是場景推理的重要部分?!?/p>

Zitnick表示,該算法以后可能會用于研發(fā)一個系統(tǒng),目的是自動增強Facebook用戶發(fā)布的圖像中的產(chǎn)品,或者用于創(chuàng)建更逼真的增強現(xiàn)實應用。比如,“如果你想往房間里放一個虛擬小狗,”他說,“實際上,你是想把它放沙發(fā)上或沙發(fā)的某個部分上?!?/p>

過去幾年中,通過用大量樣例訓練大型模擬神經(jīng)網(wǎng)絡,從而實現(xiàn)對圖像的分類,計算機視覺能力出現(xiàn)了大幅度提升。這些“深度學習”的系統(tǒng)通常會識別出一系列特征,比如顏色、質(zhì)地等,但卻不必識別某個物體的輪廓。

Facebook的算法將一系列神經(jīng)網(wǎng)絡結(jié)合起來,具有“圖像分割”功能。前兩個神經(jīng)網(wǎng)絡用于決定單個像素屬于某個對象還是其他對象,第三個網(wǎng)絡則決定這些特定對象是什么。

UCLA的教授Stefano Soatto專門研究計算機視覺,他認為這個算法“非常重要”且應用前景非常廣闊,因為圖像分割的難度具有迷惑性,雖然“每個兩歲小孩都能指出圖片中對象的位置并畫出它的輪廓,”Soatto說,“然而,這種輕松感非常具有欺騙性。因為這是幾百萬年的進化過程加上一半大腦的齊心協(xié)力才完成的杰作?!?/p>

免責聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關(guān)。文中內(nèi)容僅供讀者參考,并請自行核實相關(guān)內(nèi)容。如用戶將之作為消費行為參考,本網(wǎng)敬告用戶需審慎決定。本網(wǎng)不承擔任何經(jīng)濟和法律責任。