左圖為原圖,中圖為使用監督式模型的分割結果,右圖為臉書DINO分割結果

臉書與法國國家信息與自動化研究所(Inria)合作,開發了一種稱為DINO的人工智慧演算法,使用無監督式方法來訓練Vision Transformers (ViT),也就是說,這個新模型將可以在沒有監督且沒有目標分割物體的情況,從影片或是圖像中發現和分割出物體。

分割物體有助於簡化任務,像是要置換視訊通話的背景,或是訓練機器人在環境中正確的導航,都會用到該項技術,研究人員提到,過去分割物體被視為電腦視覺中困難的挑戰之一,因為要求人工智慧必須要真正了解圖像內容。

過去分割物體都要採監督式學習,並使用龐大帶有註解的訓練資料,像是需要使用帶有狗標籤的圖片,來教人工智慧模型辨識狗。而研究人員現在所發布的DINO,證明只需要自我監督和合適的架構,就能夠精確地分割物體,透過結合Transformers以及自我監督式學習,DINO已能夠深度理解圖像和影片。

Transformers被大量應用在自然語言處理上,而在過去一年更有許多開創性的發展,像是Transformers已經被用於圖像分類和偵測物體等電腦視覺應用,而研究人員提到,使用大量非監督資料來預訓練基於Transformer的圖像表達,在這個研究領域帶來了新的進展。用DINO演算法訓練ViT,研究人員觀察到模型會自動學習可解釋的表達,並將主要物體和雜亂背景分開,還學會在沒有任何人為註解下分割物體。

另外,雖然高效能運算在電腦視覺應用中是重要的部分,但是高效率演算法也非常重要,讓開發人員可以不需使用大規模運算資源,就能夠訓練模型,在公開DINO的同時,研究人員也分享了有關新模型訓練方法PAWS,該方法能使用較少的計算量獲得良好的結果。

研究人員表示,使用PAWS來訓練標準ResNet-50模型,只要使用ImageNet中百分之一的標籤,就可以獲得絕佳的準確性,且預訓練步驟能比過去的方法減少10倍。人工智慧研究團隊可以利用DINO和PAWS來建置最新的電腦視覺系統,而這些系統可以大幅降低對標籤資料以及大量運算資源的依賴。


熱門新聞

Advertisement