臉書新開發了一個稱為SEER(SElf-supERvised)的自我監督式電腦視覺模型,能夠準確辨識圖像中的內容,SEER具有數十億個參數,可從網際網路上任何圖像中學習,不需要像當今大部分電腦視覺模型的訓練,需要經仔細的安排,並且使用標註資料集。另外,臉書還發表了用來開發SEER的底層開源函式庫VISSL,期望能使自我監督學習技術更加普及。

自我監督式學習現在被大量應用在自然語言處理上,特別是在問答、機器翻譯和自然語言推論方面,已經有了重大的突破,而現在臉書將自我監督的學習範式轉移到電腦視覺上,開發出SEER。

臉書提到,自我監督在文字和圖像上的應用不同,對文字來說,語意概念會被分解為離散的單詞,而在圖像上,演算法會決定畫素所屬的概念。此外,同一個概念在圖像中,也有很大差異,例如同樣是貓,但是不同姿勢的貓和從不同角度拍攝的貓變化很大,因此演算法需要從大量的圖片中學習,才能掌握單一概念的變化。

因此要擴展模型,使其能夠處理高維度的圖像資料,需要兩個重要功能,第一是從大量隨機圖像中學習,而不需要任何元資料以及註解,第二則是需要足夠大的卷積網路,才能從龐大且複雜的資料中,捕捉並學習每一個視覺概念。臉書開發了一個稱為SwAV的新演算法,可以使用線上分群功能,快速地以視覺概念和相似度分組圖像,以SwAV為基礎,臉書加速了自我監督訓練的速度,減少6倍的訓練時間。

另外,Runtime和記憶體效能也是很重要的要素,臉書使用了他們最近剛開發的新模型RegNets,該模型是一種卷積網路,經過特別設計,可以擴展到數十億甚至數兆參數,並且進行最佳化,以適應不同Runtime和記憶體限制。

在經過10億張隨機、未經整理和標記的公共Instagram圖像進行預訓練,結果顯示SEER的效能比起當前最先進的自我監督系統還要好,在ImageNet上達到Top-1指標的準確性有84.2%,也就是說,在對圖像進行預測時,機率最大的結果即為正確答案的準確度為84.2%,而即便只使用10%的ImageNet資料集進行訓練,SEER的Top-1精確度仍達到77.9%,而使用1%帶有註解的ImageNet範例訓練,則Top-1精確度達到60.5%。

臉書提到,這項發展是一項重大的突破,因為證明自我監督學習可被用於電腦視覺中,而且強化了電腦視覺模型的靈活性、準確性和適應性。

隨著這個自我監督式電腦視覺模型SEER發表,臉書同時也推出SEER底層所使用的VISSL函式庫,VISSL是一個以PyTorch為基礎的函式庫,可以讓開發者簡單地在圖像任務中應用自我監督技術。VISSL包含了一個基準組合,和超過60個現成的預訓練模型,研究人員可以簡單地比較數種自我監督方法。


熱門新聞

Advertisement