中研院資訊所博士後研究員王建堯 (攝影/洪政偉)

一時間的抉擇,往往決定一個人的人生際遇。如果中研院資訊所博士後研究員王建堯大學時,沒有下定決心「先碰硬體、再學軟體」,就不會催生出風靡全球的物件偵測模型YOLOv4,甚至是後來低運算AIoT設備也能用的多任務物件偵測模型YOLOR。

王建堯進大學時,就清楚訂好未來的發展藍圖。他計畫先把晶片硬體鑽研透徹,唸研究所時,再進一步探究硬體背後的軟體理論,尤其是機器學習。

這個決定一步步推著他,在去年先打造出全球AI社群都為之驚艷的物件偵測模型YOLOv4,一舉成名後還馬不停蹄研發出更強大、更通用的多任務外掛模型YOLOR。甚至,他也為下一步布好局了。

大學攻硬體,研究所理論帶入實戰催生YOLOv4

「我是IC設計出身,」他說。雖然靠演算法程式揚名世界,但王建堯大學就讀中央大學資工系時,反而是鎖定硬體晶片的設計,用4年摸熟小巧不起眼但極為關鍵的IC晶片。IC晶片是數位時代的基石,舉凡手機、電腦、各種3C,甚至是IoT感測器、汽車和家電,都得靠它扮演大腦。

從紮實的硬體課程中,王建堯累積了各項IC晶片運作原理的知識,讓他清楚知道,開發類神經網路的演算法該如何撰寫,才能有效利用晶片資源。這正是後來,他開發出輕薄又強大的YOLOv4和YOLOR的關鍵。

有了硬體知識的基礎,王建堯就讀研究所時,跨出了硬體領域,轉而進入軟體世界,加入中央大學資工系教授王家慶的深度學習與媒體系統實驗室(DLMS),專攻機器學習理論。

在一次實驗中,他研究起壓縮感測(Compressed sensing)技術。這是一門發展了數十年的領域,用於將類比訊號轉換數位訊號過程中,來過濾雜訊訊號,抽取出少量但更有意義關鍵訊號的技術,例如相機、攝影機影像畫質優化,或讓核磁共振影像更快更清楚成像的關鍵技術。

但這只是王建堯當時嘗試的眾多實驗之一,而非他的主攻項目。直到2016年,他進入中研院資訊所所長廖弘源的研究團隊後,過往學到的經驗,才發酵起來。

在中研院,王建堯從理論踏入實戰。「廖老師特別著重開發對人類有幫助的系統,」他回想,自己從純機器學習理論一步跨到實用系統開發,先前所累積的知識經驗,一併帶上戰場。這場實戰,就是2017年科技部的「業界出題、學界解題」AI計畫。

廖弘源團隊與義隆電子合作,要來解決AIoT智慧交通運算難題,雙方的目標是開發出又快又準、耗能又低的物件偵測模型,來捕捉道路上車輛資訊,並在邊緣裝置上運算。這個難題,就是YOLOv4的誕生契機。

在開發過程中,王建堯的經驗再次扮演要角。他首先設計一套局部殘差網路(PRN),速度比當時最流行的物件偵模型YOLOv3快兩倍,但準確度卻差了2%,不夠理想。在這個基礎上,他再次嘗試,從理論和邊緣運算硬體經驗下手,延續PRN的設計理論,同時整合了硬體推論速度加速的規則,打造出跨階段局部網路CSPNet。

這套CSPNet學習效率更好、更準確、硬體耗能更低,王建堯總結:「它是軟硬體整合的最佳化架構設計。」CSPNet開源後更吸引YOLOv3 DarkNet維護者Alexey Bochkovskiy,三人進一步聯手打造出一款包含CSPNet、YOLOv3、PANet等各種優化技術的物件偵測模型:YOLOv4,一問世就奪下2020年9月的MSCOCO物件偵測競賽冠軍。

壓縮概念催生YOLOR,用最少資料量表達最大量資料

雖然所開發的模型站上世界第一的寶座,但王建堯並未自滿。在中央研究院資訊所所長廖弘源的帶領下,他一邊與清大資工系教授林永隆、臺大資工系教授莊永裕組成團隊,繼續進行多物件追蹤的研究。但過程中又再度碰壁,遇上了一個挑戰。

「我們發現,物件偵測模型所截取的視覺特徵,無法有效運用於物件追蹤任務。」也就是說,從辨識需求這項任務所找到的特徵,換個任務後,效果卻不好。王建堯說,他開始思考,如何讓一個模型學習到的特徵,有效運用於各式各樣的任務,「甚至是未知的任務。」

這時,當年在中央大學資工系教授王家慶實驗室中鑽研的技術,也就是壓縮感測中的字典學習和稀疏編碼,浮現在王建堯腦中。

壓縮感測技術是目標是,用最少的資料量,來表達最多的資訊。比如,用極小容量的記憶體,來收集不同權重提取出的特徵,將這些特徵編碼後存入記憶體中,「就像一個大賣場,收集各式各樣的商品,需要時再來拿取。」字典學習和稀疏編碼這兩個技術,能讓模型學習更泛化的統一表徵,也就是各式各樣的特徵。

後來,王建堯花了兩個月開發出YOLOR,這是一個能保存所有輸入資料特徵的模型。原本專精單一任務的模型,就能利用保存起來的特徵,來學習其他任務,而不必重新訓練,「這就像整合顯性知識和隱性知識的人腦一樣,」王建堯說。

在實作上,YOLOR比前一代Scaled-YOLOv4更輕快,不只提升超過300%的推論速度,還減少47%的參數量和43%的運算量,維持同等準確度。而且, YOLOR還隱藏了王建堯更遠大的目標。「這是一個走向通用AI的技術,」他解釋,YOLOR可讓多模態的輸入能投射在統一的表徵空間,並藉記憶中的隱性知識,解碼成各任務的感知結果。

如果要給YOLOR打分數,王建堯靦腆回答,自己會打96分。因為,9和6合起來是無限的符號,而YOLOR,正是為未來多任務與多模態技術所打下的技術研究,能開啟無限多種可能。

他下一步也朝這個方向發展。他手上正進行一項研究,要找出輕量類神經網路,打造更準更快且能處理多模態任務的模型,應用於IoT裝置上。

【冠軍模型幕後推手:中研院資訊所所長廖弘源】
人生最大目標是讓世界看見臺灣

攝影_洪政偉
「我沒做什麼,只是挖掘千里馬,讓他盡情發揮而已。」提及王建堯,中研院資訊所所長廖弘源總是如此謙虛說道。

世界第一物件偵測技術的誕生,一路來,不單單是中研院資訊所博士後研究員王建堯的獨角戲。幕後還有一個推手靈魂人物,也就是王建堯的中研院指導老師廖弘源,他也正是YOLOv4和YOLOR的共同作者。

廖弘源自己也是多媒體影像技術的世界級專家,超過50篇論文發表在全球知名期刊,甚至多篇獲得上百次引用。他更是數位典藏與數位學習國家型科技計畫中,數位典藏相關技術的主要研發者之一。

廖弘源的研究早在20年多前就揚名世界,當時全球人臉辨識技術都用照片的所有像素來辨識,廖弘源帶著學生用統計,證明了五官辨識比全照片辨識更重要。這項獨步全球的研究,也成為當時全球人臉辨識領域必讀的20篇論文之一。

2005年,廖弘源更發表了世界知名的慢換景偵測自動視訊分鏡技術。2008年,臺灣的電視牆看板有能力自動計算觀看人數,背後靠的也是他研發的人臉辨識機制。後來這個技術,還成為影片搜尋機制,描述動作姿勢就能搜尋到影片對應段落。2011年,廖弘源所發表的影像與視訊修補技術,更是臺灣數位典藏計畫中,許多老照片、舊影片能夠修復重生的關鍵。

廖弘源一直都堅持「研發好東西」。2017年有次媒體採訪時,他透露,一生追求發明5項好東西。從他過往研發成果可以看到,他期許的「好」東西,不只是對民眾生活有用,更要能對世界有所貢獻。但他不自居功勞,反而常歸功給自己實驗室所指導的學生們,也勉勵他們,要成為解決長遠問題的科學家,而不是解決當下問題的工程師,王建堯就是其中一位。

王建堯一進入廖弘源團隊、接手處理義隆電子智慧交通專案時,廖弘源就告訴王建堯,要先把手弄髒,先不考慮論文發表,如此才能從動手做的過程中,找出最佳解法。

這樣的開放心態,鼓勵王建堯一步步嘗試不同方法解決問題。像是,為打造更輕量、適合在邊緣裝置運算的模型,王建堯最初提出了一個想法,利用梯度分流來提高模型準確度和運算效率。

「我著實被那場Talk所震撼和感動!」廖弘源說,那是他5年來聽過最好的演講,雖然王建堯第一個嘗試PRN算不上很成功,但兩人持續合作、改進,進一步結合理論和實務,打造出更輕更快、更準確的CSPNet,並開源出來,進一步催生出YOLOv4。

廖弘源直言,最感動他的是,這一系列研究對臺灣及世界造成的影響。比如,YOLOv4在MSCOCO物件偵測競賽中奪魁,打敗Google、微軟、臉書及Amazon組成的強隊,排行榜榜首一坐就是2個半月之久,更成為全球愛用的AI模型。

「這一生最希望的,是讓世界看見臺灣,不要輕視臺灣。」廖弘源透露,YOLOv4發表後,他們隨即在2020年8月成立一支臺灣隊,邀請莊永裕、林永隆兩位教授團隊,來研究「多物件追蹤」。因為,「這是YOLOv4之後,可能再為臺灣爭光的議題,」廖弘源說。這就是今年5月發表的YOLOR,這個模型不只輕、快、準,還能執行多任務,往通用AI邁進了一步。


熱門新聞

Advertisement