Google Brain發表一項研究,經稀疏技術來改善多專家模型(MoE),將原Transformer中的密集前饋神經網路(FFN)改為Switch FFN層。

圖片來源: 

Google Brain

重點新聞(0115~0121)

  NLP模型     Switch Transformer     參數  

參數破兆!Google發表NLP預訓練模型新作,號稱成本不變但更快速

Google Brain近日發表一款自然語言處理(NLP)預訓練模型Switch Transformer,具1.6兆參數,正式揭開NLP模型參數上兆等級的序幕。近年來,NLP預訓練模型參數量不斷飆升,去年OpenAI發表超大通用NLP模型GPT-3,把參數帶到千億等級,而現在,在這流行擁腫的趨勢上,Google新模型直接躍升兆等級。不過Google稱,訓練Switch Transformer的硬體成本並未飆升,而且訓練時間更短。

這是因為,Google用稀疏技術簡化了多專家演算法(Mixture of Experts,MoE),來有效整合資料、模型和不同專家演算法的平行處理。與Google先前發布的大型NLP模型T5-XXL相比,這個新方法在成本可控的同時,還能將Switch Transformer的訓練時間縮短為四分之一。

Google進一步說明,現有許多簡化的深度學習架構,準確率比複雜演算法還要高,但這些簡化架構往往需要巨量資料集、更大量的參數和更高的運算成本。再加上,這些模型常重複使用同樣的參數,來分析所有輸入值,而MoE模型則使用不同參數,改善效率問題。Google看上這個優點,採MoE來訓練大型語言模型,還同時搭配稀疏分析方法,來進一步簡化MoE模型,突破MoE模型難以擴展的瓶頸。在Switch Transformer的編碼器中,團隊將原本Transformer架構的密集前饋神經網路(FFN)拿掉,改為稀疏Switch FFN層,可獨立處理序列中的Tokens。

團隊表示,這個模型應用於大規模訓練時,能確保參數隨裝置數增加而增加的同時,在每個裝置上仍保持可控的記憶體和運算歷史紀錄。而且,團隊發現,用32個TPU核心和C4資料集來預訓練Swtich Transformer,不僅所需的運算成本低於其他MoE模型,準確率還更高。(詳全文)

  FDA     AI醫材軟體    SaMD  

2年醞釀,美FDA終於發布AI醫材軟體法規行動計畫

經過2年研究,美國食品藥物管理局(FDA)日前終於發布第一套AI/ML醫材軟體(Software as a Medical Device,SaMD)法規行動計畫,要助政府進一步監管AI軟體醫材的使用。

該計畫點出了FDA未來將採取的5大方向,首先是進一步發展現有法規框架,比如針對機器學習軟體的長期學習時間,制定出變化控制計畫,並發布指引草案。再來是支援發展良好的機器學習實作方法,來評估、改善機器學習演算法。第三則是推動以病人為中心的實作方法,包括讓使用者了解裝置數據收集的用途。第四點是發展用來評估和改善機器學習演算法的方法,最後則是推動真實世界的AI SaMD效能監控試點計畫。(詳全文)

  NAS     類神經網路架構    德州大學  

不必訓練就能找到最佳架構!德州大學發表無須訓練的NAS方法

德州大學奧斯汀分校發表一項新優化方法TE-NAS,號稱不需訓練就能找出最佳的類神經網路架構,也就是無須訓練的NAS方法,來降低建模所需的時間和成本。團隊指出,目前市面上有無數種類神經網路架構和各種變形,供AI開發者使用,但開發者往往要為特定任務,來手動找出最合適的類神經網路架構。但手動尋找需耗費大量時間來不斷試錯,為加速這個過程,出現了類神經網路架構搜尋(NAS)方法,可自動找出表現最好的類神經網路。

但NAS不是萬靈丹,它需要大把時間來訓練超網,或密集評估各種架構。因此,德州大學團隊研發TE-NAS,來解決問題。進一步來說,該方法結合了兩個指標,包括神經正切內核(NHK)條件和輸入空間的線性區域數量,再加上一套新穎的剪枝方法,來取得兩者的時間平衡。經實驗,TE-NAS以ImageNet上使用DARTS找出最佳類神經網路,只需要4個GPU小時,且保持不錯的準確率。該研究已獲AI頂級年會ICRL 2021接受,目前開放同儕評審,而團隊也已將程式碼開源於GitHub(詳全文)

  AI照護   韓國       陪伴  

韓國政府將擴大西大區AI照護者服務名額

韓國政府將自今年2月起,擴大AI照護者服務(AI Caregiver Service)名額,從200名擴大至450名,來照顧當地弱勢民眾。該服務所定單親家庭、年長者、中年和身障團體,透過AI智慧喇叭來安撫情緒,包括播報新聞、天氣、音樂,並與居民聊天。要是AI智慧喇叭偵測到異常跡象,比如在一段時間內通話中斷,政府辦公室的照護管理員就會致電確認,並親自拜訪。此外,遇到緊急情況時,該AI也會啟動緊急救護需求,同時給予居民所需的陪伴感受。韓國政府將投入2.75億韓元來推動這項政策。(詳全文)

  量子電腦    藥物開發    分子動力學模擬  

Google量子電腦部門取得首家藥廠客戶

德國藥廠百靈佳殷格翰(Boehringer Ingelheim)聯手Google量子AI部門,要透過三年合作,用量子運算來研究疾病和新藥開發。百靈佳殷格翰也是Google量子運算的第一家藥廠客戶。

雙方將藉Google的量子電腦與演算法、百靈佳殷格翰的電腦輔助藥學設計和電腦模擬建模(in silico modeling)經驗,來研究和實作藥學研發的尖端使用情境,特別是分子動力學模擬。百靈佳殷格翰近幾年也推動多項數位轉型計畫,以AI和資料科學來加強對疾病、生物標記、驅動因子以及數位療法的了解。該公司成立的量子實驗室以及旗下創新事業群、IT等部門,也將與Google共同主持這次研究。(詳全文)

微軟    語音資料     語音轉錄  

語音資料收集政策更透明,微軟讓用戶一窺資料對AI產品的影響

微軟更新語音資料收集政策,在用戶的同意下,來收集用戶使用語音辨識技術服務的錄音,供開發人員在研發產品時進行人工審閱,用戶也可查看所有被收集的語音片段,以及語音片段對AI系統所做的貢獻。

在新的語音片段設定中,用戶需要明確同意微軟收集語音資料,微軟才會將用戶的語音資料,用在開發AI產品中。微軟及其承包商只會在用戶許可的情況,聆聽用戶貢獻的語音,對其他用戶來說,微軟仍會繼續存取用戶語音活動的相關資料,如用戶與語音辨識系統互動時,自動產生的轉錄文字。

微軟從2020年10月30日之後,就停止儲存語音辨識技術處理的語音片段,並在接下來幾個月內,會在微軟的翻譯器、SwiftKey、Windows、Cortana、HoloLens、Mixed Reality和Skype語音翻譯等產品,推出新的語音片段配置。當用戶同意讓微軟員工及其承包商,聽取語音記錄來改善AI技術,微軟會保留所有語音資料兩年,如果這些語音片段還進一步供人工轉錄使用,則可能會保留兩年以上。(詳全文)

穿戴裝置    Apple Watch     認知退化  

龍頭藥廠聯手蘋果,要用穿戴裝置揪出失智症徵兆

失智症藥物龍頭大廠百健(Biogen)聯手蘋果,要以Apple Watch、iPhone等穿戴裝置,來探討這些裝置偵測認知衰退的可能性,包括失智症。

進一步來說,Apple Watch具有加速度計、陀螺儀等感測器,可偵測配戴者手部動作,而iPhone也有醫療大規模研究用的Research App,內建供受試者填寫問卷等功能。這項研究將於今年展開,研究團隊將招募年輕成人至長者,以及不同認知表現的自願者參加,展開一系列認知表現的研究。這項研究將發展數位生物標記,來長期監控使用者認知表現,以在早期發現輕微認知障礙(MCI)徵兆。(詳全文)

圖片來源/Google Brain、FDA、微軟

 AI趨勢近期新聞 

1. AI頂級年會ICLR 2021公布860篇獲選論文,開放同儕評審

2. 德國政府聯手SAP共同創辦人,砸上億歐元建AI重點樞紐

資料來源:iThome整理,2021年1月

 
 
 
 


熱門新聞

Advertisement