Google揭露行動裝置鍵盤Gboard,所使用的新聯合學習(Federated Learning)技術,這項技術被Google稱為聯合重建(Federated Reconstruction),目標是要大規模進行部分本地聯合學習,使得在訓練模型時,讓部分模型參數永遠不會在伺服器聚合。

Google提到,在矩陣分解(Matrix Factorization)用例,他們推薦使用聯合重建,因為可以將用戶的嵌入保留在用戶的裝置本地端,也就是說,在訓練模型時,針對每個用戶完全個人化,但是又能避免這些參數交流。Google將這項聯合學習技術部署到Gboard中,提供數億鍵盤使用者更好的推薦結果。

聯合學習技術讓用戶能夠在不將原始資料發送到中央伺服器的情況下訓練模型,進而避免隱私敏感資料被收集。傳統聯合學習技術,通常所有用戶擁有單一全域模型,像是行動鍵盤應用程式的用戶,會共同訓練建議模型,但因為每個人對建議有不同的偏好,這種差異驅使全域模型可針對每個用戶進行個人化。

但研究人員解釋,在特定情況下,因為隱私的考量,可能無法訓練全域模型,像是推薦系統的矩陣分解模型,要訓練一個完全全域模型的聯合模型,將會需要發送用戶嵌入更新到中央伺服器,而這個動作可能會揭露嵌入中用戶的喜好,而且即便模型沒有使用者特有的嵌入,將部分參數完全留在使用者裝置上,也能夠減少伺服器和客戶端的通訊,並且負責任地替每個使用者個人化這些參數。

過去部分本地端聯合學習方法使用有狀態演算法,這會需要用戶的裝置儲存多輪聯合訓練的狀態,也就是說,這些方法需要裝置跨輪儲存本地參數。在大規模聯合學習環境中,這些演算法往往不夠實用,因為大多數用戶不參與訓練,而參加的用戶可能僅參與一次,導致狀態很少可用,或是在數輪之後狀態過於陳舊,此外,不參與的用戶都沒有經過訓練的本地端參數,也就阻礙了實際應用。

而聯合重建技術是無狀態的,用戶裝置不需要儲存本地端參數,當用戶參與訓練時,在更新任何全域模型參數之前,會在全域參數凍結的情況下,在本地端參數上使用梯度下降法,隨機初始化和訓練本地端參數,接著便可以在本地端參數凍結的情況,計算全域參數更新。聯合重建方法不假設用戶具有前幾輪的訓練狀態,如此便能實現大規模訓練,並且不斷重建本地端參數,避免參數過時。

Google為了驗證聯合重建在大規模用例的實用性,便將演算法部署到擁有數億使用者的Gboard中。Gboard用戶使用GIF和表情符號與其他人交流,而用戶對於這些情緒表達有高度的差異,因此剛好非常適合使用矩陣分解,來預測用戶想要分享的情緒表達。

Google在用戶情緒表達歸類上使用聯合重建,訓練了矩陣分解模型,將用戶嵌入留存在每個Gboard用戶的本地端,然後部署使用該模型,研究發現表達推薦的點擊率大幅增加29.3%。


熱門新聞

Advertisement