Google為了改善常見機器翻譯錯誤,並且促進全球在像是性別偏見等翻譯偏見上的研究,現在發布了Translated Wikipedia Biographies資料集,供研究人員來評估翻譯模型的性別偏見。

神經機器翻譯的進展,實現了更加自然和順暢的翻譯,但是這些翻譯也反應了社會的偏見,以及存在訓練資料中的刻板印象,因此Google根據自家的人工智慧原則,研究降低機器翻譯性別偏見的方法。

過去的研究領域,一直在使用附近的句子,或是段落上下文,來提高判斷性別的準確性。Google提到,由於傳統神經機器翻譯單獨翻譯每個句子,每個單獨的句子卻未必有明確的性別訊息,因此也就難以在翻譯每一句話時,因此能使用正確的性別,機器翻譯要能超越單個句子,而這需要有新的度量標準,以及具有上下文相關錯誤的資料集。

改善性別相關的翻譯錯誤,存在一定的挑戰性,因為不只需要選擇正確的代名詞,而且前後文還必須具有性別一致性,Google提到,性別偏見在常見翻譯錯誤中是特別敏感的議題,因為這些與性別相關詞,可能直接代表人們的自我認同。

為了要促進解決上下文翻譯常見錯誤的研究,Google創建了Translated Wikipedia Biographies資料集,該資料集的目標是要透過建立一個基準,使得研究人員得以改進機器學習系統中,代詞和性別相關的翻譯,藉由基準來評估和測量模型更改前後翻譯的準確性。

會選擇維基傳記(Wikipedia Biographies),研究人員解釋,是因為這些文章品質很好,具有地域多樣性且包含多個句子,更重要的是,以第三人稱描述主角,因此會包含大量代詞,而維基傳記的翻譯,就可能存在大量與性別相關的常見翻譯錯誤。

這個Translated Wikipedia Bigraphies資料集,要用來分析機器翻譯中常見的性別錯誤,資料集中的每個實例,都代表一個人、一個樂團或是一個運動隊伍,在傳記中,人會被確認性別,而團隊則被認為是無性別,每個實例都會由9到15個經翻譯的句子組成,這些句子以主角為中心展開。這些句子原本以英文編寫,Google請專業翻譯將其翻譯為西班牙語和德語。

Translated Wikipedia Bigraphies資料集是Google選擇一組跨地域和性別,但具有相同代表性的實例組成,他們根據職業和所從事的活動,從維基百科中擷取了傳記,為求公平性,職業選擇是根據維基百科的統計資料選出9個職業,這些職業代表了一系列對於性別關聯的刻板映像,另外,為了降低地理上的偏見,研究人員也根據地理多樣性,在每個地區至少選出一名實例。

研究人員提到,雖然性別非二元,也就是說性別不是只有男性和女性的分類,但目前這個研究專注於讓男性和女性實體具有平等的代表性。根據職業、地區和性別三種屬性的組合,在美國7大地理區域中,每個職業至少有男性和女性兩個性別實例的傳記,最後研究人員還加入12個沒有性別的實例,包括搖滾樂團和體育隊伍。

這個新資料集提供了一種評估機器翻譯性別偏見的方法,資料集中每個實例都代表一個已知性別的主角,因此可以計算與該主角相關的性別翻譯準確性。研究人員提到,這個性別資料集使得他們上下文翻譯模型的性別錯誤下降了67%。

而資料集裡中性別的實體讓研究人員,能夠發現過度使用男性或是女性代名詞,來指稱無性別實例的狀況,同時資料集也提供了模型在處理跨職業和地理區域實例性別的效能,研究人員發現在翻譯西班牙文居里夫人傳記時,Translated Wikipedia Bigraphies資料集使得機器翻譯所使用的代名詞從He改為She。

Google提到,這個資料集是他們目前在性別偏見和機器翻譯上的研究,但並未涵蓋整個相關的問題,也不是要找出解決性別偏見的最佳方法,而是透過發表目前的成果,來推進全球機器翻譯在偏見上的研究。


熱門新聞

Advertisement