得益于神經機器翻譯 (NMT) 的進步,譯文更加自然流暢,但與此同時,這些譯文也反映出訓練數據存在社會偏見和刻板印象。因此,Google 持續致力于遵循 AI 原則,開發創新技術,減少機器翻譯中的性別偏見。
神經機器翻譯
https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html
其中一個研究領域是利用句子或段落等上下文,來提高性別表述的準確性。傳統 NMT 方法是單獨翻譯句子,但單獨的句子中并不是總能帶有對性別信息的明確說明,因此這無疑會帶來挑戰。例如,在下方西班牙語(該語言并不總是明確提及主語 (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語,但第二句話沒有明確提及主語。孤立來看,第二句話可以指任何性別的人。然而,在翻譯成英語時,需要選擇一個代詞,而翻譯準確所需的信息就在第一句話中。
西班牙語文本 | 英語譯文 |
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. | Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties. |
如果想推動翻譯技術,讓其不止步于單句翻譯,則需要新指標來衡量進展,并且需要新數據集,其中包括最常見的上下文錯誤。翻譯性別錯誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認同方式,因此尤其敏感。而這一點則進一步加劇了挑戰。
為應對上下文翻譯的常見挑戰(如代詞省略、性別一致和準確使用所有格),我們發布了 Translated Wikipedia Biographies(維基百科傳記譯本)數據集,可用于評估翻譯模型的性別偏見。發布此數據集的目的在于提供衡量模型改變前后的翻譯準確性的基準,從而對翻譯中代詞和性別的 ML 系統進行長期改進。
Translated Wikipedia Biographies(維基百科傳記譯本)
https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html
常見翻譯錯誤的來源
“維基百科傳記 (Wikipedia:Biographies of living persons) ”經過精心撰寫,涵蓋多個地域,包含多個句子,并以第三人稱指代主語(所以包含大量代詞)。因此極有可能出現性別相關的翻譯錯誤。當文章在段落前幾句中明確提及某人,但在后面的句子中沒有明確提及時,通常會出現性別相關的翻譯錯誤。一些示例如下:
翻譯錯誤 | 文本 | 譯文 |
西班牙語→英語中的代詞省略 (Pro-drop language) |
Marie Curie nació en Varsovia. Recibió el Premio Nobel en 1903 y en 1911. |
Marie Curie was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911. |
西班牙語→英語中的中性所有格(Possessive determiner) | Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. |
Marie Curie was born in Warsaw.Hisprofessional career was developed in France. |
英語→德語中的性別一致(Grammatical gender) |
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize in 1903 and in 1911. |
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens- chaftlererhielt1903 und 1911den Nobelpreis. |
英語→西班牙語中的性別一致 (Grammatical gender) |
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
|
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911. |
構建數據集
如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數據集旨在分析機器翻譯中常見的性別表述錯誤。該數據集中的每個實例代表個人(在傳記中被認為是女性或男性)、搖滾樂隊或運動隊(被視為性別無關)。每個實例都均由 8 到 15 個相互關聯的句子組成的長文本翻譯來表示,且這些句子中會提到中心主語(人、搖滾樂隊或運動隊)。文章撰寫的源語言為英語,并由專業人士處理,翻譯成西班牙語和德語。我們已針對代詞省略,對西班牙語譯文進行優化,因此可以使用相同的集合來分析代詞省略(西班牙語→英文)和性別一致(英語→西班牙語)。
我們選擇一組在不同地域和性別之間具有同等代表性的實例構建該數據集。為此,我們根據職業、專業、工作和/或活動,從維基百科中提取傳記。為了確保職業選擇的公平性,我們根據維基百科的統計數據,選擇了九種職業。這些職業代表了一系列刻板的性別聯想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見,之后我們根據不同地域來劃分所有這些實例。對于每個職業類別,我們希望每個地區(使用 census.gov 中的地區作為不同地域的代表)都有一名人選。在關聯實例與地區時,我們會檢查被選者是否與指定地區的國家具有相關性(國籍、出生地、長期居住之地等等)。該數據集使用此標準,包含了來自世界 90 多個國家和所有地區的個人條目。
雖然性別并非二元化,但我們專注于令“女性”和“男性”實體具有同等代表性。值得一提的是,由于維基百科通過這種方式來表示實體,目前其中的實例還不足以準確反映非二元群體。因此很遺憾,該集合并不包括標識為非二元的個人。為了將每個實例貼上“女性”或“男性”標簽,我們依靠的是維基百科上的傳記信息,其中包含對此人特定性別的參考資料(她、他、女人、兒子、父親等)。
在應用所有這些過濾條件之后,我們會為每個“職業-地區-性別”三元組隨機選擇一個實例。針對七個地理區域的每一種職業,我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。
最后,我們添加了 12 個性別無關實例。之所以選擇搖滾樂隊和運動隊,是因為它們通常由無性別的第三人稱代詞(如“它”或復數形式的“它們”)所指代。包含這些實例是為了研究過度觸發 (over triggering),即當模型得知其因產生特定性別的代詞而獲得獎勵時,它們會在本不應該的情況下產生這些代詞。
結果和應用
該數據集為降低機器翻譯中的性別偏見提供了一種新的評估方法(前一篇文章中已有所介紹)。每個實例都指向已知性別的主語,因此我們可以計算出指向該主語的、特定性別翻譯的準確性。在翻譯成英語(該語言有代詞省略或中性代詞)時,因為主要計算基于英語的特定性別代詞,所以這種計算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數據集,將錯誤數量減少了 67%。如前所述,我們可利用中性實體,如使用陰性或陽性代詞來指代無性別實體,來發現過度觸發的情況。這個新數據集還為不同類型的職業或地理區域中不同模型的性能提供了新的研究方向。
比如,我們利用該數據集,在翻譯自西班牙語的 Marie Curie 傳記節選中發現了改進之處。
結論
Translated Wikipedia Biographies(維基百科傳記譯本)數據集是我們在研究識別與性別和機器翻譯有關的偏見方面的工作成果。該數據集側重于與性別偏見有關的具體問題,并不旨在涵蓋整個問題。值得一提的是,我們發布此數據集的目的并不在于強調確定解決性別偏見的最佳方法,而是幫助推動全球研究界在應對這一方面挑戰。
致謝
這些數據集的構建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。
責任編輯:haq
-
谷歌
+關注
關注
27文章
6196瀏覽量
106017 -
AI
+關注
關注
87文章
31536瀏覽量
270350 -
機器學習
+關注
關注
66文章
8441瀏覽量
133088
原文標題:用于研究翻譯中性別偏見的數據集
文章出處:【微信號:yingjiansanrenxing,微信公眾號:硬件三人行】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
AI助力實時翻譯耳機
![<b class='flag-5'>AI</b>助力實時<b class='flag-5'>翻譯</b>耳機](https://file1.elecfans.com/web3/M00/07/0F/wKgZPGeTBkSAKN_4AAAG9-FEI2g792.png)
Google兩款先進生成式AI模型登陸Vertex AI平臺
AI大模型的倫理與社會影響
Google AI技術助力中國品牌出海增長
PCB GND設計原則和注意事項
組成放大電路時必須遵循的原則
組合邏輯電路設計時應遵循什么原則
DeepL推出新一代翻譯編輯大型語言模型
超ChatGPT-4o,國產大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評
![超ChatGPT-4o,國產大模型竟然更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|<b class='flag-5'>AI</b> 橫評](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
評論