在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google遵循AI原則減少機器翻譯的性別偏見

硬件三人行 ? 來源:TensorFlow ? 作者:Romina Stella ? 2021-08-24 10:14 ? 次閱讀

得益于神經機器翻譯 (NMT) 的進步,譯文更加自然流暢,但與此同時,這些譯文也反映出訓練數據存在社會偏見和刻板印象。因此,Google 持續致力于遵循 AI 原則,開發創新技術,減少機器翻譯中的性別偏見。

神經機器翻譯

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一個研究領域是利用句子或段落等上下文,來提高性別表述的準確性。傳統 NMT 方法是單獨翻譯句子,但單獨的句子中并不是總能帶有對性別信息的明確說明,因此這無疑會帶來挑戰。例如,在下方西班牙語(該語言并不總是明確提及主語 (Null-subject language))段落中,第一句話明確將 Marie Curie 視為主語,但第二句話沒有明確提及主語。孤立來看,第二句話可以指任何性別的人。然而,在翻譯成英語時,需要選擇一個代詞,而翻譯準確所需的信息就在第一句話中。

西班牙語文本 英語譯文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推動翻譯技術,讓其不止步于單句翻譯,則需要新指標來衡量進展,并且需要新數據集,其中包括最常見的上下文錯誤。翻譯性別錯誤(如選擇正確的代詞或性別一致)可能直接涉及到人及自我認同方式,因此尤其敏感。而這一點則進一步加劇了挑戰。

為應對上下文翻譯的常見挑戰(如代詞省略、性別一致和準確使用所有格),我們發布了 Translated Wikipedia Biographies(維基百科傳記譯本)數據集,可用于評估翻譯模型的性別偏見。發布此數據集的目的在于提供衡量模型改變前后的翻譯準確性的基準,從而對翻譯中代詞和性別的 ML 系統進行長期改進。

Translated Wikipedia Biographies(維基百科傳記譯本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常見翻譯錯誤的來源

“維基百科傳記 (Wikipedia:Biographies of living persons) ”經過精心撰寫,涵蓋多個地域,包含多個句子,并以第三人稱指代主語(所以包含大量代詞)。因此極有可能出現性別相關的翻譯錯誤。當文章在段落前幾句中明確提及某人,但在后面的句子中沒有明確提及時,通常會出現性別相關的翻譯錯誤。一些示例如下:

翻譯錯誤 文本 譯文
西班牙語→英語中的代詞省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙語→英語中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英語→德語中的性別一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英語→西班牙語中的性別一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

構建數據集

如上文所示,Translated Wikipedia Biographies(維基百科傳記譯本)數據集旨在分析機器翻譯中常見的性別表述錯誤。該數據集中的每個實例代表個人(在傳記中被認為是女性或男性)、搖滾樂隊或運動隊(被視為性別無關)。每個實例都均由 8 到 15 個相互關聯的句子組成的長文本翻譯來表示,且這些句子中會提到中心主語(人、搖滾樂隊或運動隊)。文章撰寫的源語言為英語,并由專業人士處理,翻譯成西班牙語和德語。我們已針對代詞省略,對西班牙語譯文進行優化,因此可以使用相同的集合來分析代詞省略(西班牙語→英文)和性別一致(英語→西班牙語)。

我們選擇一組在不同地域和性別之間具有同等代表性的實例構建該數據集。為此,我們根據職業、專業、工作和/或活動,從維基百科中提取傳記。為了確保職業選擇的公平性,我們根據維基百科的統計數據,選擇了九種職業。這些職業代表了一系列刻板的性別聯想(女性、男性或兩者都不是)。為了減輕任何基于地域的偏見,之后我們根據不同地域來劃分所有這些實例。對于每個職業類別,我們希望每個地區(使用 census.gov 中的地區作為不同地域的代表)都有一名人選。在關聯實例與地區時,我們會檢查被選者是否與指定地區的國家具有相關性(國籍、出生地、長期居住之地等等)。該數據集使用此標準,包含了來自世界 90 多個國家和所有地區的個人條目。

雖然性別并非二元化,但我們專注于令“女性”和“男性”實體具有同等代表性。值得一提的是,由于維基百科通過這種方式來表示實體,目前其中的實例還不足以準確反映非二元群體。因此很遺憾,該集合并不包括標識為非二元的個人。為了將每個實例貼上“女性”或“男性”標簽,我們依靠的是維基百科上的傳記信息,其中包含對此人特定性別的參考資料(她、他、女人、兒子、父親等)。

在應用所有這些過濾條件之后,我們會為每個“職業-地區-性別”三元組隨機選擇一個實例。針對七個地理區域的每一種職業,我們都挑選了兩份傳記(一份男性傳記和一份女性傳記)。

最后,我們添加了 12 個性別無關實例。之所以選擇搖滾樂隊和運動隊,是因為它們通常由無性別的第三人稱代詞(如“它”或復數形式的“它們”)所指代。包含這些實例是為了研究過度觸發 (over triggering),即當模型得知其因產生特定性別的代詞而獲得獎勵時,它們會在本不應該的情況下產生這些代詞。

結果和應用

該數據集為降低機器翻譯中的性別偏見提供了一種新的評估方法(前一篇文章中已有所介紹)。每個實例都指向已知性別的主語,因此我們可以計算出指向該主語的、特定性別翻譯的準確性。在翻譯成英語(該語言有代詞省略或中性代詞)時,因為主要計算基于英語的特定性別代詞,所以這種計算更為容易。在這些情況下,與先前模型相比,上下文感知模型利用性別數據集,將錯誤數量減少了 67%。如前所述,我們可利用中性實體,如使用陰性或陽性代詞來指代無性別實體,來發現過度觸發的情況。這個新數據集還為不同類型的職業或地理區域中不同模型的性能提供了新的研究方向。

比如,我們利用該數據集,在翻譯自西班牙語的 Marie Curie 傳記節選中發現了改進之處。

結論

Translated Wikipedia Biographies(維基百科傳記譯本)數據集是我們在研究識別與性別和機器翻譯有關的偏見方面的工作成果。該數據集側重于與性別偏見有關的具體問題,并不旨在涵蓋整個問題。值得一提的是,我們發布此數據集的目的并不在于強調確定解決性別偏見的最佳方法,而是幫助推動全球研究界在應對這一方面挑戰。

致謝

這些數據集的構建得到了以下人員的幫助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6196

    瀏覽量

    106017
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270350
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133088

原文標題:用于研究翻譯中性別偏見的數據集

文章出處:【微信號:yingjiansanrenxing,微信公眾號:硬件三人行】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AI助力實時翻譯耳機

    你是否曾經因為語言障礙而無法與外國人順暢交流?或者在旅行中因為語言不通而錯過了一些精彩的經歷?現在,隨著AI技術的發展,實時翻譯耳機可以幫你輕松解決這些問題。 1 什么是實時翻譯耳機 實時翻譯
    的頭像 發表于 01-24 11:14 ?492次閱讀
    <b class='flag-5'>AI</b>助力實時<b class='flag-5'>翻譯</b>耳機

    Google兩款先進生成式AI模型登陸Vertex AI平臺

    生成式 AI 正在引領商業增長與轉型。在已經將生成式 AI 部署到生產環境的企業中,有86%的企業表示其帶來了收入增長,估計增長率為 6%。這就是為什么 Google 正持續投資其 AI
    的頭像 發表于 12-30 09:56 ?143次閱讀

    AI大模型的倫理與社會影響

    個人隱私得到保護,防止數據泄露和濫用。 對于敏感數據的處理,如生物識別信息或健康記錄,需要遵循更嚴格的隱私和安全標準。 偏見與歧視 AI大模型可能會從訓練數據中繼承偏見,導致對某些群體
    的頭像 發表于 10-23 15:13 ?700次閱讀

    Google AI技術助力中國品牌出海增長

    人工智能的技術創新與突破正在給各行各業帶來全新的變革與機遇。在數字營銷領域,AI 也為整個營銷流程開啟了全新的可能。從全新的沉浸式廣告體驗到效果出色的廣告素材,Google AI 正在助力廣告創意
    的頭像 發表于 10-16 11:08 ?560次閱讀

    RISC-V如何支持不同的AI機器學習框架和庫?

    RISC-V如何支持不同的AI機器學習框架和庫?還請壇友們多多指教一下。
    發表于 10-10 22:24

    PCB GND設計原則和注意事項

    在PCB設計過程中,應盡可能遵循單點接地的原則。單點接地意味著將所有地線連接到一個公共位置,避免在多個位置形成地線,以減少干擾和返回路徑的不對稱。這種設計有助于減少地線之間的電位差,從
    的頭像 發表于 10-09 10:28 ?1116次閱讀

    組成放大電路時必須遵循原則

    組成放大電路時必須遵循原則主要包括以下幾個方面: 一、電源與偏置設置 直流電源設置 :必須根據所用放大管的類型提供直流電源,以便設置合適的靜態工作點,并作為輸出的能源。對于晶體管放大電路,電源
    的頭像 發表于 09-03 10:24 ?780次閱讀

    組合邏輯電路設計時應遵循什么原則

    一、引言 組合邏輯電路是數字電路中的一種基本類型,它由邏輯門、觸發器等基本元件組成,通過邏輯門的組合實現特定的邏輯功能。組合邏輯電路廣泛應用于計算機、通信、控制等領域。在設計組合邏輯電路時,需要遵循
    的頭像 發表于 08-11 11:26 ?1622次閱讀

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領域,DeepL再次以其創新實力引領潮流,宣布成功推出新一代面向翻譯與編輯應用的大型語言模型。這一里程碑式的進展,不僅鞏固了DeepL作為頂尖語言人工智能公司的地位,更標志著機器翻譯技術向更高質量、更智能化方向邁出了堅實的一步。
    的頭像 發表于 07-19 15:56 ?740次閱讀

    超ChatGPT-4o,國產大模型竟然更懂翻譯,8款大模型深度測評|AI 橫評

    隨著AI工具的不斷增多,各家模型的能力也日益提升,現在無論哪款大模型幾乎都能夠處理各種翻譯難題。在AI浪潮當下,越來越多的論文和前沿信息需要快速翻譯和解讀,依賴傳統的
    的頭像 發表于 07-14 08:04 ?128次閱讀
    超ChatGPT-4o,國產大模型竟然更懂<b class='flag-5'>翻譯</b>,8款大模型深度測評|<b class='flag-5'>AI</b> 橫評

    使用google-translate和wwe合并后無法使用google-tts怎么解決?

    我打算使用lyrat-mini做一個使用喚醒詞喚醒然后后續通過google-sr和google-tts進行交流的聊天機器人,但是當我合并了adf的例子中的wwe和google-tran
    發表于 06-28 06:05

    信號分析和信號處理必須遵循原則

    在信息技術的快速發展中,信號分析與信號處理作為信息科學的重要組成部分,扮演著至關重要的角色。無論是通信、控制、圖像處理還是生物醫學等領域,信號分析與處理都發揮著不可或缺的作用。因此,深入探討信號分析與信號處理必須遵循原則,對于提高信號處理的效率與準確性、推動相關領域的進
    的頭像 發表于 05-17 14:19 ?1227次閱讀

    電路仿真所遵循的基本原則是什么

    電路仿真是一種基于電子計算機進行模擬的技術,用于分析和預測電路的行為和性能。它可以幫助設計師優化電路的功能、減少成本和提高可靠性。為了保證仿真結果的準確性和可靠性,電路仿真需要遵循一些基本原則。本文
    的頭像 發表于 04-21 10:20 ?1358次閱讀

    機器學習怎么進入人工智能

    ,人工智能已成為一個熱門領域,涉及到多個行業和領域,例如語音識別、機器翻譯、圖像識別等。 在編程中進行人工智能的關鍵是使用機器學習算法,這是一類基于樣本數據和模型訓練來進行預測和判斷的算法。下面將介紹使用機器學習算法進行人工智能
    的頭像 發表于 04-04 08:41 ?388次閱讀

    谷歌AI聊天機器人改名為Gemini

    谷歌(Google)近日宣布,旗下備受矚目的AI聊天機器人Bard正式更名為Gemini,并推出了一款功能更加強大的付費版本——Gemini Advanced。這一戰略調整旨在與微軟、OpenAI等科技巨頭在
    的頭像 發表于 02-18 11:28 ?1204次閱讀
    主站蜘蛛池模板: 天堂中文在线观看 | 日本高清视频色视频kk266 | 色综合天天综合网国产国产人 | 我不卡老子影院午夜伦我不卡四虎 | 成人在线精品 | 久久久综合视频 | 18视频免费网址在线观看 | 午夜伦理片免费观看在线 | 亚洲va老文色欧美黄大片人人 | 色视频日本 | 国产精品日韩欧美亚洲另类 | 亚洲一区二区影视 | 亚洲人xx视频| 国产农村三片免费网站 | 久久视频免费看 | 国产一区二区三区在线观看视频 | 美女牲交毛片一级视频 | 九九99视频在线观看视频观看 | 五月月色开心婷婷久久合 | 国产精品一一在线观看 | 中文字幕欧美日韩 | 四虎国产精品永久在线网址 | 国产成人夜间影院在线观看 | 日本免费一区二区三区视频 | 欧美777 | 日本黄色大片在线播放视频免费观看 | 久久九九国产 | 婷婷亚洲综合五月天小说在线 | 免费人成a大片在线观看动漫 | 免费看很黄很色裸乳视频 | 亚洲卡一卡2卡三卡4卡国色 | 国产99在线播放 | 国产亚洲精品久久久久久午夜 | 国产男人女人做性全过程视频 | 成 人 黄 色视频免费播放 | 美女被免费视频网站九色 | 色天使久久 | 综合久| 国产亚洲欧美视频 | xxx日本69| 六月丁香婷婷网 |