将夜猫腻小说,完美的世界 1993 电影,玄幻小说完本

達特茅斯學院的研究人員為了提高計算機模型對文本風格的轉換能力，竟然將目光投向了《圣經》！研究表明，不同版本的《圣經》行文風格迥異，使用不同版本的《圣經》作為訓練數據集，訓練出的算法可以將書面文本轉換成內容相同，但行文風格迥異的新文本。

為了尋找改進計算機文本翻譯質量的靈感，達特茅斯學院的研究人員向《圣經》尋求幫助和指導。結果發現，使用各種版本的《圣經》訓練的算法可以將書面作品轉換成針對不同受眾的不同風格的譯文。

目前市面上可用的多語種互譯的網絡工具有很多。但行文風格和樣式轉換工具，即文本的語種相同，但轉換行文風格的工具出現的速度則要慢得多。在某種程度上講，由于難以獲得所需的大量訓練數據，開發這類轉換工具的研究遭遇了困難。因此，研究團隊想到在《圣經》中汲取靈感。

來自達特茅斯學院的研究團隊發現，《圣經》除了為遍布全球的許多人提供精神上的指引之外，還能提供一個“大型的、以前尚未開發的對齊平行文本數據集”。《圣經》每個版本都包含超過31000節經文，研究人員用這些經文為機器學習訓練集生成了超過150萬個源經文和目標經文的專門配對。

該研究論文已發表在Royal Society Open Science期刊上。文中表示，這不是首個為文字風格轉換而創建的并行數據集。但卻是第一個使用《圣經》的數據集。過去這類數據集使用的其他文本，比如莎士比亞作品、維基百科條目之類，所能提供的數據集要么比現在小得多，要么不適合學習風格轉換的任務。

“英文版《圣經》有許多不同的行文風格，使其成為風格轉換的完美源文本?！边_特茅斯大學學生、本論文的第一作者Keith Carlson說。

由于《圣經》的文本已經全面索引化，對不同版本的《圣經》文本的組織是可預測的，消除了用自動化方式匹配相同文本可能引起的對齊錯誤的風險。

“圣經是一個'神圣的'數據集，可以用來研究這項任務，”達特茅斯計算機科學教授丹尼爾·洛克莫爾說。 “幾個世紀以來，人類一直在執行組織圣經文本的任務，我們的信仰不可能基于不太可靠的對齊算法?！?/p>

為了定義研究的“風格”，研究人員參考了句子長度、被動或主動語音的使用，以及可能導致文本具有不同程度的簡潔或形式的用詞選擇。

根據這項研究的結果：“不同的措辭可能會傳達不同程度的禮貌度或對讀者的熟悉程度，顯示關于作者的不同文化信息，使文本對某些人群更容易理解?！?/p>

該團隊使用了34種風格獨特的圣經版本，其語言復雜程度從“詹姆斯國王版”到“基礎英語圣經”。研究人員使用這些文本作為兩種算法的輸入，一種是名為“摩西”的統計機器翻譯系統，另一種是常用于機器翻譯的神經網絡框架“Seq2Seq”。

雖然研究團隊使用了不同版本的《圣經》來訓練計算機代碼，但最終可以開發出能夠為不同受眾轉換任何書面文本風格的系統。例如可以從“Moby Dick”中選擇英語，并將其風格轉換成適合年輕讀者、非英語母語人士或其他多種受眾團體中的不同版本。

“文本簡化只是一種特定類型的風格轉換。更廣泛地說，我們開發的系統旨在生成與原文具有相同含義的文本，但會用不同的文字進行表述?！笨柹f。

達特茅斯學院在計算機科學領域有著悠久的創新歷史。“人工智能”（AI）一詞最初就是在1956年達特茅斯學院召開AI研究學科的會議期間誕生的。該校其他相關研究還包括BASIC語言的設計，這是第一個通用和可訪問的編程語言，以及為現代操作系統做出貢獻的“達特茅斯時間共享”系統。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器學習

機器學習

+關注

關注
66

文章
8453

瀏覽量
133152
數據集

數據集

+關注

關注
4

文章
1210

瀏覽量
24861

原文標題：用《圣經》做訓練數據集，達特茅斯學院完美打造語言風格轉換工具

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

騰訊公布大語言模型訓練新專利

近日，騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布，標志著騰訊在大語言模型訓練領域取得了新的突破。據專利摘要顯示，

發表于 02-10 09:37 ?88次閱讀

請問有沒有不在linux上對.pt模型向.kmodel轉換的教程呢？

的文章但是里面很多參數以及.npy的數據集我不知道怎么填寫及處理。 2、還有一個問題，現在yolo有一個obb模塊可以檢測物體的傾斜角度，請問用這個模塊訓練出來的模型可以部署在k2

發表于 02-08 08:56

ODX診斷數據庫轉換工具 - DDC

INTEWORK-DDC (Diagnostic Database Convertor) 是將診斷調查問卷轉換為標準ODX(2.2.0)數據庫的工具。DDC工具可以將易于溝通交流的Ex

發表于 12-31 11:22 ?192次閱讀

ODX診斷<b class='flag-5'>數據</b>庫<b class='flag-5'>轉換工具</b> - DDC

ChatGPT：怎樣打造智能客服體驗的重要工具？

ChatGPT作為智能對話生成模型，可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟：1.數據收集和準備：收集和整理與客服相關的數據，包括常見問題、回答示例、客戶對話記錄等。這

發表于 11-01 11:12 ?236次閱讀

ChatGPT：怎樣<b class='flag-5'>打造</b>智能客服體驗的重要<b class='flag-5'>工具</b>？

AI大模型的訓練數據來源分析

學術機構、政府組織或企業公開發布，涵蓋了各種類型的數據，如圖像、文本、音頻、視頻等。例如： ImageNet ：一個廣泛用于圖像識別任務的大規模圖像數據集。 Common Crawl ：提供了大量的網頁抓取

發表于 10-23 15:32 ?1526次閱讀

如何訓練自己的AI大模型

和訓練AI大模型之前，需要明確自己的具體需求，比如是進行自然語言處理、圖像識別、推薦系統還是其他任務。二、數據收集與預處理數據收集根據任務需求，收集并準備好足夠的

發表于 10-23 15:07 ?3276次閱讀

大語言模型的預訓練

能力，逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發展的關鍵步驟，它通過在海量無標簽數據上進行訓練，使模型學習到語言的通用知識

發表于 07-11 10:11 ?573次閱讀

pycharm怎么訓練數據集

在本文中，我們將介紹如何在PyCharm中訓練數據集。PyCharm是一款流行的Python集成開發環境，提供了許多用于數據科學和機器學習的工具

發表于 07-11 10:10 ?761次閱讀

如何理解機器學習中的訓練集、驗證集和測試集

理解機器學習中的訓練集、驗證集和測試集，是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習與評估的基礎框架，還直接關系到模型性能的可靠性和泛化能力。以下是一篇深入探討這三

發表于 07-10 15:45 ?4758次閱讀

llm模型訓練一般用什么系統

LLM（Large Language Model，大型語言模型）是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源和數據來進行訓練。以下是關于LLM模型

發表于 07-09 10:02 ?531次閱讀

PyTorch如何訓練自己的數據集

PyTorch是一個廣泛使用的深度學習框架，它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時，數據集是不可或缺的組成部分。然而，很多時候，我們可能需要使用自己的數據

發表于 07-02 14:09 ?2137次閱讀

K折交叉驗證算法與訓練集

K折交叉驗證算法與訓練集

發表于 05-15 09:26 ?666次閱讀

【大語言模型：原理與工程實踐】大語言模型的預訓練

數據格式的轉換、數據字段的匹配和整合等。通過數據級凈化，可以進一步提高數據的質量和可用性，為后續的數據

發表于 05-07 17:10

【大語言模型：原理與工程實踐】大語言模型的基礎技術

處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言模型。這類模型的核心思想是先利用大規模的文本數據進行預

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領域的尖端技術，憑借龐大的參數量和卓越的語言理解能力贏得了廣泛關注。它基于深度學習，利用神經網絡框架來理解和生成自然語言文本。這些模型通過訓練海量的文本

發表于 05-04 23:55

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

用《圣經》做訓練數據集，打造語言風格轉換工具

評論

騰訊公布大語言模型訓練新專利

請問有沒有不在linux上對.pt模型向.kmodel轉換的教程呢？

ODX診斷數據庫轉換工具 - DDC

ChatGPT：怎樣打造智能客服體驗的重要工具？

AI大模型的訓練數據來源分析

如何訓練自己的AI大模型

大語言模型的預訓練

pycharm怎么訓練數據集

如何理解機器學習中的訓練集、驗證集和測試集

llm模型訓練一般用什么系統

PyTorch如何訓練自己的數據集

K折交叉驗證算法與訓練集

【大語言模型：原理與工程實踐】大語言模型的預訓練

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

搜索歷史

用《圣經》做訓練數據集，打造語言風格轉換工具

評論

用《圣經》做訓練數據集，打造語言風格轉換工具