91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人工智能出擊:破解梵蒂岡神秘卷宗之謎

向上 ? 來源:網絡整理 ? 作者:工程師李察 ? 2018-06-17 15:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀: 由于傳統OCR技術是把單詞分割成一個個字母來識別的,所以對于這類連體字,OCR無法識別字母。有人想出了一個方案,直接讓OCR去識別一個個的單詞,但是,如何讓OCR掌握成千上萬的拉丁文單詞呢?大概需要一個排的中世紀拉丁文專家來辨認不同單詞的圖形。

這個 AI 認識中世紀手寫拉丁文

“以后青銅銘文也交給 AI 來識別好了!”

AI 識別文字已經不算是什么難事,但是如果字體是手寫,而且還是古文呢?

這似乎聽起來具有相當的難度!

梵蒂岡秘密檔案館(Vatican Secret Archives)可謂全球最偉大的歷史藏品之一,但其珍藏的許多文件從未轉錄。近日,一個名為 Codice Ratio 項目,利用人工智能光學字符識別(簡稱 OCR)軟件的組合重現這些被忽視的文本,并將其重新呈現在世人面前。

這座恢宏的建筑坐落在梵蒂岡城墻之內,毗鄰使徒圖書館、位于西斯廷大教堂北側,擁有著可追溯于1200年之前的總長達53英里的書架。除了將Martin Luther逐出教會的《教皇詔書》之外,其中還包括蘇格蘭瑪麗女王被處決之前發給教皇西克斯五世的函件。在規模與范圍方面,其中的收藏幾乎著稱無與倫比。

然而,梵蒂岡秘密檔案館對現代學者卻沒多大現實意義。因為在這長達53英里的書架當中,只有極少數書頁經過掃描以提供在線版本,這當中的一小部分轉錄為計算機文本以供內容搜索。如果我們打算閱讀其它任何內容,則必須申請特殊的訪問權限,一路前往羅馬,并親自動手翻開這些古籍。

傳統 OCR 技術只適用于經過嚴格排版的文字,而對于字母之間缺少間隔空間(即臟分割)的手寫卷宗形式則無法識別。對此, Codice Ratio 項目利用拼圖分割法將單詞理解為一種單筆筆劃,軟件只需要知曉哪些組塊代表真實的字母,而哪些只是連筆造成的假象即可。該軟件的手寫字母判斷準確率已經高達96%。如果成功,這項技術還將被用于處理世界各地其它歷史檔案庫當中數不勝數的其它記錄文件。

人工智能出擊:破解梵蒂岡神秘卷宗之謎

利用拼圖分割法讓 OCR 識別連體字

由于傳統OCR技術是把單詞分割成一個個字母來識別的,所以對于這類連體字,OCR無法識別字母。有人想出了一個方案,直接讓OCR去識別一個個的單詞,但是,如何讓OCR掌握成千上萬的拉丁文單詞呢?大概需要一個排的中世紀拉丁文專家來辨認不同單詞的圖形。

除了請專家辨認單詞外,還有更簡單的方法幫助OCR識別手寫字母,只要找實習生就可以搞定了。

我們知道,無論中文還是英文,連體字中粗的部分是筆畫,細的部分是筆尖移動造成的虛線,并不是筆畫的一部分。根據這個原則,In Codice Ratio的專家們發明了新的方法——拼圖分割法。拼圖分割法改變了傳統OCR把單詞分成字母的傳統方式,而是是把連在一起的單詞按照筆畫分隔開,在此之后,該軟件會進一步進行字母繪制,并最終生成以下一系列拼圖碎片:

這些拼圖碎片本身作用不大,但該軟件能夠將其通過多種方式組合起來以生成可能的字母。具體來講,軟件只需要知曉哪些組塊代表真實的字母,而哪些只是連筆造成的假象即可。

為了教會軟件這項能力,研究人員們選擇了不同尋常的導師——高中生。該團隊在意大利的24所學校當中招募了一批高中生用于建立項目的記憶庫。學生們在登錄相關網站后,會看到如下圖所示的三分屏幕界面:

人工智能出擊:破解梵蒂岡神秘卷宗之謎

之后,就要讓識別系統判斷對錯:識別出的字母,哪些是真正的字母,哪些是虛線的誤判。

通過一次次點擊,學生們努力教授該軟件如何識別22個中世紀拉丁字母(a-i,l-u,以及s與d的某些替代形式)。 22個中世紀拉丁文字母都學會之后,這個識別系統就成為了一個能認識手寫體中世紀拉丁文的AI。

當然,最終學生們也不再需要參與其中。當訓練進行到一定階段之后,該軟件即可獨立拼圖,并自行判斷字母的具體位置。這,正是人工智能的價值所在。

在另一方面,這也證明單靠拼圖碎片還不足以組合出正確的字母。計算機仍然需要額外的幫助才能破解手寫文本的秘密。想象一下,大家正在讀信,并在其中看到下面這句:

中間的單詞到底是“clear”還是“dear”?很難判斷,因為“d”與“cl”的筆畫構成實際上完全相同。OCR軟件也面臨著同樣的問題,特別是在處理高度風格化的文本時更是如此。以下圖為例:

在經過不同的拼圖組合之后,OCR認為可能的選項包括aimo、amio、aniio、aiino甚至是aiiiio。但這個詞實際上是anno,也就是拉丁語中的年。該軟件認準了a和o,但卻弄不清中間的四個豎到底該如何劃分。

為了解決這個問題,Codice Ratio團隊不得不為自己的軟件提供一些常識性的知識。他們建立起一套包含150萬個經過數字化的拉丁詞匯語料庫,并對其中的雙字母與三字母組合進行了檢查。通過這種方式,他們確定了哪些字母組合較為常見,而哪些永遠不會出現。通過將這些統計信息提供給OCR軟件,其能夠了解到不同字符串的具體出現概率,從而意識到nn比iiii的可能性高得多。

隨著這樣的改進,OCR終于能夠自行閱讀部分文本了。該團隊決定為其提供一些來自梵蒂岡秘密歸案館的資料。這是一份超過18000頁的檔案集合,其中包括寫給歐洲國王的信件、關于法律問題的裁決以及其它信件。

最初的結果有好有壞。在迄今為止的全部轉錄文本中,有三分之一文檔中包含一處或多處拼寫錯誤——意味著OCR作出了錯誤的判斷。然而,該軟件仍然帶來了高達96%的手寫字母判斷準確率。Merialdo表示,即使是“不完美的轉錄結果,亦可提供關于手稿內容及背景的大量有價值信息。”

經過對AI更專業的訓練后,它可以識別各大文明的古代文獻并電子化。

所以,為了給AI提升難度,青銅銘文了解一下?

梵蒂岡秘密檔案館(Vatican Secret Archives):由教皇保羅五世(Pope Paul V)主導創立,是歐洲教會中收藏檔案最豐富,最古老的檔案館。梵蒂岡秘密檔案館擁有著可追溯于1200年之前的總長達53英里的書架,其中保存著各種古籍、歷史事件檔案、教皇的私人信件以及一些有關超自然現象和神秘學的資料。梵蒂岡秘密檔案館收錄了許多重要史料,除了將 Martin Luther 逐出教會的《教皇詔書》之外,還包括蘇格蘭瑪麗女王被處決之前發給教皇西克斯五世的函件。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    35194

    瀏覽量

    280265
  • 人工智能
    +關注

    關注

    1807

    文章

    49035

    瀏覽量

    249757
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能
    發表于 07-14 11:23

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發展的當下,無論是探索未來職業方向,還是更新技術儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術研究的智能工具,大模型正在工作生活
    發表于 07-04 11:10

    是德科技如何破解人工智能的基礎設施困局

    人工智能正在改變世界。然而,它需要大量的處理能力。需求每 100 天翻一番,這推動了人工智能基礎設施的投資熱潮。
    的頭像 發表于 05-09 15:53 ?305次閱讀

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網,WiFi,USB 擴展/重力感應/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發表于 04-23 10:55

    嵌入式和人工智能究竟是什么關系?

    嵌入式和人工智能究竟是什么關系? 嵌入式系統是一種特殊的系統,它通常被嵌入到其他設備或機器中,以實現特定功能。嵌入式系統具有非常強的適應性和靈活性,能夠根據用戶需求進行定制化設計。它廣泛應用于各種
    發表于 11-14 16:39

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。在
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    周末收到一本新書,非常高興,也非常感謝平臺提供閱讀機會。 這是一本挺好的書,包裝精美,內容詳實,干活滿滿。 《AI for Science:人工智能驅動科學創新》這本書的第一章,作為整個著作的開篇
    發表于 10-14 09:12

    risc-v在人工智能圖像處理應用前景分析

    RISC-V在人工智能圖像處理領域的應用前景十分廣闊,這主要得益于其開源性、靈活性和低功耗等特點。以下是對RISC-V在人工智能圖像處理應用前景的詳細分析: 一、RISC-V的基本特點 RISC-V
    發表于 09-28 11:00

    人工智能ai 數電 模電 模擬集成電路原理 電路分析

    人工智能ai 數電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學 不過好像都是要學的
    發表于 09-26 15:24

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    ! 《AI for Science:人工智能驅動科學創新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家一起去了解: 人工智能究竟幫科學家做了什么? 人工智能將如何改變我們所生
    發表于 09-09 13:54

    人工智能從何而來

    當大家都在討論人工智能的時候,有一個問題似乎很少有人關注,即:人工智能從何而來?
    的頭像 發表于 09-06 09:27 ?1164次閱讀

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI

    8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產業博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能領域集產品
    發表于 08-22 15:00

    FPGA在人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)在人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速深度學習的訓練和推理過程。由于其高并行性和低延遲特性
    發表于 07-29 17:05
    主站蜘蛛池模板: 69精品在线 | 一级毛片一级毛片一级毛片aa | 鲁久久 | 成人国产三级在线播放 | 免费在线黄色网 | 色偷偷888欧美精品久久久 | 天天操欧美 | 婷婷丁香在线观看 | 国产一级特黄aaaa大片野外 | 欧美综合国产精品日韩一 | 三级理论手机在线观看视频 | 男操女免费视频 | 婷婷在线免费观看 | 国产欧美亚洲精品 | 日本视频一区在线观看免费 | 5x性区m免费毛片视频看看 | 亚洲bbb| 午夜小视频在线观看 | 亚洲综合色婷婷中文字幕 | 国产无套粉嫩白浆 | 永久免费观看午夜视频在线 | 欧美日韩中文字幕 | 国产成在线人视频免费视频 | 在线天堂中文字幕 | 91伊人久久大香线蕉 | 99热成人精品热久久669 | www亚洲免费 | 亚洲成在人 | 亚洲天堂二区 | 天天干在线影院 | bt天堂资源种子在线 | 国产精品一区电影 | 天堂在线中文字幕 | 黄色男人的天堂 | 天天做天天爱夜夜爽女人爽宅 | 一级特级aaaa毛片免费观看 | 久久影视免费体验区午夜啪啪 | 亚洲二区在线观看 | 亚洲xx网 | 国内精品一级毛片免费看 | 狠狠色噜噜狠狠狠狠狠色综合久久 |