李蓉 1,周美麗 2
(1.延安大學西安創新學院,陜西 西安 710100;2.延安大學,陜西 延安 716000)
摘要:在語言翻譯方面,人工翻譯的速度比較慢,越來越不能適應當前社會發展的快速需求。因此,需要有新技術代替人工翻譯,以開發 AI 為基礎,實現快速、準確、高效的機器翻譯。針對傳統機器自動翻譯系統在翻譯過程中準確率較低的問題,為了提高機器自動翻譯的速度和準確性,該文提出基于人工智能處理器設計的機器自動翻譯系統設計。通過客戶端結構設計和人工智能處理器設計,完成系統的硬件設計;依托句子相似度的計算和消除句子歧義,完成系統的軟件設計,從而實現機器自動翻譯系統的設計。測試結果表明,基于人工智能技術的機器自動翻譯系統,相比于基于文本庫的機器自動翻譯系統,在句子翻譯速度和準確率方面都有所提高。
中圖分類號:TN915?34;TP391? ?文獻標識碼:A
文章編號:1004?373X(2022)02?0183?04
0 引 言
如今即使手工翻譯可以完整地將原文表達出來,但是隨著文獻資源的增多,人工翻譯的速度變得越來越慢。機器自動翻譯是加快文本翻譯的重要手段,機器自動翻譯分為基于文本庫和基于翻譯規則,基于文本庫的機器自動翻譯需要大量的文本資源來構建文本信息資源庫,而且文本資源在組成資源庫時經常出現文本數據密集和稀疏的問題,在翻譯少見詞匯時缺乏精準度[1];基于翻譯規則的機器自動翻譯可以將文本內容清楚地描述出來,但是規則庫的構建存在一定難度,翻譯時很難達到較好的翻譯成果[2]。基于上述兩種翻譯系統存在的問題,本文將人工智能技術應用到機器自動翻譯系統設計中。機器自動翻譯的主要目的就是消除歧義語句,針對一個詞語,在不用的語境下會被翻譯成不同的意思,因此在人工智能技術的基礎上,讓機器在不同的語境條件下,自動找到該詞語的真正對應的意思是機器翻譯亟需解決的關鍵問題。機器自動翻譯系統的文本翻譯質量雖然還沒有達到人工翻譯的程度,但是如今已經在社會上的各個鄰域都得到了廣泛的應用[3]。機器自動翻譯系統作為人工翻譯的補充和修正,在一定條件下可以提高翻譯人員的工作效率,并提高了翻譯的準確度,早已經成為翻譯人員的得力助手。現如今,各個民族和國家之間的文化交流比較頻繁,語言上的不通已經成為阻礙民族與民族之間、國家與國家之間溝通的障礙[4],為了促進文化知識的溝通和交流,在人工智能技術的基礎上,設計機器自動翻譯系統對國家和民族的發展有著積極作用。
1 大學人力資源管理系統硬件設計
1.1 客戶端結構設計
客戶端結構設計可以讓用戶通過上傳圖片來獲取翻譯內容,省去了用戶打字的時間,提高了翻譯的速度和準確率。用戶可以選擇通過手機拍照軟件,來捕獲需要翻譯的文字內容,以圖片的形式將翻譯內容上傳到云端服務器[5];還可以直接從本機圖庫中選擇提前拍攝好的文字圖片,再將圖片上傳到云端服務器,并在翻譯系統的設置選項中,完成攝像頭的對焦和閃光設置,在用戶需求的情況下,還要設置需要識別的語言。然后將選擇好的圖片利用HTTP協議上傳到系統云端服務器,并由部署在云端服務器上的OCR軟件,將圖片識別成可以進行編輯的文本內容[6]。通過調用Google翻譯來執行翻譯工作,最終將識別出來的源語言文本內容翻譯出目標語言文本內容,并將目標語言文本內容返回給客戶端。用戶可以對客戶端接收的源語言文本內容以及目標語言文本內容進行相應的編輯操作,或者對文本內容中感興趣的部分在互聯網上搜索[7]。客戶端工作流程示意圖如圖1所示。
結合客戶端的需求分析和工作流程,可以將客戶端的功能分為圖片保存、拍照、圖片編輯、在線搜索、設置語言類型、翻譯文本保存等。客戶端的功能結構見圖2。
以縮短用戶獲取目標翻譯本文的時間、提高翻譯準確性為目的,對采集到的文本內容進行簡單處理,并向服務器發送翻譯請求,將采集到的圖片信息傳輸給服務器,完成客戶端的結構設計。
1.2 人工智能處理器設計
在服務端的所有組件中,人工智能處理屬于計算密集型的處理器,也是整個系統應用性能的瓶頸。因此,需要多臺人工智能處理器并行處理用戶的服務請求,人工智能處理器的數量是根據用戶請求的數量確定的,處理器數量越多,翻譯的速度就越快。人工智能技術作用于包含待識別文本信息的數字圖像,預處理數字圖像后,利用文本信息的定位、分割和提取算法,將待識別的文本信息提取出來[8],通過模式識別算法完成提取文本信息形態特征的分析,最后得到目標文本信息的標準編碼,將結果輸出[9]。人工智能處理流程如圖 3所示。
人工智能處理器的功能實現是基于Tesseract?OCR2.3,它是一個在實驗室內開發的人工智能引擎,谷歌對Tesseract?OCR2.3進行了優化,使得它已經成為人工智能領域中精度最高的開源引擎,可以支持中文,使用命令行方式調用[10]。人工智能處理器的結構如圖4所示。
基于用戶需求分析,設計客戶端的工作流程,結合客戶端的需求分析,完成客戶端的結構設計;利用人工智能技術確定人工智能處理流程,通過人工智能處理的實現,完成人工智能處理器的結構設計,從而實現系統的硬件設計。
2 大學人力資源管理系統軟件設計
2.1 計算句子相似度
句子相似度算法先根據詞性特性對相似的句子進行粗選,然后進一步精細選擇,再計算句子的相似度。該方法雖然考慮句子中每一個詞的詞頻特征,也對詞語賦予了不同的權值,但是缺乏詞語黏著性,造成長句子或者詞頻低的句子相似度的計算偏差大[11],反而降低了系統的翻譯速度。計算句子相似度時先利用倒排索引文件獲取句子的編號,利用編號得到將要計算的句子內容[12]。相似度計算流程如圖5所示。
根據句子相似度計算流程,將已經選擇好的n個句子相似度計算結果上傳到相似句子組合模塊中[13],句子相似度計算公式為:
式中:Words(A)表示輸入句子A的單詞集合;Wordsi(A)表示單詞集合中的第i個元素;Len ( )表示字符串長度;Sim Word(A,B)表示詞形相似度。詞形相似度計算可以提高句子翻譯的質量。
2.2 消除句子歧義
句子歧義的消除可以提高機器自動翻譯的準確性,實現機器自動翻譯。一方面是由詞性引起的歧義,同一個單詞可能會具有不同的詞性,也使得翻譯出來的意思不同[14];另一方面是由于同一個單詞在不同的語境中,翻譯出來的意思也是不同的。針對消除由詞性引起的句子歧義,先分清單詞的詞性,本文利用上文計算的相似度對單詞進行詞性標注,根據標注后的詞性確定該單詞在句子中的實際含義,消除了歧義,完成整句翻譯[15]。針對語境不同引起的句子歧義,需要利用本體來消除歧義,首先遍歷所要翻譯的句子,將每一個單詞在領域詞典中查找,如果可以在詞典中查找到,就可以認為該詞在特殊詞義領域內,可以賦予其特定的含義,這樣就完成了歧義消除,實現機器自動翻譯。綜上所述,依托客戶端的結構設計和人工智能處理器設計,完成了系統的硬件設計;基于句子相似度的計算和歧義的消除,完成了系統的軟件設計,從而實現了機器自動翻譯系統的設計。
3 仿真測試 3.1 測試方法及步驟分析 ? 為了驗證基于人工智能技術的機器自動翻譯系統的有效性,本文對常見的英文句型進行了測試。系統在測試時從句子資源庫中隨機抽取了50個句子進行翻譯測試。測試的步驟如下:
1)選擇待翻譯句子,如:Foxen is a famous winery.
2)標注每一個單詞的詞性并將詞型還原,分清句子中每一個單詞的具體類型以及單詞的原型,如表1所示。
3)消除歧義。在本體詞典中,Foxen 和 winery 都會出現,而單詞 Foxen是單詞 winery的一個個體,因此完全可以認為兩個單詞都存在于詞語資源庫中。
4)得到對應的漢語詞匯,如表2所示。
5)句法分析。利用人工智能技術構建語法樹,如圖6所示。
6)選擇句子翻譯模板。通過分析句子語法樹得出,待翻譯句子是由“名詞+動詞+名詞”組成,而在動詞方面選擇的是系動詞,構成了“主系表”結構,語序與英文一致,因此可以直接翻譯。
7)得出翻譯結果。
3.2 實驗結果分析
利用上述的實驗方法和步驟,得到下列實驗結果,如圖7所示。
從實驗結果中可以得出,相同時間內,基于文本庫的機器自動翻譯系統在翻譯句子時,只能翻譯出兩個英語單詞,且在翻譯準確率方面,也會出現翻譯不完全的現象;而基于人工智能技術的機器自動翻譯系統在翻譯句子時,可以將整個句子完整地翻譯出來,不會丟下任何一個簡單或復雜的單詞,且在翻譯準確率方面,可以將整個句子準確地翻譯出來。因此可以得出基于人工智能技術的機器自動翻譯系統,相比于基于文本庫的機器自動翻譯系統具有較快的翻譯速度和較高的準確度。
4 結 語
本文提出基于人工智能技術的機器自動翻譯系統設計。依托機器自動翻譯系統的硬件設計和軟件設計,實現了本文的研究。結果表明,基于人工智能技術的機器自動翻譯系統,相比于基于文本庫的機器自動翻譯系統在句子翻譯速度和準確率方面都有所提高。希望本文的研究可以為基于人工智能技術的機器自動翻譯系統設計提供理論依據。
參 考 文 獻
[1] 羅華珍,潘正芹,易永忠 . 人工智能翻譯的發展現狀與前景分析[J].電子世界,2017(21):21?23.
[2] 邢蕾 .英漢機器翻譯中譯文自動生成系統設計[J].現代電子技術,2018,41(24):86?89.
[3] 張睿 .基于短語相似度的統計機器翻譯系統設計[J].自動化與儀器儀表,2017(8):66?67.
[4] 鄭錦龍,林國銘,孫永 . 穿戴式手語識別翻譯系統[J]. 通訊世界,2017(7):238?239.
[5] 張勝剛,艾山·吾買爾,吐爾根·依布拉音,等 .基于神經網絡的維漢翻譯系統實現[J].現代電子技術,2018,41(24):157?161.
[6] 劉洋 .神經機器翻譯前沿進展[J].計算機研究與發展,2017,54(6):1144?1149.
[7] 艷萍 . 淺談氣象服務產品漢蒙自動翻譯系統[J]. 文存閱刊,2018(4):191.
[8] 梁亞敏,梁利利 .基于智能手機的英語輔助翻譯學習系統構建[J].自動化與儀器儀表,2018(8):142?144.
[9] 黃政豪,崔榮一 .基于術語自動抽取的科技文獻翻譯輔助系統的設計[J].延邊大學學報(自然科學版),2017,43(3):259?263.
[10] 徐英卓,賈歡 .基于樹結構的本體概念相似度計算方法[J].計算機系統應用,2017,26(3):275?279.
[11] 李峰,侯加英,曾榮仁,等 . 融合詞向量的多特征句子相似度計算方法研究[J].計算機科學與探索,2017,11(4):608?618.
[12] 彭琦,朱新華,陳意山,等 . 基于信息內容的詞林詞語相似度計算[J].計算機應用研究,2018,35(2):400?404.
[13] 熊明明,李英,郭劍毅,等 .基于 CRFs和歧義模型的越南語分詞[J].數據采集與處理,2017,32(3):636?642.
[14] 熊明明,劉艷超,郭劍毅,等 . 基于最大熵模型的越南語交叉歧義消解[J].中文信息學報,2017,31(4):63?69.
[15] 余倩 . 基于特征提取算法的交互式英漢翻譯系統設計[J]. 現代電子技術,2018,41(4):161?163.
作者簡介: 李??蓉(1983—),女,陜西西安人,碩士,講師,主要研究方向為計算機應用、翻譯系統設計。 周美麗(1981—),女,陜西橫山人,碩士研究生,副教授,主要從事信號檢測、圖像處理等方面的研究工作。
編輯:黃飛
?
評論