很多時候,機器學習和人工智能像是在遠程、復雜的超級計算機上運行的高端技術(shù),以解決棘手的問題。然而最近,我有幸與一群了不起的工程師和科學家合作,共同開展了一個將人工智能融入日常生活的重大項目。
從2019年開始,在ML Commons的支持下成立了一個工作組,旨在通過創(chuàng)建大規(guī)模、多樣化和公開許可的語音數(shù)據(jù)集來增強并普及語音識別技術(shù)。迄今為止,該項目已經(jīng)產(chǎn)生了兩個頂級數(shù)據(jù)集,涵蓋了全球數(shù)十個語種。該小組的成員來自英特爾、哈佛大學、阿里巴巴、甲骨文、Landing AI、密歇根大學、谷歌、百度等。
介紹這些口語數(shù)據(jù)集的兩份白皮書——《人的語言》和《多語種口語語料庫》,已于12月7日舉辦的NeurIPS大會上發(fā)布。其中,《人的語言》主要針對“自動語音識別”任務;《多語種口語語料庫》則包含“關(guān)鍵詞識別”。這兩個項目的數(shù)據(jù)集都貢獻了大量豐富的音頻數(shù)據(jù),且每個數(shù)據(jù)集在同類中都擁有最大的可用體量。
這將會對人們的日常生活產(chǎn)生哪些影響?通過對這些數(shù)據(jù)集的訓練,計算機或其他設(shè)備可以“聽到”口頭語言并采取適當?shù)男袆樱珥憫脩舻牟樵兓蛏勺詣愚D(zhuǎn)錄文本。在當今多元化、國際化、多語言的工作環(huán)境中,準確轉(zhuǎn)錄和翻譯的能力愈發(fā)重要。
這兩個項目都運用了“多樣化語音”,這意味著它們更好地展現(xiàn)自然環(huán)境音,如背景噪音、非正式語言模式、錄音設(shè)備混音以及其他聲學環(huán)境等。這與諸如有聲讀物之類的高度受控的內(nèi)容不同,后者產(chǎn)生的聲音更加“純凈”。然而,在實際應用中,多樣化語音訓練有助于提高識別的準確性。
“人的語言”項目內(nèi)含數(shù)萬小時的對話音頻。如今,它是世界上最大的、可免費下載的、用于學術(shù)和商用的英語語音識別數(shù)據(jù)集之一。
“多語種口語語料庫”是一個音頻語音數(shù)據(jù)集,不僅擁有超過30萬個關(guān)鍵字的數(shù)十種語言,能夠通過智能設(shè)備訪問,還涵蓋了50多億用戶的日常對話,有助于推動全球范圍內(nèi)受眾語音應用的研發(fā)。
開發(fā)這些數(shù)據(jù)集的研究人員來自于一個跨越多個大洲的國際小組。多年來,我們每周通過電話會議會面,每個人都為項目貢獻特定專業(yè)知識。
這兩個數(shù)據(jù)集都將被研究人員和開發(fā)者廣泛使用,而且它們包括商用在內(nèi)的授權(quán)許可條款都相對較為寬松。適當開放授權(quán)的重要性被無意識地低估了,導致許多有應用前景的數(shù)據(jù)集在可用性和適用規(guī)模方面受到限制。
這兩個數(shù)據(jù)集將由MLCommons進行長期維護。MLCommons是一個由全球技術(shù)提供商、學者和研究人員組成的聯(lián)盟,而英特爾是聯(lián)盟的創(chuàng)始成員之一。
在語言的人工智能領(lǐng)域,這個項目是一個飛躍,同時它也為未來開啟了諸多可能性。未來,我期待與同事們繼續(xù)合作,將其推向新的階段。
原文標題:傾聽世界:人工智能的突破
文章出處:【微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
英特爾
+關(guān)注
關(guān)注
61文章
10192瀏覽量
174617 -
計算機
+關(guān)注
關(guān)注
19文章
7657瀏覽量
90723 -
人工智能
+關(guān)注
關(guān)注
1806文章
48987瀏覽量
249122
原文標題:傾聽世界:人工智能的突破
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能化

英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能化
云知學院攜手合作伙伴推動人工智能產(chǎn)業(yè)蓬勃發(fā)展
2025英特爾人工智能創(chuàng)新應用大賽正式啟動
嵌入式和人工智能究竟是什么關(guān)系?
英特爾2024全球影響力嘉年華,激發(fā)AI創(chuàng)新力量,讓技術(shù)更有溫度!

評論