阿布扎比先進技術研究委員會旗下的全球研究中心和應用研究支柱部門技術創新研究所(TII)今天宣布推出NOOR語言處理模型,這是迄今為止全球規模居首的阿拉伯語自然語言處理(NLP)模型。
TII的高級研究人員和人工智能專家團隊與LightOn聯手,對這個阿拉伯語NLP模型進行了改進。LightOn是一家專為企業提供超大規模機器智能的技術公司。NOOR模型能夠執行超出語言領域的任務,可提供覆蓋整個端到端處理管道的高質量數據,包括大規模數據抓取、過濾和管理。該模型可促進超大規模數據的分布式訓練和服務,基于該模型的應用具有高效推理能力,并可針對特定領域進行模型調整。
TII和ASPIRE首席執行官Ray O. Johnson博士表示:“這一進展將大幅提升我們的研究能力和資質,并提升阿布扎比和阿聯酋作為重要研究生態系統的地位。我們的專家團隊再次證明,阿布扎比和阿聯酋地區可以取得具有世界影響力的、突破性的研發成果。”
TII人工智能跨學科中心部門主任Ebtesam Almazrouei博士表示:“在自然語言處理領域,大型語言模型不斷涌現。能推出這個擁有100億個參數的先進模型,我們感到很自豪。這是全球規模居首的阿拉伯語NLP模型。為訓練該模型,我們采集了一套獨一無二的大型阿拉伯語數據集。相關工作歷經數月時間,包括對各種來源數據的整理、剔除和過濾。在此特別感謝參與該項目的整個團隊,他們使NOOR成為世界各地學者和企業首選的阿拉伯語研究模型?!?/p>
TII數字科學研究中心和人工智能跨學科中心部門首席研究員Mérouane Debbah教授在發布會上表示:“通過NOOR,TII利用在大型語言模型方面的專有技術,擴大了現代標準阿拉伯語模型的范圍,以在新一代人工智能研究中建立跨學科的先進專長。”
NOOR擁有超過300億字的獨特數據集,涵蓋網絡數據、書籍、詩歌、新聞文章和技術信息等來源,從而打造出全球規模居首的高質量跨領域阿拉伯語數據集,并大幅拓寬了該模型的適用范圍。
Ebtesam Almazrouei博士表示,NOOR模型基于流行的Transformer架構,僅包含解碼器,結構與GPT-3相似,其設計旨在處理生成類任務。經過升級的架構引入了機器學習領域的最新發展,包括更好的位置嵌入等改進。為確保NOOR大規模數據集的質量,TII團隊設計了一個基于機器學習技術的自動過濾管道。相關工具可以識別優質參考文本,并保障模型不受垃圾內容污染。
NOOR利用先進的3D并行技術,在配備128個A100 GPU的高性能計算資源上進行了訓練,該過程采用分布式計算模式,能夠確保有效利用可用的硬件資源。
人工智能跨學科中心部門主任指出,NOOR只是該部門努力為更廣泛的阿聯酋人工智能戰略做出貢獻的第一步。
該模型以阿拉伯語中的“光”命名,以體現模型旨在啟迪人類智慧的宗旨。
審核編輯:湯梓紅
-
人工智能
+關注
關注
1806文章
48987瀏覽量
249030 -
模型
+關注
關注
1文章
3516瀏覽量
50361 -
自然語言處理
+關注
關注
1文章
628瀏覽量
14144
發布評論請先 登錄
沙特阿拉伯新能源整車認證

評論