?
國內開源代碼大模型
4月9日aiXcoder宣布正式開源其7B模型Base版,僅僅過去一個禮拜,aiXcoder-7B在軟件源代碼托管服務平臺GitHub上的Star數已超過2k。同時躋身HuggingFace趨勢榜單TOP30,令全球開發者矚目。
?
?
背后團隊
aiXcoder 團隊來自北京大學軟件工程研究所,2013就開始搞代碼生成,他們不但是國際上最早將深度學習技術用于程序代碼處理的團隊,也是最早推出基于深度學習的編程產品的團隊,從一開始他們就抓住并專注于代碼大模型這個前沿賽道。
團隊長期聚焦軟件工程、系統軟件、程序理解、程序生成、深度學習、可信人工智能等前沿領域,在多個國內外頂級會議與期刊發表相關論文100余篇,多篇被國際同行視為“首創成果”。
從學界最前沿的理論研究,到廣泛應用部署的商業實踐,aiXcoder致力于將前沿人工智能技術應用于軟件工程,聚焦代碼大模型的企業個性化落地技術,助力企業實現智能化開發,為未來商業落地打下堅實基礎。
?
發展歷史
2017年,aiXcoder最開始的雛形——aiXcoder1.0發布,提供代碼自動補全與搜索功能。
2021年4月,團隊推出完全自主知識產權的十億級參數代碼大模型aiXcoder L版,支持代碼補全和自然語言推薦。這也是國內?個基于“?模型”的智能編程商?產品。
2022年6月再次推出了國內首個支持方法級代碼生成的百億級參數量模型aiXcoder XL版,同樣具有完全自主知識產權。
2023年7月,aiXcoder團隊推出聚焦企業適配的aiXcoder Europa,具有代碼自動補全、代碼自動生成、代碼缺陷檢測與修復、單元測試自動生成等功能。aiXcoder Europa可根據企業數據安全和算力要求,為企業提供私有化部署和個性化訓練服務,有效降低代碼大模型的應用成本,提升研發效率。
2024年4月9日,aiXcoder-7B Base版誕生。
?
有何能耐
盡管aiXcoder只是一個7B大小的模型,但在HumanEval、MBPP和MultiPL-E等主流代碼生成評測集上,它平均得分居然超過340億參數的Codellama。要知道,后者來自Meta、基于Llama2,可是開源界最先進的AI編程大模型之作。
?
?
?
核心能力
代碼生成與補全的卓越性能
aiXcoder-7B模型在HumanEval、MBPP和MultiPL-E等主流評測集上的表現超越了參數規模更大的模型,這得益于其深度學習架構和大規模的訓練數據。它能夠生成和補全包括方法塊、條件判斷、循環處理、異常捕捉等多種代碼結構,大大提升了代碼編寫的效率。
測試顯示,在貼近真實開發場景的評測集CrossCodeEval上,aiXcoder-7B一舉拿下了同級別模型的最好效果:
?
企業級場景的深度定制與私有化部署
aiXcoder-7B模型支持企業根據自身的軟件開發框架和API庫進行個性化訓練,確保模型能夠理解并適應企業特定的代碼規范和業務邏輯。同時,模型的私有化部署能力,讓企業能夠在本地安全地使用模型,保護了企業的核心知識產權。
?
跨文件的智能分析與補全
aiXcoder-7B模型不僅理解單個文件的上下文,還能跨多個文件進行智能分析,這對于大型軟件項目尤為重要。模型能夠識別項目中不同文件的關聯,生成和補全代碼時考慮到整個項目的結構,提高了代碼的一致性和可維護性。
測試顯示,aiXcoder-7B Base版結合單文件上下文的代碼補全能力超越StarCoder2、CodeLlama等一眾模型,在Python、JS和Java語言上綜合得分最高。
?
持續的技術創新與優化
aiXcoder團隊在模型訓練中采用了創新的方法,如將代碼的抽象語法樹結構融入預訓練過程,顯著提升了模型對代碼語義和邏輯的理解能力。此外,團隊還構建了大規模的優質代碼語料庫,通過精心的數據預處理,確保了模型訓練的質量和效果。
?
應用案例
金融行業代碼生成應用
以正在進行數智化轉型的某行業頭部券商為例,該企業采用了aiXcoder的大模型解決方案,在本地環境私有化部署代碼大模型,并結合企業自身領域知識進行個性化訓練。結果顯示,在業務邏輯代碼上,代碼生成占比提升了2倍,顯著提高了開發效率。
?
跨文件動態規劃狀態類補全
在另一個案例中,aiXcoder-7B模型展現了其跨文件分析的能力。面對需要在樹結構上應用動態規劃的復雜任務,模型準確識別了不同文件間的邏輯關系,并給出了正確的預測結果,展現了其在處理復雜編程問題上的實力。
?
技術細節
訓練數據的構建與優化
aiXcoder-7B模型的訓練數據量達到了1.2T Unique Tokens,這一龐大的數據集經過了嚴格的語法分析和靜態分析,排除了常見的Bug和代碼缺陷,確保了模型訓練的高質量。
?
預訓練方法的創新
aiXcoder團隊在預訓練方法上進行了創新,將代碼的抽象語法樹結構融入到預訓練過程中,這一方法有效地提升了模型對代碼結構特征的捕捉能力,從而生成更高質量的代碼。
?
模型的個性化訓練技術
aiXcoder-7B模型的個性化訓練技術是其另一大亮點。通過構建企業專屬的數據集和測評集,結合企業代碼特征和員工編程習慣,模型能夠更好地適應企業的開發環境,實現更高效的個性化應用。
?
總結
在科技的璀璨星河中,每一次技術的突破都如同新星的誕生,照亮了未來的無限可能。隨著代碼大模型的能力日益增強,它們在解決復雜編程問題上的卓越表現,不僅在提高軟件開發的效率和質量上發揮著重要作用,在推動編程自動化的浪潮中扮演著關鍵角色,更激發了程序員們的創新潛能,讓他們能夠將更多的精力投入到探索和創造中。
aiXcoder-7B模型的出現,預示著軟件開發領域將迎來一場新的革命。隨著技術的不斷進步,aiXcoder-7B將成為軟件開發領域中的“新質生產力”,幫助企業實現智能化開發,推動技術行業的生態發展。
隨著代碼大模型不斷發展,不僅加速了軟件開發自動化的進程,更在重塑技術行業的生態,引領著未來發展的趨勢:加快實現軟件開發自動化。這既是行業大勢所趨,更是發展的必然選擇。榮幸的是,我們正站在這個轉折點面前,見證著這一趨勢的興起和實現。
作為一名IT技術人員,我對代碼大模型的未來發展充滿期待。它不僅解決了當前軟件開發中的多個痛點,更為大家展示了一個全新的編程未來。模型的不斷開源和企業級特性,將推動整個行業向更高效、更智能的方向發展。對于熱愛編程的人來說,不僅僅是一個工具,更是一個能夠激發創新、提升生產力的伙伴。讓我們一起期待并擁抱這場由AI引領的編程革命吧!
?
開源地址
https://github.com/aixcoder-plugin/aiXcoder-7B
https://gitee.com/aixcoder-model/aixcoder-7b
https://www.gitlink.org.cn/aixcoder/aixcoder-7b-model
感興趣的小伙伴可自行體驗,也可以等我后續的測試分享,讓我們一起支持國產開源大模型吧!
審核編輯 黃宇
-
人工智能
+關注
關注
1804文章
48781瀏覽量
246831 -
深度學習
+關注
關注
73文章
5555瀏覽量
122524 -
大模型
+關注
關注
2文章
3041瀏覽量
3855
發布評論請先 登錄
KaihongOS操作系統FA模型與Stage模型介紹
廣東龍芯LS2K500先鋒板使用介紹
詳細介紹CY7B991,CY7B992的信息及RoboClo
華為是5G革命性技術的先鋒
智能開源大模型baichuan-7B技術改進
Meta推出最新版AI代碼生成模型Code Llama70B
谷歌發布用于輔助編程的代碼大模型CodeGemma

對話aiXcoder總裁劉德欣:智能化軟件開發2.0時代,企業如何落地領域化大模型
Zyphra推出Zamba2-mini 1.2B模型
阿里云開源Qwen2.5-Coder代碼模型系列
阿里通義千問代碼模型全系列開源
獵戶星空發布Orion-MoE 8×7B大模型及AI數據寶AirDS
使用 QWQ:32B 模型搭配 VSCode 的 Cline 插件實現自動化代碼編程!

評論