BigCode 是一個(gè)開放的科學(xué)合作組織,致力于開發(fā)大型語言模型。
近日他們開源了一個(gè)名為 SantaCoder 的語言模型,該模型擁有 11 億個(gè)參數(shù),可以用于 Python、Java 和 JavaScript 這幾種編程語言的代碼生成和補(bǔ)全建議。
根據(jù)官方提供的信息,訓(xùn)練 SantaCoder 的基礎(chǔ)是 The Stack(v1.1)數(shù)據(jù)集,SantaCoder 雖然規(guī)模相對(duì)較小,只有 11 億個(gè)參數(shù),在參數(shù)的絕對(duì)數(shù)量上低于 InCoder(67 億)或 CodeGen-multi(27 億),但 SantaCoder 的表現(xiàn)則是要遠(yuǎn)好于這些大型多語言模型。
不過也正是參數(shù)遠(yuǎn)遠(yuǎn)不及 GPT-3 等參數(shù)超過千億級(jí)別的超大型語言模型,SantaCoder 適用的編程語言范圍也比較有限,僅支持 Python、Java 和 JavaScript 三種語言。
為了照顧用戶隱私和保證訓(xùn)練質(zhì)量,在訓(xùn)練模型之前,BigCode 注釋了 400 個(gè)樣本,并建立和不斷完善 RegEx 規(guī)則,以便在訓(xùn)練前從數(shù)據(jù)集的代碼中刪除諸如電子郵件地址、密鑰和 IP 地址等敏感信息。
為了讓開發(fā)者可以放心使用 SantaCoder 生成的代碼,BigCode 推出了Dataset Search搜索工具。
通過這個(gè)工具,開發(fā)者可以找出代碼的來源,以便在 SantaCoder 產(chǎn)生的代碼屬于某一個(gè)項(xiàng)目的情況下,用戶能夠遵守相應(yīng)的許可要求。
此外,BigCode 還推出了「Am I in The Stack?」工具,開發(fā)者可以檢查自己名下的倉庫是否是訓(xùn)練數(shù)據(jù)集的一部分,可以將自己的開源倉庫從數(shù)據(jù)集中刪除。
BigCode 目前已經(jīng)在 Huggingface 網(wǎng)站中提供了 SantaCoder 演示。
審核編輯:劉清
-
JAVA語言
+關(guān)注
關(guān)注
0文章
138瀏覽量
20686 -
javascript
+關(guān)注
關(guān)注
0文章
525瀏覽量
54770 -
python
+關(guān)注
關(guān)注
56文章
4827瀏覽量
86658 -
GPT
+關(guān)注
關(guān)注
0文章
368瀏覽量
16070
原文標(biāo)題:BigCode開源輕量級(jí)語言模型,僅支持Python、JS和Java
文章出處:【微信號(hào):OSC開源社區(qū),微信公眾號(hào):OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
輕量級(jí)Java表達(dá)式引擎aviator的基本使用
輕量級(jí)Agent平臺(tái)怎么測試?
輕量級(jí)的ui框架如何去制作
后端選擇 java, 還是 python?
適用于Java的嵌入式腳本語言是什么
Lite Actor:方舟Actor并發(fā)模型的輕量級(jí)優(yōu)化
最流行的編程語言java,python

基于YOLO改進(jìn)的輕量級(jí)交通標(biāo)識(shí)檢測模型

一款適合初學(xué)者超輕量級(jí)C語言網(wǎng)絡(luò)庫—Dyad

評(píng)論