構造instruction data非常耗時耗力,常受限于質量,多樣性,創造性,阻礙了instruc....
近年來,大規模深度神經網絡的顯著成就徹底改變了人工智能領域,在各種任務和領域展示了前所未有的性能。
今天我們要講的文本生成是現在最流行的研究領域之一。文本生成的目標是讓計算機像人類一樣學會表達,目前看....
在主要評估LLM模型中文能力的 C-Eval 榜單中,截至6月25日 ChatGLM2 模型以 71....
基于 transformer 的編碼器-解碼器模型是 表征學習 和 模型架構 這兩個領域多年研究成果....
? 因果推理是人類智力的標志之一。因果關系NLP領域近年來引起了人們的極大興趣,但其主要依賴于從常識....
我們主要用一個具體的例子展示如何在兩個框架下做RLHF,并且記錄下訓練過程中我們踩到的主要的坑。這個....
網友表示,「澄清問題」是真正使GPT-Engineer脫穎而出的原因,因為修復生成代碼中的問題往往比....
Prompt Tuning 可以讓預訓練的語言模型快速適應下游任務。雖然有研究證明:當訓練數據足夠多....
baichuan-7B 主要是參考LLaMA進行的改進,且模型架構與LLaMA一致。而在開源大模型中....
除了各類開源模型外,還有GPT-4、PaLM 2等眾多「閉源」模型,甚至還開設了一個「準中文」排行榜....
基于 transformer 的編碼器-解碼器模型是 表征學習 和 模型架構 這兩個領域多年研究成果....
由于在生成長文本的數據集上,Flan-PaLM和臨床醫生的結果顯示出一定gap。本文提出了使用Ins....
AGIEval評測基準由微軟研究院發起,旨在全面評估基礎模型在人類認知和問題解決相關任務上的能力,包....
相隔 20 多年的時間再回頭看,我比較得意的一件事就是,1996 年我給聯想的總裁辦做了一次匯報,說....
? 今天為大家分享一篇研究,當ChatGPT穿越到口袋妖怪世界,是否會理解并應用這個虛構世界的知識呢....
為了找到NMT模型的潛在缺陷,構建更加可解釋的知識庫,我們提出以局部準確性這一新概念作為分析角度。其....
神經網絡包含很多全連接層,其借助于矩陣乘法得以實現,然而,很多全連接層的權重矩陣都是滿秩的。
句向量技術是將連續的文本轉化為固定長度的稠密向量,將句子映射到同一個向量空間中
? Vaswani 等人在其名作 Attention is all you need 中首創了?基于....
年初,谷歌推出了音樂生成大模型 MusicLM,效果非常不錯。有人稱這比大火的 ChatGPT 還重....
如何將ChatGPT的能力蒸餾到另一個大模型,是當前許多大模型研發的研發范式。當前許多模型都是采用c....
最近,在語言模型領域取得了巨大的進展,部分是因為它們可以通過In-Context- Learning....
在推理階段,計算一個矩陣,該矩陣包含表示成對比較結果的logits。給定該矩陣,可以推斷給定輸入x的....
在本文中我們將對QLoRA的基本原理進行介紹,并且在Firefly項目中進行實踐。我們在bloom-....
這項研究提出的思想和發現為可持續高效地使用 LLM 奠定了基礎。如果能夠在不增加預算的情況下采用更高....
本文首先詳細介紹Transformer的基本結構,然后再通過GPT、BERT、MT-DNN以及GPT....
為了實現日常目標,人們通常會根據逐步指令來計劃自己的行動。這些指令被發現是目標導向的腳本,包括一組達....
在當前低資源的語言基準上(如FLORES-200)改進機器翻譯性能。針對資源極低的語言,可以利用圣經....
自動測試分數達到 ChatGPT的99.3%,人類難以分辨 兩者的回答…… 這是開源大模型最新成果,....