訓練方法與推理策略 性能評測體系 現存挑戰與未來方向 綜述的完整目錄如下: 多模態的 Tokeniz....
自 Hinton 等人的開創性工作以來,基于 Kullback-Leibler 散度(KL-Div)....
近日,中國電信翼支付針對大模型推理加速的最新研究成果《Falcon: Faster and Para....
? 論文標題:Universal Domain Adaptive Object Detection ....
? 背景簡介 隨著圖像編輯工具和圖像生成技術的快速發展,圖像處理變得非常方便。然而圖像在經過處理后不....
在人工智能領域,目前有很多工作采用自回歸方法來模擬或是替代擴散模型,其中視覺自回歸建模(Visual....
本文分享香港大學計算和數據科學學院俞益洲教授及其研究團隊發表于 AAAI 2025 的論文——Spa....
圖像復原又來新突破了!還記得性能超越SwinIR(基于Transformer)的MambaIR嗎?一....
GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮,目前諸多工作開始研究如何利用 LLM 來實現端....
背景介紹 本文是基于我們之前的 RPN(Reconciled Polynomial Network)....
在 AI 領域,近期的新聞焦點無疑是關于「Scaling Law 是否撞墻?」的辯論。這一曾經被視作....
隨著擴散生成模型的發展,人工智能步入了屬于?AIGC?的新紀元。擴散生成模型可以對初始高斯噪聲進行逐....
本文簡要介紹了經典圖神經網絡(GNNs)的基準分析研究,發表在 NeurIPS 2024。 文章回顧....
大模型應用開卷,連一向保守的蘋果,都已釋放出發展端側大模型的信號。 問題是,大語言模型(LLM)卓越....
可遷移的推薦系統 (TransRec) 通常包含一個用戶編碼器和一個或多個基于模態的物品編碼器,其中....
用大模型解決困擾數學家60多年的問題,谷歌DeepMind最新成果再登 Nature。 作者之一、谷....
想將一份文檔圖片轉換成 Markdown 格式?以往這一任務需要文本識別、布局檢測和排序、公式表格處....
在這篇 NeurIPS23 論文中,來自魯汶大學、新加坡國立大學和中科院自動化所的研究者提出了一種視....
這篇是 ICLR 上用 TCN 來做一般的時間序列分析的論文,在 Rebuttal 之后的分數為 8....
除了模仿人類說話、寫作、寫代碼,大模型還能用來發現新知識。 作為今年 AI 圈的頂流,大型語言模型(....
機器學習模型依賴于批處理(Batching)來提高推斷吞吐量,尤其是對于 ResNet 和 Dens....
由于本文以大語言模型 RLHF 的 PPO 算法為主,所以希望你在閱讀前先弄明白大語言模型 RLHF....
從理論分析入手把握大規模神經網絡優化的規律,可以指導實踐中的超參數選擇。反過來,實踐中的超參數選擇也....
正是包括兩位菲爾茲獎獲得者在內四位數學家的堅持,才得以證明了一個堪稱「加性組合學圣杯」的猜想,其中 ....
2023年11月18日CCF YOCSEF太原在太原理工大學明向校區信計學院北樓一層會議室舉辦“衛星....
研究者表示,CoDi-2 標志著在開發全面的多模態基礎模型領域取得了重大突破。 今年 5 月,北卡羅....
論文鏈接:? https://arxiv.org/abs/2305.10299 代碼鏈接1: htt....
AI Agents 是當下大模型領域備受關注的話題,用戶可以引入多個扮演不同角色的 LLM Agen....
本文介紹了一項近似注意力機制新研究,耶魯大學、谷歌研究院等機構提出了 HyperAttention,....
你的測試集信息在訓練集中泄漏了嗎? 一個參數量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖....