在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

寫給小白的大模型入門科普

穎脈Imgtec ? 2024-11-23 01:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

什么是大模型?

大模型,英文名叫Large Model,大型模型。早期的時候,也叫Foundation Model,基礎模型。


大模型是一個簡稱。完整的叫法,應該是“人工智能預訓練大模型”。預訓練,是一項技術,我們后面再解釋。

我們現在口頭上常說的大模型,實際上特指大模型的其中一類,也是用得最多的一類——語言大模型(LargeLanguage Model,也叫大語言模型,簡稱LLM)。

除了語言大模型之外,還有視覺大模型、多模態大模型等。現在,包括所有類別在內的大模型合集,被稱為廣義的大模型。而語言大模型,被稱為狹義的大模型。

241da10c-a8f4-11ef-8084-92fbcf53809c.png

從本質來說,大模型,是包含超大規模參數(通常在十億個以上)的神經網絡模型。

之前給大家科普人工智能(鏈接)的時候,小棗君介紹過,神經網絡是人工智能領域目前最基礎的計算模型。它通過模擬大腦中神經元的連接方式,能夠從輸入數據中學習并生成有用的輸出。

2425f866-a8f4-11ef-8084-92fbcf53809c.png

這是一個全連接神經網絡(每層神經元與下一層的所有神經元都有連接),包括1個輸入層,N個隱藏層,1個輸出層。


大名鼎鼎的卷積神經網絡(CNN)、循環神經網絡(RNN)、長短時記憶網絡(LSTM)以及transformer架構,都屬于神經網絡模型。

目前,業界大部分的大模型,都采用了transformer架構。


剛才提到,大模型包含了超大規模參數。實際上,大模型的“大”,不僅是參數規模大,還包括:架構規模大、訓練數據大、算力需求大。


以OpenAI公司的GPT-3為例。這個大模型的隱藏層一共有96層,每層的神經元數量達到2048個。


整個架構的規模就很大(我可畫不出來),神經元節點數量很多。


大模型的參數數量和神經元節點數有一定的關系。簡單來說,神經元節點數越多,參數也就越多。例如,GPT-3的參數數量,大約是1750億。


大模型的訓練數據,也是非常龐大的。


同樣以GPT-3為例,采用了45TB的文本數據進行訓練。即便是清洗之后,也有570GB。具體來說,包括CC數據集(4千億詞)+WebText2(190億詞)+BookCorpus(670億詞)+維基百科(30億詞),絕對堪稱海量。


最后是算力需求。


這個大家應該都聽說過,訓練大模型,需要大量的GPU算卡資源。而且,每次訓練,都需要很長的時間。


根據公開的數據顯示,訓練GPT-3大約需要3640PFLOP·天(PetaFLOP·Days)。如果采用512張英偉達的A100 GPU(單卡算力195 TFLOPS),大約需要1個月的時間。訓練過程中,有時候還會出現中斷,實際時間會更長。


總而言之,大模型就是一個虛擬的龐然大物,架構復雜、參數龐大、依賴海量數據,且非常燒錢。

相比之下,參數較少(百萬級以下)、層數較淺的模型,是小模型。小模型具有輕量級、高效率、易于部署等優點,適用于數據量較小、計算資源有限的垂直領域場景。



大模型是如何訓練出來的?

接下來,我們了解一下大模型的訓練過程。

大家都知道,大模型可以通過對海量數據的學習,吸收數據里面的“知識”。然后,再對知識進行運用,例如回答問題、創造內容等。

學習的過程,我們稱之為訓練。運用的過程,則稱之為推理。

242faef6-a8f4-11ef-8084-92fbcf53809c.jpg

訓練,又分為預訓練(Pre-trained)和微調(Fine tuning)兩個環節。

  • 預訓練

在預訓練時,我們首先要選擇一個大模型框架,例如transformer。然后,通過“投喂”前面說的海量數據,讓大模型學習到通用的特征表示。

那么,為什么大模型能夠具有這么強大的學習能力?為什么說它的參數越多,學習能力就越強?

我們可以參考MIT(麻省理工)公開課的一張圖:

243713c6-a8f4-11ef-8084-92fbcf53809c.jpg

這張圖是深度學習模型中一個神經元的結構圖。

神經元的處理過程,其實就是一個函數計算過程。算式中,x是輸入,y是輸出。預訓練,就是通過x和y,求解W。W是算式中的“權重(weights)”。

權重決定了輸入特征對模型輸出的影響程度。通過反復訓練來獲得權重,這就是訓練的意義。


權重是最主要的參數類別之一。除了權重之外,還有另一個重要的參數類別——偏置(biases)。


243b4b26-a8f4-11ef-8084-92fbcf53809c.png

參數有很多種類


權重決定了輸入信號對神經元的影響程度,而偏置則可以理解為神經元的“容忍度”,即神經元對輸入信號的敏感程度。


簡單來說,預訓練的過程,就是通過對數據的輸入和輸出,去反復“推算”最合理的權重和偏置(也就是參數)。訓練完成后,這些參數會被保存,以便模型的后續使用或部署。


參數越多,模型通常能夠學習到更復雜的模式和特征,從而在各種任務上表現出更強的性能。


我們通常會說大模型具有兩個特征能力——涌現能力泛化能力


當模型的訓練數據和參數不斷擴大,直到達到一定的臨界規模后,會表現出一些未能預測的、更復雜的能力和特性。模型能夠從原始訓練數據中,自動學習并發現新的、更高層次的特征和模式。這種能力,被稱為“涌現能力”。


“涌現能力”,可以理解為大模型的腦子突然“開竅”了,不再僅僅是復述知識,而是能夠理解知識,并且能夠發散思維。


泛化能力,是指大模型通過“投喂”海量數據,可以學習復雜的模式和特征,可以對未見過的數據做出準確的預測。


簡單來說,就像董宇輝一樣,書讀得多了,有些書雖然沒讀過,他也能瞎掰幾句。


參數規模越來越大,雖然能讓大模型變得更強,但是也會帶來更龐大的資源消耗,甚至可能增加“過擬合”的風險。


過擬合,是指模型對訓練數據學習得過于精確,以至于它開始捕捉并反映訓練數據中的噪聲和細節,而不是數據的總體趨勢或規律。說白了,就是大模型變成了“書呆子”,只會死記硬背,不愿意融會貫通。


預訓練所使用的數據,我們也需要再說明一下。

預訓練使用的數據,是海量的未標注數據(幾十TB)。

之所以使用未標注數據,是因為互聯網上存在大量的此類數據,很容易獲取。而標注數據(基本上靠人肉標注)需要消耗大量的時間和金錢,成本太高。

預訓練模型,可以通過無監督學習方法(如自編碼器、生成對抗網絡、掩碼語言建模、對比學習等,大家可以另行了解),從未標注數據中,學習到數據的通用特征和表示。

這些數據,也不是隨便網上下載得來的。整個數據需要經過收集、清洗、脫敏和分類等過程。這樣可以去除異常數據和錯誤數據,還能刪除隱私數據,讓數據更加標準化,有利于后面的訓練過程。

獲取數據的方式,也是多樣化的。


如果是個人和學術研究,可以通過一些官方論壇、開源數據庫或者研究機構獲取。如果是企業,既可以自行收集和處理,也可以直接通過外部渠道(市場上有專門的數據提供商)購買。


  • 微調


預訓練學習之后,我們就得到了一個通用大模型。這種模型一般不能直接拿來用,因為它在完成特定任務時往往表現不佳。


這時,我們需要對模型進行微調。


微調,是給大模型提供特定領域的標注數據集,對預訓練的模型參數進行微小的調整,讓模型更好的完成特定任務。


243f6468-a8f4-11ef-8084-92fbcf53809c.png

行業數據類別

微調之后的大模型,可以稱之為行業大模型。例如,通過基于金融證券數據集的微調,可以得到一個金融證券大模型。


如果再基于更細分的專業領域進行微調,就是專業大模型(也叫垂直大模型)。


我們可以把通用大模型理解為中小學生,行業大模型是大學本科生,專業大模型是研究生。


244b08e0-a8f4-11ef-8084-92fbcf53809c.png

微調階段,由于數據量遠小于預訓練階段,所以對算力需求小很多。


大家注意,對于大部分大模型廠商來說,他們一般只做預訓練,不做微調。而對于行業客戶來說,他們一般只做微調,不做預訓練。


“預訓練+微調”這種分階段的大模型訓練方式,可以避免重復的投入,節省大量的計算資源,顯著提升大模型的訓練效率和效果。


預訓練和微調都完成之后,需要對這個大模型進行評估。通過采用實際數據或模擬場景對大模型進行評估驗證,確認大模型的性能、穩定性和準確性?等是否符合設計要求。

等評估和驗證也完成,大模型基本上算是打造成功了。接下來,我們可以部署這個大模型,將它用于推理任務。


換句話說,這時候的大模型已經“定型”,參數不再變化,可以真正開始干活了。


大模型的推理過程,就是我們使用它的過程。通過提問、提供提示詞(Prompt),可以讓大模型回答我們的問題,或者按要求進行內容生成。


最后,畫一張完整的流程圖:


244f312c-a8f4-11ef-8084-92fbcf53809c.png


大模型究竟有什么作用?

根據訓練的數據類型和應用方向,我們通常會將大模型分為語言大模型(以文本數據進行訓練)、音頻大模型(以音頻數據進行訓練)、視覺大模型(以圖像數據進行訓練),以及多模態大模型(文本和圖像都有)。

語言大模型,擅長自然語言處理(NLP)領域,能夠理解、生成和處理人類語言,常用于文本內容創作(生成文章、詩歌、代碼)、文獻分析、摘要匯總、機器翻譯等場景。大家熟悉的ChatGPT,就屬于此類模型。

音頻大模型,可以識別和生產語音內容,常用于語音助手、語音客服、智能家居語音控制等場景。

視覺大模型,擅長計算機視覺(CV)領域,可以識別、生成甚至修復圖像,常用于安防監控、自動駕駛、醫學以及天文圖像分析等場景。

多模態大模型,結合了NLP和CV的能力,通過整合并處理來自不同模態的信息(文本、圖像、音頻和視頻等),可以處理跨領域的任務,例如文生圖,文生視頻、跨媒體搜索(通過上傳圖,搜索和圖有關的文字描述)等。

今年以來,多模態大模型的崛起勢頭非常明顯,已經成為行業關注的焦點。


如果按照應用場景進行分類,那么類別就更多了,例如金融大模型、醫療大模型、法律大模型、教育大模型、代碼大模型、能源大模型、政務大模型、通信大模型,等等。

例如金融大模型,可以用于風險管理、信用評估、交易監控、市場預測、合同審查、客戶服務等。功能和作用很多很多,不再贅述。



大模型的發展趨勢?

截至2024年3月25日,中國10億參數規模以上的大模型數量已經超過100個,號稱“百模大戰”。


這些大模型的應用領域、參數規模各有不同,但是,背后都是白花花的銀子。


根據行業估測的數據,訓練一個大模型,成本可能在幾百萬美元到上億美元之間。例如,GPT-3訓練一次的成本,約為140萬美元。Claude 3模型的訓練費用,高達約1億美元。


如此多的企業推出大模型,實際上也是一種資源的浪費。


而且,大模型也分為開源大模型和閉源大模型。行業里有能力做閉源大模型的企業,并不是很多。大部分的大模型,都是基于開源大模型框架和技術打造的,實際上是為了迎合資本市場的需求,或者為了蹭熱度。
行業里,目前仍有部分頭部企業在死磕參數規模更大的超大模型(擁有數萬億到數千萬億個參數),例如OpenAI、xAI等。馬斯克之前就在X平臺宣布,xAI團隊已經成功啟動了世界上最強大的AI訓練集群。該集群由10萬塊H100組成,主要用于Grok 2和Grok3的訓練和開發。
對于大部分企業來說,萬卡和萬億參數其實已經是個天花板了,再往上走的意愿不強烈,錢包也不允許。
隨著行業逐漸趨于理性,現在大家的關注焦點,逐漸從“打造大模型”,變成“使用大模型”。如何將大模型投入具體應用,如何吸引更多用戶,如何通過大模型創造收入,成為各大廠商的頭等任務。

大模型落地,就涉及到能力“入”端(下沉到終端)。所以,AI手機、AI PC、具身智能的概念越來越火,成為新的發展熱點。
以AI手機為例,像高通聯發科等芯片廠商,都推出了具有更強AI算力的手機芯片。而OPPO、vivo等手機廠商,也在手機里內置了大模型,并推出了很多原生AI應用。
第三方AI應用的數量,就更不用說了。截止目前,根據行業數據顯示,具有AI功能的APP數量已達到300多萬款。2024年6月,AIGC類APP的月活躍用戶規模達6170萬,同比增長653%。


大模型入端,也帶來了輕量化的趨勢。為了在資源受限的設備上運行,大模型將通過剪枝、量化、蒸餾等技術進行輕量化,保持性能的同時減少計算資源需求。


大模型會帶來哪些挑戰?

大模型是一個好東西,能夠幫我們做很多事情,節約時間,提升效率。但是,大模型也是一把雙刃劍,會帶來一些新的挑戰。

首先,是影響失業率。大模型所掀起的AI人工智能浪潮,肯定會導致一些人類工作崗位被替代,進而導致失業率上升。

其次,是版權問題。大模型基于已有數據進行學習。大模型生成的內容,尤其是用于文本、圖像、音樂和視頻創作,可能引發版權和知識產權問題。它雖然幫助了創作,但也“引用”了人類創作者的作品,界限難以區分。長此以往,可能打擊人類的原生創作熱情。


第三,大模型可能引發算法偏見和不公平。也就是說,訓練數據中存在的偏差,會導致大模型學習到這些偏差,從而在預測和生成內容時表現出不公平的行為。模型可能無意中強化社會上的刻板印象和偏見,例如性別、種族和宗教等方面的偏見。大模型生成的內容也可能被用于政治宣傳和操縱,影響選舉和公共輿論。


第四,被用于犯罪。大模型可以生成逼真的文本、圖像、語音和視頻,這些內容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。


第五,能耗問題。大模型的訓練和推理需要大量的計算資源,這不僅增加了成本,還帶來了巨大的碳排放。很多企業為了服務于資本市場或跟風,盲目進行大模型訓練,消耗了大量的資源,也導致了無意義的碳排放。


總而言之,大模型在倫理、法律、社會和經濟層面帶來的威脅和挑戰還是很多的,需要更多時間進行探索和解決。
好啦,以上就是今天文章的全部內容,希望對大家有所幫助!
文章來源于鮮棗課堂,作者小棗君

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    48987

    瀏覽量

    249055
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10779
  • 大模型
    +關注

    關注

    2

    文章

    3132

    瀏覽量

    4047
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型在半導體行業的應用可行性分析

    的應用,比如使用機器學習分析數據,提升良率。 這一些大模型是否真的有幫助 能夠在解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面 應該問什么大模型比較好,或者是看什么視頻能夠涉足這個行業
    發表于 06-24 15:10

    【「零基礎開發AI Agent」閱讀體驗】+ 入門篇學習

    的是基礎篇,主要從為什么要學習AI Agent和開發AI Agent的知識儲備入手進行介紹。作為入門AI Agent的小白還是很有必要學習的。這里將一些重要觀點作個歸納 1.AI Agent=大模型+記憶
    發表于 05-02 09:26

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任務,如寫作、翻譯、問答等。https
    的頭像 發表于 04-30 18:34 ?477次閱讀
    <b class='flag-5'>小白</b>學大<b class='flag-5'>模型</b>:從零實現 LLM語言<b class='flag-5'>模型</b>

    寫給小白的芯片封裝入門科普

    之前給大家介紹了晶圓制備和芯片制造:晶圓是如何制造出來的?從入門到放棄,芯片的詳細制造流程!從今天開始,我們聊聊芯片的封裝和測試(通常簡稱“封測”)。這一部分,在行業里也被稱為后道(BackEnd
    的頭像 發表于 04-25 12:12 ?770次閱讀
    <b class='flag-5'>寫給</b><b class='flag-5'>小白</b>的芯片封裝<b class='flag-5'>入門</b><b class='flag-5'>科普</b>

    KaihongOS操作系統FA模型與Stage模型介紹

    KaihongOS中提供了不同的開發方式和架構選擇,Stage模型因其在分布式應用開發中的優勢而被推薦使用。 說明:KaihongOS文檔中心中應用開發(開發準備、快速入門、進階提高模塊中的示例代碼均基于Stage模型。)
    發表于 04-24 07:27

    小白基礎科普:霍爾元件如何選型?

    以下是一份詳細的霍爾元件選型指南,幫助您根據具體需求選擇最合適的霍爾元件: 一、明確應用需求 確定測量類型 : 開關型霍爾元件 :適用于位置檢測、開關信號(如冰箱門開關、旋轉編碼器)。 單極型:只對單一磁極(如S極)響應,安裝需注意磁極方向。 全極型:對N/S兩極均響應,安裝更靈活。 雙極鎖存型:需交替磁極改變狀態,適合需要保持狀態的場景(如安全鎖)。 線性霍爾元件 :輸出模擬信號,適用于連續磁場檢測(如角度測量、電
    的頭像 發表于 03-26 16:29 ?683次閱讀

    智行者蝸小白賦能卡塔爾智慧清潔新突破

    在科技進步的浪潮中,智行者秉持用自動駕駛解決方案構建智慧生活的理念,孕育出了"蝸小白"這一智慧清潔領域的重要成果。蝸小白在國內已嶄露頭角,身影遍布多地;而在海外,蝸小白系列產品已成功拓展至40余個國家及地區。
    的頭像 發表于 03-17 15:44 ?421次閱讀

    小白學大模型:訓練大語言模型的深度指南

    在當今人工智能飛速發展的時代,大型語言模型(LLMs)正以其強大的語言理解和生成能力,改變著我們的生活和工作方式。在最近的一項研究中,科學家們為了深入了解如何高效地訓練大型語言模型,進行了超過
    的頭像 發表于 03-03 11:51 ?709次閱讀
    <b class='flag-5'>小白</b>學大<b class='flag-5'>模型</b>:訓練大語言<b class='flag-5'>模型</b>的深度指南

    AIGC入門及鴻蒙入門

    模型,能夠生成與給定文本描述相符的圖像。 鴻蒙系統入門 1. 基礎知識: 鴻蒙系統(HarmonyOS)是華為推出的一款分布式操作系統,旨在實現跨設備、跨平臺的無縫協同體驗。 鴻蒙系統具有輕量化
    發表于 01-13 10:32

    小白學大模型:構建LLM的關鍵步驟

    隨著大規模語言模型(LLM)在性能、成本和應用前景上的快速發展,越來越多的團隊開始探索如何自主訓練LLM模型。然而,是否從零開始訓練一個LLM,并非每個組織都適合。本文將根據不同的需求與資源,幫助
    的頭像 發表于 01-09 12:12 ?948次閱讀
    <b class='flag-5'>小白</b>學大<b class='flag-5'>模型</b>:構建LLM的關鍵步驟

    智行者蝸小白繪就泰國智慧清潔藍圖

    在科技進步的浪潮中,智行者秉持用自動駕駛解決方案構建智慧生活的理念,孕育出了“蝸小白”這一智慧清潔領域的重要成果。蝸小白在國內已嶄露頭角,身影遍布多地;而在海外,蝸小白系列產品已成功拓展至30余個國家及地區。
    的頭像 發表于 12-06 13:53 ?739次閱讀

    智行者蝸小白海外項目落地實況

    在科技進步的浪潮中,智行者秉持用自動駕駛解決方案構建智慧生活的理念,孕育出了“蝸小白”這一智慧清潔領域的重要成果。蝸小白在國內已嶄露頭角,身影遍布多地;而在海外,蝸小白系列產品已成功拓展至30余個國家及地區。
    的頭像 發表于 11-29 16:24 ?709次閱讀

    科普課堂 | OSI模型,你真的了解嗎?

    網絡通信是現代信息技術的基石,它使得人們可以在不同的地理位置之間快速、高效的傳遞信息,為了實現這一目標,需要一種標準的框架來描述網絡通信的過程。因此OSI七層網絡模型誕生了。簡單介紹-什么是OSI
    的頭像 發表于 10-18 17:37 ?2389次閱讀
    <b class='flag-5'>科普</b>課堂 | OSI<b class='flag-5'>模型</b>,你真的了解嗎?

    寫給小白的AI入門科普

    到底什么是AI?AI,是artificialintelligence的縮寫。Artificial,很多同學認字認半邊,會以為是藝術(art)的什么形容詞。其實不然,artificial的意思就是“人工的、人造的”,和natural(天然的)是反義詞。Intelligence,這個不容易認錯,是“智能”的意思。英特爾(Intel)公司的名字,就是基于這個詞的前
    的頭像 發表于 08-08 08:28 ?982次閱讀
    <b class='flag-5'>寫給</b><b class='flag-5'>小白</b>的AI<b class='flag-5'>入門</b><b class='flag-5'>科普</b>

    【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

    ,了解此書的主要內容: 書分四篇,基礎、入門、進階和展望。 基礎篇從人工智能起源開始、之后又介紹了機器學習、神經網絡和大語言模型的基礎知識,如果讀者學習過機器學習相關課程,那這個基礎篇的閱讀就會很輕
    發表于 07-21 13:35
    主站蜘蛛池模板: 成人精品亚洲人成在线 | 97国内精品久久久久久久影视 | 皇帝受h啪肉np文 | 黄色录像欧美 | 日韩色影视 | 波多野结衣在线网址 | 让她爽的喷水叫爽乱 | 成人a网站 | 一区二区三区四区电影 | 亚洲人色大成年网站在线观看 | 高h道具触手play肉男男 | 日韩美a一级毛片 | 久久成人综合网 | 宅男666在线永久免费观看 | 男男宿舍高h炒肉bl 男男污肉高h坐便器调教 | 欧美呜巴又大粗又长 | 国产欧美一区二区日本加勒比 | 久久国产精品免费专区 | 色婷亚洲| 男人的天堂视频网站清风阁 | 亚洲综合激情九月婷婷 | 网站黄色在线观看 | 欧美夜夜| www.精品视频 | 久久99热久久精品23 | 99成人国产精品视频 | 亚洲乱码一区二区三区在线观看 | 日日操日日爽 | 天天射天天射天天干 | 日韩免费网站 | 国产1区二区 | 成人a毛片在线看免费全部播放 | 国产伦精品一区二区三区免 | 天天天操天天天干 | 日本一区二区不卡在线 | 天堂在线最新版在线www | 干得好爽| 超级乱淫小黄文小说 | 麻豆三级在线播放 | 天堂在线资源最新版 | 精品三级国产精品经典三 |