在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強化學(xué)習(xí)在智能對話上的應(yīng)用介紹

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-10 19:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文主要介紹深度強化學(xué)習(xí)在任務(wù)型對話上的應(yīng)用,兩者的結(jié)合點主要是將深度強化學(xué)習(xí)應(yīng)用于任務(wù)型對話的策略學(xué)習(xí)上
來源:騰訊技術(shù)工程微信號

背景

本文主要介紹深度強化學(xué)習(xí)在任務(wù)型對話上的應(yīng)用,兩者的結(jié)合點主要是將深度強化學(xué)習(xí)應(yīng)用于任務(wù)型對話的策略學(xué)習(xí)上,目前工業(yè)界普遍使用的策略都是基于規(guī)則的,顯然基于規(guī)則的方法有人力成本高、泛化能力差等缺點,而強化學(xué)習(xí)恰好能解決這些問題,而且強化學(xué)習(xí)只需要一些目標(biāo),無需大量的訓(xùn)練語料,避免了深度學(xué)習(xí)的一大缺點。

首先簡單介紹一下強化學(xué)習(xí)和對話系統(tǒng),然后再具體介紹一下深度強化學(xué)習(xí)在任務(wù)型對話中是怎么應(yīng)用的,最后給出訓(xùn)練的結(jié)果和總結(jié)。以下舉例部分都會以訂餐場景為準(zhǔn)。

強化學(xué)習(xí)

強化學(xué)習(xí)系統(tǒng)由智能體(Agent)、狀態(tài)(state)、獎賞(reward)、動作(action)和環(huán)境(Environment)五部分組成。

Agent:智能體是整個強化學(xué)習(xí)系統(tǒng)核心。它能夠感知環(huán)境的狀態(tài)(State),并且根據(jù)環(huán)境提供的獎勵信號(Reward),通過學(xué)習(xí)選擇一個合適的動作(Action),來最大化長期的Reward值。簡而言之,Agent就是根據(jù)環(huán)境提供的Reward作為反饋,學(xué)習(xí)一系列的環(huán)境狀態(tài)(State)到動作(Action)的映射,動作選擇的原則是最大化未來累積的Reward的概率。選擇的動作不僅影響當(dāng)前時刻的Reward,還會影響下一時刻甚至未來的Reward,因此,Agent在學(xué)習(xí)過程中的基本規(guī)則是:如果某個動作(Action)帶來了環(huán)境的正回報(Reward),那么這一動作會被加強,反之則會逐漸削弱,類似于物理學(xué)中條件反射原理。

Environment:環(huán)境會接收Agent執(zhí)行的一系列的動作(Action),并且對這一系列的動作的好壞進(jìn)行評價,并轉(zhuǎn)換成一種可量化的(標(biāo)量信號)Reward反饋給Agent,而不會告訴Agent應(yīng)該如何去學(xué)習(xí)動作。Agent只能靠自己的歷史(History)經(jīng)歷去學(xué)習(xí)。同時,環(huán)境還像Agent提供它所處的狀態(tài)(State)信息。

Reward:環(huán)境提供給Agent的一個可量化的標(biāo)量反饋信號,用于評價Agent在某一個時間步所做action的好壞。強化學(xué)習(xí)就是基于一種最大化累計獎賞假設(shè):強化學(xué)習(xí)中,Agent進(jìn)行一系列的動作選擇的目標(biāo)是最大化未來的累計獎賞。

State:狀態(tài)指Agent所處的環(huán)境信息,包含了智能體用于進(jìn)行Action選擇的所有信息,它是歷史(History)的一個函數(shù):St = f(Ht)。

可見,強化學(xué)習(xí)的主體是Agent和環(huán)境Environment。Agent為了適應(yīng)環(huán)境,做出的一系列的動作,使最終的獎勵最高,同時在此過程中更新特定的參數(shù)。實際上可以把強化學(xué)習(xí)簡單理解成是一種循環(huán),具體的工作方式如下:

智能體從環(huán)境中獲取一個狀態(tài)St;

智能體根據(jù)狀態(tài)St采取一個動作at;

受到at的影響,環(huán)境發(fā)生變化,轉(zhuǎn)換到新的狀態(tài)St+1;

環(huán)境反饋給智能體一個獎勵(正向為獎勵,負(fù)向則為懲罰)。

對話系統(tǒng)

對話系統(tǒng)是為了某種目的設(shè)計的用以與人類對話的機器,這種目的可以是為了特定的任務(wù),也可以是簡單的與人聊天,前者就是任務(wù)型對話,后者為非任務(wù)型對話系統(tǒng)。

任務(wù)型的對話主要為了一個特定的目標(biāo)進(jìn)行對話,比如常見的訂飛機票、訂餐等。對于任務(wù)型對話工業(yè)界主要實現(xiàn)方案還是為pipeline的方式,即按照SLU、DST、DPL和NLG的方式組織整個對話系統(tǒng),在學(xué)術(shù)界上end-to-end的方式也越來越受到關(guān)注,與pipeline不同,end-to-end模型使用一個模塊,并與結(jié)構(gòu)化的外部數(shù)據(jù)庫交互。

非任務(wù)型的對話則類似于微軟小冰和人進(jìn)行一些聊天。非任務(wù)型的對話主流實現(xiàn)方案有兩種:生成式和檢索式。隨著seq2seq模型的越來越成熟,生成式方案也越來越受到關(guān)注,這種方法是把對話任務(wù)看成是一種翻譯任務(wù),認(rèn)為Q(人說的話)和A(機器的回復(fù))是兩種語言。檢索式則是系統(tǒng)有很多訓(xùn)練數(shù)據(jù),其中包括擴(kuò)展問題(每個問題都對應(yīng)一個標(biāo)準(zhǔn)問)、答案(每個標(biāo)準(zhǔn)問對應(yīng)一個答案),當(dāng)用戶說一句話時,則系統(tǒng)用這句話作為query在訓(xùn)練集中進(jìn)行檢索和排序得到匹配的問題,最后根據(jù)這個問題的標(biāo)準(zhǔn)問查詢答案。當(dāng)然也有這兩種方式的結(jié)合,即使用生成式生成候選的答案,再使用檢索式進(jìn)行匹配和排序得到精準(zhǔn)回答。

DQN+任務(wù)型對話

DQN

Q-learning是強化學(xué)習(xí)中的一種,在Q-learning中,我們維護(hù)一張Q值表,表的維數(shù)為:狀態(tài)數(shù)S * 動作數(shù)A,表中每個數(shù)代表在態(tài)s下可以采用動作a可以獲得的未來收益的折現(xiàn)和——Q值。我們不斷的迭代我們的Q值表使其最終收斂,然后根據(jù)Q值表我們就可以在每個狀態(tài)下選取一個最優(yōu)策略。由于這里主要介紹強化學(xué)習(xí)的在任務(wù)型對話中的應(yīng)用,不進(jìn)行詳細(xì)的介紹,具體的可參照《極簡Qlearning教程

DQN是深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合,即使用神經(jīng)網(wǎng)絡(luò)代替Q-learning中Q表。在普通的Q-learning中,當(dāng)狀態(tài)和動作空間是離散且維數(shù)不高時可使用Q-Table儲存每個狀態(tài)動作對的Q值,但是當(dāng)狀態(tài)和動作空間是高維或者連續(xù)時,使用Q-Table不現(xiàn)實,而神經(jīng)網(wǎng)絡(luò)恰好擅長于此。因此將Q-Table的更新問題變成一個函數(shù)擬合問題,相近的狀態(tài)得到相近的輸出動作。具體來說,比如我們現(xiàn)在還有一個Q值表,神經(jīng)網(wǎng)絡(luò)的作用就是給定一個狀態(tài)s和動作a,預(yù)測對應(yīng)的Q值,使得神經(jīng)網(wǎng)絡(luò)的結(jié)果與Q表中的值接近。不過DQN的方式肯定不能繼續(xù)維護(hù)一個Q表,所以將上次反饋的獎勵作為逼近的目標(biāo),如下式,通過更新參數(shù) θ 使Q函數(shù)逼近最優(yōu)Q值 。因此,DQN就是要設(shè)計一個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過函數(shù)來擬合Q值,即:

當(dāng)然這也會帶來一些問題:

神經(jīng)網(wǎng)絡(luò)需要大量帶標(biāo)簽的樣本進(jìn)行監(jiān)督學(xué)習(xí),但是強化學(xué)習(xí)只有reward返回值,如何構(gòu)造有監(jiān)督的數(shù)據(jù)成為第一個問題,而且伴隨著噪聲、延遲(過了幾十毫秒才返回)、稀疏(很多State的reward是0)等問題;

神經(jīng)網(wǎng)絡(luò)的前提是樣本獨立同分布,而強化學(xué)習(xí)前后state狀態(tài)和反饋有依賴關(guān)系——馬爾科夫決策;

神經(jīng)網(wǎng)絡(luò)的目標(biāo)分布固定,但是強化學(xué)習(xí)的分布一直變化,比如你玩一個游戲,一個關(guān)卡和下一個關(guān)卡的狀態(tài)分布是不同的,所以訓(xùn)練好了前一個關(guān)卡,下一個關(guān)卡又要重新訓(xùn)練;

過往的研究表明,使用非線性網(wǎng)絡(luò)表示值函數(shù)時出現(xiàn)不穩(wěn)定等問題。

針對以上問題的具體解決方案如下:

構(gòu)造標(biāo)簽:通過Q-Learning使用reward來構(gòu)造標(biāo)簽(對應(yīng)問題1),如上所述,用神經(jīng)網(wǎng)絡(luò)來預(yù)測reward,將問題轉(zhuǎn)化為一個回歸問題;

經(jīng)驗回放:通過experience replay(經(jīng)驗池)的方法來解決相關(guān)性及非靜態(tài)分布問題(對應(yīng)問題2、3);

雙網(wǎng)絡(luò)結(jié)構(gòu):使用一個神經(jīng)網(wǎng)絡(luò)產(chǎn)生當(dāng)前Q值,使用另外一個神經(jīng)網(wǎng)絡(luò)產(chǎn)生Target Q值(對應(yīng)問題4)。

構(gòu)造標(biāo)簽

對于函數(shù)優(yōu)化問題,監(jiān)督學(xué)習(xí)的一般方法是先確定Loss Function,然后求梯度,使用隨機梯度下降等方法更新參數(shù)。DQN則基于Q-Learning來確定Loss Function。我們想要使q-target值和q-eval值相差越小越好。DQN中的損失函數(shù)是:

這里yi先可以認(rèn)為是狀態(tài)s和動作a對應(yīng)的標(biāo)準(zhǔn)Q值,實際根據(jù)后面的雙網(wǎng)絡(luò)結(jié)構(gòu),yi是根據(jù)上一個迭代周期或者說target-net網(wǎng)絡(luò)的參數(shù)計算出的q-target值,跟當(dāng)前網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)無關(guān),yi的計算如下,然后整個目標(biāo)函數(shù)就可以通過隨機梯度下降方法來進(jìn)行優(yōu)化

經(jīng)驗回放

經(jīng)驗池的功能主要是解決相關(guān)性及非靜態(tài)分布問題。具體做法是把每個時間步agent與環(huán)境交互得到的轉(zhuǎn)移樣本 (st, at, rt, st+1) 儲存到回放記憶單元,要訓(xùn)練時就隨機拿出一些(minibatch)來訓(xùn)練。(其實就是將對話的過程打成碎片存儲,訓(xùn)練時隨機抽取就避免了相關(guān)性問題),上面的代碼是將每次神經(jīng)網(wǎng)絡(luò)預(yù)測的結(jié)果保存在經(jīng)驗池中,下面則是在每次訓(xùn)練的時候從經(jīng)驗池中隨機取出一個batch進(jìn)行訓(xùn)練。

雙網(wǎng)絡(luò)結(jié)構(gòu)

雙網(wǎng)絡(luò)結(jié)構(gòu)即構(gòu)建兩個神經(jīng)網(wǎng)絡(luò):target_net和eval_net,eval_net用來進(jìn)行參數(shù)訓(xùn)練和預(yù)測Q值,而target_net是eval_net的一個副本,這個網(wǎng)絡(luò)使用來預(yù)測目標(biāo)Q值(構(gòu)造標(biāo)簽中的yi),相當(dāng)于監(jiān)督訓(xùn)練中的label。target_net是每隔一定時間更新為eval_net的參數(shù),這樣在一段時間里目標(biāo)Q值使保持不變的,一定程度降低了當(dāng)前Q值和目標(biāo)Q值的相關(guān)性,提高了算法穩(wěn)定性。

任務(wù)型對話

任務(wù)型對話的主要目標(biāo)是完成一個任務(wù)如訂餐、訂票等,在這種場景下僅僅給用戶一個回答是遠(yuǎn)遠(yuǎn)不夠的,還需要真正的理解一個用戶的意圖,以及這個意圖相關(guān)的信息,如果一個用戶想訂餐,那么需要知道用戶的就餐具體日期、用餐人數(shù)等等,所以就需要進(jìn)行槽提取等等,同時還需要關(guān)注當(dāng)前的獲取的信息量以及未獲取的信息等。

SLU:語言理解,把用戶的自然語言表述的文本處理成預(yù)先設(shè)計好的機器能夠理解的形式,通常為意圖和槽值對。如用戶輸入“我想訂一個明天的位子”,則SLU的輸出應(yīng)該是intent=訂餐,slot=date:明天(實際中提取出的槽值需要做標(biāo)準(zhǔn)化處理)。這個部分意圖識別可作為分類任務(wù)或者檢索任務(wù),而槽提取一般可用作為NER問題。

DST:對話狀態(tài)跟蹤,根據(jù)對話歷史管理每一輪對話的輸入,并且預(yù)測當(dāng)前對話的狀態(tài)。比如使用規(guī)則的方法:有哪些槽已經(jīng)填充,哪些未填充等、哪些已經(jīng)問過usr、問過多少次等等。

DPL,對話策略學(xué)習(xí),根據(jù)當(dāng)前對話狀態(tài)做出下一步的反應(yīng)。比如根據(jù)DST知道有哪些槽未填充,用規(guī)則的方法選取一個優(yōu)先級最高的槽提問。DPL的任務(wù)是一個序列決策的過程,因此常用的方法有規(guī)則方法、CRF,以及本文的重點:強化學(xué)習(xí)方法。

NLG,自然語言生成,根據(jù)系統(tǒng)得到的動作生成客戶易理解的自然語言文本。這個很容易理解,如果DPL的動作是問用戶就餐人數(shù),在系統(tǒng)里面可能是類似request{“num”:“UNK”},NLG的作用就是把這個轉(zhuǎn)換成“請問有幾個人就餐呢”。

應(yīng)用

將強化學(xué)習(xí)應(yīng)用于任務(wù)型對話的主要是把強化學(xué)習(xí)應(yīng)用于DPL學(xué)習(xí)對話的動作決策,即強化學(xué)習(xí)中的Action對應(yīng)于對話中的下一步動作,比如是回答用戶的某個問題還是問用戶下一個槽相關(guān)的問題等等。用強化學(xué)習(xí)的一個好處就是不需要訓(xùn)練數(shù)據(jù),因為訓(xùn)練過程中只需要Simulator根據(jù)設(shè)置的goal進(jìn)行回答和提問就可以了。實際應(yīng)用中將DM作為強化學(xué)習(xí)中的Agent,反饋一些信息給用戶。DQN中的reward是根據(jù)對話的結(jié)果進(jìn)行提供,分為兩個階段,一個是在對話未完成的時候,每增加一輪對話就給一個-1的獎勵,另外就是在對話完成時,如果完成任務(wù)則給一個(max_turn-turn)的獎勵,否則獎勵為-(2* max_turn)。

另外,在訓(xùn)練強化學(xué)習(xí)的過程中,實際上并不需要用到SLU和NLG,在Agent和User Simulator之間只需要通過結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行交流,而不需要轉(zhuǎn)換成自然語言,比如:


表示“2019年2月18日和2019年2月19還有空位置”:


則表示“我想訂一個5人的位子,什么時間有空位子?”。

Simulator:模擬用戶行為,Simulator的主要做法就是針對Agent反饋的信息,結(jié)合自身的goal進(jìn)一步與Agent進(jìn)行交互,比如是回答Agent問題,還是進(jìn)行反問,是完成goal結(jié)束對話,還是拒絕。這相當(dāng)于使用的是規(guī)則的方式,不過也有使用模型的方式構(gòu)建一個world model來模型用戶。

Goal:任務(wù)的目標(biāo),在訂餐任務(wù)中我們設(shè)置的目標(biāo)形式如下圖。強化學(xué)習(xí)能夠很好的應(yīng)用于任務(wù)型對話的一大原因就是這些goal本身并不需要人為一個個編寫,只需要根據(jù)業(yè)務(wù)需求根據(jù)各個槽完成生成即可,這就避免了大量的訓(xùn)練預(yù)料。

除了以上,還需要根據(jù)實際的情況虛構(gòu)一個數(shù)據(jù)庫以模擬實際使用中的數(shù)據(jù)查詢,如餐廳在某些條件下是不是有剩余位子等。

效果

成功率

獎勵

對話輪數(shù)

舉例(此處不考慮SLU和NLG,在真正訓(xùn)練過程中都是使用了結(jié)構(gòu)化的數(shù)據(jù)),假設(shè)我們的goal如下:

使用強化學(xué)習(xí)的的結(jié)果如下:

人工翻譯過來(其實就是基于模板方法的NLG)如下:

上面的結(jié)果還是很好的,與針對這個場景精心設(shè)計的規(guī)則的方法基本上能保持一致:

總結(jié)

可以加入額外懲罰和獎勵,加快收斂,比如上一章節(jié)中的效果是不加任何額外懲罰和獎勵,可以看出大概在5000個epoch的時候就已經(jīng)收斂,但是如果加入一些答非所問、回答重復(fù)問題等懲罰則不到1000個epoch就會收斂,另外加入這些懲罰和獎勵也會讓網(wǎng)絡(luò)朝著我們想要的方向進(jìn)行訓(xùn)練,得到更好的結(jié)果。

目前我們主要在訂餐的任務(wù)上進(jìn)行了試驗,這個任務(wù)還比較簡單,需要找一個更為復(fù)雜的場景進(jìn)行驗證。

訓(xùn)練過程中只是使用了slot是否填充等,對于已經(jīng)填充的slot未利用slot的值,對此需要進(jìn)一步探究slot的值對于DPL的決策是否有影響。

一旦在線上使用的槽的個數(shù)需要發(fā)生變化就必須重新進(jìn)行訓(xùn)練,非常耗時。

Goal和Simulator還是一種比較“僵硬”的做法,需要在實際線上的使用過程中不斷訓(xùn)練,這樣可以使得對話決策更智能更符合用戶預(yù)期。

更多騰訊AI相關(guān)技術(shù)干貨,請關(guān)注專欄騰訊技術(shù)工程

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48955

    瀏覽量

    248449
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    269

    瀏覽量

    11567
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    。DeepSeek-V3 的發(fā)布幾乎沒有預(yù)熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是 DeepSeek-V3 的基礎(chǔ)構(gòu)建的推理模型,它在后訓(xùn)練階段大規(guī)模使用強化學(xué)習(xí)技術(shù)
    發(fā)表于 06-09 14:38

    能對話電網(wǎng)、指揮儲能的雙向計量電能表

    能對話電網(wǎng)、指揮儲能的雙向計量電能表
    的頭像 發(fā)表于 04-27 17:35 ?275次閱讀
    <b class='flag-5'>能對話</b>電網(wǎng)、指揮儲能的雙向計量電能表

    正點原子 AI BOX0 智能伴侶,1.54寸高清屏+長效續(xù)航,語音暢聊,情景對話,知識科普,多色可選,隨身攜帶!

    正點原子 AI BOX0攜小智AI來襲,專屬你的智能伴侶!你的全能AI伙伴,懂你更貼心 正點原子ESP32 AI BOX0 — 不只是桌面擺件,更是能思考、會學(xué)習(xí)的AI靈魂伴侶!搭載前沿大語言模型
    發(fā)表于 04-24 16:11

    18個常用的強化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?360次閱讀
    18個常用的<b class='flag-5'>強化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    詳解RAD端到端強化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?559次閱讀
    詳解RAD端到端<b class='flag-5'>強化學(xué)習(xí)</b>后訓(xùn)練范式

    Deepseek單片機?RT-Thread跑通大語言模型

    前言單片機也能聊天?RT-Thread跑通大語言模型RT-Thread論壇忽然看到了單片機和大模型對話的文章,想著春節(jié)期間看到大語言模型的熱度持續(xù)攀升,恰巧手頭有塊RA8D1Vi
    的頭像 發(fā)表于 02-07 18:59 ?1413次閱讀
    Deepseek<b class='flag-5'>上</b>單片機?RT-Thread<b class='flag-5'>上</b>跑通大語言模型

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能對話

    顯示發(fā)送的時間戳,以便用戶了解消息的發(fā)送時間。 這個DEMO展示了如何使用ArkTS和擴(kuò)展后的ChatUI框架(或類似功能的庫)HarmonyOS NEXT創(chuàng)建一個功能豐富的AI智能對話框。我們可以根據(jù)需要進(jìn)一步定制和擴(kuò)展這
    發(fā)表于 01-03 11:29

    唯創(chuàng)知音WT3000A AI智能對話方案介紹

    AI
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2025年01月02日 11:02:41

    【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    動態(tài)互動的。 該理論強調(diào)智能行為源于智能體的物理存在和行為能力,智能體必須具備感知環(huán)境并在其中執(zhí)行任務(wù)的能力。具身智能的實現(xiàn)涵蓋了機器學(xué)習(xí)
    發(fā)表于 12-20 19:17

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強化學(xué)習(xí)實驗室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購。據(jù)悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團(tuán)近期宣布成立強化學(xué)習(xí)實驗室,旨在推動大模型強化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1529次閱讀

    如何使用 PyTorch 進(jìn)行強化學(xué)習(xí)

    的計算圖和自動微分功能,非常適合實現(xiàn)復(fù)雜的強化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 強化學(xué)習(xí)中,環(huán)境是一個抽象的概念,它定義了智能體(agent)可以執(zhí)行的動作(acti
    的頭像 發(fā)表于 11-05 17:34 ?1000次閱讀

    谷歌AlphaChip強化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌芯片設(shè)計領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計布局的強化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計流程,并幫助芯片在性能、功耗和面積方面實現(xiàn)更優(yōu)表現(xiàn)
    的頭像 發(fā)表于 09-30 16:16 ?684次閱讀

    人工智能如何強化智能家居設(shè)備的功能

    ,以配合用戶的生活習(xí)慣與作息。本文將為您介紹人工智能將如何強化智能家居設(shè)備的功能,以及由芯科科技(Silicon Labs)所推出的解決方案,將如何增進(jìn)智能家居設(shè)備的功能性與安全性。
    的頭像 發(fā)表于 08-27 10:46 ?1358次閱讀
    人工<b class='flag-5'>智能</b>如何<b class='flag-5'>強化</b><b class='flag-5'>智能</b>家居設(shè)備的功能

    科大訊飛發(fā)布星火極速超擬人交互,重塑智能對話新體驗

    8月19日,科大訊飛震撼宣布了一項關(guān)于其明星產(chǎn)品——星火語音大模型的重大革新,即將推出的“星火極速超擬人交互”功能,預(yù)示著人機交互的新紀(jì)元。該功能定于8月30日正式登陸訊飛星火App,面向廣大用戶開放體驗,引領(lǐng)一場前所未有的智能對話風(fēng)暴。
    的頭像 發(fā)表于 08-20 16:46 ?701次閱讀

    PythonAI中的應(yīng)用實例

    Python人工智能(AI)領(lǐng)域的應(yīng)用極為廣泛且深入,從基礎(chǔ)的數(shù)據(jù)處理、模型訓(xùn)練到高級的應(yīng)用部署,Python都扮演著至關(guān)重要的角色。以下將詳細(xì)探討PythonAI中的幾個關(guān)鍵應(yīng)用實例,包括機器
    的頭像 發(fā)表于 07-19 17:16 ?2601次閱讀
    主站蜘蛛池模板: 国产乱人视频在线看 | 久久久久免费精品国产小说 | 黄色网网址| 亚洲成人在线电影 | 亚洲最大成人网色 | 成人免费看黄页网址大全 | 明日花绮罗snis-862在线播放 | 成熟女性毛茸茸xx免费视频 | 激情丁香婷婷 | 精品一区 二区三区免费毛片 | 黄色片日本网站 | 四虎影视永久在线精品免费播放 | 亚洲专区一区 | 亚洲qingse中文久久网 | 日本美女视频网站 | 在线观看免费精品国产 | 午夜视频在线观看国产www | 六月婷婷网 | 黄色免费看网站 | 黄色三级三级三级免费看 | 色涩在线观看 | 三级理论手机在线观看视频 | 中文字幕不卡在线播放 | 高清不卡免费一区二区三区 | 欧美第一色 | 午夜三级国产精品理论三级 | 9984四虎永久免费网站 | 国产精品一久久香蕉产线看 | 伊人久久综合网站 | 亚洲免费在线看 | 成人中文字幕一区二区三区 | 欧美线人一区二区三区 | 色天天色综合 | 国产好深好硬好爽我还要视频 | 久久国产成人午夜aⅴ影院 久久国产福利 | 成人在线综合网 | 最近视频在线播放免费观看 | 性生交大片免费一级 | 日本黄色大片网站 | 18男女很黄的视频 | 97超频国产在线公开免费视频 |