在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

觀察AI如何找到出口 強(qiáng)化游戲體驗(yàn)

ouxn_HW_Digital ? 來(lái)源:華為開(kāi)發(fā)者社區(qū) ? 作者:華為開(kāi)發(fā)者社區(qū) ? 2021-08-24 09:52 ? 次閱讀

作為一名快樂(lè)的肥宅,玩游戲是居家必備,無(wú)論是王者榮耀、吃雞、原神這些大熱游戲,還是跳一跳、合成大西瓜、2048、這些風(fēng)靡一時(shí)得小游戲,咱都有涉及。但是為了成為一個(gè)“頭號(hào)玩家”,我總是瘋狂的去個(gè)各大社區(qū)、網(wǎng)站尋找各種攻略,跟著攻略成長(zhǎng),我時(shí)常在想,什么時(shí)候俺才能成為一代攻略大神啊,讓大家學(xué)習(xí)我的技術(shù),豈不是很刺激!

靈光一閃,畢竟我是個(gè)有點(diǎn)小技術(shù)的肥宅,曾經(jīng)也癡迷過(guò)deepmind,跑過(guò)AlphaGo,這不得訓(xùn)練一個(gè)AI玩一玩。

強(qiáng)化學(xué)習(xí)訓(xùn)練2048游戲,

觀察AI如何找到出口?

既然要練手,那就先從2048這種簡(jiǎn)單,不考驗(yàn)操作,純策略的游戲入手吧。在網(wǎng)上搜羅了一番,果然讓我找到了開(kāi)源的2048游戲環(huán)境,GitHub地址:

https://github.com/rgal/gym-2048。

下一步就是把這個(gè)算法和強(qiáng)化學(xué)習(xí)結(jié)合了。

算法部分很簡(jiǎn)單,目前我才用的是最傳統(tǒng)的DQN,10分鐘就可以達(dá)到一個(gè)還可以的模型效果。如果小伙伴們有想法,可以試試RainBow,PPO,A2C,SAC這類(lèi)算法,相信會(huì)獲得更佳的效果。

我開(kāi)發(fā)這個(gè)模型,用的是來(lái)自華為云的ModelArts(它是一個(gè)在線、開(kāi)箱即用的AI平臺(tái),還有免費(fèi)的GPU算力,每天不限次數(shù)使用,不要太爽!),所以代碼是在ipynb中跑的。

整體步驟大概可以分為3步:

1.創(chuàng)建游戲環(huán)境

2.創(chuàng)建DQN算法

def learn(self, buffer): # 當(dāng)replaybuffer中存儲(chǔ)的數(shù)據(jù)大于batchsize時(shí),從中隨機(jī)采樣一個(gè)batch的數(shù)據(jù)學(xué)習(xí) if buffer.size 》=self.args.batch_size: # 更新target_model的參數(shù) if self.learn_step_counter %args.target_update_freq == 0: self.target_model.load_state_dict(self.behaviour_model.state_dict()) self.learn_step_counter += 1 # 從replaybuffer中隨機(jī)采樣一個(gè)五元組(當(dāng)前觀測(cè)值,動(dòng)作,下一個(gè)觀測(cè)值,是否一局結(jié)束,獎(jiǎng)勵(lì)值) s1, a, s2, done, r =buffer.get_sample(self.args.batch_size) s1 =torch.FloatTensor(s1).to(device) s2 = torch.FloatTensor(s2).to(device) r = torch.FloatTensor(r).to(device) a = torch.LongTensor(a).to(device) if args.use_nature_dqn: q =self.target_model(s2).detach() else: q = self.behaviour_model(s2) # 每個(gè)動(dòng)作的q值=r+gamma*(1-0或1)*q_max target_q = r +torch.FloatTensor(args.gamma * (1 - done)).to(device) * q.max(1)[0] target_q =target_q.view(args.batch_size, 1) eval_q = self.behaviour_model(s1).gather(1,torch.reshape(a, shape=(a.size()[0], -1))) # 計(jì)算損失函數(shù) loss = self.criterion(eval_q,target_q) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def get_action(self, state, explore=True): # 判斷是否探索,如果探索,則采用貪婪探索策略決定行為 if explore: if np.random.uniform() 》=args.epsilon: action = randint(0,self.action_dim - 1) else: # Choose the best action accordingto the network. q =self.behaviour_model(torch.FloatTensor(state).to(device)) m, index = torch.max(q, 1) action =index.data.cpu().numpy()[0] else: q = self.behaviour_model(torch.FloatTensor(state).to(device)) m, index = torch.max(q, 1) action =index.data.cpu().numpy()[0] return action classReplayBuffer: def __init__(self, buffer_size, obs_space): self.s1 = np.zeros(obs_space, dtype=np.float32) self.s2 = np.zeros(obs_space,dtype=np.float32) self.a = np.zeros(buffer_size,dtype=np.int32) self.r = np.zeros(buffer_size,dtype=np.float32) self.done = np.zeros(buffer_size,dtype=np.float32) # replaybuffer大小 self.buffer_size = buffer_size self.size = 0 self.pos = 0 # 不斷將數(shù)據(jù)存儲(chǔ)入buffer def add_transition(self, s1, action, s2,done, reward): self.s1[self.pos] = s1 self.a[self.pos] = action if not done: self.s2[self.pos] = s2 self.done[self.pos] = done self.r[self.pos] = reward self.pos = (self.pos + 1) %self.buffer_size self.size = min(self.size + 1,self.buffer_size) # 隨機(jī)采樣一個(gè)batchsize def get_sample(self, sample_size): i = sample(range(0, self.size), sample_size) return self.s1[i], self.a[i],self.s2[i], self.done[i], self.r[i]

3.創(chuàng)建網(wǎng)絡(luò)模型

此處我用的就是一個(gè)非常簡(jiǎn)單的三層卷積網(wǎng)絡(luò)

classNet(nn.Module): #obs是狀態(tài)空間輸入,available_actions_count為動(dòng)作輸出維度 def __init__(self, obs,available_actions_count): super(Net, self).__init__() self.conv1 = nn.Conv2d(obs, 128,kernel_size=2, stride=1) self.conv2 = nn.Conv2d(128, 64,kernel_size=2, stride=1) self.conv3 = nn.Conv2d(64, 16,kernel_size=2, stride=1) self.fc1 = nn.Linear(16,available_actions_count) self.relu = nn.ReLU(inplace=True) def forward(self, x): x = x.permute(0, 3, 1, 2) x = self.relu(self.conv1(x)) x = self.relu(self.conv2(x)) x = self.relu(self.conv3(x)) x = self.fc1(x.view(x.shape[0], -1)) return x

完成以上三步,就可以愉快的開(kāi)始訓(xùn)練啦:

print(‘

training.。。’)begin_t= time.time()max_reward= 0fori_episode in range(args.epochs): # 每局開(kāi)始,重置環(huán)境 s = env.reset() # 累計(jì)獎(jiǎng)勵(lì)值 ep_r = 0 while True: # 計(jì)算動(dòng)作 a = dqn.get_action(np.expand_dims(s,axis=0)) # 執(zhí)行動(dòng)作 s_, r, done, info = env.step(a) # 存儲(chǔ)信息 memory.add_transition(s, a, s_, done,r) ep_r += r # 學(xué)習(xí)優(yōu)化過(guò)程 dqn.learn(memory) if done: print(‘Ep: ’, i_episode, ‘| Ep_r: ’, round(ep_r, 2)) if ep_r 》 max_reward: max_reward = ep_r print(“current_max_reward{}”.format(max_reward)) # 保存模型 torch.save(dqn.behaviour_model,“2048.pt”) break s = s_print(“finish!time cost is {}s”.format(time.time() - begin_t))

我只訓(xùn)練了10分鐘,在這個(gè)不能錯(cuò)步的嚴(yán)格環(huán)境下,推理時(shí)可以達(dá)到256分,如果采用更先進(jìn)算法,更長(zhǎng)的訓(xùn)練時(shí)間,2048不是夢(mèng)。

詳細(xì)代碼獲取方式:

通過(guò)此鏈接可直接在線運(yùn)行,或者下載

https://marketplace.huaweicloud.com/markets/aihub/notebook/detail/?id=3a11d09b-85f5-4ae4-b4a7-9b19be2b444d

這個(gè)技術(shù)來(lái)源是我在去年華為云AI全棧成長(zhǎng)計(jì)劃中接觸到的,據(jù)說(shuō)今年華為云又開(kāi)始了新一輪【AI實(shí)戰(zhàn)營(yíng)】,6大分類(lèi)實(shí)戰(zhàn)營(yíng)Python、ModelArts、MindSpore AI框架、深度、強(qiáng)化、機(jī)器學(xué)習(xí),助我們成為“AI王者”!

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31982

    瀏覽量

    270799
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    268

    瀏覽量

    11323
  • 華為云
    +關(guān)注

    關(guān)注

    3

    文章

    2706

    瀏覽量

    17655

原文標(biāo)題:游戲“外掛”?- AI生成游戲最強(qiáng)攻略

文章出處:【微信號(hào):HW-DigitalHome,微信公眾號(hào):華為數(shù)字家庭】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

    和交互性。為了更深入理解 AI Agent 的技術(shù)基礎(chǔ),以下是其關(guān)鍵技術(shù)架構(gòu)及應(yīng)用場(chǎng)景的詳細(xì)解析: (1)自主性:AI Agent 通過(guò)感知外界環(huán)境,能夠在沒(méi)有人工干預(yù)的情況下進(jìn)行決策。這種特性通常通過(guò)強(qiáng)化
    發(fā)表于 01-13 11:04

    拜登擬在卸任前加強(qiáng)AI芯片出口管制

    拜登政府計(jì)劃在離任之際宣布對(duì)中國(guó)實(shí)施最廣泛的人工智能(AI)芯片出口管制,引發(fā)美國(guó)科技行業(yè)的廣泛批評(píng)。代表美國(guó)科技行業(yè)的貿(mào)易協(xié)會(huì)——美國(guó)信息技術(shù)產(chǎn)業(yè)理事會(huì)(ITI)7日敦促拜登政府不要在卸任前最后
    的頭像 發(fā)表于 01-09 17:27 ?214次閱讀

    巨人網(wǎng)絡(luò)發(fā)布“千影”大模型,加速“游戲+AI”布局

    近日,巨人網(wǎng)絡(luò)在2024年度中國(guó)游戲產(chǎn)業(yè)年會(huì)上,正式推出了名為“千影?QianYing”的有聲游戲生成大模型。這一創(chuàng)新舉措標(biāo)志著巨人網(wǎng)絡(luò)在“游戲+AI”賽道上的又一重要布局。 “千影
    的頭像 發(fā)表于 12-16 09:45 ?398次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境是一個(gè)抽象的概念,它定義了智能體(agent)可以執(zhí)行的動(dòng)作(actions)、觀察
    的頭像 發(fā)表于 11-05 17:34 ?466次閱讀

    谷歌發(fā)布革命性AI游戲引擎GameNGen

    谷歌近期震撼推出全球首款完全由人工智能驅(qū)動(dòng)的游戲引擎——GameNGen,這一創(chuàng)新技術(shù)標(biāo)志著游戲開(kāi)發(fā)領(lǐng)域的新紀(jì)元。GameNGen憑借其強(qiáng)大的計(jì)算能力,能夠在單個(gè)TPU上實(shí)現(xiàn)每秒20幀的實(shí)時(shí)游戲生成,每一幀畫(huà)面均源自精密的擴(kuò)散模
    的頭像 發(fā)表于 08-29 18:07 ?943次閱讀

    微軟攜手Lumen Technologies擴(kuò)容并強(qiáng)化AI網(wǎng)絡(luò)能力合作

    微軟在7月25日宣布了一項(xiàng)重大舉措,旨在通過(guò)深化其Copilot等生成式AI服務(wù)在企業(yè)、組織、教育及普通消費(fèi)者領(lǐng)域的布局,來(lái)滿足日益增長(zhǎng)的對(duì)AI算力及網(wǎng)絡(luò)能力的需求。為實(shí)現(xiàn)這一目標(biāo),微軟攜手網(wǎng)絡(luò)系統(tǒng)領(lǐng)域的領(lǐng)先企業(yè)Lumen Technologies,共同開(kāi)啟了一段旨在擴(kuò)容
    的頭像 發(fā)表于 07-25 14:39 ?684次閱讀

    紅魔9S Pro系列AI游戲手機(jī)正式發(fā)布

    在萬(wàn)眾矚目中,紅魔電競(jìng)宇宙今日迎來(lái)了激動(dòng)人心的時(shí)刻——全新紅魔9S Pro+與紅魔9S Pro兩款AI游戲手機(jī)正式揭開(kāi)神秘面紗,以顛覆性的姿態(tài)引領(lǐng)游戲手機(jī)市場(chǎng)邁入“游戲
    的頭像 發(fā)表于 07-04 15:15 ?851次閱讀

    MediaTek天璣開(kāi)發(fā)者大會(huì)2024揭秘:AI Coaching游戲教學(xué)技術(shù)革新游戲體驗(yàn)

    ,共同展示了基于天璣平臺(tái)的端側(cè) AI 游戲教學(xué)技術(shù)——AI Coaching。這一創(chuàng)新技術(shù)不僅為玩家?guī)?lái)了全新的游戲體驗(yàn),更是對(duì)游戲教學(xué)領(lǐng)域
    的頭像 發(fā)表于 06-27 10:59 ?661次閱讀

    育碧將運(yùn)用AI技術(shù)打造活力四溢的游戲

    Guillemot 稱,AI 將被廣泛應(yīng)用于公司業(yè)務(wù)的“自動(dòng)化”過(guò)程。目前,育碧已組建兩支科研團(tuán)隊(duì)研究生成式 AI —— 一隊(duì)負(fù)責(zé)市場(chǎng)營(yíng)銷(xiāo)、銷(xiāo)售、IT、法律等事項(xiàng);另一隊(duì)專(zhuān)注提升游戲品質(zhì)及賦予
    的頭像 發(fā)表于 05-20 17:00 ?587次閱讀

    阿里云通義大模型助力“小愛(ài)同學(xué)”強(qiáng)化多模態(tài)AI生成能力

    小米的人工智能助手“小愛(ài)同學(xué)”近期與阿里云通義大模型達(dá)成戰(zhàn)略合作,共同提升其多模態(tài)AI生成能力,特別是在圖片生成與理解方面。這次合作不僅將強(qiáng)化“小愛(ài)同學(xué)”的功能,還將在小米的多個(gè)產(chǎn)品線,包括小米汽車(chē)和手機(jī)等設(shè)備上得到實(shí)際應(yīng)用。
    的頭像 發(fā)表于 05-13 09:19 ?992次閱讀

    NVIDIA數(shù)字人技術(shù)加速部署生成式AI驅(qū)動(dòng)的游戲角色

    NVIDIA 在 GDC 2024 大會(huì)上宣布,Inworld AI 等領(lǐng)先的 AI 應(yīng)用程序開(kāi)發(fā)者,正在使用 NVIDIA 數(shù)字人技術(shù)加速部署生成式 AI 驅(qū)動(dòng)的游戲角色。
    的頭像 發(fā)表于 04-09 10:08 ?757次閱讀
    NVIDIA數(shù)字人技術(shù)加速部署生成式<b class='flag-5'>AI</b>驅(qū)動(dòng)的<b class='flag-5'>游戲</b>角色

    美國(guó)BIS更新出口管制新規(guī),強(qiáng)化半導(dǎo)體出口監(jiān)管

    首先,對(duì)EUV掩膜基板追加管制。特別是專(zhuān)供EUV光刻制程之用的掩膜基板現(xiàn)已正式納入出口控制范圍,相關(guān)出口皆需遵循嚴(yán)格的許可要求。
    的頭像 發(fā)表于 04-08 09:25 ?815次閱讀

    美國(guó)商務(wù)部更新半導(dǎo)體出口管制細(xì)則

    實(shí)際上,浙商電子的研究報(bào)告指出,美方此次出口管制的核心轉(zhuǎn)變?cè)谟诩訌?qiáng)了對(duì)EUV掩模基板的管控,明晰了集成電路的性能關(guān)鍵參數(shù)定義及計(jì)算方法,強(qiáng)化了對(duì)集成電路整機(jī)產(chǎn)品的限制,對(duì)含特殊性能成分的芯片的出口采用了逐案審查政策。
    的頭像 發(fā)表于 04-03 15:41 ?875次閱讀

    中興通訊將推努比亞多款AI手機(jī)新品,強(qiáng)化AI布局

    展望未來(lái),中興通訊將利用自研的中興星云os系統(tǒng),打通各類(lèi)業(yè)務(wù)接入AI平臺(tái)的通道,全面內(nèi)化大模型、大數(shù)據(jù)與3D技術(shù),實(shí)現(xiàn)圖片處理、游戲流暢度以及安全防護(hù)等全流程賦能。
    的頭像 發(fā)表于 03-29 09:25 ?587次閱讀

    谷歌模型合成工具在哪找到

    谷歌模型合成工具可以在谷歌的官方網(wǎng)站或相關(guān)的開(kāi)發(fā)者平臺(tái)上找到。具體地,您可以嘗試訪問(wèn)谷歌的AI平臺(tái)或開(kāi)發(fā)者社區(qū),以獲取有關(guān)模型合成工具的最新信息和資源。
    的頭像 發(fā)表于 03-01 18:13 ?1652次閱讀
    主站蜘蛛池模板: 欧美一卡二卡科技有限公司 | 在线理论视频 | 婷婷99精品国产97久久综合 | 啪啪网站免费 | 成人亚洲欧美综合 | 欧美三级在线观看视频 | gogo亚洲肉体艺术100 | 天天爽夜夜爽夜夜爽 | 五月婷婷俺也去开心 | 亚洲综合成人网在线观看 | 又粗又大又猛又爽免费视频 | 国产一级特黄老妇女大片免费 | 色片在线 | 欧美国产精品主播一区 | 天天骑天天干 | 亚洲一区精品中文字幕 | 午夜久久免影院欧洲 | 国产视频观看 | 色伊人久久| 天天躁夜夜躁狠狠躁躁88 | 久久狠狠第一麻豆婷婷天天 | 夜夜爽爽爽 | 美女视频黄.免费网址 | 人成电影免费观看在线 | 亚洲三级网 | 凸输偷窥xxxx自由视频 | 色婷婷激情五月综合 | 亚洲午夜顶级嘿嘿嘿影院 | 国产在线欧美精品卡通动漫 | 国产伦精品一区二区三区高清 | 一区二区影院 | 在线国产你懂的 | 亚洲激情视频网 | 好硬好湿好爽再深一点h视频 | 91九色麻豆 | 老师下面好湿好紧好滑好想要 | www色在线 | 欧美性色黄大片四虎影视 | 国产精品bdsm在线调教 | 看毛片网 | 丁香花免费观看视频 |