91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

簡(jiǎn)單介紹了強(qiáng)化學(xué)習(xí)的基本概念

mK5P_AItists ? 來源:未知 ? 作者:李倩 ? 2018-06-26 09:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

由于Alpha Go的成功,強(qiáng)化學(xué)習(xí)始終是人們談?wù)摰慕裹c(diǎn)。現(xiàn)在Thomas Simonini在國(guó)外blog網(wǎng)站上發(fā)布了系列強(qiáng)化學(xué)習(xí)教程,以下是本系列的第一篇,簡(jiǎn)單介紹了強(qiáng)化學(xué)習(xí)的基本概念。

An introduction to Reinforcement Learning

我們基于TensorFlow制作了一門深度強(qiáng)化學(xué)習(xí)的視頻課程【1】,主要介紹了如何使用TensorFlow實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)問題求解。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種重要分支,通過“agent ”學(xué)習(xí)的方式,得出在當(dāng)前環(huán)境下所應(yīng)該采取的動(dòng)作,并觀察得到的結(jié)果。

最近幾年,我們見證了了許多研究領(lǐng)域的巨大進(jìn)展,例如包括2014年的“DeepMind and the Deep Q learning architecture”【2】,2016年的“beating the champion of the game of Go with AlphaGo”【3】,2017年的“OpenAI and the PPO”【4】

在這個(gè)系列文章中,我們將關(guān)注于深度學(xué)習(xí)問題中各類不同的求解方法。包括Q-learning,DeepQ-learning,策略梯度,ActorCritic,以及PPO。

在第一篇文章中,你將會(huì)學(xué)到:

強(qiáng)化學(xué)習(xí)是什么,為什么說“獎(jiǎng)勵(lì)”是最重要的思想。

強(qiáng)化學(xué)習(xí)的三個(gè)方法。

深度強(qiáng)化學(xué)習(xí)中的“深度”是什么意思?

在進(jìn)入深度學(xué)習(xí)實(shí)現(xiàn)的主題之前,一定要把這些元素弄清楚。

強(qiáng)化學(xué)習(xí)背后的思想是,代理(agent)將通過與環(huán)境(environment)的動(dòng)作(action)交互,進(jìn)而獲得獎(jiǎng)勵(lì)(reward)。

從與環(huán)境的交互中進(jìn)行學(xué)習(xí),這一思想來自于我們的自然經(jīng)驗(yàn),想象一下當(dāng)你是個(gè)孩子的時(shí)候,看到一團(tuán)火,并嘗試接觸它。

火很溫暖,你感覺很開心(獎(jiǎng)勵(lì)+1)。你就會(huì)覺得火是個(gè)好東西。

可一旦你嘗試去觸摸它。哎呦!火把你的手燒傷了(懲罰-1).你才明白只有與火保持一定距離,才會(huì)產(chǎn)生溫暖,才是個(gè)好東西,但如果太過靠近的話,就會(huì)燒傷自己。

這一過程是人類通過交互進(jìn)行學(xué)習(xí)的方式。強(qiáng)化學(xué)習(xí)是一種可以根據(jù)行為進(jìn)行計(jì)算的學(xué)習(xí)方法。

強(qiáng)化學(xué)習(xí)的過程

舉個(gè)例子,思考如何訓(xùn)練agent 學(xué)會(huì)玩超級(jí)瑪麗游戲。這一強(qiáng)化學(xué)習(xí)過程可以被建模為如下的一組循環(huán)過程。

agent從環(huán)境中接收到狀態(tài)S0。(此案例中,這句話意思是從超級(jí)瑪麗游戲中得到的第一幀信息)

基于狀態(tài)S0,agent執(zhí)行A0操作。(右移)

環(huán)境轉(zhuǎn)移至新狀態(tài)S1。(新一幀)

環(huán)境給予R1獎(jiǎng)勵(lì)。(沒死:+1)

強(qiáng)化學(xué)習(xí)循環(huán)輸出狀態(tài)、行為、獎(jiǎng)勵(lì)的序列。整體的目標(biāo)是最大化全局reward的期望。

獎(jiǎng)勵(lì)假設(shè)是核心思想

在強(qiáng)化學(xué)習(xí)中,為了得到最好的行為序列,我們需要最大化累積reward期望。

每個(gè)時(shí)間步的累積reward可以寫作:

等價(jià)于:

然而,在現(xiàn)實(shí)世界中,我們不能僅僅加入獎(jiǎng)勵(lì)。這種獎(jiǎng)勵(lì)來的太快,且發(fā)生的概率非常大,因此比起長(zhǎng)期獎(jiǎng)勵(lì)來說,更容易預(yù)測(cè)。

另一個(gè)例子中,agent 是老鼠,對(duì)手是貓,目標(biāo)是在被貓吃掉之前,先吃掉最多的奶酪。

從圖中可以看到,吃掉身邊的奶酪要比吃掉貓旁邊的奶酪,要容易許多。

由于一旦被貓抓住,游戲即將結(jié)束,因此,貓身邊的奶酪獎(jiǎng)勵(lì)會(huì)有衰減。

我們對(duì)折扣的處理如下所示(定義gamma為衰減比例,在0-1之間):

Gamma越大,衰減越小。這意味著agent 的學(xué)習(xí)過程更關(guān)注于長(zhǎng)期的回報(bào)。

另一方面,更小的gamma,會(huì)帶來更大的衰減。這意味著我們的agent 關(guān)心于短期的回報(bào)。

衰減后的累計(jì)獎(jiǎng)勵(lì)期望為:

每個(gè)時(shí)間步間的獎(jiǎng)勵(lì)將與gamma參數(shù)相乘,獲得衰減后的獎(jiǎng)勵(lì)值。隨著時(shí)間步驟的增加,貓距離我們更近,因此為未來的獎(jiǎng)勵(lì)概率將變得越來越小。

事件型或者持續(xù)型任務(wù)

任務(wù)是強(qiáng)化學(xué)習(xí)問題中的基礎(chǔ)單元,我們可以有兩類任務(wù):事件型與持續(xù)型。

事件型任務(wù)

在這一情況中,我們有一個(gè)起始點(diǎn)和終止點(diǎn)(終止?fàn)顟B(tài))。這會(huì)創(chuàng)建一個(gè)事件:一組狀態(tài)、行為、獎(jiǎng)勵(lì)以及新獎(jiǎng)勵(lì)。

對(duì)于超級(jí)瑪麗的情況來說,一個(gè)事件從游戲開始進(jìn)行記錄,直到角色被殺結(jié)束。

持續(xù)型任務(wù)

持續(xù)型任務(wù)意味著任務(wù)不存在終止?fàn)顟B(tài)。在這一案例中,agent 將學(xué)習(xí)如何選擇最好的動(dòng)作,并與環(huán)境同步交互。

例如,通過agent 進(jìn)行自動(dòng)股票交易。在這個(gè)任務(wù)中,并不存在起始點(diǎn)和終止?fàn)顟B(tài),直到我們主動(dòng)終止之前,agent 將一直運(yùn)行下去。

蒙特卡洛與時(shí)間差分學(xué)習(xí)方法

接下來將學(xué)習(xí)兩種方法:

蒙特卡洛方法:在事件結(jié)束后收集獎(jiǎng)勵(lì),進(jìn)而計(jì)算未來獎(jiǎng)勵(lì)的最大期望。

時(shí)間差分學(xué)習(xí):在每一個(gè)時(shí)間步進(jìn)行估計(jì)計(jì)算。

蒙特卡洛方法

當(dāng)時(shí)間結(jié)束時(shí)(agent 達(dá)到“終止?fàn)顟B(tài)”),agent 將看到全部累積獎(jiǎng)勵(lì),進(jìn)而計(jì)算它將如何去做。在蒙特卡洛方法中,獎(jiǎng)勵(lì)只會(huì)在游戲結(jié)束時(shí)進(jìn)行收集。

從一個(gè)新游戲開始,agent 將會(huì)隨著迭代的進(jìn)行,完成更好的決策。

舉例如下:

如果我們?cè)谌缟檄h(huán)境中:

總是從相同位置開始

當(dāng)被貓抓到或者移動(dòng)超過20步時(shí),事件終止。

在事件的結(jié)尾,我們得到一組狀態(tài)、行為、獎(jiǎng)勵(lì)以及新狀態(tài)。

agent 將對(duì)整體獎(jiǎng)勵(lì)Gt求和。

基于上面的公式對(duì)V(st)求和

根據(jù)更新的認(rèn)知開始新的游戲

隨著執(zhí)行的事件越來越多,agent 學(xué)習(xí)的結(jié)果將越來越好。

時(shí)間查分學(xué)習(xí):每步更新

對(duì)于時(shí)序差分學(xué)習(xí),不需要等到每個(gè)事件終止便可以根據(jù)未來獎(jiǎng)勵(lì)的最大期望估計(jì)進(jìn)行更新。

這種方法叫做TD(0)或者單步TD方法(在每個(gè)步驟間隔進(jìn)行值函數(shù)更新)。

TD方法在每一步進(jìn)行值函數(shù)評(píng)估更新。在t+1時(shí),立刻觀察到獎(jiǎng)勵(lì)Rt+1,并得到當(dāng)前的評(píng)估值V(st+1)。

TD的目標(biāo)是得到評(píng)估值,并根據(jù)單步的估計(jì)值完成前一個(gè)估計(jì)值V(st)更新。

探索/開發(fā)間的平衡

在繼續(xù)了解其他細(xì)節(jié)之前,我們必須介紹一個(gè)非常重要的主題:探索與開發(fā)之間的平衡。

探索是為了發(fā)現(xiàn)環(huán)境的更多信息

開發(fā)是為了根據(jù)已知信息去最大化獎(jiǎng)勵(lì)值。

記住,我們agent 的目標(biāo)是為了最大化累積獎(jiǎng)勵(lì)的期望,然而,我們可能陷入到一個(gè)常見的陷阱中。

在游戲中,老鼠可以獲得無限的小奶酪(1次獲得1個(gè)),但在迷宮的上部,有一個(gè)超大的奶酪包裹(1次可獲得1000個(gè))。

然而,如果我們只關(guān)注于獎(jiǎng)勵(lì),agent 將永遠(yuǎn)無法達(dá)到奶酪包裹處。并且,它將會(huì)僅去探索最近的獎(jiǎng)勵(lì)來源,即使這個(gè)獎(jiǎng)勵(lì)特別小(開發(fā),exploitation)。

但如果agent 進(jìn)行一點(diǎn)小小的探索工作,就有可能獲得更大的獎(jiǎng)勵(lì)。

這就是探索與開發(fā)的平衡問題。我們必須定義出一個(gè)規(guī)則,幫助agent 去解決這個(gè)平衡。我們將在未來文章中通過不同策略去解決這一問題。

強(qiáng)化學(xué)習(xí)的三種方法

現(xiàn)在我們定義了強(qiáng)化學(xué)習(xí)的主要元素,接下來將介紹三種解決強(qiáng)化學(xué)習(xí)問題的方法,包括基于值的方法、基于策略的方法與基于模型的方法。

基于值的方法

在基于值的強(qiáng)化學(xué)習(xí)方法中,目標(biāo)是優(yōu)化值函數(shù)V(s)。

值函數(shù)的作用是,告訴我們?cè)诿總€(gè)狀態(tài)下,未來最大化的獎(jiǎng)勵(lì)期望。

值是每個(gè)狀態(tài)條件下,從當(dāng)前開始,在未來所能取得的最大總回報(bào)的值。

agent 將使用值函數(shù)去在每一步選擇采用哪個(gè)狀態(tài)。

在迷宮問題中,在每一步將選擇最大值:-7,-6,-5等等。

基于策略的方法

在基于策略的強(qiáng)化學(xué)習(xí)方法中,我們希望能直接優(yōu)化策略函數(shù)π(s)。

策略的定義是,在給定時(shí)間的agent 行為。

通過學(xué)習(xí)到策略函數(shù),可以讓我們對(duì)每個(gè)狀態(tài)映射出最好的相關(guān)動(dòng)作。

兩種策略:

確定策略:在給定狀態(tài)下總是返回相同動(dòng)作。

隨機(jī)策略:輸出一個(gè)動(dòng)作的概率分布。

如同我們看到的,策略直接指出了每一步的最優(yōu)行為。

基于模型的方法

在基于模型的強(qiáng)化學(xué)習(xí)中,我們對(duì)環(huán)境建模,這意味著我們創(chuàng)造了環(huán)境的模型。

問題是,每種行為都需要不同的模型表示,這就是為什么在接下來的文章中并沒有提及此類方法的原因。

深度強(qiáng)化學(xué)習(xí)的介紹

深度強(qiáng)化學(xué)習(xí)采用深度神經(jīng)網(wǎng)絡(luò)以解決強(qiáng)化學(xué)習(xí)問題。

在例子中,在下一篇文章我們將采用Q-learning與深度Q-learning。

你將會(huì)看到顯著地不同,在第一種方法中,我們將使用一個(gè)傳統(tǒng)算法那去創(chuàng)建Q值表,以幫助我們找到每種狀態(tài)下應(yīng)采用的行為。第二種方法中,我們將使用神經(jīng)網(wǎng)絡(luò)(得到某狀態(tài)下的近似獎(jiǎng)勵(lì):Q值)。

這篇文章里有很多信息,在繼續(xù)進(jìn)行之前,一定要真正掌握住基礎(chǔ)知識(shí)。

重點(diǎn):這篇文章是這一免費(fèi)的強(qiáng)化學(xué)習(xí)博文專欄的第一部分。關(guān)于更多的資源,見此鏈接【5】.

下一次我們將基于Q-learning訓(xùn)練agent 去玩FrozenLake游戲。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【干貨】強(qiáng)化學(xué)習(xí)介紹

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?576次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    第十三章 通訊的基本概念

    本章介紹通訊基本概念,包括串行/并行、全雙工/半雙工/單工、同步/異步通訊,還提及通訊速率中比特率與波特率的概念
    的頭像 發(fā)表于 05-22 17:29 ?1227次閱讀
    第十三章 通訊的<b class='flag-5'>基本概念</b>

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?421次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?602次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    WIFI的基本概念介紹

    在當(dāng)今數(shù)字化高度普及的時(shí)代,WIFI 技術(shù)已然成為人們生活、工作與學(xué)習(xí)中不可或缺的一部分。無論是在家中愜意地瀏覽網(wǎng)頁、觀看視頻,還是在辦公室里高效地處理文件、進(jìn)行線上會(huì)議,又或是在公共場(chǎng)所便捷地連接
    的頭像 發(fā)表于 02-05 11:44 ?1318次閱讀

    自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

    Learning,簡(jiǎn)稱ML)是人工智能的一個(gè)核心領(lǐng)域,它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測(cè)或決策。自然語言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系,因?yàn)闄C(jī)器學(xué)習(xí)提供一種強(qiáng)大的工具,用于從大
    的頭像 發(fā)表于 12-05 15:21 ?1988次閱讀

    多芯片封裝的基本概念和關(guān)鍵技術(shù)

    本文簡(jiǎn)單介紹多芯片封裝的概念、技術(shù)、工藝以及未來發(fā)展趨勢(shì)。
    的頭像 發(fā)表于 12-04 10:59 ?1505次閱讀
    多芯片封裝的<b class='flag-5'>基本概念</b>和關(guān)鍵技術(shù)

    螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購(gòu)。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營(yíng),而原投資人已全部退出。 與此同時(shí),螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,旨在推動(dòng)大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1586次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境是一個(gè)抽象的概念,它定義智能體(agent)可以執(zhí)行的動(dòng)作(acti
    的頭像 發(fā)表于 11-05 17:34 ?1045次閱讀

    Linux應(yīng)用編程的基本概念

    Linux應(yīng)用編程涉及到在Linux環(huán)境下開發(fā)和運(yùn)行應(yīng)用程序的一系列概念。以下是一些涵蓋Linux應(yīng)用編程的基本概念
    的頭像 發(fā)表于 10-24 17:19 ?660次閱讀

    X電容和Y電容的基本概念

    在電子電路中,電容器是一種至關(guān)重要的元件,它用于儲(chǔ)存電荷并在電路中釋放能量。而在眾多的電容器中,X電容和Y電容作為安規(guī)電容,因其特定的應(yīng)用場(chǎng)景和安全性能而受到廣泛關(guān)注。本文將對(duì)X電容和Y電容的基本概念、工作原理、應(yīng)用場(chǎng)景以及選擇和維護(hù)等方面進(jìn)行詳細(xì)介紹
    的頭像 發(fā)表于 10-21 16:43 ?5630次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)
    的頭像 發(fā)表于 09-30 16:16 ?705次閱讀

    集電極開路的基本概念與原理

    在集成電路的廣闊領(lǐng)域中,集電極開路作為一種獨(dú)特的輸出形式,扮演著舉足輕重的角色。它如同一個(gè)精密控制的開關(guān),既能實(shí)現(xiàn)電路的通斷,又能靈活應(yīng)對(duì)不同的電流需求。 集電極開路的基本概念與原理 集電極開路
    的頭像 發(fā)表于 09-19 10:19 ?1189次閱讀
    集電極開路的<b class='flag-5'>基本概念</b>與原理

    無源傳感器的基本概念、工作原理及分類

    、維護(hù)方便等優(yōu)點(diǎn),因此在許多領(lǐng)域得到了廣泛應(yīng)用。 一、無源傳感器的基本概念 1.1 定義 無源傳感器是一種不需要外部能源的傳感器,它通過檢測(cè)被測(cè)量對(duì)象自身的物理或化學(xué)特性變化來實(shí)現(xiàn)測(cè)量。無源傳感器的工作原理是利用被測(cè)量對(duì)象的特性變化來
    的頭像 發(fā)表于 08-19 09:53 ?3142次閱讀

    socket的基本概念和原理

    的通信。它是一個(gè)抽象的概念,用于表示網(wǎng)絡(luò)中的一個(gè)通信實(shí)體。在計(jì)算機(jī)網(wǎng)絡(luò)中,Socket允許應(yīng)用程序通過網(wǎng)絡(luò)發(fā)送和接收數(shù)據(jù)。Socket的概念最早由UNIX操作系統(tǒng)引入,后來被廣泛應(yīng)用于各種操作系統(tǒng)和編程語言中。 2. Socket的基本
    的頭像 發(fā)表于 08-16 10:51 ?4706次閱讀
    主站蜘蛛池模板: 停停色| 婷婷激情电影 | 视频精品一区二区三区 | 亚洲人成亚洲人成在线观看 | 日韩欧美成人乱码一在线 | 啊用力太猛了啊好深视频免费 | 永久黄网站色视频免费观看99 | 日韩欧美视频在线一区二区 | 四虎国产精品永久免费网址 | 四虎在线成人免费网站 | 性欧美在线 | 欧美成网站 | 亚洲免费观看在线视频 | 久久天天躁狠狠躁夜夜爽蜜月 | 激五月| 欧美性受xxxx | 黄色片啪啪 | 亚洲精品精品一区 | 天天噜噜噜 | 午夜三级成人三级 | 日本一区高清视频 | 亚洲伊人久久大香线蕉综合图片 | 天天做夜夜操 | 奇米影视奇米色777欧美 | 久久综合九色综合欧洲 | 韩国理伦片在线观看2828 | 丁香综合激情 | 日本成人小视频 | 宅男69免费永久网站 | 国产亚洲欧美日本一二三本道 | 丁香花五月婷婷 | 天堂在线www天堂中文在线 | 亚洲特级毛片 | 1000部啪啪未满十八勿入 | 韩国中文字幕在线观看 | 国产精品va一区二区三区 | 久久天堂网| 性欧美精品xxxx | 国产特级毛片aaaaaa毛片 | 日日做夜夜做 | 狠狠干网站 |