在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全新科學(xué)問(wèn)答數(shù)據(jù)集ScienceQA讓深度學(xué)習(xí)模型推理有了思維鏈

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-11-01 16:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在回答復(fù)雜的問(wèn)題時(shí),人類(lèi)可以理解不同模態(tài)的信息,并形成一個(gè)完整的思維鏈(Chain of Thought, CoT)。深度學(xué)習(xí)模型是否可以打開(kāi)「黑箱」,對(duì)其推理過(guò)程提供一個(gè)思維鏈呢?近日,UCLA 和艾倫人工智能研究院(AI2)提出了首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問(wèn)答數(shù)據(jù)集 ScienceQA,用于測(cè)試模型的多模態(tài)推理能力。在 ScienceQA 任務(wù)中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思維鏈的提示學(xué)習(xí),從而使得模型能在生成答案的同時(shí),生成相應(yīng)的推理解釋。GPT-3 (CoT) 在 ScienceQA 上實(shí)現(xiàn)了 75.17% 的準(zhǔn)確率;并且人類(lèi)評(píng)估表明,其可以生成較高質(zhì)量的解釋。

像人類(lèi)一樣有效地學(xué)習(xí)并完成復(fù)雜的任務(wù)是人工智能追求的長(zhǎng)遠(yuǎn)目標(biāo)之一。人類(lèi)在決策過(guò)程中可以遵循一個(gè)完整的思維鏈(CoT)推理過(guò)程,從而對(duì)給出的答案做出合理的解釋。

然而,已有的機(jī)器學(xué)習(xí)模型大多依賴(lài)大量的輸入 - 輸出樣本訓(xùn)練來(lái)完成具體的任務(wù)。這些黑箱模型往往直接生成最終的答案,而沒(méi)有揭示具體的推理過(guò)程。

科學(xué)問(wèn)答任務(wù)(Science Question Answering)可以很好地診斷人工智能模型是否具有多步推理能力和可解釋性。為了回答科學(xué)問(wèn)題,一個(gè)模型不僅需要理解多模態(tài)內(nèi)容,還需要提取外部知識(shí)以得出正確答案。同時(shí),一個(gè)可靠的模型還應(yīng)該給出揭示其推理過(guò)程的解釋。然而,目前的科學(xué)問(wèn)答數(shù)據(jù)集大多缺乏對(duì)答案的詳細(xì)解釋?zhuān)蛘呔窒抻谖淖帜B(tài)。

因此,作者收集了全新的科學(xué)問(wèn)答數(shù)據(jù)集 ScienceQA,它包含了 21,208 道來(lái)自中小學(xué)科學(xué)課程的問(wèn)答多選題。一道典型的問(wèn)題包含多模態(tài)的背景(context)、正確的選項(xiàng)、通用的背景知識(shí)(lecture)以及具體的解釋?zhuān)╡xplanation)。

3cf72216-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集的一個(gè)例子。

要回答上圖所示的例子,我們首先要回憶關(guān)于力的定義:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一個(gè)多步的推理過(guò)程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最終得到正確答案:「This force is a pull. 」。

在 ScienceQA 任務(wù)中,模型需要在預(yù)測(cè)答案的同時(shí)輸出詳細(xì)地解釋。在本文中,作者利用大規(guī)模語(yǔ)言模型生成背景知識(shí)和解釋?zhuān)鳛橐环N思維鏈(CoT)來(lái)模仿人類(lèi)具有的多步推理能力。

實(shí)驗(yàn)表明,目前的多模態(tài)問(wèn)答方法在 ScienceQA 任務(wù)不能取得很好的表現(xiàn)。相反,通過(guò)基于思維鏈的提示學(xué)習(xí),GPT-3 模型能在 ScienceQA 數(shù)據(jù)集上取得 75.17% 的準(zhǔn)確率,同時(shí)可以生成質(zhì)量較高的解釋?zhuān)焊鶕?jù)人類(lèi)評(píng)估,其中 65.2% 的解釋相關(guān)、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 數(shù)據(jù)集上取得 3.99% 的提升。

1、ScienceQA 數(shù)據(jù)集

數(shù)據(jù)集統(tǒng)計(jì)

ScienceQA 的主要統(tǒng)計(jì)信息如下所示。

3dda2b56-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集的主要信息

ScienceQA 包含21208個(gè)例子, 其中有9122個(gè)不同的問(wèn)題(question)。10332 道(48.7%)有視覺(jué)背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有視覺(jué) + 文本的背景信息。絕大部分問(wèn)題標(biāo)注有詳細(xì)的解釋?zhuān)?3.9% 的問(wèn)題有背景知識(shí)標(biāo)注(lecture),而 90.5% 的問(wèn)題有詳細(xì)的解答(explanation)。

3f230d0c-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集中問(wèn)題和背景分布。

數(shù)據(jù)集主題分布

不同于已有的數(shù)據(jù)集,ScienceQA 涵蓋自然科學(xué)、社會(huì)科學(xué)和語(yǔ)言學(xué)三大學(xué)科分支,包含 26 個(gè)主題(topic)、127 個(gè)分類(lèi)(category)和 379 個(gè)知識(shí)技能(skill)。

3f38e23a-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的主題分布。

數(shù)據(jù)集詞云分布

如下圖的詞云分布所示,ScienceQA 中的問(wèn)題具有豐富的語(yǔ)義多樣性。模型需要理解不同的問(wèn)題表達(dá)、場(chǎng)景和背景知識(shí)。

40810208-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的詞云分布。

數(shù)據(jù)集比較

ScienceQA 是第一個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問(wèn)答數(shù)據(jù)集。相比于已有的數(shù)據(jù)集,ScienceQA 的數(shù)據(jù)規(guī)模、題型多樣性、主題多樣性等多個(gè)維度體現(xiàn)了優(yōu)勢(shì)。

41ec4cb0-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 數(shù)據(jù)集與其它科學(xué)問(wèn)答數(shù)據(jù)集的比較。

2、模型和方法

Baselines

作者在 ScienceQA 數(shù)據(jù)集了評(píng)估不同的基準(zhǔn)方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大規(guī)模語(yǔ)言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。對(duì)于語(yǔ)言模型 UnifiedQA 和 GPT-3,背景圖片會(huì)被轉(zhuǎn)換成文本形式的注釋?zhuān)╟aption)。

GPT-3 (CoT)

最近的研究工作表明,在給定合適的提示后,GPT-3 模型可以在不同的下游任務(wù)表現(xiàn)出卓越的性能。為此,作者提出 GPT-3 (CoT) 模型,在提示中加入思維鏈(CoT),使得模型在生成答案的同時(shí),可以生成對(duì)應(yīng)的背景知識(shí)和解釋。

具體的提示模板如下圖所示。其中 Ii 表示訓(xùn)練例子,It 表示測(cè)試?yán)印S?xùn)練例子包含問(wèn)題(Question)、選項(xiàng)(Options)、背景(Context)和答案(Answer)元素,其中答案由正確答案、背景知識(shí)(Lecture)和解釋?zhuān)‥xplanation)組成。GPT-3 (CoT) 會(huì)根據(jù)輸入的提示信息,補(bǔ)全測(cè)試?yán)拥念A(yù)測(cè)答案、背景知識(shí)和解釋。

42167fa8-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 采用的提示模板。

3、實(shí)驗(yàn)與分析

實(shí)驗(yàn)結(jié)果

不同的基準(zhǔn)和方法在 ScienceQA 測(cè)試集上的準(zhǔn)確率結(jié)果如下表所示。當(dāng)前最好的 VQA 模型之一的 VisualBERT 只能達(dá)到 61.87% 的準(zhǔn)確率。在訓(xùn)練的過(guò)程引入 CoT 數(shù)據(jù),UnifiedQA_BASE 模型可以實(shí)現(xiàn) 74.11% 的準(zhǔn)確率。而 GPT-3 (CoT) 在 2 個(gè)訓(xùn)練例子的提示下,實(shí)現(xiàn)了 75.17% 的準(zhǔn)確率,高于其它基準(zhǔn)模型。人類(lèi)在 ScienceQA 數(shù)據(jù)集上表現(xiàn)優(yōu)異,可以達(dá)到 88.40% 的總體準(zhǔn)確率,并且在不同類(lèi)別的問(wèn)題上表現(xiàn)穩(wěn)定。

4234ac9e-5860-11ed-a3b6-dac502259ad0.png

不同的方法在 ScienceQA 測(cè)試集上的結(jié)果。

生成解釋的評(píng)估

作者用自動(dòng)評(píng)估指標(biāo)如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 評(píng)估了不同方法生成的解釋。由于自動(dòng)評(píng)估指標(biāo)只能衡量預(yù)測(cè)結(jié)果和標(biāo)注內(nèi)容的相似性,因此作者進(jìn)一步采用了人工評(píng)估的方法,來(lái)評(píng)估生成解釋的相關(guān)性、正確性和完整性。可以看到,GPT-3 (CoT) 生成的解釋中 65.2% 符合了 Gold 標(biāo)準(zhǔn)。

4273fffc-5860-11ed-a3b6-dac502259ad0.png

不同評(píng)估方法對(duì)生成解釋的結(jié)果。

不同的提示模板

作者比較了不同的提示模板對(duì) GPT-3 (CoT) 準(zhǔn)確率的影響。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以獲得最大的平均準(zhǔn)確率和最小的方差。另外,GPT-3 (CoT) 在 2 個(gè)訓(xùn)練例子的提示下,表現(xiàn)最佳。

429455ea-5860-11ed-a3b6-dac502259ad0.png

不同提示模板的結(jié)果比較。

模型上限

為了探索 GPT-3 (CoT) 模型的性能上限,作者把標(biāo)注的背景知識(shí)和解釋加入模型的輸入(QCMLE*-A)。我們可以看到 GPT-3 (CoT) 可以實(shí)現(xiàn)高達(dá) 94.13% 的準(zhǔn)確率。這也提示了模型提升的一個(gè)可能方向:模型可以進(jìn)行分步推理,即先檢索到準(zhǔn)確的背景知識(shí)和生成準(zhǔn)確的解釋?zhuān)缓蟀堰@些結(jié)果作為輸入。這個(gè)過(guò)程和人類(lèi)解決復(fù)雜問(wèn)題的過(guò)程很相似。

42a49f5e-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者進(jìn)一步討論了GPT-3 (CoT) 在生成預(yù)測(cè)時(shí),不同的 ALE 位置對(duì)結(jié)果的影響。在 ScienceQA 上的實(shí)驗(yàn)結(jié)果表明,如果 GPT-3 (CoT) 先生成背景知識(shí) L 或解釋 E,再生成答案 A,其預(yù)測(cè)準(zhǔn)確率會(huì)大幅下降。其主要原因是背景知識(shí) L 和解釋 E 有較多的詞語(yǔ)數(shù)量,如果先生成 LE,GPT-3 模型有可能用完最大詞數(shù),或者提前停止生成文本,從而不能得到最終的答案 A。

42e3e650-5860-11ed-a3b6-dac502259ad0.png

不同的 LE 位置。

成功案例

如下 4 個(gè)例子中,GPT-3 (CoT)不但能生成正確的答案,也能給出相關(guān)、正確且完整的解釋。這說(shuō)明 GPT-3 (CoT) 在 ScienceQA 數(shù)據(jù)集上表現(xiàn)出較強(qiáng)的多步推理和解釋能力。

42f6a452-5860-11ed-a3b6-dac502259ad0.png

43b82d0c-5860-11ed-a3b6-dac502259ad0.png

43e1b64a-5860-11ed-a3b6-dac502259ad0.png

440c169c-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 生成正確答案和解釋的例子。

失敗案例 I

在下面的三個(gè)例子中,GPT-3 (CoT)雖然生成了正確的答案,但是生成的解釋不相關(guān)、不正確或者不完整。這說(shuō)明 GPT-3 (CoT) 對(duì)于生成邏輯一致的長(zhǎng)序列還面臨較大的困難。

4427c04a-5860-11ed-a3b6-dac502259ad0.png

44d70ed8-5860-11ed-a3b6-dac502259ad0.png

44f11b70-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成正確答案、但是生成的解釋不正確的例子。

失敗案例 II

在下面的四個(gè)例子中,GPT-3 (CoT) 不能生成正確的答案,也不能生成正確的解釋。其中的原因有:(1)當(dāng)前的 image captioning 模型還不能準(zhǔn)確地描述示意圖、表格等圖片的語(yǔ)義信息,如果用圖片注釋文本表示圖片,GPT-3 (CoT) 還不能很好地回答包含圖表背景的問(wèn)題;(2)GPT-3 (CoT) 生成長(zhǎng)序列時(shí),容易出現(xiàn)前后不一致(inconsistent)或不連貫(incoherent)的問(wèn)題;(3)GPT-3 (CoT) 還不能很好地回答需要特定領(lǐng)域知識(shí)的問(wèn)題。

455a2bec-5860-11ed-a3b6-dac502259ad0.png

4578dfec-5860-11ed-a3b6-dac502259ad0.png

46242bea-5860-11ed-a3b6-dac502259ad0.png

463ff8d4-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成錯(cuò)誤答案和解釋的例子。

4、結(jié)論與展望

作者提出了首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問(wèn)答數(shù)據(jù)集 ScienceQA。ScienceQA 包含 21208 道來(lái)自中小學(xué)科學(xué)學(xué)科的多選題,涵蓋三大科學(xué)領(lǐng)域和豐富的話(huà)題,大部分問(wèn)題標(biāo)注有詳細(xì)的背景知識(shí)和解釋。ScienceQA 可以評(píng)估模型在多模態(tài)理解、多步推理和可解釋性方面的能力。作者在 ScienceQA 數(shù)據(jù)集上評(píng)估了不同的基準(zhǔn)模型,并提出 GPT-3 (CoT) 模型在生成答案的同時(shí),可以生成相應(yīng)的背景知識(shí)和解釋。大量的實(shí)驗(yàn)分析和案例分析對(duì)模型的改進(jìn)提出了有利的啟發(fā)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:NeurIPS 2022 | 首個(gè)標(biāo)注詳細(xì)解釋的多模態(tài)科學(xué)問(wèn)答數(shù)據(jù)集,深度學(xué)習(xí)模型推理有了思維鏈

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型推理顯存和計(jì)算量估計(jì)方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過(guò)深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)或分類(lèi)的過(guò)程。然
    發(fā)表于 07-03 19:43

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    專(zhuān)業(yè)數(shù)據(jù) 注入大量數(shù)學(xué)/科學(xué)文獻(xiàn)與合成推理數(shù)據(jù) 微調(diào)策略 多任務(wù)聯(lián)合訓(xùn)練 推理強(qiáng)化
    發(fā)表于 02-14 02:08

    AI模型思維功能升級(jí),提升透明度與可信度

    據(jù)外媒最新報(bào)道,OpenAI近期對(duì)其o3-mini AI模型進(jìn)行了重要更新,引入了備受矚目的“思維”功能。這一創(chuàng)新之舉使得用戶(hù)能夠直觀地觀察到模型
    的頭像 發(fā)表于 02-10 09:06 ?530次閱讀

    OpenAI o3-mini模型思維遭質(zhì)疑

    近日,OpenAI公開(kāi)了其大模型o3-mini的推理思維,這一舉措使得免費(fèi)用戶(hù)和付費(fèi)用戶(hù)都能深入了解模型的思考過(guò)程。這一透明度的提升,原本
    的頭像 發(fā)表于 02-08 10:57 ?634次閱讀

    智譜推出深度推理模型GLM-Zero預(yù)覽版

    近日,智譜公司正式發(fā)布深度推理模型GLM-Zero的預(yù)覽版——GLM-Zero-Preview。這款模型標(biāo)志著智譜在擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練
    的頭像 發(fā)表于 01-03 10:42 ?491次閱讀

    智譜GLM-Zero深度推理模型預(yù)覽版正式上線

    近日,智譜公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上線。這款模型是智譜首個(gè)基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的
    的頭像 發(fā)表于 01-02 10:55 ?513次閱讀

    阿里云開(kāi)源推理模型QwQ

    近日,阿里云通義團(tuán)隊(duì)宣布推出全新AI推理模型QwQ-32B-Preview,并同步實(shí)現(xiàn)開(kāi)源。這一舉措標(biāo)志著阿里云在AI推理領(lǐng)域邁出了重要一步。 據(jù)評(píng)測(cè)
    的頭像 發(fā)表于 11-29 11:30 ?1155次閱讀

    FPGA加速深度學(xué)習(xí)模型的案例

    FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)加速深度學(xué)習(xí)模型是當(dāng)前硬件加速領(lǐng)域的一個(gè)熱門(mén)研究方向。以下是一些FPGA加速深度學(xué)習(xí)
    的頭像 發(fā)表于 10-25 09:22 ?1189次閱讀

    AI大模型深度學(xué)習(xí)的關(guān)系

    人類(lèi)的學(xué)習(xí)過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)學(xué)習(xí)和識(shí)別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來(lái)進(jìn)行訓(xùn)練和
    的頭像 發(fā)表于 10-23 15:25 ?2861次閱讀

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    人工智能在科學(xué)研究中的核心技術(shù),包括機(jī)器學(xué)習(xí)深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石,使得AI能夠處理和分析復(fù)雜的數(shù)
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    人工智能:科學(xué)研究的加速器 第一章清晰地闡述人工智能作為科學(xué)研究工具的強(qiáng)大功能。通過(guò)機(jī)器學(xué)習(xí)深度學(xué)
    發(fā)表于 10-14 09:12

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    今天來(lái)學(xué)習(xí)大語(yǔ)言模型在自然語(yǔ)言理解方面的原理以及問(wèn)答回復(fù)實(shí)現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)。 大語(yǔ)言
    發(fā)表于 08-02 11:03

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車(chē)、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?1114次閱讀

    深度學(xué)習(xí)模型哪些應(yīng)用場(chǎng)景

    深度學(xué)習(xí)模型作為人工智能領(lǐng)域的重要分支,已經(jīng)在多個(gè)應(yīng)用場(chǎng)景中展現(xiàn)出其巨大的潛力和價(jià)值。這些應(yīng)用不僅改變了我們的日常生活,還推動(dòng)了科技進(jìn)步和產(chǎn)業(yè)升級(jí)。以下將詳細(xì)探討深度
    的頭像 發(fā)表于 07-16 18:25 ?4038次閱讀

    深度學(xué)習(xí)模型量化方法

    深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù),旨在通過(guò)減少網(wǎng)絡(luò)參數(shù)的比特寬度來(lái)減小模型大小和加速推理
    的頭像 發(fā)表于 07-15 11:01 ?1091次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>量化方法
    主站蜘蛛池模板: 狠狠色综合久久婷婷 | 黄色a站 | 天堂网最新版www中文 | 福利片在线观看免费高清 | 欧美色欧美亚洲高清在线视频 | 久久e热| 狠狠色狠狠色综合 | 49vv婷婷网 | 激情综合网婷婷 | 6080伦理久久亚洲精品 | 国产精品免费观看网站 | 午夜寂寞影视 | 三级黄色在线视频中文 | 九色九色九色在线综合888 | 日本一级成人毛片免费观看 | dy天堂| 日本不卡视频在线观看 | 小雪被老外黑人撑破了视频 | 在线观看永久免费 | 天天操免费视频 | 天天好b| 一级做a爰片久久毛片鸭王 一级做a爰片久久毛片一 | 国产亚洲综合精品一区二区三区 | 国产精品夜夜春夜夜爽久久 | 午夜免费福利片观看 | 国产小视频在线免费观看 | 天堂成人精品视频在线观 | 色婷婷综合在线视频最新 | 东京毛片 | tube69日本| 两性色午夜视频免费国产 | 福利在线播放 | 欧美性极品hd高清视频 | 四虎国产精品永免费 | 日韩精品无码一区二区三区 | 毛片免| 西西人体44renti大胆亚洲 | 久久www免费人成看片色多多 | 午夜视频一区二区 | 国产黄视频网站 | 亚洲五月综合缴情婷婷 |