在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

傳感器技術(shù) ? 來源:未知 ? 作者:工程師郭婷 ? 2018-07-28 12:15 ? 次閱讀

第二屆百度AI開發(fā)者大會在北京舉行,百度AI交互設(shè)計(jì)院在首次舉辦的AI設(shè)計(jì)分論壇上,分享了《AI時代的人因工程》主題演講,他們認(rèn)為:在AI時代,全新的設(shè)計(jì)將會重構(gòu)我們身邊的工具、生產(chǎn)力、生活甚至心理學(xué)。AI時代的人因工程,是關(guān)于人的能力、行為、限制的特點(diǎn),也關(guān)于人的社會、文化、心理,是真正以人類為中心的系統(tǒng)工程。他們還將腦電、肌電和眼動等生理測量方法引入了人因工程研究中,將研究方法進(jìn)行創(chuàng)新迭代,不斷助力百度的AI產(chǎn)品進(jìn)行“重構(gòu)”。百度開發(fā)者大會剛剛結(jié)束,百度AI交互設(shè)計(jì)院又隨即推出了最新的研究報告《多維對話——走向視聽融合的語音交互新體驗(yàn)研究》,進(jìn)一步用扎實(shí)的研究彰顯了他們在AI交互設(shè)計(jì)領(lǐng)域的專業(yè)實(shí)力。

過去四十年,人與機(jī)器的交互方式在不斷進(jìn)化,幾乎每十年就會有一次重大革新。來到人工智能時代,生活中越來越多的設(shè)備開始支持語音交互,語音交互逐漸成為人們傳達(dá)意圖和與設(shè)備交流的優(yōu)先選擇(Voice First)。與傳統(tǒng)交互相比,語音交互解放了雙手和雙眼,人們可以低成本與設(shè)備互動;而且,語音是多維的,除了言語本身的信息,言語中還蘊(yùn)含著豐富情感,允許人們與設(shè)備進(jìn)行更充分的互動。

語音交互也有局限性。語音交互是非可視化的,容易增加人們的記憶負(fù)擔(dān),設(shè)想語音查詢信息的場景,你可能需要集中精力聽,如果不留神就容易錯過一些內(nèi)容。鑒于此,正如人工智能專家吳恩達(dá)提到的,人與機(jī)器交流最高效的方式是語言,而機(jī)器與人最高效的交流方式是語言加上視覺,即需要在聽覺基礎(chǔ)上融入視覺信息彌補(bǔ)語音交互的不足。從語音向視覺延伸,在語音交互中融入可視化信息,已經(jīng)是業(yè)界探索下一代語音交互范式的重要趨勢。以智能音箱為例,除了無屏音箱以外,市場上開始出現(xiàn)帶屏幕的音箱。

百度人工智能交互設(shè)計(jì)院本期以有屏智能設(shè)備為研究對象,聚焦語音交互反饋和內(nèi)容輸出環(huán)節(jié)的體驗(yàn)。考慮到屏幕尺寸差異可能對反饋和內(nèi)容輸出體驗(yàn)的影響,研究選擇了兩種不同屏幕尺寸的設(shè)備,分別是智能音箱(7英寸)和智能電視(55英寸)。本期的主要研究問題包括:

1)有屏設(shè)備的指令上屏反饋體驗(yàn),主要指用戶輸入語音指令后,文本指令上屏的延遲時間以及文本指令在屏幕上呈現(xiàn)的合理時間;

2)有屏設(shè)備內(nèi)容輸出的音量干擾體驗(yàn),主要指用戶在特定場景下(如聽音樂/看視頻),插入其它任務(wù)后(如查詢百科),不同內(nèi)容輸出時的音量合理設(shè)置。

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

有屏設(shè)備的指令上屏體驗(yàn)研究

與無屏設(shè)備相比,顯示屏的融入使語音交互過程有更豐富的反饋形式。以語音識別階段為例,在無屏設(shè)備上,用戶通常無法直接知道輸入指令的識別結(jié)果。而有屏設(shè)備直接在屏幕上顯示指令的識別結(jié)果,用戶可以方便的查看識別結(jié)果的正確或錯誤情況,例如上屏后的指令"我要聽周杰倫的青花瓷"。然而,目前很多設(shè)備在指令上屏?xí)r存在一定程度的延遲現(xiàn)象,本實(shí)驗(yàn)對指令上屏合理的延遲時間和呈現(xiàn)時間進(jìn)行研究。

1、指令上屏延遲時間實(shí)驗(yàn)

由于市場上的有屏設(shè)備多數(shù)采用實(shí)時上屏方式,即用戶輸入語音指令的同時就開始在屏幕上呈現(xiàn)識別結(jié)果,因此,本實(shí)驗(yàn)只研究實(shí)時上屏。在實(shí)驗(yàn)中我們使用實(shí)時逐字上屏的方式,并以控制首字上屏延遲時間為主要變量(注:首字上屏延遲時間指從用戶開始說到第一個字上屏的時間間隔),我們設(shè)置了不同的首字延遲時間,以此獲取用戶對指令上屏速度的滿意度評價(5點(diǎn)量表:1-非常不滿意,2-比較不滿意,3-一般,4-比較滿意,5-非常滿意)。在實(shí)驗(yàn)中,我們分別提供了3種不同長度的指令。

實(shí)驗(yàn)結(jié)果表明,首字延遲時間越短,用戶的滿意度越高,不同屏幕尺寸設(shè)備的首字延遲時間滿意度略有差異,我們將"4-比較滿意"看做用戶滿意的得分下限,將"3-一般"看做用戶可接受的得分下限,不同設(shè)備間用戶滿意和可接受的上屏?xí)r間如下:

1)對于有屏音箱,用戶滿意的首字延遲時間下限在500ms左右,可接受的首字延遲時間下限在1500-1600ms左右;

2)對于智能電視,用戶滿意的首字延遲時間下限在600-700ms左右,可接受的首字延遲時間下限在1100-1200ms左右;

結(jié)合對市場上其它設(shè)備的研究發(fā)現(xiàn),部分設(shè)備的首字上屏?xí)r間明顯比用戶滿意的時間下限長,少數(shù)甚至比可接受的下限還要長。關(guān)于指令上屏速度,產(chǎn)品仍有改善和優(yōu)化的空間,即語音識別ASR(Automatic Speech Recognition)技術(shù)除了在不斷提升識別準(zhǔn)確率以外,同時也需要關(guān)注識別速度指標(biāo)的提升。

2、指令上屏呈現(xiàn)時間實(shí)驗(yàn)

除了指令上屏?xí)r間,我們進(jìn)一步對指令上屏后合理的呈現(xiàn)時間進(jìn)行研究,以避免指令呈現(xiàn)時間太短導(dǎo)致用戶無法看清,或者呈現(xiàn)時間太長導(dǎo)致整個交互過程拖沓冗余。在實(shí)驗(yàn)中,我們以文字呈現(xiàn)時間為主要變量(注:文字呈現(xiàn)時間指文本指令最后一個字上屏后到全部指令消失的時間間隔),獲取用戶對不同呈現(xiàn)時間的滿意度評價。由于語音識別涉及語言模型技術(shù),實(shí)際的指令上屏并不是逐字的方式,因此,本部分實(shí)驗(yàn)我們也模擬了逐塊上屏的方式,以指令"我想看劉德華2010年以前主演的香港電影"為例,"劉德華"被整體識別后才上屏。在實(shí)驗(yàn)中,我們也分別提供了3種不同長度的指令。

實(shí)驗(yàn)結(jié)果表明,存在最優(yōu)的文字上屏呈現(xiàn)時間,不同屏幕尺寸設(shè)備之間,最優(yōu)的文字上屏呈現(xiàn)時間無顯著差異。不同上屏方式間存在差異,逐字上屏和逐塊上屏的最優(yōu)呈現(xiàn)時間分別如下:

1)逐字上屏方式下,最優(yōu)的指令呈現(xiàn)時間為200-500ms的區(qū)間;

2)逐塊上屏方式下,最優(yōu)的指令呈現(xiàn)時間為400-700ms的區(qū)間。

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

由于逐塊上屏方式更接近真實(shí)產(chǎn)品的上屏方式,因此建議主要參考400-700ms的呈現(xiàn)時間。需要說明的是,由于實(shí)時上屏的方式允許用戶在輸入語音指令過程中就可以查看已經(jīng)上屏的文字,這與整體識別后上屏的方式明顯不同,因此,如果產(chǎn)品采用的是整體識別后上屏的方式,不建議參考本部分實(shí)驗(yàn)的結(jié)論。

有屏設(shè)備的音量干擾體驗(yàn)研究

有屏設(shè)備除了使語音交互有更豐富的反饋以外,屏幕的引入也擴(kuò)展了設(shè)備過去不具備的功能,例如視頻內(nèi)容消費(fèi)和視頻通訊能力等。同時設(shè)備的使用也在經(jīng)歷從過去單一任務(wù)到多個任務(wù)的變化,當(dāng)看視頻時,你可以隨時插入任務(wù)查找信息,例如看電視劇《扶搖》時查詢演員楊冪的信息。本部分實(shí)驗(yàn)主要研究用戶插入任務(wù)后,前景內(nèi)容和背景內(nèi)容間的音量干擾體驗(yàn),如當(dāng)前景內(nèi)容正在語音播報信息時,背景視頻或音樂的合理音量范圍,以避免過高的背景音對用戶獲取信息產(chǎn)生干擾。

1、音量干擾實(shí)驗(yàn)

在實(shí)驗(yàn)中,用戶被要求分別在看視頻和聽音樂兩種場景下進(jìn)行信息查詢。我們設(shè)置了兩種初始音量(注:初始音量是用戶看視頻/聽音樂的音量):60和65分貝,用戶查詢?nèi)宋锘虬倏菩畔⒑螅ㄟ^設(shè)置不同的背景音量(注:此時前景內(nèi)容為語音播報信息,背景內(nèi)容為視頻或音樂),獲取用戶對背景音量的滿意度評價。同時結(jié)合實(shí)驗(yàn)后問卷了解用戶對前景和背景信息展示的態(tài)度。由于不同設(shè)備間音量刻度范圍存在差異,實(shí)驗(yàn)中對有屏音箱和智能電視的背景音量進(jìn)行了分別設(shè)置。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),無論背景是視頻還是音樂,用戶都不喜歡背景完全靜音(注:下圖中"0"代表背景完全靜音)。針對有屏音箱和智能電視,當(dāng)初始音量約為60分貝時,背景音量舒適范圍略有差異,具體結(jié)果如下:

1)針對有屏音箱,背景視頻音量下降至36-53分貝范圍,背景音樂音量下降至39-56分貝范圍時,用戶主觀感覺較舒適;

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

2)針對智能電視,背景視頻音量下降至39-53分貝范圍,背景音樂音量下降至36-53分貝范圍時,用戶主觀感覺較舒適。

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

實(shí)驗(yàn)中我們同時研究了初始音量為65分貝時背景音量的舒適范圍,因?qū)嶒?yàn)結(jié)果與上述趨勢基本一致,篇幅所限,暫不一一展開。

此外,結(jié)合實(shí)驗(yàn)后的問卷調(diào)研結(jié)果發(fā)現(xiàn),關(guān)于背景的播放狀態(tài),背景為音樂時用戶更傾向繼續(xù)播放,而背景為視頻時有屏音箱端傾向視頻暫停的用戶更多。主要是由于有屏音箱端背景視頻被完全覆蓋,因此,用戶認(rèn)為背景視頻暫停較好,以避免錯過感興趣的視頻內(nèi)容。

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

關(guān)于前景內(nèi)容的播放狀態(tài),無論屏幕尺寸差異和背景媒體類型,多數(shù)用戶希望能夠?qū)η熬靶畔⑦M(jìn)行語音播報,而不僅僅是在屏幕上以文字或圖文的形式展示。

關(guān)于有屏設(shè)備的語音交互體驗(yàn)實(shí)驗(yàn)研究

本文針對有屏設(shè)備的語音交互體驗(yàn)進(jìn)行研究,重點(diǎn)探索整合視覺系統(tǒng)后交互反饋和內(nèi)容輸出環(huán)節(jié)的體驗(yàn)問題。對指令上屏的延遲時間和指令呈現(xiàn)時間給出了我們的研究結(jié)果和設(shè)計(jì)建議,以及不同內(nèi)容輸出時前景和背景的合理音量設(shè)置等。

從語音向視覺的延伸,語音交互的邊界和外延仍將不斷變化。語音交互與傳統(tǒng)的交互方式并不是互斥的、非此即彼的關(guān)系,未來的人機(jī)交互將融入聽覺、視覺、觸覺、味覺、嗅覺等多模態(tài)的交互方式。未來的交互范式必然不是這些交互方式的簡單堆砌和羅列,而是在考慮特定場景、人的因素、環(huán)境條件等因素后有序的、合理的組合和設(shè)計(jì)。百度人工智能交互設(shè)計(jì)院也將會持續(xù)的關(guān)注多模態(tài)交互領(lǐng)域的研究和設(shè)計(jì),并不斷輸出我們的研究成果和觀點(diǎn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31935

    瀏覽量

    270759
  • 智能電視
    +關(guān)注

    關(guān)注

    9

    文章

    1390

    瀏覽量

    95890
  • 語音交互
    +關(guān)注

    關(guān)注

    3

    文章

    287

    瀏覽量

    28095
  • 智能音箱
    +關(guān)注

    關(guān)注

    31

    文章

    1784

    瀏覽量

    78838

原文標(biāo)題:走向視聽融合的語音交互新體驗(yàn)研究

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    RK3568國產(chǎn)處理器實(shí)驗(yàn)平臺:語音識別控制實(shí)驗(yàn)

    )GUI的設(shè)計(jì)實(shí)現(xiàn):LCD顯示界面以及與用戶的交互;(3)編輯控制代碼;(4)編譯程序;(5)運(yùn)行程序。CI122模組根據(jù)原理圖,可知本實(shí)驗(yàn)中使用的語音控制模塊是
    的頭像 發(fā)表于 01-02 19:04 ?346次閱讀
    RK3568國產(chǎn)處理器<b class='flag-5'>實(shí)驗(yàn)</b>平臺:<b class='flag-5'>語音</b>識別控制<b class='flag-5'>實(shí)驗(yàn)</b>

    【「嵌入式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)」閱讀體驗(yàn)】+ 基于語音識別的智能杯墊

    語音命令Q 識別,適用于智能家居控制、玩具、人機(jī)交互等多個領(lǐng)域。該模塊以其高識別率、低功耗和易于集成的特點(diǎn)受到廣大開發(fā)者的青睞。 主要技術(shù)及功能有: 磁力攪拌、重量采集、語音識別、IPS顯示
    發(fā)表于 01-02 18:15

    解鎖個性化語音交互新時代:九芯智能語音云平臺,讓創(chuàng)意聲音觸手可及!

    九芯智能語音云平臺提供全面高效安全的智能語音服務(wù),支持自定義語音內(nèi)容,簡化燒錄流程,依托AI技術(shù),助力各行業(yè)智能化升級,引領(lǐng)語音交互革命。
    的頭像 發(fā)表于 01-02 16:51 ?227次閱讀
    解鎖個性化<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新時代:九芯智能<b class='flag-5'>語音</b>云平臺,讓創(chuàng)意聲音觸手可及!

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語音交互領(lǐng)域多年,在語音識別和語音合成領(lǐng)域有著多項(xiàng)大型企業(yè)合作案例,標(biāo)貝與多個智能會議系統(tǒng)廠商合作,成功將語音識別技術(shù)在智能
    的頭像 發(fā)表于 12-20 10:35 ?256次閱讀

    語音芯片賦能可穿戴設(shè)備:開啟個性化音頻新體驗(yàn)

    語音芯片與可穿戴設(shè)備合作,帶來定制化音效、智能降噪、個性化推薦、語音交互及跨設(shè)備共享等,引領(lǐng)個性化音頻時代,提升用戶聽覺體驗(yàn)。
    的頭像 發(fā)表于 12-14 15:44 ?538次閱讀

    基于智能語音交互的智能呼叫中心工作機(jī)制

    作為實(shí)現(xiàn)智能呼叫中心的關(guān)鍵技術(shù)之一的智能語音交互技術(shù),它通過集成自然語言處理(NLP)、語音識別(ASR)和語音合成(TTS)等先進(jìn)技術(shù),實(shí)現(xiàn)了與客戶的智能
    的頭像 發(fā)表于 12-03 16:44 ?417次閱讀
    基于智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>的智能呼叫中心工作機(jī)制

    智能語音的驅(qū)動力:揭秘8腳語音芯片在智能設(shè)備中的非凡角色

    語音技術(shù)滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設(shè)備語音功能核心,集成識別、合成、壓縮解碼等功能,實(shí)現(xiàn)精準(zhǔn)語音
    的頭像 發(fā)表于 12-02 14:23 ?247次閱讀

    串口在醫(yī)療設(shè)備領(lǐng)域的應(yīng)用

    隨著醫(yī)療技術(shù)的不斷進(jìn)步和發(fā)展,醫(yī)療設(shè)備的需求也在逐漸增加。其中,作為人機(jī)交互的重要組成部分,顯示的質(zhì)量直接影響到醫(yī)療設(shè)備的操作便捷性和用戶體驗(yàn)。串口
    的頭像 發(fā)表于 10-15 17:11 ?1449次閱讀

    人工智能教學(xué)實(shí)驗(yàn)箱_國產(chǎn)處理器:5-29 語音識別控制實(shí)驗(yàn)

    的設(shè)計(jì)實(shí)現(xiàn):LCD顯示界面以及與用戶的交互; (3)編輯控制代碼; (4)編譯程序; (5)運(yùn)行程序。 根據(jù)原理圖,可知本實(shí)驗(yàn)中使用的語音控制模塊是基于啟英泰倫CI122模組的, CI112X
    發(fā)表于 10-15 17:09

    請問移動設(shè)備上用的2.1聲道的語音功放芯片嗎?

    請問移動設(shè)備上用的2.1聲道的語音功放芯片嗎?前端是左右聲道差分音頻輸入。電源電壓 大概3~5V。
    發(fā)表于 10-15 07:54

    語音集成電路哪些特點(diǎn)

    各種應(yīng)用中都非常有用,包括智能手機(jī)、智能音箱、汽車導(dǎo)航系統(tǒng)、醫(yī)療設(shè)備和安全系統(tǒng)等。 以下是關(guān)于語音集成電路特點(diǎn)的分析: 集成度高 :語音集成電路將多個功能集成在一個芯片上,這樣可以減少
    的頭像 發(fā)表于 09-30 15:43 ?374次閱讀

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集)

    與硬件外設(shè)的開發(fā)板,采用具備豐富組件生態(tài)的 Zephyr RTOS作為操作系統(tǒng),官方提供了十幾種開源SDK,包含大模型語音交互、大模型拍照識圖、文生圖、人臉識別、頭肩追蹤、手勢識別、坐姿提醒等。聆思科
    發(fā)表于 06-18 17:33

    智能語音交互技術(shù)如何助力設(shè)備實(shí)現(xiàn)人機(jī)自然對話

    隨著現(xiàn)代人工智能在各行業(yè)的普及,智能語音交互技術(shù)也越來越多的在日常工作、生活中應(yīng)用,智能語音交互的出現(xiàn)不僅僅大量節(jié)省了人工的工作時間提高了工作效率,為人們工作生活帶來便利的同時,也改變
    的頭像 發(fā)表于 05-23 15:16 ?783次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>技術(shù)如何助力<b class='flag-5'>設(shè)備</b>實(shí)現(xiàn)人機(jī)自然對話

    智能語音交互技術(shù)如何助力設(shè)備實(shí)現(xiàn)人機(jī)自然對話

    智能語音交互技術(shù)是指通過語音識別、語音合成和自然語言理解等技術(shù),實(shí)現(xiàn)人與機(jī)器之間自然語言的交流和互動。隨著現(xiàn)代人工智能在各行業(yè)的普及,智能語音
    的頭像 發(fā)表于 05-23 15:14 ?466次閱讀

    WTK6900G語音識別芯片在車載語音交互氛圍燈上的應(yīng)用案例解析

    隨著智能汽車的快速發(fā)展,車載語音交互技術(shù)逐漸成為提升駕駛體驗(yàn)的關(guān)鍵技術(shù)之一。傳統(tǒng)的車載燈光控制系統(tǒng)往往依賴于手動操作,不僅操作繁瑣,而且在駕駛過程中容易分散駕駛員的注意力。因此,開發(fā)一種高效、便捷
    的頭像 發(fā)表于 05-17 13:57 ?506次閱讀
    主站蜘蛛池模板: 2021最新国产成人精品视频 | 国产黄色录像视频 | 色视频免费看 | 天天操夜夜嗨 | 久久精品五月天 | 天天做人人爱夜夜爽2020 | 天天添天天干 | 天天躁夜夜躁狠狠躁2021西西 | 欧美黑人粗硬大在线看 | 狠狠色狠狠色综合日日小蛇 | 国产在线h视频 | 污色网站 | 久久夜视频 | 三级黄色在线观看 | 激情免费视频 | 国产视频福利 | 五月婷婷六月丁香在线 | 久久电影福利 | 亚洲第八页 | 欧美色久| 加勒比在线免费视频 | 婷婷99精品国产97久久综合 | 久久午夜视频 | 亚洲国产美女精品久久 | xx综合网| 亚洲成a人片77777kkk | avbobo在线观看 | 亚洲一区二区三区网站 | 欧美性色xo影院在线观看 | 六月丁香中文字幕 | 久久国产免费观看精品1 | 免费a网站| 亚洲va国产日韩欧美精品色婷婷 | 午夜美女视频在线观看高清 | 亚洲天堂.com| 亚洲深夜在线 | 第一福利在线 | 加勒比视频一区 | 操片免费 | 中文字幕在线二区 | 一级片在线免费看 |