7月12日,國際科技界傳來新動態(tài),谷歌正借助其先進的Gemini AI系統(tǒng),深化對旗下機器人的訓(xùn)練,旨在顯著提升它們的導(dǎo)航能力和任務(wù)執(zhí)行能力。DeepMind機器人團隊最新發(fā)布的研究論文,詳細(xì)闡述了如何利用Gemini 1.5 Pro的強化長上下文窗口功能,極大地優(yōu)化了用戶通過自然語言指令與RT-2機器人交互的體驗。
這一創(chuàng)新技術(shù)的核心在于,機器人首先通過拍攝并分析家庭或辦公室等指定區(qū)域的視頻,利用Gemini 1.5 Pro的強大能力來“學(xué)習(xí)”并理解其所在環(huán)境。隨后,機器人能夠基于這些視覺信息,靈活運用語音和/或圖像反饋,執(zhí)行用戶的復(fù)雜指令。例如,當(dāng)用戶詢問“我在哪里可以給手機充電?”時,機器人能迅速識別環(huán)境,并引導(dǎo)用戶至最近的電源插座。
據(jù)DeepMind透露,在覆蓋超過9,000平方英尺的測試區(qū)域內(nèi),這些由Gemini驅(qū)動的機器人成功響應(yīng)并完成了50多項不同用戶指令,成功率高達(dá)90%,展現(xiàn)了極高的準(zhǔn)確性和效率。
更令人振奮的是,初步研究還揭示了Gemini 1.5 Pro賦予機器人的額外能力——即除了精準(zhǔn)導(dǎo)航外,還能規(guī)劃并執(zhí)行更為復(fù)雜的任務(wù)指令。例如,面對詢問是否有特定飲料的用戶,機器人能夠自主決定前往冰箱檢查,隨后返回并報告結(jié)果,這一連串動作展現(xiàn)了其強大的決策與執(zhí)行能力。
盡管在視頻演示中,機器人對每條指令的迅速確認(rèn)給人留下了深刻印象,但研究報告也誠實地指出了背后隱藏的“秘密”——處理這些復(fù)雜指令實際上需要10至30秒的時間。這表明,盡管技術(shù)進步顯著,但實現(xiàn)完全無縫的人機交互仍需時日。
不過,這一系列的進展無疑為我們描繪了一幅未來生活的美好圖景:或許不久的將來,我們就能與這些高度智能化的機器人共享家園,讓它們幫助我們找到遺失的鑰匙、錢包,甚至是執(zhí)行更多日常生活中的瑣碎任務(wù),極大地提升生活的便捷性與舒適度。
-
機器人
+關(guān)注
關(guān)注
212文章
29304瀏覽量
211007 -
谷歌
+關(guān)注
關(guān)注
27文章
6219瀏覽量
107231 -
AI
+關(guān)注
關(guān)注
87文章
33669瀏覽量
274410
發(fā)布評論請先 登錄
評論