具身智能:第一人稱視角,強調感知與理解環境
具身智能:能夠感知并理解周邊環境,通過自主學習完成任務的智能體。 1950年,圖靈在論文《Computing Machinery and Intelligence》中首次提出了這一概念,具身概念的可測量性、可解釋性和可檢驗性,使得機器能夠通過學習理解具身概念,具 身智能成為邁向通用智能的起點。英偉達創始人兼首席執行官黃仁勛在ITF World 2023半導體大會上表示:“人工智能的下一 個浪潮將是具身智能(embodied AI)”。
智能受腦、身體與環境協同影響,側重智能體與環境的“交互”,利用行為實現學習。從認知的角度來看,人類為第一人稱 視角的智能,以1963年的一個實驗為例,被綁起來的貓,只能看這個世界,是一種旁觀的智能;另一只貓可以主動去探索,是 具身的智能。
前者有點像現在基于大量數據的智能,比如我們給機器很多盒子,并且標注這就是盒子,然后機器就會覺得這種 pattern 是盒子,屬于第三人稱的智能,而我們人類是通過體驗才知道的。具身智能基于智能體具身行為的學習機制可以將數據 的采集、模型的學習融為一體,真正實現主動交互的學習,這也是對人類學習過程的更高級模擬。
具身智能運行框架:交叉學科發展,包含具身感知、具身想象、具身執行
多學科交叉+政策加速具身智能發展。具身智能包含具身感知、具身想象和具身執行三個模塊,涉及機器人學、計算機視覺、認 知科學、博弈學等諸多學科,各學科相對成熟的積累為具身智能進一步發展提供基礎。2023年5月,北京市發布的《北京市促進 通用人工智能創新發展的若干措施(2023-2025 年)(征求意見稿)》中提出探索具身智能、通用智能體和類腦智能等通用人工 智能新路徑,包括推動具身智能系統研究及應用,政策支持加速具身智能技術突破。
具身感知(Perception):通過視覺、觸覺等傳感器交互感知,構建模型,定義、獲取、表達可以被機器人使用的具身概 念。 具身想象(Imagination):構建仿真引擎,模擬具身任務,為機器人具身執行提供支撐。 具身執行(Execution):基于計算機視覺、機器人學和計算機圖形學,通過多模型訓練,在多傳感器合作下完成任務執 行。
特斯拉人形機器人快速迭代,環境感知與控制能力顯著提升
特斯拉人形機器人Optimus全方位升級。特斯拉2023年 股東大會發布Optimus機器人最新視頻,機器人外觀較 2022年更精致,力度控制更加精準、AI學習與環境感知 能力提升,逐步滿足執行復雜任務條件。
小米CyberOne全身21個自由度,實現雙足運動姿態平衡,尚未商業化
小米于2022年8月公布首款全尺寸人形機器人CyberOne,高1.77米,重52kg。 環境感知上,小米自研Mi-Sense深度視覺模組,結合AI算法,可對真實世界三維虛擬重建;情緒感知上,CyberOne搭載自研MiAI環境語義識別 引擎+MiAI語音情緒識別引擎,能夠實現85種環境音識別和6大類45種人類情緒識別。 關節運動上,全身5種關節驅動,合計13個,峰值扭矩300Nm。運動規劃和控制上,自研全身控制算法,協調運動21個關節自由度。 商業化情況:據2022年小米新品發布會,CyberOne單臺成本在60-70萬元左右,尚未商業化。
WalkerX具有41個自由度,可完成多個高精度動作,商業化初期
Walker系列人形機器人:是中國首個商業化雙足真人尺寸人形機器人,于2018年首次亮相,一經推出即贏得了多項世界級獎項及認可。作為是一 款外形親切、具有自然互動功能的真人尺寸人形機器人,其適用于家居及商務場景。WalkerX擁有41度的自由度以及類似人類的運動能力,能夠 以每小時三公里的速度平穩而快速地行走,且在運動中,其單臂可承載的重量可達1.5公斤。在不同的地面,包括不平的地面、斜坡和樓梯上行走 時,Walker可以自行保持穩定和平衡。
Walker可以規劃自已的路線并在移動過程中避開障礙物,適應家庭和商業環境,還可以執行人類任務,例 如識別及抓取物體、開門、倒水、下棋、彈鋼琴、繪圖和其他游戲等。 技術突破:Walker于2019年獲《機器人報告》評選為最值得關注的五大人形機器人之一,并于2021年獲24/7Tempo評為百年來最具突破性及創新性 的機器人發明之一。 商業化情況:2021年世界人工智能大會,優必選表示Walker系列機器人單臺成本在10萬美金左右,根據優必選招股說明書2020財年、2021財年及 2022年前九個月,Walker系列產品的收入40萬元、890萬元及人民幣730萬元,商業化待拓展。
根據特斯拉機器人的拆解,增量最大的是關節。
特斯拉機器人Op-t-i-mus軀干有28個關節(fen為旋轉關節14個和線性關節14個)+手部(雙手一共12個)
旋轉關節:采用旋轉式驅動器,由電機+諧波減速器+力矩傳感器+位置傳感器+交叉滾子軸承+向心止推滾珠軸承構成。
線性關節:采用線性驅動器,由電機+滾珠/行星滾珠絲杠+力矩傳感器+位置傳感器構成。
手部:每個手有6個驅動器,由空心杯電機+螺紋絲杠+精密行星齒輪箱+編碼器構成。
1、 人形機器人難點:手、腿>頭部、軀干、臂
手部:【硬件】自由度高(人手26個),難點在于電機與驅動器集成&機械化感知;【軟件】算法受制于硬件感知,精細化操作難。
腿部:【硬件】強調瞬時峰值峰率,對驅動器要求高;【軟件】穩定步態算法,目前學界沒有較好的類人算法。
軀干:全身控制算法,高維度規劃。
臂:雙臂協同、混合智能操控。
頭:視覺智能延伸。
2、 核心零部件壁壘:驅動器>力傳感器>純機械零部件
驅動器:通過高頻率控制電壓電流來驅動電機。難點在于技術(瞬時功率高,體積小限制可靠性)&控制算法。廠商包括Elmo、步科、匯川。價格3000-5000元/個,最高可達1w。
力傳感器:難點在于數字采集模塊小型化。廠商包括ADI(型號多),robotiq(服務好),宇立,坤維,海伯森。價格,一維傳感器不到百元,六維傳感器1w-2w元/個。
電機:國內外差距不大。價格1000-5000元/個,平均2000元/個。
減速器:國內做得好的廠商是綠的諧波。價格1000元/個。行星減速器替代諧波不太樂觀,減速比的要求限制。
絲杠:行星滾珠絲杠和滾珠絲杠,國內與國外有差距,但之后會縮小。
軸承:交叉滾子軸承成本較高。
3、人形機器人成本:硬件成本20w-40w。
其中:關節共30-40個,由電機+減速器/絲杠+驅動器+軸承組成,成本20w左右(單個5000元),批量生產成本可降1/3-1/2。
4、降本空間:剛出來時軟件價值量高于硬件,后續1)軟件一旦突破,價格立刻下降;2)硬件持續迭代,強化可靠性和穩定性,下降空間有限。
5、人形機器人應用領域:1)通用人工智能路線,近5年的落地場景為展示、展覽、陪伴服務;2)專用高級自動化路線,從事特種領域+封閉場景的復雜勞動,實現機器替人。
人形機器人量產痛點
1.手部和腿部硬件集成難度大,需要更高的損失峰值功率和驅動能力
2.腿部行走算法穩定性難以保證,學術界未出現真正意義上的類人走行算法
3.手部精細化感知難度大,涉及到手的21-26個自由度
4.雙臂協同、混合智能操控和避讓等算法難度大,需要高維度的規劃
5.軀干和雙臂、腿部結合后,全身控制的算法難度大,涉及到復合劑的技術
以上是國內一線研發專家在人形機器人系列電話會上就人形機器人量產痛點所提出的問題和技術難點。其中硬件方面最難的是手部和腿部,而軟件方面則涉及到多種算法的維度問題。各個機器人廠家在開發時會有不同的側重點,有的追求最新的技術,有的則涉獵多個方面。
Q&A
Q:人形機器人中量產的痛點在哪幾個方面?
A:目前人形機器人的痛點主要集中在硬件方面,特別是手和腿部分。手部集成大量電機和驅蟲劑,且手部的精細化感知也是一個挑戰。而腿部相當于有3+1+3個自由度,甚至是7個,腿部的驅動器需要選擇的損失峰值功率要比較高,且行走的穩定步態算法也是非常難的。
Q:人形機器人的硬件方面有哪些難點?
A:人形機器人的硬件方面的難點主要在手和腿部分。手部集成大量電機和驅蟲劑,且手部的精細化感知也是一個挑戰。而腿部相當于有3+1+3個自由度,甚至是7個,腿部的驅動器需要選擇的損失峰值功率要比較高,且行走的穩定步態算法也是非常難的。
Q:人形機器人的軟件層面上有哪些算法難點?
A:人形機器人的軟件層面上的算法難點主要在腿和手部分,其中腿部的算法門檻較高,需要穩定的步態算法。手部的算法較為簡單,但想要實現精細化操作也是相當難的。另外,雙臂協同和全身控制等復合算法也是難點。視覺算法雖然有一定突破,但仍存在難點。
Q:國內人形機器人的硬件零部件情況如何?
A:國內外的機器人廠家都在研發人形機器人的核心技術,不同的廠家側重點不同,有的是追求最新技術,涉獵各個領域,有的專門做某個領域。在硬件方面,國內還需要進一步發展一拖幾的驅動器和易托級的驅動器等技術。
Q:人形機器人的硬件方面有哪些關鍵技術和國內外的差距?
A:從硬件角度來看,人形機器人的關鍵技術主要分為驅動和感知兩部分。在驅動方面,關節的運動能力是核心,需要一個好的驅動器來控制關節的運動,驅動器相當于整個關節的心臟,這塊國內外還有一定差距,國外有很多知名的驅動器廠商,如馬克松、m等,國內也有一些廠商在嘗試。在感知方面,機器人需要通過傳感器來感知周圍環境,這一塊國內外差距不大。至于具體的硬件技術,可以分為驅動和感知兩部分,例如電機、減速機、行星齒輪等,在這些方面國內外的差距正在逐漸縮小。
Q:驅動器和電機是什么關系?國內有哪些做得比較好的公司,未來哪些公司有望在人形機器人領域取得成功?
A:驅動器和電機是密切相關的,電機提供一個氣墊,驅動器通過放大電壓減小電壓、放大電流減小電流來控制電機的轉動,難點在于驅動器要以一個很高的頻率去驅動電機,控制它的精準的電壓和電流,這塊國內外還有一定差距。目前國內有一些企業在嘗試,但是驅動器這塊還是比較有難度的。至于未來哪些公司有望在人形機器人領域取得成功,可以將人形機器人分為通用人工智能和專用的高級自動化兩種路線,目前專用的高級自動化已經有了很多實際應用場景,如城市高樓幕墻清潔機器人、掃地機器人等,國內也有很多企業在這方面進行研發和應用。而通用人工智能這塊非常難,需要解決開放世界的問題,目前還沒有一個企業能夠完全實現。
Q:國內能否供應驅動器等硬件部分?
A:我覺得有些做電機的企業可以去做,比如布科、匯川等。但是由于機器人的關節太多,不同類型的機器人需要匹配不同的驅動器,所以大企業步子邁得不是特別大,他們現在是兼顧市場和機器人的需求,可能會考慮到機器人上用的一些小型化的市場,也考慮到通用的一些電機架上用的一些東西。
Q:關于成本問題,一個機器人需要用多少個電機、減速器、驅動器等硬件部件,國產和進口的價格分別是多少?
A:一個機器人大概需要30到40個關節,每個關節的成本大概是5000元左右,其中包括電機、減速器和驅動器等硬件部分。電機的價位在1000元到5000元之間,平均大約是2000元,而減速器的價位平均大約是1000元。對于大規模生產,成本可能會降低1/3或者1/2。此外,還有一些傳感器需要配備,比如力傳感器,每個關節最好可以配一個一維的類傳感器,大約在幾百元左右。
Q:一維傳感器的生產企業都能做出來嗎?現在做力傳感器的企業都做得比較簡單嗎?
A:一維傳感器都能做出來,但是現在大家的供應鏈很多都不是供給機器人的,像異常傳感器是一個模擬量,它出來要用數字采集,數字采集模塊接口會變得很大,現在很多廠家在把數字采集模塊做一個小型化,提升到力傳感器中。這是一個發展方向。
Q:現在國內哪些企業做得比較好?和海外相比,國內的企業存在哪些差距或者壁壘?
A:國外做得比較好的有Adi公司、API公司和RobertIQ等;國內做得比較好的有宇力科技、坤維科技和海博森等。但是一些老的企業想要往機器人領域轉型,他們通信的那一塊還沒做得很好,可能比較大,在機器人上可能不是非常好用。而像坤維、宇力等企業在這方面考慮得會多一點,做得稍微精細化一點,程度會好一點。
Q:目前是否有上市計劃,是否會考慮上市公司的投資?
A:主要做機器人開發,目前可能還沒有很多上市公司會愿意介入,因為很多供應鏈還沒有放量,也沒有專門給機器人的產品鏈或一系列產品,所以可能需要等市場放量后,大的公司才會愿意介入。但我更傾向于中國慢慢出現很多小而精的公司,類似于德國的發展方向,它不一定非要都是上市公司在做,而是像德國一樣,小的細分領域的numberone,在世界上是非常多的。所以我更傾向于這些小公司在科創板上市或者其他路徑上的發展。
Q:國內哪些類型的公司可能愿意投資機器人產業?
A:目前可能還沒有很多上市公司會愿意介入,因為很多供應鏈還沒有放量,也沒有專門給機器人的產品鏈或一系列產品。但是隨著市場的放量,大的公司肯定會愿意介入。此外,我更傾向于中國慢慢出現很多小而精的公司,類似于德國的發展方向,在世界上是非常多的。所以這些小公司在科創板上市或者其他路徑上的發展可能更具發展潛力。
Q:人形機器人的零部件中,視覺傳感器的數量和價格大概是多少?
A:人形機器人需要的視覺傳感器數量視具體方案而定,大概需要一個深度相機和2-3個激光雷達,以及一些普通的相機。整體成本大概在1萬到2萬塊錢左右。視覺傳感器在人形機器人和AGV小車在視覺方面的差距不大,因為它們都是機器人,整體成本上差不多。
Q:在國內機器人行業中,哪些公司被公認為是相對比較好的?
A:海康威視是比較明顯的國內龍頭公司,中小的公司可能像奧比中光等等,還有羅伯薩斯等等,但是它們好像不是在國內上市的。
Q:如果現在的一個機器人的成本和未來去展望的話,如果那種幾十萬上百萬臺的機器人的批量采購生產下成本可以降到什么樣的情況?
A:現在可以做到20萬的硬件成本,但是要考慮到硬件采購、前期研發和算法的成本,整個成本應該在20萬到40萬之間。
Q:有一些比較硬的零部件如驅動器、傳感器、電機、4杠機齒輪箱的成本會不會隨著量產批量采購而降低?
A:是的,大批量采購的情況下,這些零部件的成本會隨之降低。
Q:做機器人時,是硬件和算法的協同作用才能產生好的效果嗎?
A:是的,好的硬件和算法才能產生好的效果。
Q:在制造機器人時,有哪些方面需要考慮?
A:需要考慮從硬件選型、總體方案、驅動力的大小功率驅動能力、減速機的減速比、加工材料的材料的輕重、柔度等等方面。
Q:手部的機器人有兩種驅動方式,一種是一個手指一個電機,另一種是一個電機去驅動幾個手指,這兩種方式有什么優缺點?
A:第一種方式每個關節相當于它還是把關節做成一體化了,驅動器只是從這個關節,單關節的表現能力會好一點;第二種方式可以用一些縣區的方式,或者說一些寫史論去傳動,電機的電力的排布會更加靈活,但對驅動器的整個設計也非常難,因為它可能要驅動整個手部的20多個電機。這兩種方式的選擇取決于應用場景。
Q:做一個手大概需要多少成本?
A:一個簡單的手大概需要5000元左右的成本,而6個自由度的手可能會更貴。
Q:手部機器人的成本包括什么?在市場采購空心變電機的價格是多少?
A:手部機器人的成本主要包括電機、驅動器、編碼器、減速器等部分。從電機到驅動、各個編碼器、減速器,其中最大的成本是驅動器。采購空心變電機的價格大概在3000~4000元左右。
Q:手部機器人的壁壘在哪里?為什么技術壁壘這么高?
A:手部機器人的壁壘在于整個手的設計,雖然手的三個部件并不是很貴,但是要整個設計成一個手,讓它又能精細化操控,這個壁壘相當高。同時,還有一些新技術的應用,比如電子皮膚等,如果有公司能把電子皮膚都加在手上,技術壁壘就更高了。
Q:電子皮膚的應用前景如何?有哪些公司在應用這項技術?
A:電子皮膚的應用前景比較遙遠,也有可能近幾年能突破。目前已經有一些協作機器人應用了電子皮膚,比如閱江機器人等。創業公司松果體機器人也在研發手部模塊中加入了傳感器,但是大多數團隊還是局限于科研范疇。關于長效恒信技術,有些團隊正在使用石墨烯作為一種全向同性的手的感知,能夠感知表面的推拉等細節。
Q:是否有嘗試改善升級行星減速器,替換斜坡減速器達到降本目的的技術路徑可行嗎?如果可行,單個減速器的單價能降多少?謝謝。
A:我覺得這個路徑可能不是很可行,因為斜坡跟行星減速它還是有本質的區別的。如果使用行星減速器,為了達到較大的減速比,可能需要使用多級減速,這樣器件就要做得很小,而這會導致其傳動負載較低,故障率更高。想要避免這些問題,就需要在材料和工藝等方面花費更多功夫。而斜坡減速器則是專門針對于低速大幅場景的,有其本質優勢。斜坡的加工精度要求比較高,但隨著技術的不斷進步,其成本也會降低。至于單個減速器的單價能降多少,這需要考慮多個因素,如使用環境、材料、工藝等,具體情況還需具體分析。
Q:人形機器人未來的應用市場會在哪些領域?如果要放量,哪些驅動因素會驅動這種產品放量?謝謝。
A:人形機器人的未來應用領域主要有兩個,一個是通用人工智能,另一個是專用的高級動畫。從這兩個方面去考慮的話,通用人工智能的路線可能會像無人駕駛車輛一樣,主要應用在展示展覽或者陪伴服務等領域。因為目前的語音交互技術還不夠成熟,所以更多的應用在陪伴服務方面。而從專用的高級自動化方向去考慮,比如代替人類勞動、完成復雜的巡檢等任務,這些領域的應用可能會更加成功。此外,人形機器人的應用還受制于其硬件和軟件技術的發展程度、成本等因素。
Q:特斯拉區分了線性和旋轉關節,用的也是不同的搭配,只能這樣搭配嗎?這兩個關節有哪個難度更高,哪個難度低嗎?成本上來看,他們大概是一個一個什么樣的比例?
A:特斯拉的線性和旋轉關節的搭配需要根據整體設計和需求來確定,不一定只能這樣搭配。從人的肢體運動規律來看,肩關節的活動速度相對較慢,但力矩較大,而肘關節的速度則需要時快時慢,但也需要有較大的力矩。因此,(各行業紀要請加微:hjk211985)使用哪種關節需要根據具體需求來選擇,還需要考慮減速比、檢測速度等因素,以及電機的能力等配合因素。至于難度和成本方面,硬件的壁壘長期來看是更高的,因為它涉及到一個迭代和生命周期的迭代,還需要保證可靠性穩定性和可維護性,整體的服務質量需要保證。而軟件方面,一旦突破會快速下降,但剛出來時價值量會較高。
Q:關于行星杠和滾珠絲杠的問題,特斯拉的關節里有沒有需要用行星的關節?
A:可能減速比配比的問題在這里,有的地方需要用到新興市場,有一方它可能比更大,或者有的地方可能就是滾就死了。比如在肩關節處需要用斜坡的減速儀,但在腕關節處需要很快的運動速度和應用速度,但負載需求會小一點,應用現金的滾珠絲杠。這取決于整個產品設計師的思路和需求。目前還處于制造最好的硬件來服務于算法的開發人員階段,降本階段可能還未到來。
Q:關于力矩傳感器,有哪些關節是非常重要,需要使用六維的?
A:在特斯拉身上可能有14個線性關節,需要根據整體產品設計師的需求和算法開發人員的要求來選擇。在科研領域,有些人認為某些傳感器可能可以不用。例如,在電機上綁定傳感器時,可以通過電流反饋測量電機的力,但這個方法不夠準確,人們試圖通過各種算法來提高準確度,包括使用雙編碼器和雙面玩具等來估算電機力。這取決于產品設計師和算法開發人員需要多高的精度和感知能力。
Q:是否可以先使用最好的硬件,等到算法成熟后再降低一些硬件的精度?
A:是的,這取決于產品設計師的需求和算法開發人員的要求。在科研領域中,有些人試圖提高傳感器的準確度,包括采用雙編碼器和雙面玩具等方法。這取決于產品設計師和算法開發人員需要多高的精度和感知能力。目前還處于制造最好的硬件來服務于算法的開發人員階段,降本階段可能還未到來
編輯:黃飛
?
評論