客座博文,發布人:SignAll | MediaPipe 團隊
請注意,以下內容中體現的信息、用途及應用完全是 SignAll 客座作者的觀點。
SignAll SDK:使用 MediaPipe 的手語接口現對開發者開放
當 Google 發布第一個基于 MediaPipe 的設備端手部追蹤技術時,它便成為了開發者構建手語識別解決方案應用的基礎。Google 之后對這個手部跟蹤解決方案的進一步更新,將其準確率提升至其他技術所無法達到的水平。
SignAll 是一家研發手語翻譯技術的初創公司,致力于為失聰人士普及手語翻譯,讓他們能夠與聽力正常的人群以及計算機進行交流。SignAll 的產品采用了復雜的多攝像頭設置和帶有彩色標記的手套,廣泛用于美國的通信和教育領域。
雖然手語的復雜性不僅限于手形(還包括面部特征、肢體、語法等),但準確追蹤手部確實已經給預處理程序(即計算機視覺)造成了巨大阻礙。MediaPipe 為 SignAll 的解決方案提供了更多可能性,不僅能夠免除手套,還可以使用單攝像頭設置。SignAll 已經宣布針對此類型開放首版 SDK,所以開發者現在能夠在自己的應用中啟用手語輸入。
SignAll
https://www.signall.us/
開放首版 SDK
https://signall.us/sdk
近期,該公司在 App Store 上發布了一個互動式教育應用,該應用可以讓用戶通過即時反饋來練習手語,還能夠展現出 SDK 的潛力。
SignAll 與 MediaPipe Hands
我們的系統在手語識別方面采用多個數據層,各層數據的抽象性越來越高。低級數據層從 2D 和 3D 攝像頭中提取關鍵的手部、軀體和面部數據。在我們的第一個實現中,此數據層會檢測手套的顏色,并創建 3D 手部數據。將其替換為 MediaPipe Hands(MediaPipe Pose 和 MediaPipe Face Mesh 作為補充)具有顛覆性的重要意義,因為你不再需要手套或特殊光線來使用我們的系統。
MediaPipe Hands
https://google.github.io/mediapipe/solutions/hands.html
MediaPipe Pose
https://google.github.io/mediapipe/solutions/pose.html
MediaPipe Face Mesh
https://google.github.io/mediapipe/solutions/face_mesh.html
如上文所述,我們使用了多個帶有深度傳感器的攝像頭,并在實際中對這些傳感器進行了校準。相較于本地攝像頭或張量空間,這種方法能夠實現更加準確的 3D 世界空間探測,但每個攝像頭都需要進行手部特征點檢測。攝像頭的位置和屏幕方向各不相同,因此可以實現更高的手部可視頻率,因為從一個攝像頭的角度來看,手部可能會被另外一只手遮擋,但從另一個攝像頭的角度來看,可能并不存在遮擋。
接下來的步驟是過濾數據,并進行數據平滑處理,以復制彩色手套標記提供的精確測量值。雖然 SignAll 的標記與 MediaPipe 提供的界標不同,但我們使用了手部模型并根據界標生成彩色標記。因此,新的動作捕捉數據與之前的數據完全兼容。
雖然我們主要關注手部,但我們同時整合了 MediaPipe Pose 和 MediaPipe Face Mesh。即便在彼此接觸,或距離很近的情況下,姿態界標都能提供準確的手部姿態信息。
雖然這兩個版本的動作捕捉是兼容的,但工件的性質不同:一種是直接測量各個標記,另一種是根據全局檢測的手部模擬標記。因為存在差異,所以我們必須在更高層級對參數進行優化。另一方面,我們仍可以利用我們的大型手語數據庫來進行無手套配置。我們可以通過替換低級數據,優化高級數據,以無手套形式測試我們的系統。實現無手套化,對于手語識別技術的全球推廣具有重要意義。
使用 MediaPipe 框架的 SignAll 系統
將 MediaPipe Hands 整合至系統后,我們還希望能夠利用 MediaPipe 框架在多個平臺上提供的自定義和擴容機會。這樣我們不僅可以用 Python 原型化我們的狀態研究方法,而且還可以為 Windows、iOS、Android 甚至 Web 提供最終用戶解決方案。
由于我們的模塊圖系統和 MediaPipe 的計算圖之間具有相似性,現有的處理單元只需稍作修改就可以在這個新框架中重用。盡管如此,擴展平臺組還面臨著其他挑戰,例如在大多數情況下我們只能使用單個 2D 攝像頭而不是經過校準的多攝像頭系統。
我們開發并使用的模型、算法和技術,主要是為了在 3D 全局世界中處理動作捕捉數據。毫無疑問,從單攝像頭設置中提取的數據達不到同樣的詳細程度。所以我們必須對實現進行一些調整,微調算法并添加一些額外邏輯(例如,動態適應手持攝像頭用例導致的空間變化)。幸運的是,MediaPipe 框架讓我們能夠用 C ++ 實現核心處理單元,因此我們仍然可以從先前開發的運行時優化核心解決方案中受益。
為了更好地處理來自單個 2D 源的數據,一些基于 3D 數據訓練的高級模型需要重新訓練。MediaPipe 界標由 3D 坐標定義,因此可以重復使用現有的訓練方法和概念。另一方面,2D 信息的提取比三維坐標更為直接也更為穩定,在修改設計訓練時需要考慮到這一點。
幸運的是,我們無需為實現此目標而進行全新的數據記錄。我們仍然可以使用注釋詳細的大型視頻數據庫。預處理的動作捕捉數據可以從我們的記錄中提取,并在 3D 世界中解釋,從而用來模擬任何虛擬攝像頭視圖中的手部、骨架或面部界標檢測。
在虛擬攝像頭視圖的數據中,我們同時使用傳統的 2D 記錄,以足夠的比例覆蓋界標檢測的獨特噪點特征。由于大多數此類數據已經提前收集了,所以我們可以專注于嘗試最新技術并訓練新模型。
總結
在 MediaPipe 助力的改進,讓 SignAll 可以更改其模型。除了提供用于手語教學和翻譯的多合一產品之外,SignAll 現在也開始提供面向開發者的 SDK。此 SDK 的功能取決于攝像頭的類型和可用的算力。SDK 可以啟用的功能包括:
面向開發者的 SDK
https://signall.us/sdk
通過用手語表示聯系人的姓名來發起視頻通話
通過手語(與語音輸入相對應)在導航中添加地址,或在快餐店的信息亭或直通車道中進行點餐。
SignAll 的使命是讓手語能夠全方位替代語音,而我們非常高興看到越來越多的應用實現了此功能。
我們十分期待 MediaPipe 未來的更新,這些更新能夠幫助我們進一步實現終極目標——讓所有人在任何設備上都能使用我們的解決方案。最值得期待的更新是能夠建立自定義的 MediaPipe 圖,并添加我們自己的計算器,從而在 WebAssembly 技術的輔助下實現基于網絡的解決方案,這樣網站就能夠為失聰訪問者提供全新水平的無障礙功能。
-
3D
+關注
關注
9文章
2917瀏覽量
108060 -
C++
+關注
關注
22文章
2114瀏覽量
73885 -
SDK
+關注
關注
3文章
1045瀏覽量
46315
原文標題:SignAll SDK:基于 MediaPipe 的手語接口現對開發者開放
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
榮膺多項殊榮!軟通動力攜子公司鴻湖萬聯亮相2024開放原子開發者大會
![榮膺多項殊榮!軟通動力攜子公司鴻湖萬聯亮相2024<b class='flag-5'>開放</b>原子<b class='flag-5'>開發者</b>大會](https://file1.elecfans.com/web3/M00/06/91/wKgZPGeNqeOAM5odAAD9dkzwKRA435.png)
開發者的開源鴻蒙故事
普華基礎軟件亮相2024開放原子開發者大會
潤和軟件亮相2024開放原子開發者大會
DFRobot參加2024開放原子開發者大會及開放原子開放硬件許可證發布儀式
![DFRobot參加2024<b class='flag-5'>開放</b>原子<b class='flag-5'>開發者</b>大會及<b class='flag-5'>開放</b>原子<b class='flag-5'>開放</b>硬件許可證發布儀式](https://file1.elecfans.com/web3/M00/03/73/wKgZPGdpHWyASa8tAAEAjdYnQHM582.png)
2024開放原子開發者大會精彩回顧
2024開放原子開發者大會暨首屆開源技術學術大會成功舉辦
軟通動力與鴻湖萬聯亮相2024開放原子開發者大會
2024年度國內活躍開源項目和開發者在武漢揭曉
2024開放原子開發者大會啟幕,深開鴻助力開源產業創新發展
![2024<b class='flag-5'>開放</b>原子<b class='flag-5'>開發者</b>大會啟幕,深開鴻助力開源產業創新發展](https://file.elecfans.com/web2/M00/35/6C/poYBAGIq5qqAQJzlAAA5OpNWiJA439.png)
KaihongOS 4.1.2開發者預覽版正式上線,誠邀開發者免費試用!
![KaihongOS 4.1.2<b class='flag-5'>開發者</b>預覽版正式上線,誠邀<b class='flag-5'>開發者</b>免費試用!](https://file.elecfans.com/web2/M00/35/6C/poYBAGIq5qqAQJzlAAA5OpNWiJA439.png)
KaihongOS 4.1.2開發者預覽版正式上線,誠邀開發者免費試用!
開發者空間實踐指導:基于 3 大 PaaS 主流服務輕松實現文字轉換語音
![<b class='flag-5'>開發者</b>空間實踐指導:基于 3 大 PaaS 主流服務輕松實現文字轉換語音](https://file1.elecfans.com//web2/M00/06/53/wKgZombj9t6Ab9WgAAGl06e6464250.png)
評論