“昨晚 OpenAI 正式發布了 o3 模型,AI 圈一片沸騰。作為電子工程師的我撓了撓頭,好像和我沒什么直接的關系倒是 OpenAI 的另一個小發布,讓我很感興趣:一個可以在 Linux 和 ESP32 上使用的 Realtime API SDK。”
對,就是上面這個項目,剛發布沒多久,文檔都幾乎沒有。感興趣的小伙伴可以自己去看一下: https://github.com/openai/openai-realtime-embedded-sdk 這個 SDK 能干嘛?
這個 SDK 主要是給嵌入式硬件設計的,目前只支持樂鑫的 ESP32s3。以下是經過驗證的兩個開發板:
Freenove ESP32-S3-WROOM
Sonatino - ESP32-S3 Audio Development Board
其它的 ESP32-S3 硬件理論上也能跑,只是沒有經過驗證。 當然如果你只想玩一下,也可以不用任何硬件,直接在 Linux 上運行。
SDK 基于 OpenAI 最新的 WebRTC,可以提供低延時的語音對話服務。Altman 在發布會上演示的 AI 實時語音對話、打斷等就是基于 WebRTC。感興趣的小伙伴可以看一下 WebRTC 的介紹:
https://platform.openai.com/docs/guides/realtime-webrtc
配置完成后build一下,然后燒錄到 ESP32S 的固件里即可。接下去就可以直接調用 API 了。這種方式簡化了硬件調用實時語音,甚至視覺識別的方法,典型的應用有:
陪伴類的玩具
可穿戴設備
智能音箱/語音助手
國內有平替嗎?
如果用不了 OpenAI,國內其實也有類似的服務,比如火山引擎的 RTC:
https://www.volcengine.com/product/veRTC
字節推出的顯眼包2.0用的就是 RTC 服務:
在上周的“2024火山引擎冬季Force原動力大會”上,已經有不少硬件廠商展示了基于 RTC 的產品demo。其中有一個品牌“Haivivi”做了現場演講,分享了他們的理念和創業經歷。雖然只是一個“可以對話”的玩具,卻有別于傳統的智能音箱,得到了很多用戶的認可。我在現場也體驗了一下RTC的效果,延時在2~5秒之間,基本可以滿足實時對話的要求。
字節的產品經理也提到了嵌入式的 SDK,但沒有詳細公布支持的硬件型號,估計還處于測試階段。但毫無疑問,ESP肯定是合作伙伴之一。
“端插件”是什么?
專題論壇中還提到了“端”插件的概念。簡單說就是把硬件的功能(比如調節音量、驅動電機等)以插件的形式注冊在大模型的平臺,端側的硬件只要收集用戶的輸入,傳輸到大模型后由模型進行數據處理并根據解析的結果調用“端”插件執行硬件端的動作。
這種范式有可能降低硬件端的成本(因為端側不再需要算力,只要做輸入、輸出及信息交互),并有可能降低開發的時間(可以很快添加語音識別、圖像識別等功能,因為不用基于硬件開發,可以直接丟給模型處理)。這里的潛臺詞是:類似語音交互、圖像識別的任務,大模型一定比本地的硬件做的好。當然前提是要能接受數據傳輸和處理的延時,另外數據安全也是需要考慮的因素之一。
結束語 人工智能技術尤其是大模型和AIGC正以前所未有的速度迅猛發展,它們的影響力已經滲透到各個行業,包括電子硬件領域。作為電子硬件工程師,我們站在技術革新的前沿,面臨著前所未有的機遇與挑戰。我們必須深入思考,如何將AIGC等前沿技術與硬件設計相結合,以實現創新突破。打造出更智能、更高效、更符合市場需求的產品,從而在激烈的市場競爭中占據有利地位。
注意:如果想第一時間收到 KiCad 內容推送,請點擊下方的名片,按關注,再設為星標。
常用合集匯總:
和 Dr Peter 一起學 KiCad
KiCad 8 探秘合集
KiCad 使用經驗分享
KiCad 設計項目(Made with KiCad)
常見問題與解決方法
KiCad 開發筆記
插件應用
發布記錄
審核編輯 黃宇
-
API
+關注
關注
2文章
1500瀏覽量
62011 -
SDK
+關注
關注
3文章
1036瀏覽量
45935 -
ESP32
+關注
關注
18文章
971瀏覽量
17257 -
OpenAI
+關注
關注
9文章
1087瀏覽量
6508
發布評論請先 登錄
相關推薦
【AI技術支持】ESP32無線Wi-Fi常用調試API
![【AI技術<b class='flag-5'>支持</b>】<b class='flag-5'>ESP32</b>無線Wi-Fi常用調試<b class='flag-5'>API</b>](https://file.elecfans.com/web2/M00/45/DA/poYBAGKPGziABtawAAAYlXODTds073.jpg)
esp32上使用chatGPT做一些有意思的事情
啟明智顯ESP32系列串口屏全面升級!支持樂鑫IDF最新版,兼容Arduino開發環境
![啟明智顯<b class='flag-5'>ESP32</b>系列串口屏全面升級!<b class='flag-5'>支持</b>樂鑫IDF最新版,兼容Arduino開發環境](https://file1.elecfans.com/web2/M00/05/68/wKgZombZcGmAZZWdAABxyPOIEm0111.png)
esp8266和esp32區別是什么
esp32用什么軟件編程
ESP32-WROOM-32E、ESP32-WROOM-32D、ESP32-WROOM-32U 有什么區別?ESP32-WROOM-32 后綴字母代表的意思是?
![<b class='flag-5'>ESP32</b>-WROOM-32E、<b class='flag-5'>ESP32</b>-WROOM-32D、<b class='flag-5'>ESP32</b>-WROOM-32U 有什么區別?<b class='flag-5'>ESP32</b>-WROOM-32 后綴字母代表的意思是?](https://file1.elecfans.com/web2/M00/FC/EE/wKgZomaXJ0yAaZphAAP843IV7L8438.png)
ESP8266 NONOS SDK V1.5.4版本的SDK,是否支持upgrade API?
ESP32能取代STM32嗎?哪個更好?
![<b class='flag-5'>ESP32</b>能取代STM32嗎?哪個更好?](https://file.elecfans.com/web2/M00/9B/3D/poYBAGQjnauAVXOgAABFcEbXdEE684.png)
請問ESP32-C3和ESP32-S2或WROOM系列是否支持單步調試?
請問esp32-c3不支持pcnt嗎?
esp32-s3藍牙僅支持BLE 5.0嗎?
OpenAI API Key獲取與充值教程:助開發者解鎖GPT-4.0 API
![<b class='flag-5'>OpenAI</b> <b class='flag-5'>API</b> Key獲取與充值教程:助開發者解鎖GPT-4.0 <b class='flag-5'>API</b>](https://file1.elecfans.com/web2/M00/DF/17/wKgaomYuCbSAVjVdAAFqVfXnuJY859.png)
評論