我們很高興地宣布,我們的AutoML服務器應用程序Analytics Studio將很快在開源許可下提供。我們還將推出一個新的開源項目網站,以聯合一個致力于為 tinyML 模型開發創建全面的、與硬件無關的解決方案的開發人員社區。此次發布計劃于初夏進行,我們正準備在您的支持下取得成功。
Analytics Studio作為專有應用程序和云 SaaS服務經過多年的發展,支持來自多個硬件供應商的各種端側芯片。SensiML的Analytics Studio專注于時間序列傳感器,可以快速創建適用于各種應用的獨立C代碼,例如:
1)聲學事件檢測
2)手勢和人類活動識別
3)異常檢測
4)關鍵字發現
5)振動分類
通過此次發布,我們將在開源許可選項下提供Analytics Studio的核心引擎,用戶可以自由下載并實施我們提供的核心技術的私人服務器實施,并將繼續提供在SensiML的托管和支持的SaaS云服務中服務。
為什么SensiML開源其核心軟件?
幾年前,當SensiML首次推出我們的開源計劃時,我們主要專注于為我們的傳感器數據接口協議和由此產生的物聯網邊緣推理模型提供更高的透明度。在聽到客戶對維護和支持他們沒有完全掌握的算法產品表示擔憂后,我們得出結論,這是朝著更好的模型透明度和可解釋性邁出的必要一步。因此,解決AI/ML的“黑匣子”問題是我們開源的首要目標,并導致我們的SensiML嵌入式SDK和數據協議以完整的源代碼形式發布并提供給任何人,同時將我們的開發工具本身作為專有軟件進行維護。
今天,我們看到了更多的TinyML生態系統挑戰和相應的開源機會,這激發了我們擴展開源計劃,以包括我們的核心AutoML引擎 Analytics Studio。我們開始相信,一個充滿活力的開源軟件工具社區的存在對于推動TinyML生態系統向前發展至關重要,因此,提供SensiML久經考驗的代碼庫,作為協作開源創新的第一個基礎,這一點我們處于領導地位。
根據Linux基金會進行的2023年OSS調查,人工智能/機器學習被全球 IT 經理列為對其行業未來最有價值的開源技術。
當人們考察領先的開源 AI/ML 項目和技術時,大部分是框架、庫和模型定義格式(例如 TensorFlow、PyTorch、Scikit-learn、OpenCV 和 ONNX 等),但不是完整的端到端工具鏈,更不用說那些專注于 AI/ML 和嵌入式物聯網推理代碼優化的交叉復雜性的工具鏈了。SensiML認為,這是一個關鍵的差距,也是一個機會,可以幫助幫助那些沒有精通數據科學的開發人員- 采用簡化復雜步驟。
出于幾個常見原因,許多IT經理選擇開源軟件而不是專有選項。這些原因也促使我們決定將 Analytics Studio 開源:
1)創新和敏捷性
2)避免供應商鎖定
3)社區和支持識
4)質量和安全性
5)人才吸引和留住
6)戰略優勢
將開源優勢與TinyML生態系統聯系起來
為了將這些好處與TinyML生態系統面臨的特定挑戰聯系起來,讓我們更深入地研究其中的幾個,并與當前TinyML采用者面臨的問題聯系起來。
挑戰1 – TinyML傳感器應用程序特有的數據集瓶頸:使用深度學習技術創建準確的預測模型依賴于足夠的模型訓練數據的可用性,以涵蓋實際使用中可以預期的來源和范圍。因此,這種訓練數據集需求可能相當大。眾所周知的極端情況是大語言模型 (LLM),它具有數萬億個模型參數、數十萬個 GPU 訓練小時,以及接近 Internet 上可用的人類文本總數的訓練數據集。
TinyML模型涉及的訓練數據集要小得多,但傳感器衍生輸入數據的性質使得數據集挑戰可以說是一個比LLM更棘手的問題。雖然 LLM 的規模非常大,但它們至少受益于人類語言文本的可擴展數據源,這些數據源是通過從互聯網上自動抓取文本、文檔和 Wiki 頁面而獲得的。對于傳感器應用,通常沒有這種等效的易于擴展的數據源。
想象一下,根據實際用例要求,在網絡上抓取足夠的原始傳感器數據,以預測特定電機負載的大框架直流電機故障狀態,以及從與位置相關的振動傳感器輸入和麥克風中獲取足夠的原始傳感器數據。幾乎可以肯定的是,如果不求助于設計自己的實驗,您將無法找到適合給定應用程序需求的數據。
這個數據集瓶頸問題涵蓋了TinyML領域的大多數用例。它要求開發人員投入大量時間、精力和成本來收集特定于其所需用例的經驗數據。他們必須以足夠的數量和足夠多樣化的條件進行訓練,以便針對實際使用中可能預期的所有條件有效地訓練模型。在我們的電機示例中,大型跨國電機制造商可能擁有或有能力產生足夠的數據來開發穩健的模型,但缺乏此類資源的小型公司和創業者僅限于更簡單的模型。其結果是限制了用戶對TinyML的采用,因為為許多此類應用程序獲取訓練/測試數據的采用門檻很高。
開源TinyML工具如何提供幫助:目前對減少訓練數據集瓶頸的積極研究顯示出前景,包括遷移學習、數據增強、從模擬和 對抗生成網絡GAN 生成合成數據、半監督學習和模型壓縮等技術。這些方法正在迅速發展,在TinyML中包含的許多用例中,有效的方法各不相同。例如,用于圖像識別的數據增強通常涉及旋轉、平移、縮放或色移,而音頻數據將涉及一組完全不同的音高、音色、節奏和噪聲疊加的轉換。面對快速變化的方法和途徑的步伐,這些方法和途徑因應用而異,因此對基于開源社區的協作的需求至關重要。開源開發模型為問題帶來了規模和洞察力的多樣性,這是封閉的開發團隊無法比擬的。通過為社區貢獻和改進開放一個通用的TinyML開發平臺,SensiML相信生態系統可以從克服數據集瓶頸的集體努力中更快地受益。
挑戰2 – TinyML軟件工具碎片化和鎖定:在過去幾年中,我們目睹了許多AutoML開發工具競爭對手被硬件供應商收購,這些供應商試圖通過強制ML開發工具相關的高轉換成本來將用戶鎖定在他們的芯片產品中。雖然從芯片供應商的角度來看,這種動機是可以理解的,但從物聯網開發人員的角度來看,由此產生的碎片化生態系統遠非理想。想要工具包X,但出于其他設計或業務原因需要使用芯片Y?借助這些專屬解決方案,用戶面臨著在軟件工具功能和硬件選擇標準(如數據表規格、成本和第二來源替代方案)之間做出艱難選擇。當這兩個目標發生沖突時,常見的結果是,物聯網開發人員將簡單地推出計劃的ML功能,直到 ML 工具成熟并且存在針對特定所需硬件和應用程序需求的功能支持。
開源TinyML工具如何提供幫助:SensiML認為,為TinyML實施者提供選擇和靈活性可以更好地滿足用戶的需求,而不是與特定硬件供應商的產品捆綁在一起。這種靈活性甚至可以被看作是一種戰略決策,它保留了在開發機器學習工具技能和數據集方面的投入價值,這些技能和數據集可以跨硬件和特定工具實現進行移植。通過為開源貢獻一個基本 AutoML工具鏈,SensiML設想了一個事實上開放和靈活的平臺的潛力,就像 Eclipse 作為許多供應商特定實現以及 Eclipse 基金會本身維護的通用 IDE 技術一樣。
開源對SensiML未來的商業計劃有何影響?
我們開源SensiML核心AutoML應用程序的主要動機是受益于協作開源開發模式帶來的更快的創新步伐。除了代碼貢獻之外,還包括增強的代碼質量、與新硬件的集成、額外的預訓練模型模板、示例應用程序、改進的文檔、QA測試和錯誤提交。
與此同時,SensiML將繼續提供其現有的托管云SaaS服務計劃,并為希望獲得更高支持水平的客戶提供TinyML模型開發的用戶咨詢和定制工程服務。與RedHat的Linux商業模式類似,SensiML將繼續在雙重許可策略下提供傳統的企業許可證選項。我們相信,SensiML的支持、技術使用的全力支持、互補產品和云服務管理有足夠的價值,可以為很大一部分用戶群體提供服務,同時為那些傾向于自己實施工具的人提供免費的開源替代方案。
我分享了這個愿景,你們如何參與其中?
在接下來的幾周內,SensiML將提供有關我們的開源項目GitHub repo和OSS項目網站的最新信息,這些網站計劃于今年夏初推出。
有興趣參與的人(無論是作為用戶還是貢獻者)可以收到有關我們項目啟動進度的更新,就他們認為最重要的改進提供反饋,并在我們的正式發布日期之前搶先訪問代碼庫。要注冊請掃描下面的二維碼并提交您的聯系信息。
我們希望您能像我們一樣發現這個消息令人興奮和潛在的影響力。只有通過開發人員和用戶社區的集體利益,TinyML工具的這樣一個開源項目才能發展壯大,使所有參與者受益!
-
引擎
+關注
關注
1文章
361瀏覽量
22630 -
開源
+關注
關注
3文章
3402瀏覽量
42712 -
Studio
+關注
關注
2文章
190瀏覽量
28832 -
SensiML
+關注
關注
0文章
13瀏覽量
911
原文標題:SensiML開源了Analytics Studio AutoML引擎
文章出處:【微信號:麥克泰技術,微信公眾號:麥克泰技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論