盗墓笔记,天蚕土豆,小说排行榜完结版

通過機器學習，開發(fā)者和工程師能夠在應用中解鎖新的功能。您可以為應用所需的分類任務收集大量的數(shù)據(jù)，并訓練一個 ML 模型從數(shù)據(jù)中的模式里學習，而不是明確地定義計算機需要執(zhí)行的指令和規(guī)則。

訓練通常在計算機上的云端進行，而此類計算機會配備一個或多個 GPU。完成模型的訓練之后，根據(jù)模型大小，可以將其部署在各種設備上進行推理。這些設備的范圍很廣，從云端擁有數(shù)千兆字節(jié)內(nèi)存的大型計算機，到通常只有數(shù)千字節(jié)內(nèi)存的微控制器（或 MCU），悉數(shù)在內(nèi)。

微控制器是低功率、獨立、經(jīng)濟高效的計算機系統(tǒng)，日常使用的設備（如微波爐、電動牙刷或智能門鎖）中均有嵌入。基于微控制器的系統(tǒng)通常通過一個或多個傳感器（例如：按鈕、麥克風、運動傳感器）與周圍環(huán)境互動，并使用一個或多個執(zhí)行器（例如：LED、電機、揚聲器）來執(zhí)行動作。

微控制器還具有隱私方面的優(yōu)勢，可以在設備上開展本地推理，而無需向云端發(fā)送任何數(shù)據(jù)。對于依靠電池運行的設備來說，微控制器還具有能耗方面的優(yōu)勢。

在本文中，我們將介紹如何將基于 Arm Cortex-M 的微控制器用于本地設備端 ML，以檢測周圍環(huán)境中的音頻事件。這是一篇教程式的文章，我們將指導您訓練一個基于 TensorFlow 的音頻分類模型，來檢測火災警報的聲音。

Arm Cortex-M

https://developer.arm.com/ip-products/processors/cortex-m

我們將介紹如何使用適用于微控制器的 TensorFlow Lite（具有 Arm CMSIS-NN 加速內(nèi)核），將 ML 模型部署到基于 Arm Cortex-M0+ 的微控制器板上，來進行本地設備端 ML 推理。

適用于微控制器的 TensorFlow Lite

https://tensorflow.google.cn/lite/microcontrollers

CMSIS-NN

https://arm-software.github.io/CMSIS_5/NN/html/index.html

Arm Cortex-M0+

https://developer.arm.com/ip-products/processors/cortex-m/cortex-m0-plus

Arm 的 CMSIS-DSP 庫為 Arm Cortex-M 處理器提供了優(yōu)化的數(shù)字信號處理（DSP）功能實現(xiàn)，同時也將用于推理前從實時音頻數(shù)據(jù)中提取特征。

CMSIS-DSP

https://arm-software.github.io/CMSIS_5/DSP/html/index.html

雖然本指南側(cè)重于介紹火災警報聲音的檢測，但也可以適用于其他聲音分類任務。您可能還需要調(diào)整特征提取階段和/或調(diào)整 ML 模型架構(gòu)，以適應您的用例。

在 Google Colab 上可查看本教程的互動版本，本指南的所有技術資料都可在 GitHub 上找到。

Google Colab

https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb

GitHub

https://github.com/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico

事前準備

開發(fā)環(huán)境

Google Colab

https://colab.research.google.com/notebooks/

硬件

需要下列開發(fā)板之一，這些開發(fā)板均依托于 2021 年初發(fā)布的 Raspberry Pi 的 RP2040 MCU 芯片構(gòu)建而成。

Raspberry Pi 的 RP2040 MCU

“https://www.raspberrypi.org/products/rp2040/

SparkFun RP2040 MicroMod 和 MicroMod ML 載板

此開發(fā)板很適合剛接觸電子行業(yè)和微控制器的人。不需要電烙鐵，不需要掌握焊接技術，也不需要掌握在電路板上接線的技術。

SparkFun MicroMod RP2040 處理器。它是操作的大腦，具有 Raspberry Pi 的 RP2040 MCU 和 16MB 的閃存

SparkFun MicroMod RP2040 處理器

https://www.sparkfun.com/products/17720

SparkFun MicroMod 機器學習載板。它支持 USB 連接，并附帶內(nèi)置的麥克風、IMU 和攝像頭連接器

SparkFun MicroMod 機器學習載板

https://www.sparkfun.com/products/16400

一條 USB-C 數(shù)據(jù)線，用于連接開發(fā)板和計算機

一把十字螺絲刀

Raspberry Pi Pico 和 PDM 麥克風板

如果您已掌握（或者想學習）焊接技術，那么這個選項非常適合您。它需要用到電烙鐵，還需要了解如何用電子元件在電路板上布線。您將需要：

Raspberry Pi Pico

https://www.raspberrypi.org/products/raspberry-pi-pico/

Adafruit PDM MEMS 麥克風分接板

https://colab.research.google.com/notebooks/

半尺寸或全尺寸的電路板

跳線

一條 USB-B 微數(shù)據(jù)線，用于連接開發(fā)板和計算機

電烙鐵

以上兩個選項都可以幫助您使用數(shù)字麥克風收集實時的 16 kHz 音頻，并利用開發(fā)板的 Arm Cortex-M0+ 處理器處理音頻信號，該處理器的工作頻率為 125 MHz。在 Arm Cortex-M0+ 上運行的應用將經(jīng)過一個數(shù)字信號處理（DSP）階段，從音頻信號中提取特征。然后，將提取出的特征饋送至神經(jīng)網(wǎng)絡，以執(zhí)行分類任務，確定開發(fā)板的環(huán)境中是否存在火災警報的聲音。

數(shù)據(jù)集

我們首先使用 ESC-50：環(huán)境聲音分類數(shù)據(jù)集，通過 TensorFlow 來訓練一個聲音分類器（面向多個事件）。利用這個內(nèi)容廣泛的數(shù)據(jù)集進行訓練后，我們將使用遷移學習，針對特定音頻分類任務，對分類器進行微調(diào)。

ESC-50：環(huán)境聲音分類數(shù)據(jù)集

https://github.com/karolpiczak/ESC-50

遷移學習

https://developers.google.com/machine-learning/glossary#transfer-learning

利用包含 50 種聲音的 ESC-50 數(shù)據(jù)集訓練這個模型。每個聲音類別有 40 個音頻文件，每個文件時長為 5 秒。將每個音頻文件分割成 1 秒的聲音片段，并舍棄任何包含純靜音的聲音片段。

犬吠數(shù)據(jù)集中的樣本波形

聲譜圖

不同于將時間序列數(shù)據(jù)直接傳入 TensorFlow 模型，我們會將音頻數(shù)據(jù)轉(zhuǎn)換為音頻聲譜圖表征。此舉將創(chuàng)建音頻信號頻率內(nèi)容隨時間變化的二維表征。

所用輸入音頻信號的采樣率將為 16 kHz，這意味著一秒鐘的音頻將包含 16，000 個樣本。通過使用 TensorFlow 的 tf.signal.stft（。..）函數(shù)，我們可以將 1 秒的音頻信號轉(zhuǎn)換為二維張量表征。我們將選擇 256 的幀長和 128 的幀步長，所以此特征提取階段的輸出將為張量，其形狀為（124， 129）。

TensorFlow 的 tf.signal.stft（。..）函數(shù)

https://tensorflow.google.cn/api_docs/python/tf/signal/stft

犬吠的聲譜圖表征

ML 模型

從音頻信號中提取了特征之后，就可以使用 TensorFlow 的 Keras API 創(chuàng)建模型。上文有完整的代碼鏈接。模型由 8 層組成：

Keras

https://tensorflow.google.cn/guide/keras/sequential_model

1. 輸入層

2. 預處理層，將把輸入張量從 124x129x1 調(diào)整為 32x32x1

3. 歸一化層，在 -1 和 1 之間對輸入值進行調(diào)整

4. 具有以下配置的二維卷積層：8 個過濾器，內(nèi)核大小為 8x8，跨度為 2x2，使用 ReLU 激活函數(shù)

5. 大小為 2x2 的二維最大池化層

6. 平面化層，對二維數(shù)據(jù)進行平面化，令其變?yōu)橐痪S

7. Dropout 層，有助于減少訓練中的過度擬合

8. 密集層，有 50 個輸出和一個 softmax 激活函數(shù)，用于輸出聲音屬于某一類別的可能性（值在 0 到 1 之間）

以下為該模型的摘要：

請注意，此模型只有約 15，000 個參數(shù)（這相當小！）

微調(diào)

現(xiàn)在，我們將使用遷移學習，并改變模型的分類頭（最后一個密集層），以訓練火災警報聲的二進制分類模型。我們已從 freesound.org 和 BigSoundBank.com 收集了 10 個火災警報片段。對于非火災警報聲，我們將使用來自 SpeechCommands 數(shù)據(jù)集的背景噪音片段。此數(shù)據(jù)集很小，但足夠入門使用。數(shù)據(jù)增強技術將被用于完善我們所收集的訓練數(shù)據(jù)。

freesound.org

https://freesound.org/

BigSoundBank.com

https://bigsoundbank.com/

SpeechCommands

https://tensorflow.google.cn/datasets/catalog/speech_commands

對于實際應用而言，務必要收集更大的數(shù)據(jù)集（您可以在 TensorFlow 的 Responsible AI 網(wǎng)站上詳細了解最佳做法）。

Responsible AI 網(wǎng)站

https://tensorflow.google.cn/responsible_ai

數(shù)據(jù)增強

數(shù)據(jù)增強是一套用于擴大數(shù)據(jù)集規(guī)模的技術。達成此目標的方法是，稍微修改數(shù)據(jù)集中的樣本或創(chuàng)建合成數(shù)據(jù)。在本例中使用的是音頻，并將創(chuàng)建一些函數(shù)來增加不同的樣本。我們將使用三種技術：

1. 在音頻樣本中添加白噪聲

2. 在音頻中隨機添加靜音

3. 將兩個音頻樣本混合在一起

除了擴大數(shù)據(jù)集，數(shù)據(jù)增強也可以在不同的（不完美的）數(shù)據(jù)樣本上訓練模型，以此來減少過度擬合。例如，在微控制器上不可能有完美的高質(zhì)量音頻，所以此類技術（例如添加白噪聲）可以幫助模型在麥克風可能經(jīng)常有噪聲的情況下正常運作。

GIF：數(shù)據(jù)增強如何通過增加噪聲來微調(diào)聲譜圖

（仔細看，可能不太容易看清）

特征提取

適用于微控制器的 TensorFlow Lite （TFLu）提供了 TensorFlow 操作的一個子集，所以無法使用我們在 MCU 上用于基線模型特征提取的 tf.signal.sft（。..） API。然而，我們可以利用 Arm 的 CMSIS-DSP 庫，在 MCU 上生成聲譜圖。CMSIS-DSP 包含對浮點和定點 DSP 操作的支持，這些操作均針對 Arm Cortex-M 處理器進行了優(yōu)化，其中便包括我們要向其部署 ML 模型的 Arm Cortex-M0+。Arm Cortex-M0+ 不包含浮點單元（FPU），因此最好在開發(fā)板上利用基于特征提取流水線的 16 位定點 DSP。

我們可以在 Notebook 中利用 CMSIS-DSP 的 Python 封裝容器，使用 16 位定點數(shù)學在我們的訓練流水線上進行同樣的操作。在較高級別上，我們可以通過以下基于 CMSIS-DSP 的操作來復制 TensorFlow SFT API：

CMSIS-DSP 的 Python 封裝容器

https://github.com/ARM-software/CMSIS_5/tree/develop/CMSIS/DSP/PythonWrapper#readme

1. 使用漢寧窗（Hanning Window）公式和 CMSIS-DSP 的 arm_cos_f32 API，手動創(chuàng)建一個長度為 256 的漢寧窗。

arm_cos_f32

https://arm-software.github.io/CMSIS_5/DSP/html/group__cos.html#gace15287f9c64b9b4084d1c797d4c49d8

2. 創(chuàng)建一個 CMSIS-DSP arm_rfft_instance_q15 實例，并使用 CMSIS-DSP 的 arm_rfft_init_q15 API 對其進行初始化。

arm_rfft_init_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__RealFFT.html#ga053450cc600a55410ba5b5605e96245d

3. 循環(huán)播放音頻數(shù)據(jù)，每次 256 個樣本，跨度為 128（這與我們傳入 TF sft API 的參數(shù)一致）

使用 CMSIS-DSP 的 arm_mult_q15 API，將 256 個樣本與漢寧窗相乘

arm_mult_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__BasicMult.html#gaeeda8cdc2c7e79c8a26e905342a0bb17

使用 CMSIS-DSP 的 arm_rfft_q15 API 計算上一步輸出的 FFT

arm_rfft_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__RealFFT.html#ga00e615f5db21736ad5b27fb6146f3fc5

使用 CMSIS-DSP 的 arm_cmplx_mag_q15 API 計算上一步的幅度

arm_cmplx_mag_q15

https://arm-software.github.io/CMSIS_5/DSP/html/group__cmplx__mag.html#ga0488e185f4631ac029b02f1759b287cf

4. 每個音頻片段的 FFT 幅度代表聲譜圖的一列。

5. 由于我們的基線模型適合使用浮點輸入，而不是我們使用的 16 位量化值，CMSIS-DSP arm_q15_to_float API 可以用來將聲譜數(shù)據(jù)從 16 位定點值轉(zhuǎn)換為用于訓練的浮點值。

arm_q15_to_float

https://arm-software.github.io/CMSIS_5/DSP/html/group__q15__to__x.html#ga5a75381e7d63ea3a3a315344615281cf

這個模型的完整版 Python 代碼有點長，但可以在 Google Colab notebook 的“遷移學習 -》加載數(shù)據(jù)集”部分中加以查看。

Google Colab notebook 的“遷移學習 -》加載數(shù)據(jù)集”部分

https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb

煙霧報警器聲音的波形和音頻譜圖

若要進一步了解如何使用 CMSIS-DSP 的定點操作創(chuàng)建音頻聲譜圖，請參見 Towards Data Science 中的“數(shù)據(jù)研究員的定點 DSP （Fixed-point DSP for Data Scientists）”指南。

Towards Data Science 中的“數(shù)據(jù)研究員的定點 DSP （Fixed-point DSP for Data Scientists）”指南

https://towardsdatascience.com/fixed-point-dsp-for-data-scientists-d773a4271f7f

加載基線模型并改變分類頭

我們之前利用 ESC-50 數(shù)據(jù)集訓練的模型預測了 50 個聲音類型的存在，這導致模型的最后密集層有 50 個輸出。我們想創(chuàng)建的新模型是二進制分類器，需要有單一的輸出值。

我們將加載基線模型，還將換掉最后的密集層，以滿足我們的需要：

# We need a new head with one neuron.

model_body = tf.keras.Model（inputs=model.input， outputs=model.layers［-2］.output）

classifier_head = tf.keras.layers.Dense（1， activation=“sigmoid”）（model_body.output）

fine_tune_model = tf.keras.Model（model_body.input， classifier_head）

于是就有了以下的 model.summary（）：

遷移學習

遷移學習是對一個任務開發(fā)的模型進行再訓練，以完成類似的新任務的過程。其理念是，該模型已經(jīng)學會了可遷移的“技能”，其權(quán)重和偏差可以在其他模型中作為起點。

我們?nèi)祟愐矔褂眠w移學習，例如為學習走路而培養(yǎng)的技能也可在以后用于學習跑步。

在神經(jīng)網(wǎng)絡中，模型的前幾層會開始進行“特征提取”，如尋找形狀、邊緣和顏色。系統(tǒng)會將之后的幾層用作分類器；這些層會利用提取的特征，并對特征進行分類。

正因為如此，我們可以認為前幾層已經(jīng)學會了相當通用的特征提取技術，并可將其應用于類似的任務，因此我們可以凍結(jié)所有這些層，在未來的新任務中加以使用。需要根據(jù)新任務對分類器層進行訓練。

為了實現(xiàn)這個目標，我們將進程分為兩步：

1. 凍結(jié)模型的“主干”，以超高的學習率訓練頭部。慢慢降低學習率。

2. 解凍“主干”，以低學習率微調(diào)模型每。

若要在 TensorFlow 中凍結(jié)一個層，我們可以設置 layer.trainable=False。循環(huán)操作所有層，并執(zhí)行以下操作：

for layer in fine_tune_model.layers：

layer.trainable = False

然后解凍最后一層（頭部）：

fine_tune_model.layers［-1］.trainable = True

我們現(xiàn)在可以使用二進制交叉熵損失函數(shù)來訓練模型。還將使用 Keras 的早停回調(diào)（以避免過度擬合）和動態(tài)學習率調(diào)度器。

用凍結(jié)的層進行訓練后，可以對其進行解凍：

for layer in fine_tune_model.layers：

layer.trainable = True

然后再次進行訓練（最多 10 次）。您可以在 Colab notebook 的“遷移學習 -》訓練模型”部分中查看完整的代碼。

Colab notebook 的“遷移學習 -》訓練模型”部分

https://colab.research.google.com/github/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/blob/main/ml_audio_classifier_example_for_pico.ipynb#scrollTo=Replace_Baseline_Model_Classification_Head_and_Train_Model

記錄您自己的訓練數(shù)據(jù)

現(xiàn)在已得到 ML 模型，可以對出現(xiàn)的火災報警聲進行分類。然而，此模型的訓練是根據(jù)公開的聲音記錄訓練而成，可能與用于推理的硬件麥克風的聲音特征不一致。

Raspberry Pi RP2040 MCU 帶有原生的 USB 功能，可以讓其像自定義 USB 設備一樣運行。可以在開發(fā)板上刷寫一個應用，讓它能夠像 USB 麥克風一樣連在我們的 PC上。然后，可以用 Google Chrome 等流行的網(wǎng)絡瀏覽器上的網(wǎng)絡音頻 API 來擴展 Google Colab 的功能，收集實時數(shù)據(jù)樣本（所有這些都可通過 Google Colab 而得！）

網(wǎng)絡音頻 API

https://developer.mozilla.org/en-US/docs/Web/API/Web_Audio_API

硬件設置

SparkFun MicroMod RP2040

在組裝時，卸下載板上的螺絲，以一定的角度將 MicroMod RP2040 處理器板滑入插座，并用螺絲將其固定。更多詳情請參見 MicroMod 機器學習載板連接指南。

MicroMod 機器學習載板連接指南

https://learn.sparkfun.com/tutorials/micromod-machine-learning-carrier-board-hookup-guide？_ga=2.90268890.1509654996.1628608170-268367655.1627493370#hardware-hookup

Raspberry Pi Pico

按照“利用 Raspberry Pi Pico 創(chuàng)建 USB 麥克風”指南中的硬件設置部分的說明進行組裝。

“利用 Raspberry Pi Pico 創(chuàng)建 USB 麥克風”指南中的硬件設置部分

https://www.hackster.io/sandeep-mistry/create-a-usb-microphone-with-the-raspberry-pi-pico-cc9bd5#toc-hardware-setup-5

Fritzing 布線圖

組裝好的電路

設置固件應用工具鏈

無需在個人計算機上設置 Raspberry Pi Pico 的 SDK。我們可以利用 Colab 內(nèi)置的 Linux shell 命令特征，用 CMake 和 GNU Arm 嵌入工具鏈設置 Pico SDK 開發(fā)環(huán)境。

CMake

https://cmake.org”

GNU Arm 嵌入工具鏈

https://developer.arm.com/tools-and-software/open-source-software/developer-tools/gnu-toolchain/gnu-rm

還要用 git 將 pico-sdk 下載到 Colab 實例中：

pico-sdk

https://github.com/raspberrypi/pico-sdk

%%shell

git clone https://github.com/raspberrypi/pico-sdk.git

cd pico-sdk

git submodule init

git submodule update

編譯并刷寫 USB 麥克風應用

現(xiàn)在可以使用 Pico 的麥克風庫中的 USB 麥克風示例。可以用 cmake 和 make 對此示例應用進行編譯。然后，通過 USB 將示例應用刷寫到電路板上，將電路板調(diào)至“啟動 ROM 模式”，這樣就可以將應用上傳到電路板上。

Pico 的麥克風庫

https://github.com/ArmDeveloperEcosystem/microphone-library-for-pico

SparkFun

將 USB-C 數(shù)據(jù)線插入電路板和個人計算機，為電路板供電。

按住電路板上的 BOOT 按鈕，同時按 RESET 按鈕。

Raspberry Pi Pico

將 Micro USB 線插入個人計算機，但不要插入 Pico 一側(cè)。

按住白色 BOOTSEL 按鈕，同時將 Micro USB 線插入 Pico。

如果您使用的是支持 WebUSB API 的瀏覽器，如 Google Chrome，則可以直接從 Google Colab 中把圖像刷寫到板上！

WebUSB API

https://wicg.github.io/webusb/

從 Google Colab 和 WebUSB 中將 USB 麥克風應用下載到板上

除此之外，您還可以手動將 .uf2 文件下載到計算機，然后把它拖到 RP2040 板的 USB 磁盤上。

收集訓練數(shù)據(jù)

將 USB 麥克風應用刷寫到板上之后，它將作為 USB 音頻輸入出現(xiàn)在您的個人計算機上。

我們現(xiàn)在可以用 Google Colab 錄制火災警報的聲音，在下拉菜單中選擇“MicNode”，將其作為音頻輸入源。然后在按下煙霧報警器的測試按鈕時，點擊 Google Colab 上的錄音按鈕，錄制一個 1 秒鐘的音頻片段。將此過程重復幾次。

同樣地，我們也可以在 Google Colab 的下一個代碼單元中執(zhí)行相同的操作來收集背景音頻樣本。對于非火災警報的聲音，如無聲、自己說話或任何其他正常的環(huán)境聲音，將此操作重復幾次。

最終模型訓練

現(xiàn)在，我們已經(jīng)用麥克風收集了更多樣本，并將在推理過程中使用這些樣本。我們可以用新的數(shù)據(jù)再次對模型進行微調(diào)。

將模型轉(zhuǎn)換為在 MCU 上運行

需要把我們使用的 Keras 模型轉(zhuǎn)換為 TensorFlow Lite 格式，以便在設備上使用它進行推理。

量化

為了優(yōu)化模型以便在 Arm Cortex-M0+ 處理器上運行，我們將采用一個叫做模型量化的過程。模型量化將模型的權(quán)重和偏移從 32 位浮點值轉(zhuǎn)換為 8 位值。pico-tflmicro 庫（TFLu 在 RP2040 的 Pico SDK 上的一個端口）包含 Arm 的 CMSIS-NN 庫，它支持在 Arm Cortex-M 處理器上對量化的 8 位權(quán)重進行優(yōu)化的內(nèi)核操作。

pico-tflmicro

https://github.com/raspberrypi/pico-tflmicro

我們可以使用 TensorFlow 的訓練時量化（QAT）特征，輕松地將浮點模型轉(zhuǎn)換為量化模型。

TensorFlow 的訓練時量化（QAT）

https://tensorflow.google.cn/model_optimization/guide/quantization/training

將模型轉(zhuǎn)換為 TF Lite 格式

現(xiàn)在我們將使用 tf.lite.TFLiteConverter.from_keras_model（。..） API 將量化的 Keras 模型轉(zhuǎn)換為 TF Lite 格式，然后將其以 .tflite 文件的形式保存到磁盤。

converter = tf.lite.TFLiteConverter.from_keras_model（quant_aware_model）

converter.optimizations = ［tf.lite.Optimize.DEFAULT］

train_ds = train_ds.unbatch（）

def representative_data_gen（）：

for input_value， output_value in train_ds.batch（1）.take（100）：

# Model has only one input so each data point has one element.

yield ［input_value］

converter.representative_dataset = representative_data_gen

# Ensure that if any ops can‘t be quantized， the converter throws an error

converter.target_spec.supported_ops = ［tf.lite.OpsSet.TFLITE_BUILTINS_INT8］

# Set the input and output tensors to uint8 （APIs added in r2.3）

converter.inference_input_type = tf.int8

converter.inference_output_type = tf.int8

tflite_model_quant = converter.convert（）

with open（“tflite_model.tflite”， “wb”） as f：

f.write（tflite_model_quant）

由于 TensorFlow 也支持使用 tf.lite 加載 TF Lite 模型，我們也可以驗證量化模型的功能，并將其準確率與 Google Colab 內(nèi)部的常規(guī)未量化模型進行比較。

tf.lite

https://tensorflow.google.cn/api_docs/python/tf/lite

我們要部署的電路板上的 RP2040 MCU 沒有內(nèi)置的文件系統(tǒng)，這意味著我們不能在電路板上直接使用 .tflite 文件。然而，我們可以使用 Linux 的“xxd”命令將 .tflite 文件轉(zhuǎn)換為 .h 文件，然后可以在下一步的推理應用中進行編譯。

%%shell

echo “alignas（8） const unsigned char tflite_model［］ = {” 》 tflite_model.h

cat tflite_model.tflite | xxd -i 》》 tflite_model.h

echo “};”

將模型部署到設備

現(xiàn)在模型已經(jīng)準備完成，并可部署到設備上。我們已經(jīng)創(chuàng)建了用于推理的應用模板，可以與我們?yōu)槟Ｐ蜕傻?.h 文件一起編譯。

用于推理的應用模板

https://github.com/ArmDeveloperEcosystem/ml-audio-classifier-example-for-pico/tree/main/inference-app

這個 C++ 應用依托于 pico-sdk 構(gòu)建而成，同時還配備 CMSIS-DSP、pico-tflmicro，以及 Pico 庫的麥克風庫。它的一般結(jié)構(gòu)如下：

1. 初始化

配置板內(nèi)置 LED 的輸出。該應用將把 LED 的亮度映射到模型的輸出（0.0 表示 LED 關閉，1.0 表示 LED 亮度全開）

設置用于推理的 TF Lite 庫和 TF Lite 模型

設置基于 CMSIS-DSP 的 DSP 流水線

設置并啟動用于實時音頻的麥克風

2. 推理循環(huán)

等待來自麥克風的 512 個新音頻樣本（共 4 組，每組 128 個）

將聲譜圖數(shù)組移動 4 列

將音頻輸入緩沖區(qū)移動 512 個樣本（共 4 組，每組 128 個）并在新樣本中復制

為更新的輸入緩沖區(qū)計算 4 個新的聲譜圖列

對聲譜圖數(shù)據(jù)進行推理

將推理輸出值映射到板載 LED 的亮度并將狀態(tài)輸出到 USB 端口

為了實時運行，推理循環(huán)的每個周期必須在（512/16000） = 0.032 秒，即 32 毫秒以下。我們訓練和轉(zhuǎn)換的模型需要 24 毫秒的推理時間，因此用于循環(huán)中其他操作的時間大約為 8 毫秒。

上文中使用了 128，以匹配聲譜圖中的訓練流水線采用的 128 的幅度。我們在聲譜圖中采用了 4 移位，以適應我們的實時限制。

編譯固件

現(xiàn)在我們可以使用 CMake 來生成編譯所需的構(gòu)建文件，然后用 make 進行編譯。

必須根據(jù)您采用的板，修改“cmake 。.”行：

SparkFun： cmake 。. -DPICO_BOARD=sparkfun_micromod

Raspberry Pi Pico： cmake 。. -DPICO_BOARD=pico

將推理應用刷寫到板上

您需要再次將板調(diào)至“啟動 ROM 模式”，以便將新的應用加載到板上。

SparkFun

將 USB-C 數(shù)據(jù)線插入電路板和個人計算機，為電路板供電。

按住電路板上的 BOOT 按鈕，同時按 RESET 按鈕。

Raspberry Pi Pico

將 Micro USB 線插入個人計算機，但不要插入 Pico 一側(cè)。

按住白色 BOOTSEL 按鈕，同時將 Micro USB 線插入 Pico。

如果您使用的是支持 WebUSB API 的瀏覽器，如 Google Chrome，則可以在 Google Colab 中直接將圖像刷寫到電路板上。除此之外，您還可以手動將 .uf2 文件下載到計算機，然后把它拖到 RP2040 板的 USB 磁盤上。

監(jiān)控板上的推理

推理應用在電路板上開始運行之后，您可以通過兩種方式觀察它的運行情況：

通過觀察板上 LED 的亮度來直觀地獲取信息。沒有火災警報聲時，LED 應該保持關閉或變暗，若有火災警報聲，LED 就會亮起：

連接板的 USB 串行端口，查看推理應用的輸出。如果您使用的是支持 Web Serial API 的瀏覽器，如 Google Chrome，則可以直接從 Google Colab 中完成：

Web Serial API

https://developer.mozilla.org/en-US/docs/Web/API/Web_Serial_API

改善模型

現(xiàn)在已將第一版模型部署在板上，該模型正在對 16，000 kHz 的實時音頻數(shù)據(jù)進行推理！

測試一下各種聲音，看看模型是否有預期的輸出。可能會誤檢測出火災警報聲（誤報），也有可能在有警報聲時沒有檢測出來（漏報）。

如果出現(xiàn)這種情況，您可以將 USB 麥克風應用固件刷寫到板上，為訓練記錄數(shù)據(jù)，重新訓練模型并轉(zhuǎn)換為 TF lite 格式，以及重新編譯推理應用并刷寫到板上，以便為場景記錄更多新的音頻數(shù)據(jù)。

監(jiān)督式機器學習模型的好壞通常取決于其所使用的訓練數(shù)據(jù)，所以針對這些場景的額外訓練數(shù)據(jù)可能會有助于改善模型。您也可以嘗試改變模型結(jié)構(gòu)或特征提取過程，但請記住，模型必須足夠小巧快速，才能在 RP2040 MCU 上運行。

結(jié)論

本文介紹了一個端到端的流程，即如何訓練自定義的音頻分類器模型，以便在使用 Arm Cortex-M0+ 處理器的開發(fā)板上運行。就模型訓練而言，我們采用了 TensorFlow，使用了遷移學習技術以及較小的數(shù)據(jù)集和數(shù)據(jù)增強技術。我們還從麥克風中收集了自己的數(shù)據(jù)，并在推理時加以使用，其方法是將 USB 麥克風應用加載到開發(fā)板上，并通過網(wǎng)絡音頻 API 和 JavaScript 擴展 Colab 的特征。

項目的訓練方面結(jié)合了 Google 的 Colab 服務和 Chrome 瀏覽器，以及開源的 TensorFlow 庫。推理應用從數(shù)字麥克風采集音頻數(shù)據(jù)，在特征提取階段使用 Arm 的 CMSIS-DSP 庫，然后使用適用于微控制器的 TensorFlow Lite 與 Arm CMSIS-NN 加速內(nèi)核，用 8 位量化模型進行推理，在 Arm Cortex-M0+ 處理器上對實時的 16 kHz 音頻輸入進行分類。

利用 Google Chrome 的網(wǎng)絡音頻 API、網(wǎng)絡 USB API 和網(wǎng)絡串行 API 功能來擴展 Google Colab 的特征，與開發(fā)板進行互動。這樣我們就能夠完全通過網(wǎng)絡瀏覽器對我們的應用進行實驗和開發(fā)，并將其部署到一個受限的開發(fā)板上進行設備端推理。

由于 ML 處理是在開發(fā)板 RP2040 MCU 上進行的，所以在推理時，所有音頻數(shù)據(jù)均會保留在設備上。

責任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴