小说阅读网,好看的课外书,古风名字

本教程的目標(biāo)：

了解什么是音高 (Pitch) 以及歷史上機(jī)器學(xué)習(xí)如何檢測歌曲中的音高

對(duì)歌曲數(shù)據(jù)以及執(zhí)行模型的結(jié)果進(jìn)行可視化

編寫通過手機(jī)麥克風(fēng)收集聲音的代碼

在 Android 應(yīng)用程序內(nèi)部部署 ML 模型

對(duì)歌曲的數(shù)據(jù)進(jìn)行轉(zhuǎn)換并使用 SPICE 模型進(jìn)行推斷

在 Android 手機(jī)屏幕上呈現(xiàn)最終結(jié)果

介紹

音高是聲音的一種感知屬性，可以按相應(yīng)的頻率對(duì)其進(jìn)行排序。換句話說，音高在音樂旋律中是用來判斷聲音聽起來“高”和“低”的一種屬性。音高是音調(diào)的主要聽覺屬性之一，其余為音長 (Duration)，音強(qiáng) (Loudness)，以及音色 (Timbre)。音高通過頻率進(jìn)行量化，并以赫茲 (Hz) 為單位進(jìn)行測量，其中 1Hz 表示每秒一個(gè)周期。

音高檢測 (Pitch detection) 一個(gè)有趣的挑戰(zhàn)。歷史上，對(duì)音高和音高感知的研究一直是心理聲學(xué)的核心問題，并且在音頻表征的形成與測試?yán)碚摗?信號(hào)處理算法 (Signal-Processing Algorithms) 以及聽覺系統(tǒng)中的感知等方面起到重要作用。研究人員為此開發(fā)并應(yīng)用了許多技術(shù) ，還努力將相近頻率的背景噪聲與背景音樂進(jìn)行分離。

技術(shù)
https://www.cs.uregina.ca/Research/Techreports/2003-06.pdf

今天，我們可以通過機(jī)器學(xué)習(xí)來實(shí)現(xiàn)這一目標(biāo)，更具體地說，可以使用 SPICE 模型。這是一個(gè)經(jīng)過預(yù)訓(xùn)練的模型，可以識(shí)別混合錄制的音頻中的基本音高（包括噪音和背景音樂），您可以在 TensorFlow Hub 獲取 SPICE 模型，包括適用于 Web 端的 TensorFlow.js 以及適用于移動(dòng)端的 TensorFlow Lite。

TensorFlow Hub

https://tfhub.dev/

TensorFlow.js
https://tfhub.dev/google/tfjs-model/spice/1/default/1

TensorFlow Lite
https://tfhub.dev/google/lite-model/spice/1

開始

音頻以單聲道 16khz 采樣率記錄并保存為 .wav 格式。讓我們用一個(gè)具有該格式的簡單音頻文件為例。如果使用對(duì)數(shù)頻率坐標(biāo)圖（以使歌聲更清晰可見），加載它并可視化輸出，我們將獲得一個(gè)頻譜圖，該頻譜圖顯示隨時(shí)間變化的頻率：

音頻文件
https://storage.googleapis.com/download.tensorflow.org/data/c-scale-metronome.wav

在執(zhí)行帶有歌曲數(shù)據(jù)的模型后，我們將打印模型的輸出。藍(lán)色表示模型預(yù)測的音高值，橙色表示這些音高值的置信度：

如果僅保留置信度大于 90％的結(jié)果，并將其與灰度圖重疊，我們將獲得下圖：

在所有長度的歌曲上準(zhǔn)確性都很高！！

需要指出的是，雖然對(duì)于上述示例，基于頻譜圖的啟發(fā)式音高提取方法可能也起作用。但是通常情況下，基于機(jī)器學(xué)習(xí)的模型會(huì)優(yōu)于手工提取的信號(hào)處理方法，特別是當(dāng)音頻中存在背景噪聲和背景音樂時(shí)。關(guān)于 SPICE 與 SWIPE（基于頻譜圖的算法）的比較，請(qǐng)參見此文。

若在 Android 應(yīng)用程序內(nèi)部運(yùn)行 SPICE 模型，必須使用麥克風(fēng)收集聲音。首先，我們?cè)O(shè)置變量：

private val AUDIO_SOURCE = MediaRecorder.AudioSource.VOICE_RECOGNITION private val SAMPLE_RATE = 16000 private val CHANNEL_MASK = AudioFormat.CHANNEL_IN_MONO private val ENCODING = AudioFormat.ENCODING_PCM_16BIT private val BUFFER_SIZE = AudioRecord.getMinBufferSize(SAMPLE_RATE, CHANNEL_MASK, ENCODING) private val AUDIO_FORMAT = AudioFormat.Builder().setEncoding(ENCODING) .setSampleRate(SAMPLE_RATE) .setChannelMask(CHANNEL_MASK) .build()

然后，選擇 MediaRecorder.AudioSource.VOICE_RECOGNITION 以將麥克風(fēng)聲源導(dǎo)入至語音識(shí)別并應(yīng)用噪聲消除。音頻格式是 16位，單聲道，16KHz 采樣率的理想格式。最后，我們開始錄音進(jìn)程：

/** * Start the recording process. */ mRecorder = AudioRecord.Builder().setAudioSource(AUDIO_SOURCE) .setAudioFormat(AUDIO_FORMAT) .setBufferSizeInBytes(BUFFER_SIZE) .build() mRecorder?.startRecording()

停止錄音進(jìn)程 mRecorder.stopRecording() ，隨后我們從錄音機(jī)流中讀取音頻：

private val readAudio = Runnable { var readBytes: Int buffer = ShortArray(BUFFER_SIZE) while (mRecording) { readBytes = mRecorder!!.read(buffer, 0, BUFFER_SIZE) //Higher volume of microphone //https://stackoverflow.com/questions/25441166/how-to-adjust-microphone-sensitivity-while-recording-audio-in-android if (readBytes > 0) { for (i in 0 until readBytes) { buffer[i] = Math.min( (buffer[i] * 6.7).toInt(), Short.MAX_VALUE.toInt() ).toShort() } } if (readBytes != AudioRecord.ERROR_INVALID_OPERATION) { for (s in buffer) { // Add all values to arraylist bufferForInference.add(s) writeShort(mPcmStream, s) } } } }

注意此處的乘法 buffer[i] * 6.7。這個(gè)參數(shù)用于控制麥克風(fēng)增益并提高靈敏度（您可以使用其他值代替 6.7 來滿足需要）！

在此類內(nèi)，還有一個(gè)將字節(jié)數(shù)組轉(zhuǎn)換為.wav文件的函數(shù)。該文件存儲(chǔ)在手機(jī)內(nèi)部存儲(chǔ)器的Pitch Detector文件夾中，可用于與原始版本對(duì)比驗(yàn)證移動(dòng)端模型輸出的準(zhǔn)確性。

原始版本
https://colab.sandbox.google.com/github/tensorflow/hub/blob/master/examples/colab/spice.ipynb

部署 SPICE 模型的第一步是復(fù)制位于 Assets 文件夾中的 .tflite 文件。我們將這些依賴包含在 app build.gradle 文件中：

implementation 'org.tensorflow0.0.0-nightly' implementation 'org.tensorflow0.0.0-nightly' implementation 'org.tensorflow0.0.0-nightly'

.tflite 文件
https://tfhub.dev/google/lite-model/spice/1

最后一個(gè)依賴項(xiàng)含有額外的算子——這是該項(xiàng)目不可或缺的依賴項(xiàng)，但會(huì)顯著增大最終 .apk 文件的體積，因?yàn)樵撃Ｐ褪褂昧艘恍┰诘谝粋€(gè) tflite 依賴項(xiàng)中沒有的算子。如需進(jìn)一步了解，您可以閱讀此文。

此文
https://tensorflow.google.cn/lite/guide/ops_select#android_aar

初始化解釋器，從文件夾加載模型文件：

// load tflite file from assets folder @Throws(IOException::class) private fun loadModelFile(context: Context, modelFile: String): MappedByteBuffer { val fileDescriptor = context.assets.openFd(modelFile) val inputStream = FileInputStream(fileDescriptor.fileDescriptor) val fileChannel = inputStream.channel val startOffset = fileDescriptor.startOffset val declaredLength = fileDescriptor.declaredLength val retFile = fileChannel.map(FileChannel.MapMode.READ_ONLY, startOffset, declaredLength) fileDescriptor.close() return retFile } @Throws(IOException::class) private fun getInterpreter( context: Context, modelName: String, useGpu: Boolean ): Interpreter { val tfliteOptions = Interpreter.Options() if (useGpu) { gpuDelegate = GpuDelegate() tfliteOptions.addDelegate(gpuDelegate) } tfliteOptions.setNumThreads(numberThreads) return Interpreter(loadModelFile(context, modelName), tfliteOptions) }

我們準(zhǔn)備好了，使用音頻流進(jìn)行推理！

音頻流采用 ArrayList 格式。但是要將其輸入至模型，我們必須將其轉(zhuǎn)換為 float 值并正則化到 -1 到 1 的范圍內(nèi)。為此，我們將每個(gè)值除以 MAX_ABS_INT16 = 32768，然后使用解釋器執(zhí)行推理：

fun execute(floatsInput: FloatArray): ArrayList { predictTime = System.currentTimeMillis() val inputSize = floatsInput.size // ~2 seconds of sound var outputSize = 0 when (inputSize) { // 16.000 * 2 seconds recording 32000 -> outputSize = ceil(inputSize / 512.0).toInt() else -> outputSize = (ceil(inputSize / 512.0) + 1).toInt() } val inputValues = floatsInput//FloatArray(inputSize) val inputs = arrayOf(inputValues) val outputs = HashMap() val pitches = FloatArray(outputSize) val uncertainties = FloatArray(outputSize) outputs[0] = pitches outputs[1] = uncertainties try { interpreter.runForMultipleInputsOutputs(inputs, outputs) } catch (e: Exception) { Log.e("EXCEPTION", e.toString()) } }

當(dāng)我們獲得結(jié)果后，我們接下來要做的是：

篩選輸出置信度超過 90％的結(jié)果

將絕對(duì)音高轉(zhuǎn)換為赫茲 (Hz)

計(jì)算唱歌期間的偏移量

使用一些啟發(fā)式算法嘗試預(yù)測并輸出最可能的演唱樂譜。

上述步驟中，計(jì)算出理想的偏移量是重要的一步，因?yàn)橥ǔＨ藗兒叱男膳c可以記譜的絕對(duì)音高值之間存在偏移。為此，我們還需要知道歌曲的速度（這樣才能確定采用的音符長度，比如八分音符）以及開始量化產(chǎn)生音符的時(shí)間偏移量。為簡單起見，我們將嘗試使用不同的速度和時(shí)間偏移并測量量化誤差，最后采用該誤差最小的組合。您可以在 PitchModelExecutor.kt 的源代碼中繼續(xù)深入了解。

PitchModelExecutor.kt 的源代碼

https://github.com/farmaker47/Pitch_Estimator/blob/master/app/src/main/java/com/george/pitch_estimator/PitchModelExecutor.kt

通過上述過程，我們獲得了含有音符字符串的 ArrayList，例如 [A2，F(xiàn)2，G#2，C3]，這些結(jié)果顯示在屏幕上。

TensorFlow Hub 的 SPICE 模型示例頁面有一個(gè)出色的可視化工具，可以在靜態(tài)的五線譜上顯示不斷流入的音符。因此，是時(shí)候在我們的移動(dòng)應(yīng)用程序去中復(fù)制此實(shí)時(shí)效果了！

可視化工具
https://tfhub.dev/google/lite-model/spice/1

Android webview 用于處理一些自定義 html 代碼。我們將此代碼加載到綁定適配器中：

// this binding adapter helps load custom html from assets folder @BindingAdapter("htmlToScreen") fun bindTextViewHtml(webView: WebView, htmlValue: String) { webView.settings.javaScriptEnabled = true webView.loadDataWithBaseURL("fake://not/needed", htmlValue, "text/html", "UTF-8", "") }

您可以在這個(gè) GitHub Gist 找到提供給 Webview 的 html 源代碼！

GitHub Gist
https://gist.github.com/farmaker47/8e3b6a5af795f32459d35d2198f07d1c

當(dāng)屏幕上顯示如 [A2，F(xiàn)2] 這樣的文字音符時(shí)，我們執(zhí)行：

// Observe notes as they come out of model and update webview respectively viewModel.noteValuesToDisplay.observe(viewLifecycleOwner, androidx.lifecycle.Observer { list -> if (list.size > 0) { var i = 0 val handler = Handler() handler.post(object : Runnable { override fun run() { when (list[i]) { "C2" -> binding.webView.loadUrl("javascript:myMove('125')") "C#2" -> binding.webView.loadUrl("javascript:myMoveSharp('125')") "D2" -> binding.webView.loadUrl("javascript:myMove('130')") "D#2" -> binding.webView.loadUrl("javascript:myMoveSharp('130')") "E2" -> binding.webView.loadUrl("javascript:myMove('135')") "F2" -> binding.webView.loadUrl("javascript:myMove('140')") "F#2" -> binding.webView.loadUrl("javascript:myMoveSharp('140')") "G2" -> binding.webView.loadUrl("javascript:myMove('145')") "G#2" -> binding.webView.loadUrl("javascript:myMoveSharp('145')") "A2" -> binding.webView.loadUrl("javascript:myMove('150')") "A#2" -> binding.webView.loadUrl("javascript:myMoveSharp('150')") "B2" -> binding.webView.loadUrl("javascript:myMove('155')") ........................... } i++ if (i < list.size) { handler.postDelayed(this, 555L) } } }) } })

在這里，我們每兩秒鐘觀察一次音符變化，對(duì)于列表中的每個(gè)音符，我們執(zhí)行 javascript 函數(shù)。myMove 函數(shù)內(nèi)部的值是注釋的垂直偏移量。

此項(xiàng)目的 GitHub 地址(https//github.com/farmaker47/Pitch_Estimator)。

此項(xiàng)目使用 Kotlin 語言，并且包括：

使用 Webview 和自定義 HTML 加載。

使用 TensorFlow 的 .tflite 模型文件：

數(shù)據(jù)綁定

MVVM 模式下的協(xié)程

Koin DI

改進(jìn)計(jì)劃

在應(yīng)用程序的 build.gradle 文件中，我們添加了特殊算子的依賴項(xiàng)：

implementation ‘org.tensorflow0.0.0-nightly’

此依賴項(xiàng)導(dǎo)致最終的 .apk 文件體積膨脹。我們計(jì)劃通過僅選擇模型所需的算子，以此減少最終 .apk 的大小。

通過改進(jìn)算法，我們將能夠查看全音符，二分音符，休止符和其他音符。

責(zé)任編輯：lq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

音頻

音頻

+關(guān)注

關(guān)注
29

文章
2910

瀏覽量
82015
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8453

瀏覽量
133143
tensorflow

tensorflow

+關(guān)注

關(guān)注
13

文章
329

瀏覽量
60658

原文標(biāo)題：學(xué)習(xí)教程 | 用 TensorFlow Lite 和 SPICE 模型打造聽歌識(shí)譜 App

文章出處：【微信號(hào)：tensorflowers，微信公眾號(hào)：Tensorflowers】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

在探討ZETA在機(jī)器學(xué)習(xí)中的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時(shí)，需要明確的是，ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析：一、ZETA在

發(fā)表于 12-20 09:11 ?387次閱讀

cmp在機(jī)器學(xué)習(xí)中的作用如何使用cmp進(jìn)行數(shù)據(jù)對(duì)比

在機(jī)器學(xué)習(xí)領(lǐng)域，"cmp"這個(gè)術(shù)語可能并不是一個(gè)常見的術(shù)語，它可能是指"比較"（comparison）的縮寫。比較在機(jī)器學(xué)習(xí)中的作用模型

發(fā)表于 12-17 09:35 ?335次閱讀

eda在機(jī)器學(xué)習(xí)中的應(yīng)用

在機(jī)器學(xué)習(xí)項(xiàng)目中，數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析（EDA）是這一過程中不可或缺的一部分。 1. 數(shù)據(jù)清洗數(shù)據(jù)清洗是機(jī)器學(xué)習(xí)

發(fā)表于 11-13 10:42 ?412次閱讀

基于機(jī)器學(xué)習(xí)的IWR6843AOP跌倒和姿態(tài)檢測實(shí)現(xiàn)

電子發(fā)燒友網(wǎng)站提供《基于機(jī)器學(xué)習(xí)的IWR6843AOP跌倒和姿態(tài)檢測實(shí)現(xiàn).pdf》資料免費(fèi)下載

發(fā)表于 09-03 10:02 ?1次下載

雙線分音和單線分音的區(qū)別

雙線分音和單線分音是音樂理論中的兩種不同的音高表示方法。它們?cè)谝魳穭?chuàng)作、演奏和理論分析中都有廣泛的應(yīng)用。一、雙線分音概念雙線分音是指在五線譜上，用兩條平行的線來表示音高的方法。這兩條線可以

發(fā)表于 08-23 10:43 ?990次閱讀

機(jī)器視覺在焊接質(zhì)量檢測中的應(yīng)用

的可能性。今天跟隨創(chuàng)想智控小編一起了解機(jī)器視覺在焊接質(zhì)量檢測中的應(yīng)用。 1. 機(jī)器視覺原理 機(jī)器

發(fā)表于 08-13 16:33 ?366次閱讀

愛普生通過低噪音高級(jí)型號(hào)擴(kuò)展了其1英寸平臺(tái)IMU產(chǎn)品線M-G370PDT

愛普生通過低噪音高級(jí)型號(hào)擴(kuò)展了其1英寸平臺(tái)IMU產(chǎn)品線-M-G370PDT現(xiàn)已上市并批量生產(chǎn)，具有用戶可選擇的加速計(jì)輸出范圍和改進(jìn)的陀螺儀輸出非線性-精工愛普生公司（TSE:6724，“愛普生

發(fā)表于 08-13 10:28 ?490次閱讀

【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時(shí)間序列

收到《時(shí)間序列與機(jī)器學(xué)習(xí)》一書，彩色印刷，公式代碼清晰，非常精美。感謝作者，感謝電子發(fā)燒友提供了一個(gè)讓我學(xué)習(xí)時(shí)間序列及應(yīng)用的機(jī)會(huì)！前言第一段描述了編寫背景：由此可知，這是一本關(guān)于時(shí)間序列進(jìn)行大數(shù)

發(fā)表于 08-11 17:55

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

在機(jī)器學(xué)習(xí)中，數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù)，它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器

發(fā)表于 07-10 16:10 ?2203次閱讀

深度學(xué)習(xí)在工業(yè)機(jī)器視覺檢測中的應(yīng)用

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，其在工業(yè)機(jī)器視覺檢測中的應(yīng)用日益廣泛，并展現(xiàn)出巨大的潛力。工業(yè)機(jī)器視覺檢測

發(fā)表于 07-08 10:40 ?1278次閱讀

深度學(xué)習(xí)在視覺檢測中的應(yīng)用

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支，其核心在于通過構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型，使計(jì)算機(jī)能夠從大量數(shù)據(jù)中自動(dòng)學(xué)習(xí)并提取特征，進(jìn)而實(shí)現(xiàn)對(duì)復(fù)

發(fā)表于 07-08 10:27 ?893次閱讀

機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

隨著大數(shù)據(jù)時(shí)代的到來，數(shù)據(jù)量的爆炸性增長對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具，通過訓(xùn)練模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律，為企業(yè)和組織提供了更高效、更準(zhǔn)確的數(shù)據(jù)分析能力。本文將深入探討機(jī)器

發(fā)表于 07-02 11:22 ?857次閱讀

名單公布！【書籍評(píng)測活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來？

捕捉復(fù)雜非線性模式的場景中顯得力不從心。將時(shí)間序列的分析與預(yù)測用于大規(guī)模的數(shù)據(jù)生產(chǎn)一直存在諸多困難。在這種背景下，結(jié)合機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)技術(shù)的時(shí)間序列分析方法，成了研究和應(yīng)用

發(fā)表于 06-25 15:00

聲學(xué)定義和音高單位

一、什么是聲學(xué)聲音是人類最早研究的物理現(xiàn)象之一，聲學(xué)是物理學(xué)中歷史最悠久而當(dāng)前仍在前沿的分支學(xué)科。聲學(xué)，英文Acoustics，指研究機(jī)械波的產(chǎn)生、傳播、接收和效應(yīng)的科學(xué)。聲學(xué)作為一門跨層次的基礎(chǔ)性

發(fā)表于 06-22 08:30 ?856次閱讀

機(jī)器視覺在焊縫檢測中的應(yīng)用

。為了解決這些問題，機(jī)器視覺技術(shù)被引入到焊縫檢測中，提供了一種高效、準(zhǔn)確且可重復(fù)的解決方案。 機(jī)器視覺的基本原理

發(fā)表于 05-20 11:10 ?503次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

了解什么是音高以及歷史上機(jī)器學(xué)習(xí)如何檢測歌曲中的音高

評(píng)論

zeta在機(jī)器學(xué)習(xí)中的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

cmp在機(jī)器學(xué)習(xí)中的作用如何使用cmp進(jìn)行數(shù)據(jù)對(duì)比

eda在機(jī)器學(xué)習(xí)中的應(yīng)用

基于機(jī)器學(xué)習(xí)的IWR6843AOP跌倒和姿態(tài)檢測實(shí)現(xiàn)

雙線分音和單線分音的區(qū)別

機(jī)器視覺在焊接質(zhì)量檢測中的應(yīng)用

愛普生通過低噪音高級(jí)型號(hào)擴(kuò)展了其1英寸平臺(tái)IMU產(chǎn)品線M-G370PDT

【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時(shí)間序列

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

深度學(xué)習(xí)在工業(yè)機(jī)器視覺檢測中的應(yīng)用

深度學(xué)習(xí)在視覺檢測中的應(yīng)用

機(jī)器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

名單公布！【書籍評(píng)測活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來？

聲學(xué)定義和音高單位

機(jī)器視覺在焊縫檢測中的應(yīng)用