在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

是否可以將Shazam稱為有聽歌識曲功能應用的鼻祖?

電子工程師 ? 來源:lq ? 2019-02-18 09:43 ? 次閱讀

是否可以將 Shazam 稱為有聽歌識曲功能應用的鼻祖?

2018 年 9 月,蘋果最終以 4 億美金完成對 Shazam 公司的收購,讓不少人為之振奮,在當時對外公布的一份聲明中可以看到,自Shazam應用登陸App Store以來,是其最受歡迎的iOS應用之一。

其實早在蘋果 iPhone “出道”之前,Shazam 提供的音樂識別服務和技術就已戳中了不少用戶的痛點。例如,當外界播放一首你喜愛的歌曲時,手機應用能識別出該歌曲并調出手機內同樣的歌曲/原唱,完成后在手機上播放出來。

像最早流行的 Gracenote、SoundHound、Track ID、Tunatic,以及如今的第三方音樂 App 如 QQ音樂、網易云音樂,甚至微信“搖一搖”等也都具備音樂識別的功能。

只不過,據資料顯示,在Shazam 公司 1999 年成立之初,以非常“原始”的方式提供服務的:“用戶聽到歌曲,打一個服務短號碼,讓電話那頭聽到,然后自動掛斷,歌曲信息以短信的形式發到用戶手機上。”

如今,無論被收購之后的 Shazam 是因何種戰略地位為蘋果生態提供服務,與其他類似的音樂識別軟件在操作界面、細節功能有哪些不同,Shazam 仍受到大眾的認可。拋開此前與蘋果的關系、服務能力不提,Shazam 在音頻識別上的技術能力得到公認的。

實際上,早在 2003 年 Shazam 聯合創始人之一的 Avery Li-Chun Wang 就發表了一篇論文“An Industrial-Strength Audio Search Algorithm”(《一種工業級音頻搜索算法》),提出了基于指紋(fringerprint)的音樂搜索算法,因其檢索準確率較高,得到了不少算法工程師的關注。

編者注:來自維基百科:聲學指紋(Acoustic fingerprint)是通過特定算法從音頻信號中提取的一段數字摘要,用于識別聲音樣本或者快速定位音頻數據庫中的相似音頻。

根據論文資料,Shazam 設計了一套非常靈活的音頻搜索引擎。其算法抗噪聲和擾動能力強,計算復雜度低,同時具有很高的可擴展性。即使外界噪音很強,它也可以迅速通過手機錄制的一小段壓縮音頻從百萬級的曲庫中辨識出正確的歌曲。該算法運用分析音頻頻譜上的星狀圖來組合時間-頻率信息構造哈希,從而可以將混合在一起的幾首歌都辨識出來。此外,針對不同的應用,即使曲庫非常大,檢索速度也能達到毫秒級。

其核心簡言之是,用戶將某段音頻中的一個片段上傳至 Shazam,Shazam 會首先提取指紋,然后查詢數據庫,最后利用其精準的識別算法返回歌名。指紋可以看做該音頻的哈希值(Hash),一個帶有時間屬性的數字集合。

2015 年,一位名叫 Christophe 的工程師寫了篇萬字長文,完整分析了Shazam的原理是什么,并表示,在過去的三年時間里,他用了大概 200 個小時來理解信號處理的概念,其背后的數學原理,并制作了自己的Shazam原型。他甚至直言:“寫這篇文章是因為此前從沒有找到一篇真正理解 Shazam 的文章”。

那么,如何更快更好理解 Shazam 背后的算法奧秘呢?前不久,YouTube上一個專門普及工程知識的頻道 Real Engineering 上傳了一段 10 分鐘視頻,可幫助人們快速 Get 到相關知識點。

傳送門:https://www.youtube.com/watch?v=kMNSAhsyiDg

相比起人類,計算機對音樂沒有直觀的理解,它只能將歌曲與其數據庫中的其他歌曲進行對比匹配。為此,視頻中 Real Engineering 重點提及了兩個概念:“星狀圖”和“哈希函數”,并對基于“指紋”的搜索算法進行了通俗化解釋。

例如,人類大腦可很容易區分鋼琴和吉他的音色,但對計算機來講,就需要一種能夠量化這些特征以便進行識別的方法,即頻譜圖,一種聲音的視覺顯示。

在視頻中,研究者嘗試用一張三維圖來表示:x 軸代表時間,y 軸代表頻率,z 軸代表振幅/響度(通常用某種顏色表示)。

如此,計算機就可以通過這個三維圖來識別聲音并存儲數據。不過,會有個問題:頻譜圖中有大量這樣的數據,而且數據越多,需要通過計算匹配的時間就越長。

所以,減少計算時間的第一步就是減少分類歌曲的數據。

Shazam 采用的稱之為“指紋”的技術,可將這些頻譜圖轉換成看起來像的“星狀圖”。

每顆星星代表特定時間最強的頻率。如此,不僅降低了頻譜圖的維度,還減少了圖表上數據點的數量。

然后,Shazam 數據庫中的每首單曲都以“指紋”的形式存儲起來。

當用戶打開 Shazam 應用時,后臺將訪問手機的麥克風,并創建一組接收到的聲波“指紋”。不過,這種方式也有助于應用過濾噪聲,因為它只會創建突出頻率的數據點。

音頻創建完成,并將其發送到服務器。此時,Shazam的識別過程正式開始,即“快速組合哈希”(Fast Combinatorial Hashing)。

論文鏈接:https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf

Shazam 會將“指紋”進行分類,并搜索在該音頻中的某個特定時間點里分別存在哪幾個音符,這也是哈希表的可搜索地址。

注:在計算機領域,哈希和哈希函數應用十分廣泛。例如,在谷歌的搜索引擎算法中就應用了哈希函數,以確保文件可被下載。一句話解釋就是,任意長度的輸入通過哈希函數變換成固定長度的輸出,該輸出就是哈希值。

實踐中,輸入可以是一小段文字如密碼,也可以是像整部電影一樣的長數據流。

為免枯燥乏味,視頻里還舉了個生動的例子:在圖書館如何通過搜索書的標題確定書的位置?

可以通過哈希函數來決定,書的標題為輸入,書架的位置為輸出。在這個過程中,我們會遇到書籍不均勻分布、書目沖撞、以及如何快速找到所需書目的問題。

例如,如果圖書館只有兩個架子,那么書目沖撞(一個書架上有相同標題的書)的問題將十分突出;但如果圖書館有十億書架,那哈希函數得出的書目沖撞結果應該會很小。

回到以上提到的案例,如果通過哈希函數,選擇兩組頻率數據,分別除以時間并作為輸入,輸出的數字介于 1 至 10 億之間。

首先,計算機將瀏覽歌曲數據庫并計算每個錨點(anchor point)的哈希;一首歌曲將包含多個錨點,將有助于計算機對音頻片段按錨點、后面的以及之間的頻率進行分類。

然后,對每個錨點按哈希進行排列。

這些地址同樣以歌曲 ID 和時間戳進行分類。

如此,便可以更快定位,并找到本來需要多個錨點才能找到的音樂。

以上只是大致介紹,想要了解 Shazam 聽歌識曲背后的詳細原理,可以查看Christophe 寫的萬字長文。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • APP
    APP
    +關注

    關注

    33

    文章

    1585

    瀏覽量

    73944
  • 數據庫
    +關注

    關注

    7

    文章

    3905

    瀏覽量

    65879
  • 音頻識別
    +關注

    關注

    0

    文章

    3

    瀏覽量

    7284

原文標題:一個App賣了4億美元,這家聽聲識曲公司為何得到Apple的青睞?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    是否可以AD9278的工作模式設為standby模式?

    standby模式時,可以正常工作,至少在當前常溫環境下,沒發現有什么異常,這是為什么?在手冊中看到在standby模式下,AD9278不應該正常工作才對,為什么實際使用時,卻能正常工作,而且此時功耗確實低了很多!!,在最終產品中,我是否
    發表于 06-10 08:29

    CYPD3177是否連接NonPD適配器源時通知電量不足的功能

    CYPD3177是否連接NonPD適配器源時通知電量不足的功能? 例如,當連接到具有 9V2A 請求的 NonPD 適配器(源連接器為 A 型等)時,通知電量不足。 對于 PD 兼
    發表于 05-22 08:24

    是否可以CY7C65215A的端口1用作RS485,端口2用作RS232?

    我對 CY7C65215A 兩個問題。 (1)是否可以CY7C65215A的端口1用作RS485,端口2用作RS232? (2)我計劃
    發表于 05-06 12:56

    是否任何硬件功能可以獲取ADC的最大值?

    是否任何硬件功能可以獲取 ADC 的最大值
    發表于 04-21 07:54

    是否可以智能插頭直接連接到充當控制器的imx8mm?

    運行具有物質層的 yocto mickledore 圖像。 是否可以智能插頭直接連接到充當控制器的 imx8mm?
    發表于 04-08 08:08

    變頻器是否故障的方法判斷

    變頻器是否故障用這幾種方法就可以輕松判斷,維修使用建議熟記?
    發表于 03-06 17:19 ?1次下載

    VirtualLab Fusion應用:場分析儀

    的分析器來研究這種影響。 場,也稱為“場的曲率”,是一種常見的光學效應,它會使平面物體在畫面的某些部分看起來很銳利,而不是在整個幀上均勻銳利。這是由于大多數光學元件的彎曲性質造成的,它們
    發表于 03-03 09:22

    一維/二維條碼讀器可以應用于哪些行業?

    /二維條碼讀器是不可或缺的工具。超市、便利店等場所,通過掃描商品上的條碼,可以迅速識別商品信息,如價格、庫存量等,從而加快結賬速度,減少顧客等待時間,提高顧客滿意
    的頭像 發表于 01-10 00:00 ?424次閱讀
    一維/二維條碼<b class='flag-5'>識</b>讀器<b class='flag-5'>可以</b>應用于哪些行業?

    VirtualLab Fusion應用:場分析儀

    的分析器來研究這種影響。 場,也稱為“場的曲率”,是一種常見的光學效應,它會使平面物體在畫面的某些部分看起來很銳利,而不是在整個幀上均勻銳利。這是由于大多數光學元件的彎曲性質造成的,它們
    發表于 01-02 16:36

    TPA6130A2如果不需要I2C功能是否可以I2C的兩個引腳懸空?

    如果不需要I2C功能是否可以I2C的兩個引腳懸空。 2.如果I2C兩個引腳懸空,該IC是否
    發表于 11-01 08:16

    TLV320AIC3204的DSP是否ASRC功能

    請教一下TLV320AIC3204的DSP是否ASRC功能可以實現PCM9211光纖解碼后的各種采樣率能經ASRC變成固定一種采用率,滿足TAS5754輸入處理,而且ASRC的延
    發表于 10-18 06:14

    THS3095不需要使用PD功能,在采用雙電源供電的情況下,是否可以REF接地,PD懸空?

    如果我不需要使用PD功能,在采用雙電源供電的情況下,是否可以REF接地,PD懸空(等效接高電平),此時是否處于正常的工作狀態(ON)?
    發表于 08-26 08:26

    請問INA220是否電壓自動校正的功能

    1INA220是否電壓自動校正的功能? 2如果有自動校正電壓的功能,請問操方法,軟件和硬件。 謝謝~
    發表于 07-31 08:06

    是否可以ESP8266用作橋接AP?

    我知道這個問題已經發布了很多次,但我沒有找到任何最終答案,它困擾著我...... 是否可以 ESP8266 用作橋接 AP?如果是這樣...AT 命令的腳本?
    發表于 07-15 07:23

    esp32-lyrat接DuerOS了對話功能之后,是否可以進行錄音?

    想問一下,esp32-lyrat 接入 DuerOS 了對話功能之后,還是否可以進行錄音? 也就是,想要問一下,加入DuerOS是否會將e
    發表于 06-28 16:30
    主站蜘蛛池模板: 男女交性视频播放 视频 视频 | 国产精品夜色一区二区三区 | 清冷双性被cao的合不拢腿 | 亚洲人成电影在在线观看网色 | 91aaa免费观看在线观看资源 | 日产精品卡二卡三卡四卡乱码视频 | 午夜精品影院 | 特黄aa级毛片免费视频播放 | 国产特级毛片aaaaaa毛片 | 免费观看四虎精品成人 | 202z国产高清日本在线播放 | 国产精品黄页网站在线播放免费 | 免费a网址 | 狠狠色噜噜狠狠狠狠2021天天 | 亚洲国产精品久久精品怡红院 | 亚洲国产精品自在现线让你爽 | 国产午夜免费视频 | 伊人久久大香线蕉综合网站 | 国产三级播放 | 一级毛片不卡 | 欧美黄色影院 | xxⅹ丰满妇女与善交 | 久久综合欧美成人 | 九七婷婷狠狠成人免费视频 | 久久久久久久久久久观看 | 色屁屁www影院免费观看视频 | 日本四虎影院 | 日本黄色片在线播放 | 欧美三级一区二区三区 | 亚洲一区二区三区免费看 | ww久久 | 国产精品色婷婷在线观看 | www干| 日韩美女奶水喂男人在线观看 | 国产亚洲精品久久yy5099 | 美女扒开内裤无遮挡禁18 | 爱婷婷网站在线观看 | 天天干天天摸天天操 | 午夜免费福利在线观看 | 免费在线视频你懂的 | 在线91精品亚洲网站精品成人 |