在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一款AI模型Foley Music,它可以根據演奏手勢完美還原樂曲原聲!

傳感器技術 ? 來源:雷鋒網 ? 2020-08-14 14:58 ? 次閱讀

不會樂器也可以玩的很嗨 ”

會玩樂器的人在生活中簡直自帶光環!

不過,學會一門樂器也真的很難,多少人陷入過從入門到放棄的死循環。

但是,不會玩樂器,就真的不能演奏出好聽的音樂了嗎?

最近,麻省理工(MIT)聯合沃森人工智能實驗室(MIT-IBM Watson AI Lab)共同開發出了一款AI模型Foley Music,它可以根據演奏手勢完美還原樂曲原聲!

而且還是不分樂器的那種,小提琴、鋼琴、尤克里里、吉他,統統都可以。

只要拿起樂器,就是一場專業演奏會!如果喜歡不同音調,還可以對音樂風格進行編輯,A調、F調、G調均可。

這項名為《Foley Music:Learning to Generate Music from Videos》的技術論文已被ECCV 2020收錄。

接下來,我們看看AI模型是如何還原音樂的?

1

會玩多種樂器的Foley Music

如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣,為樂器演奏者配樂,同樣需要知道其手勢、動作以及所用樂器。

如果給定一段演奏視頻,AI會自動鎖定目標對象的身體關鍵點(Body Keypoints),以及演奏的樂器和聲音。

身體關鍵點:由AI系統中的視覺感知模塊(Visual Perception Model)來完成。它會通過身體姿勢和手勢的兩項指標來反饋。一般身體會提取25個關2D點,手指提起21個2D點。

樂器聲音提?。翰捎?a target="_blank">音頻表征模塊(Audio Representation Model),該模塊研究人員提出了一種樂器數字化接口(Musical Instrument Digital Interface,簡稱MIDI)的音頻表征形式。它是Foley Music區別于其他模型的關鍵。

研究人員介紹,對于一個6秒中的演奏視頻,通常會生成大約500個MIDI事件,這些MIDI事件可以輕松導入到標準音樂合成器以生成音樂波形。

在完成信息提取和處理后,接下來,視-聽模塊(Visual-Audio Model)將整合所有信息并轉化,生成最終相匹配的音樂。

我們先來看一下它完整架構圖:主要由視覺編碼,MIDI解碼和MIDI波形圖輸出三個部分構成。

視覺編碼:將視覺信息進行編碼化處理,并傳遞給轉換器MIDI解碼器。從視頻幀中提取關鍵坐標點,使用GCN(Graph-CNN)捕獲人體動態隨時間變化產生的潛在表示。

MIDI解碼器:通過Graph-Transfomers完成人體姿態特征和MIDI事件之間的相關性進行建模。Transfomers是基于編解碼器的自回歸生成模型,主要用于機器翻譯。在這里,它可以根據人體特征準確的預測MIDI事件的序列。

MIDI輸出:使用標準音頻合成器將MIDI事件轉換為最終的波形。

2

實驗結果

研究人員證實Foley Music遠優于現有其他模型。在對比試驗中,他們采用了三種數據集對Foley Music進行了訓練,并選擇了9中樂器,與其它GAN-based、SampleRNN和WaveNet三種模型進行了對比評估。

其中,數據集分別為AtinPiano、MUSIC及URMP,涵蓋了超過11個類別的大約1000個高質量的音樂演奏視頻。樂器則為風琴,貝斯,巴松管,大提琴,吉他,鋼琴,大號,夏威夷四弦琴和小提琴,其視頻長度均為6秒。以下為定量評估結果:

可見,Foley Music模型在貝斯(Bass)樂器演奏的預測性能最高達到了72%,而其他模型最高僅為8%。

另外,從以下四個指標來看,結果更為突出:

正確性:生成的歌曲與視頻內容之間的相關性。

噪音:音樂噪音最小。

同步性:歌曲在時間上與視頻內容最一致。

黃色為Foley Music模型,它在各項指標上的性能表現遠遠超過了其他模型,在正確性、噪音和同步性三項指標上最高均超過了0.6,其他最高不足0.4,且9種樂器均是如此。

另外,研究人員還發現,與其他基準系統相比,MIDI事件有助于改善聲音質量,語義對齊和時間同步。

說明

GAN模型:它以人體特征為輸入,通過鑒別其判定其姿態特征所產生的頻譜圖是真或是假,經過反復訓練后,通過傅立葉逆變換將頻譜圖轉換為音頻波形。

SampleRNN:是無條件的端到端的神經音頻生成模型,它相較于WaveNet結構更簡單,在樣本級層面生成語音要更快。

WaveNet:是谷歌Deepmind推出一款語音生成模型,在text-to-speech和語音生成方面表現很好。

另外,該模型的優勢還在于它的可擴展性。MIDI表示是完全可解釋和透明的,因此可以對預測的MIDI序列進行編輯,以生成AGF調不同風格音樂。如果使用波形或者頻譜圖作為音頻表示形式的模型,這個功能是不可實現的。

最后研究人員在論文中表明,此項研究通過人體關鍵點和MIDI表示很好地建立視覺和音樂信號之間的相關性,實現了音樂風格的可拓展性。為當前研究視頻和音樂聯系拓展出了一種更好的研究路徑。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31841

    瀏覽量

    270625
  • 人工智能
    +關注

    關注

    1796

    文章

    47867

    瀏覽量

    240747
  • 模型
    +關注

    關注

    1

    文章

    3372

    瀏覽量

    49298

原文標題:只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略

    AI 技術日新月異的當下,新的模型與突破不斷涌現。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速在全球開發者圈子里引發熱議。作為一款強大的語言
    發表于 02-14 17:42

    Google兩先進生成式AI模型登陸Vertex AI平臺

    新的 AI 模型,包括最先進的視頻生成模型Veo以及最高品質的圖像生成模型Imagen 3。近日,我們在 Google Cloud 上進
    的頭像 發表于 12-30 09:56 ?168次閱讀

    屆“澎峰云?大模型AI校園應用創新賽完美結束

    在大模型人工智能的浪潮中,澎峰科技與中科曙光強強聯合,共同打造了場大模型AI創新應用盛宴——第屆“澎峰云?大
    的頭像 發表于 11-11 10:59 ?453次閱讀

    AI模型與小模型的優缺點

    在人工智能(AI)的廣闊領域中,模型作為算法與數據之間的橋梁,扮演著至關重要的角色。根據模型的大小和復雜度,我們可以將其大致分為
    的頭像 發表于 07-10 10:39 ?4134次閱讀

    聆思CSK6視覺語音大模型AI開發板入門資源合集(硬件資料、大模型語音/多模態交互/英語評測SDK合集)

    技還提供了模型訓練推理工具將自己的算法模型部署至芯片上,也可以配合這個工具構建自己的 AI 應用。 使用聆思 CSK6011A 芯片作為主控,板載 16MB Flash 集成攝像頭、麥
    發表于 06-18 17:33

    一款完美用于相機鏡頭的馬達驅動芯片TMC2300-LA

    卓聯微科技TMC2300-LA一款完美用于相機鏡頭的馬達驅動芯片TMC2300-LA是一款用于高達1.2ARMS的兩相步進電機的低壓驅動芯片,低電壓的步進電機驅動器是用于電池供電的、空間和待機功率
    的頭像 發表于 06-14 08:27 ?684次閱讀
    <b class='flag-5'>一款</b><b class='flag-5'>完美</b>用于相機鏡頭的馬達驅動芯片TMC2300-LA

    基于毫米波雷達的手勢識別算法

    種新的無線電接入標準,而且是種潛在的傳感工具。毫米波手勢識別的研究已經取得了許多成果。在實際應用層面,它可以用于汽車行業,以提供 為駕駛員提供安全直觀的控制界面。然而,并不是所有坐在車內的乘客的
    發表于 06-05 19:09

    基于毫米波雷達的手勢識別神經網絡

    方面的高精度。這成功可以歸因于訓練數據和測試數據之間的特征相似性??傊@些結果證實了我們提出的神經網絡模型在提取相關運動特征以進行魯棒手勢識別方面的有效性。 不同神經網絡性能比較
    發表于 05-23 12:12

    開源項目!設計一款智能手語翻譯眼鏡

    這個項目是一款創新的智能手語翻譯眼鏡,它能夠實時地將手語轉換為聽得見的語音。這款眼鏡采用了VIAM平臺和樹莓派Zero 2 W,能夠幫助聾人或聽力受損的人士更自由、獨立地與他人交流,減少對第三方
    發表于 05-20 15:59

    人工智能模型公司Anthropic近日推出了一款Claude移動端App

    制造Claude 3人工智能模型公司Anthropic近日推出了一款iOS應用程序,并為群組共享模型訪問添加第二個付費層。
    的頭像 發表于 05-08 09:55 ?791次閱讀

    智譜AI正研發對標Sora的國產文生視頻模型

    智譜AI,這家國內估值超過200億的AI模型獨角獸企業,正全力投入研發一款與OpenAI的Sora相媲美的國產文生視頻模型。據公司內部人士
    的頭像 發表于 05-07 09:22 ?574次閱讀

    基于FPGA技術的手勢識別控制型多功能機械臂系統

    首先通過圖像采集設備來獲取手勢圖像,通過手勢建模將獲取的手勢圖像用數學模型描述出來,最后根據得到的手勢
    發表于 04-27 11:21 ?1415次閱讀

    防止AI模型被黑客病毒入侵控制(原創)聆思大模型AI開發套件評測4

    在訓練只聰明的AI小動物解決實際問題,通過構建神經網絡模型并進行推理,讓電腦也能像人根據輸入信息做出決策。 在上述示例中,我創建了
    發表于 03-19 11:18

    谷歌發布新型AI模型Genie

    近日,谷歌推出了一款革命性的AI模型——Genie。這款模型能夠將簡單的文本提示、草圖或初步想法迅速轉化為
    的頭像 發表于 02-28 10:05 ?839次閱讀

    字節跳動推出一款顛覆性視頻模型—Boximator

    在 Sora 引爆文生視頻賽道之前,國內的字節跳動也推出了一款顛覆性視頻模型——Boximator。
    的頭像 發表于 02-20 13:44 ?1216次閱讀
    字節跳動推出<b class='flag-5'>一款</b>顛覆性視頻<b class='flag-5'>模型</b>—Boximator
    主站蜘蛛池模板: 222aaa免费国产在线观看 | 天天拍天天干天天操 | 色老板女色狠xx网 | 国产亚洲一区二区三区啪 | 色猫av | 国产精品好好热在线观看 | 天天视频国产精品 | 超h高h文污肉 | 精品三级视频 | 97人人爱| 亚洲乱码一区二区三区在线观看 | 狼人激情网 | 四虎在线观看免费永久 | 色香淫欲 | 午夜视频在线观看网站 | 成人夜色香网站在线观看 | 医生好大好硬好爽好紧 | 国产caoni111在线观看视频 | 狠狠色噜噜噜噜狠狠狠狠狠狠奇米 | 在线天堂资源 | 色五五月五月开 | 波多野结衣在线观看一区二区 | 伊人网亚洲 | 伊人小婷婷色香综合缴缴情 | 亚洲成熟人网站 | 天天干天天玩天天操 | 亚洲高清美女一区二区三区 | 国产全肉乱妇杂乱视频 | 五月婷婷丁香在线 | 国产在线精品一区二区夜色 | 狠狠色丁香久久综合网 | 看真人一级毛片 | 九九热在线视频观看这里只有精品 | 在线观看亚洲成人 | 香蕉视频色版在线观看 | 视频h在线观看 | 天天插天天操天天干 | 七月婷婷精品视频在线观看 | 国产婷婷色一区二区三区深爱网 | 毛片毛| 国产精品好好热在线观看 |