獨家獲悉,谷歌高級科學家、卡內基梅隆大學(CMU)計算機學院兼職教授蔣路,已經加入TikTok。
蔣路是谷歌 VideoPoet 項目負責人,VideoPoet 是谷歌在 2023 年 12 月推出的視頻生成大模型,類似 OpenAI 剛剛發布的 Sora。
近期,昆侖萬維創始人周亞輝在朋友圈表示,有個論文的作者加入字節北美做Tech Leader,正是指《VideoPoet: A large language model for zero-shot video generation》論文的作者蔣路。
資料顯示,蔣路先后在西安交通大學、布魯塞爾自由大學、卡內基梅隆大學學習計算機,并先后進入微軟亞洲研究院、谷歌研究院、雅虎研究院實習。
2017 年,蔣路畢業后加入谷歌。他是谷歌云 AI 的創始成員,也是李佳博士和李飛飛博士首次聘請的研究員。此后,蔣路進入谷歌研究院工作。
蔣路的研究曾被應用到谷歌多個產品,如 YouTube、云服務、云 AutoML、廣告、Waymo 和翻譯服務,影響了全球數十億用戶的日常生活。
蔣路的工作在自然語言處理(ACL)和計算機視覺(CVPR)的頂級會議上被提名為最佳論文。他是研究社區的活躍成員,擔任美國國家種子基金(NSF SBIR)的 AI 評審專家,并定期擔任 CVPR、ICCV、NeurlPS、ACM Multimedia 和 AAAI 等著名會議的領域主席。
蔣路的研究興趣主要在多媒體交叉領域,他專注于生成式 AI 和視頻創作。2019 年起,他就開始嘗試將 Transformer 用在圖像、視頻生成研究上。
與 Sora 采用的 Diffusion + Transformer 架構不同,蔣路負責的 VideoPoet 視頻生成模型采用了單 Transformer 架構,可以將任何自回歸語言模型或大型語言模型轉換為高質量的視頻生成器,支持生成方形或縱向視頻,以針對短格式內容定制生成視頻,并支持視頻輸入生成音頻。
VideoPoet 采用了名為 Tokenizer 的數據處理技術,可以將視頻和音頻片段編碼為離散標記序列(discrete tokens),這些標記也可以被轉換回原始表示。其中,視頻和圖像數據使用名為 MAGVIT V2 的技術,音頻數據使用 SoundStream 的技術。
VideoPoet 通過使用多個 Tokenizer 訓練一個自回歸語言模型,以學習跨視頻、圖像、音頻和文本模態。一旦模型根據某些上下文生成了標記,這些標記就可以通過分詞器解碼器轉換回可查看的表示。
3 周前,蔣路本人在職場社交平臺宣布了自己在谷歌的 Last Day,并特別表示對在谷歌所做的視頻生成項目(VideoPoet,MAGVIT,WALT等)感到自豪。
蔣路表示自己將繼續留在灣區,開始視頻生成領域的新旅程?,F在來看,新的旅程就是 TikTok。
值得一提的是,字節跳動已經在大模型領域全面布局,模型層推出了自研的「云雀大模型」以及類 ChatGPT 對話機器人產品豆包。2023 年底,字節跳動成立新的 AI 應用部門 Flow,并在海外推出了 Coze 等多款產品。抖音集團 CEO 張楠也于近期卸任,專注于 AI 工具剪映的發展。
字節跳動近期辟謠了推出中文版 Sora,并表示:“還無法完善產品落地,距離國外模型有很大差距。”但另一方面,字節跳動正在大力招攬人才。
大模型戰場,字節跳動將會如何攪局?
審核編輯:劉清
-
機器人
+關注
關注
211文章
28687瀏覽量
208648 -
計算機視覺
+關注
關注
8文章
1701瀏覽量
46144 -
OpenAI
+關注
關注
9文章
1154瀏覽量
6743 -
TikTok
+關注
關注
2文章
225瀏覽量
7327
原文標題:獨家:TikTok引入前谷歌VideoPoet負責人蔣路,發力AI視頻生成|甲子光年
文章出處:【微信號:jazzyear,微信公眾號:甲子光年】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論