“大語言模型為 AI 產業帶來新的生機,然而語言模型的應用場景有限。要全面打開生成式 AI 的想象力,還是要依托多模態大模型。”IDC 中國研究總監盧言霞近日表示。Sora在文生視頻領域真正邁出了第一步,真正做到生成式 AI 驅動生成短視頻。接下來也將刺激其他科技巨頭加快在該領域的技術攻關力度以及產品發布速度。
哪些公司有潛力快速推出類似產品呢?根據盧言霞的判斷,幾個最有潛力的群體包括,在大模型以及 AI 領域投入最為領先的科技巨頭,如 BAT、科大訊飛等;在計算機視覺領域擁有深厚積累的公司,比如商湯、海康一類的公司;以及短視頻類公司;更可大膽想象,也或許會培訓出多模態大模型的全新創企。
多模態大模型將率先在短視頻、廣告、互娛、影視、媒體等領域采用,輔助人類員工生成視頻,既可以提高生產速度又可以提高生產數量,還可以創造全新的視覺感受,能夠幫助企業真正實現降本增效、提升用戶體驗。
根據預測,未來 5 年,生成式 AI 生成的文本類文件、圖像類文件、視頻類文件、軟件代碼類文件數量將會越來越平均。而這其中,與圖像文件相關的數據量可能是文本文件的 100 倍,視頻文件是圖像文件的 10 倍。整體來看,由于 GenAI 的采用和使用日益增多,近期和遠期所創建數據的增長速度都將快于近幾年。
盧言霞指出,多模態大模型行業發展的挑戰在于:
? 高質量數據的稀缺:圖像、視頻類數據掌握在少數公司手中。這些數據也需要標注,甚至重新采集,才能用于大模型的訓練。
? 多模態大模型對算力的消耗更高,算力的可獲取性以及成本將是挑戰之一。
? 頂尖的大模型研發人才,也是行業發展的稀缺資源。
此外,多模態大模型將帶來更嚴峻的安全方面的挑戰。一方面多模態大模型將讀取更多的圖像、視頻類數據,這些圖像視頻數據是否合規是否安全,需要得到保障;另一方面,生成的視頻與真實世界之間的差異,是否會影響到人身安全、社會穩定、企業安全等,也需要注意。
當前 Sora 生成的是1分鐘的視頻,對于行業已經是重大突破,何時能生成2分鐘、5分鐘以上的視頻還未知,無論如何多模態大模型的應用都將是顛覆性的。
發布評論請先 登錄
商湯日日新SenseNova融合模態大模型 國內首家獲得最高評級的大模型
海康威視發布多模態大模型AI融合巡檢超腦
商湯日日新多模態大模型權威評測第一
成都匯陽投資關于Sora 正式上線,多模態模型的里程碑
一文理解多模態大語言模型——上

評論