2024年4月,清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍首次發布中國版Sora——視頻大模型Vidu。一年后,2025年3月29日,中關村論壇上,Vidu高可控 AI 視頻大模型 Q1正式推出。
此次升級的關鍵在于“高可控”,采訪中,朱軍解釋稱:Q代表quality,代表模型的高可控,具體包括多主體細節可控、音效同步可控、畫質增強。實際視頻生成過程中,位置可控一直是棘手難題,以往模型通常無法精準按照指令生成。如今,Vidu Q1 借助融入參考圖的視覺指令,在語義指令的基礎上,實現了對場景中角色位置屬性的更精準控制。
可控主體數量的增加也是一項技術突破。以往,AI 視頻生成在面對較多主體時,精準生成的難度極大。Vidu Q1 增加了可控主體數量,并在多主體一致性以及符合物理規律等方面實現突破。另外,Vidu Q1 的音效同步可控功能可以基于語義指令,在生成視頻畫面的同時生成精準可控的音效,控制每段音效的長短與出現的時間點。
從Vidu1.0到Vidu Q1,一年時間內,大語言模型賽道逐漸進入洗牌期,而視頻大模型賽道仍處于旺盛成長期,快手可靈、字節即夢、MiniMax海螺AI不斷迭代,OpenAI Sora正式上線,HeyGen、Pika、愛詩科技等完成融資。而整個人工智能領域伴隨技術的升級,發展路徑逐漸從單一模態跨向多模態、跨模態,人機交互與產業應用的邊界逐漸改變。
相較視頻大模型專注于視頻數據的特征,多模態大模型可處理文本、圖像、視頻等多種數據,通過數據對齊、融合與統一標識技術,執行視覺問答等復雜任務。對于多模態賽道的發展,朱軍對第一財經記者表示,Vidu基座一開始就是多模態大模型,生數的定位也是多模態,視頻只是表現形式之一,此次更新的音頻功能與機器人可控數據操作均代表著不同的模態,對公司來講,底層架構基本一樣,無須過多修改即可實現多種模式。
目前生數Vidu的商業化方向主要包括面向C端的SaaS與面向B端的MaaS模式,朱軍認為,2025年是視頻大模型商業化快速發展的一年,消費者對視頻的需求非常廣闊,這也是視頻大模型與大語言模型不同之處。朱軍判斷,目前頭部視頻模型平臺各有特色與商業化路徑,暫時沒有走到大語言模型那么“卷”的狀態。
談及DeepSeek效應是否會在視頻賽道出現時,朱軍對記者表示,視頻大模型大概率不會出現類似DeepSeek這種效率領先的模型,因為行業已經將DeepSeek主打的效率優勢進行實踐了,廠商更期待的是視頻模型更加可控、更加好用,步入視頻領域的“ChatGPT時刻”。
幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。