欧美成人性网,国产aaa精品,亚洲乱码国产乱码精品天美传媒

2024年4月，清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍首次發布中國版Sora——視頻大模型Vidu。一年后，2025年3月29日，中關村論壇上，Vidu高可控 AI 視頻大模型 Q1正式推出。

此次升級的關鍵在于“高可控”，采訪中，朱軍解釋稱：Q代表quality，代表模型的高可控，具體包括多主體細節可控、音效同步可控、畫質增強。實際視頻生成過程中，位置可控一直是棘手難題，以往模型通常無法精準按照指令生成。如今，Vidu Q1 借助融入參考圖的視覺指令，在語義指令的基礎上，實現了對場景中角色位置屬性的更精準控制。

可控主體數量的增加也是一項技術突破。以往，AI 視頻生成在面對較多主體時，精準生成的難度極大。Vidu Q1 增加了可控主體數量，并在多主體一致性以及符合物理規律等方面實現突破。另外，Vidu Q1 的音效同步可控功能可以基于語義指令，在生成視頻畫面的同時生成精準可控的音效，控制每段音效的長短與出現的時間點。

從Vidu1.0到Vidu Q1，一年時間內，大語言模型賽道逐漸進入洗牌期，而視頻大模型賽道仍處于旺盛成長期，快手可靈、字節即夢、MiniMax海螺AI不斷迭代，OpenAI Sora正式上線，HeyGen、Pika、愛詩科技等完成融資。而整個人工智能領域伴隨技術的升級，發展路徑逐漸從單一模態跨向多模態、跨模態，人機交互與產業應用的邊界逐漸改變。

相較視頻大模型專注于視頻數據的特征，多模態大模型可處理文本、圖像、視頻等多種數據，通過數據對齊、融合與統一標識技術，執行視覺問答等復雜任務。對于多模態賽道的發展，朱軍對第一財經記者表示，Vidu基座一開始就是多模態大模型，生數的定位也是多模態，視頻只是表現形式之一，此次更新的音頻功能與機器人可控數據操作均代表著不同的模態，對公司來講，底層架構基本一樣，無須過多修改即可實現多種模式。

目前生數Vidu的商業化方向主要包括面向C端的SaaS與面向B端的MaaS模式，朱軍認為，2025年是視頻大模型商業化快速發展的一年，消費者對視頻的需求非常廣闊，這也是視頻大模型與大語言模型不同之處。朱軍判斷，目前頭部視頻模型平臺各有特色與商業化路徑，暫時沒有走到大語言模型那么“卷”的狀態。

談及DeepSeek效應是否會在視頻賽道出現時，朱軍對記者表示，視頻大模型大概率不會出現類似DeepSeek這種效率領先的模型，因為行業已經將DeepSeek主打的效率優勢進行實踐了，廠商更期待的是視頻模型更加可控、更加好用，步入視頻領域的“ChatGPT時刻”。

幫企客致力于為您提供最新最全的財經資訊，想了解更多行業動態，歡迎關注本站。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯系我們修改或刪除，多謝。

69久久99精品久久久久婷婷,女同一区二区免费aⅴ,污视频在线看网站,av小说在线播放

幣圈網

生數科技朱軍：視頻模型更期待“ChatGPT時刻”

相關文章閱讀