本站5月15日消息,5月14日晚,阿里巴巴正式開源通義萬相Wan2.1-VACE,這是業界功能最全的視頻生成與編輯模型,單一模型可同時支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等全系列基礎生成和編輯能力。
本次共開源1.3B和14B兩個版本,其中1.3B版本可在消費級顯卡運行,開發者可在GitHub、Huggingface及魔搭社區下載體驗。
據介紹,Wan2.1-VACE支持全部主流輸入形式,涵蓋文本、圖像、視頻、Mask和控制信號,可以實現角色一致性、布局、運動姿態和幅度等要素的控制。
例如,Wan2.1-VACE可以基于物體參考圖或者視頻幀生成一段視頻,也可以通過抹除、局部擴展等操作,對原有視頻進行重新生成,該模型還可以通過深度圖、光流、布局、灰度、線稿等控制信號對視頻進行編輯。
Wan2.1-VACE還支持任意基礎能力的自由組合,用戶無需針對特定功能訓練一個新的專家模型,即可完成更復雜的任務,極大地擴展了AI視頻生成的想象空間。
例如,將圖片參考和主體重塑功能組合,可以實現視頻的物體替換;將圖片參考、首幀參考、背景擴展和時長延展功能,可以將一張豎版圖片變成橫版視頻,并且在其中加入參考圖片中的元素。
據悉,自今年2月以來,通義萬相已先后開源文生視頻模型、圖生視頻模型和首尾幀生視頻模型,目前在開源社區的下載量已超330萬,在GitHub上斬獲超1.1w star,是同期最受歡迎的視頻生成模型。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。