4月10日,商湯科技在2025技術交流日上推出升級的“日日新SenseNova V6”(下稱“日日新V6”)大模型體系,通過多模態長思維鏈訓練、全局記憶、強化學習的技術突破,形成多模態推理能力。
在長思維鏈、推理、數理、全局記憶方面,日日新V6多模態推理能力對標OpenAI o1,數據分析能力領先GPT-4o,并且涵蓋國內首個支持10分鐘中長視頻深度解析的大模型。
“現在已經可以做到分析10分鐘的視頻,不是用rag的方法而是整個框架視頻都通過自研的視頻壓縮技術,我們會在今年內做到一個小時的視頻整個放進輸入窗口來進行分析。”商湯科技執行董事及聯合創始人、商湯大模型首席科學家林達華向媒體表示,對視頻做分析理解是跟快手可靈等視頻大模型相對錯位的競爭,比起文本性的內容消費,視頻、圖文結合是更大的內容消費市場。
不同于其他的上下文窗口都是純文本Token,日日新V6可以把語音、視頻、文字形成一個統一跟時間軸對齊的上下文表達。而這個潛力正與具身智能的發展相呼應,在交互方面,多模態上下文表達使得人機交互更加自然和高效,從學習和泛化能力來看,多模態上下文表達也將為具身智能體提供了更豐富的訓練數據。現場傅利葉、松應科技兩家機器人公司也分別與商湯科技進行了戰略簽約。
“選擇具身智能并不是我主動的選擇,更多的還是主要在服務科技創新的群體。”商湯科技聯合創始人、大裝置事業群總裁楊帆說。同時做基礎大裝置和大模型是商湯科技的一大特色,其中比較典型的協同場景是對推理過程做預填充和解碼的分離,這是一種架構優化技術,可以提升 GPU 硬件利用率并降低推理延遲。
在這一點上商湯科技也與阿里、騰訊這類既有云業務又有自研大模型的業務類似,并且較大廠而言業務專注力更加“純粹”。“大裝置最開始的初心和愿景,就是要去提高AI模型的生產和應用的性價比,要去降低它的門檻。”楊帆表示。
幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。