69久久99精品久久久久婷婷,女同一区二区免费aⅴ,污视频在线看网站,av小说在线播放

幣圈網(wǎng)

從預(yù)訓(xùn)練到世界模型,智源借具身智能重構(gòu)AI進(jìn)化路徑

6月6日至7日,第七屆智源大會(huì)在北京舉行,被“眾星捧月”的嘉賓從去年的月之暗面創(chuàng)始人楊植麟變更為今年的宇樹科技CEO王興興。在多位與會(huì)人士看來,一輪又一輪明星公司或創(chuàng)業(yè)者崛起的背后,AI(人工智能)越來越快的發(fā)展速度是核心驅(qū)動(dòng)力。

參與主論壇的圖靈獎(jiǎng)得主、深度學(xué)習(xí)領(lǐng)域奠基人之一的蒙特利爾大學(xué)教授Yoshua Bengio稱:“我們低估了AI進(jìn)步的速度。”面壁智能CEO李大海也在采訪中表示,技術(shù)的發(fā)展是非線性的,大模型作為基礎(chǔ)技術(shù)與基礎(chǔ)設(shè)施,待未來發(fā)展到一定程度后,行業(yè)一定會(huì)更關(guān)注基礎(chǔ)設(shè)施之上的應(yīng)用,這是行業(yè)合理規(guī)律。

今年智源大會(huì)傳遞出的AI重點(diǎn)從大語言模型的預(yù)訓(xùn)練,更迭為世界模型的培育發(fā)展。智源研究院院長(zhǎng)王仲遠(yuǎn)表示,AI正加速從數(shù)字世界走向物理世界,也因此,智源研究院宣布從“悟道”時(shí)代邁入“具身智能”探索階段。

何為世界模型

對(duì)于世界模型的精準(zhǔn)定義,王仲遠(yuǎn)在采訪中表示,目前世界范圍內(nèi)暫時(shí)沒有共通的定義,已存在的名稱包括“空間智能”“時(shí)空智能”等。此次智源研究院發(fā)布的一系列相關(guān)產(chǎn)品與技術(shù),也代表了自身對(duì)世界模型的理解。

智源發(fā)布大模型產(chǎn)品可以追溯至2021年3月的悟道1.0,作為中國(guó)首個(gè)超大規(guī)模信息智能模型,悟道1.0填補(bǔ)了中文超大預(yù)訓(xùn)練模型生態(tài)的空白。悟道2.0在知識(shí)推理、多語言生成等方面逐漸提速。2023年的悟道3.0開始在通用視覺與多模態(tài)等方面取得突破。

近年來,大語言模型和多模態(tài)模型的發(fā)展,進(jìn)一步推動(dòng)機(jī)器人從1.0時(shí)代邁向2.0時(shí)代。目前,大模型與機(jī)器本體深度耦合,進(jìn)而驅(qū)動(dòng)以具身智能為核心的機(jī)器人2.0時(shí)代,正在加速數(shù)字世界與物理世界融合。

因此今年,智源推出“悟界”系列大模型,承載的是智源對(duì)人工智能從數(shù)字世界邁向物理世界的技術(shù)趨勢(shì)判斷與思考。具體來講,“悟界”系列包括原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2。

其中,Emu3對(duì)多模態(tài)技術(shù)的升級(jí)迭代具有重要作用。多模態(tài)是通往AGI(通用人工智能)的必由之路,系同時(shí)使用多種不同類型的數(shù)據(jù)形式——如圖像、文本、語音、視頻、傳感器信號(hào)等,來共同表達(dá)信息或完成任務(wù)的技術(shù)或系統(tǒng)。

此次Emu3升級(jí)的意義在于,傳統(tǒng)多模態(tài)訓(xùn)練方法需要復(fù)雜的擴(kuò)散模型或?qū)⒉煌B(tài)分開處理再組合,但Emu3不需要這些復(fù)雜操作,可以通過一種新的視覺tokenizer(可以把圖像和視頻轉(zhuǎn)換成類似文字的符號(hào)序列),將圖像與視頻變成和文本一樣的離散符號(hào),進(jìn)而在一個(gè)統(tǒng)一框架里處理所有模態(tài)數(shù)據(jù)。這意味著模型可以在一個(gè)模態(tài)上學(xué)習(xí)到的知識(shí)直接遷移到其他模態(tài)上,大幅簡(jiǎn)化多模態(tài)學(xué)習(xí)的復(fù)雜性。

王仲遠(yuǎn)表示,大模型技術(shù)過往基于互聯(lián)網(wǎng)數(shù)據(jù),尤其是互聯(lián)網(wǎng)文本數(shù)據(jù)訓(xùn)練而來,固然對(duì)知識(shí)的理解很強(qiáng),但對(duì)真實(shí)世界的運(yùn)作規(guī)律并不理解。AI從數(shù)字世界跨向物理世界時(shí)必須突破數(shù)字世界的隔閡,最重要的隔閡和邊界是空間和時(shí)間的感知。這也是此次智源一系列AI產(chǎn)品進(jìn)行具身與腦科學(xué)等行業(yè)落地時(shí),可以進(jìn)一步探索的方向。

底座大模型如何破瓶頸

無論是物理世界還是數(shù)字世界,AI落地都需要底座大模型的智能化支撐。

王仲遠(yuǎn)認(rèn)為,大模型技術(shù)還遠(yuǎn)沒有到發(fā)展的盡頭,過往所說的“百模大戰(zhàn)”更多的是大語言模型的競(jìng)爭(zhēng),而大語言模型受限于互聯(lián)網(wǎng)數(shù)據(jù)的使用,基礎(chǔ)模型性能雖然還在提升,但是提升速度不如以前,突破瓶頸的解法包括強(qiáng)化學(xué)習(xí)、數(shù)據(jù)合成、多模態(tài)數(shù)據(jù)三方面。

強(qiáng)化學(xué)習(xí)在后訓(xùn)練和推理方面的提升作用已明確表現(xiàn)在OpenAI o1、o3、o4、DeepSeek R1等產(chǎn)品上,合成數(shù)據(jù)目前學(xué)術(shù)界仍在努力突破。至于多模態(tài)數(shù)據(jù),在全世界范圍內(nèi),多模態(tài)數(shù)據(jù)規(guī)模可達(dá)文字?jǐn)?shù)據(jù)的百倍、千倍甚至萬倍以上,但這些數(shù)據(jù)遠(yuǎn)未被高效利用,多模態(tài)技術(shù)的發(fā)展也是本屆大會(huì)討論的重點(diǎn)之一。

去年智源便對(duì)大模型的技術(shù)路線進(jìn)行了預(yù)判:從大語言模型向多模態(tài),尤其是原生多模態(tài)世界模型的方向發(fā)展。而原生多模態(tài)世界模型本質(zhì)上是為了讓AI感知和理解物理世界,進(jìn)而推進(jìn)與物理世界的交互。進(jìn)入物理世界之后,在宏觀層面,大模型與硬件結(jié)合,通過具身智能的發(fā)展解決實(shí)際生產(chǎn)生活問題。

針對(duì)物理世界對(duì)數(shù)據(jù)需求量大、目前多模態(tài)數(shù)據(jù)又不足的難題,王仲遠(yuǎn)表示這是具身智能目前存在循環(huán)悖論——具身能力不足限制了真機(jī)數(shù)據(jù)的采集,數(shù)據(jù)稀缺導(dǎo)致模型能力弱、落地難,無法進(jìn)一步提升能力。這一困難從不同角度出發(fā)有不同解法,智源走的是大模型路線,更多依靠互聯(lián)網(wǎng)數(shù)據(jù)幫助機(jī)器人學(xué)習(xí)智能。

具體訓(xùn)練方式表現(xiàn)為不斷學(xué)習(xí)海量已有數(shù)據(jù),再通過強(qiáng)化學(xué)習(xí)和少量真實(shí)世界的數(shù)據(jù)不斷訓(xùn)練其能力,不斷突破具身智能的發(fā)展上限,這與大模型發(fā)展路線不謀而合,基礎(chǔ)能力發(fā)展到一定程度后,可以通過強(qiáng)化學(xué)習(xí)進(jìn)一步激發(fā)智能化程度。

需注意的是,王仲遠(yuǎn)強(qiáng)調(diào),由于目前具身領(lǐng)域的技術(shù)路線尚未收斂,不同廠商、不同團(tuán)隊(duì)都在用不同方式進(jìn)行探索,智源走的技術(shù)路線目前只是“一家之言”。

具身熱但發(fā)展?fàn)顟B(tài)尚

具身智能不僅是智源提及世界模型與物理世界建立聯(lián)系的“渠道”之一,更是此次大會(huì)重點(diǎn)核心議程。

智源提供的解決方式之一便是跨本體的具身大腦,未來行業(yè)可以通過具身智能的融合模型突破硬件構(gòu)型、數(shù)據(jù)類型,使得這些數(shù)據(jù)能夠被真正有效集成起來,這樣采集的真機(jī)數(shù)據(jù)不會(huì)被浪費(fèi)。但同時(shí),王仲遠(yuǎn)表示,具身大腦的跨本體相對(duì)較為容易,而具身大腦最重要的是感知與理解世界,通過與世界交互,完成任務(wù)規(guī)劃與指令拆解,這部分僅僅通過大腦是不夠的,還需要指揮硬件本體,后者是更大的挑戰(zhàn)。

另外,跨本體的小腦技能目前還未完全掌握技術(shù)路線。王仲遠(yuǎn)以美國(guó)機(jī)器人初創(chuàng)公司PhysicalIntelligence為例,該公司已經(jīng)能夠?qū)⒏鞣N硬件采集下來的數(shù)據(jù)用于模型訓(xùn)練,進(jìn)而得到更加泛化的能力,目前來看該路線具備一定效果,但還并未達(dá)到行業(yè)廣泛共識(shí)的水平。想要真正實(shí)現(xiàn)跨本體、跨硬件的具身智能小腦模型,還需要硬件在一輪輪的產(chǎn)業(yè)迭代中進(jìn)行淘汰與收斂。

另在北京人形機(jī)器人創(chuàng)新中心有限公司CTO唐劍看來,機(jī)器人行業(yè)發(fā)展還面臨多項(xiàng)痛點(diǎn),第一就是機(jī)器人的場(chǎng)景泛化能力差,比如一款機(jī)器人只能工作在一個(gè)場(chǎng)景內(nèi),打螺絲的專職打螺絲,酒店送餐的專職送餐,很難看到原來干打螺絲工作的機(jī)器人跑去酒店送餐。即使在單一場(chǎng)景內(nèi),機(jī)器人也需要搭載不同的程序與軟件來完成,因此機(jī)器人的任務(wù)泛化能力也很差。第三點(diǎn)便是機(jī)器人的本體泛化能力差,廠商一般針對(duì)具體某一類工作場(chǎng)景設(shè)計(jì)一款機(jī)器人本體。

至于控制技術(shù)層面,唐劍以行業(yè)過去常用的MPC(基于數(shù)學(xué)模型預(yù)測(cè)的控制,Model Predictive Control)為例,該控制方式的優(yōu)點(diǎn)包括高可靠性、高確定性、高精確度,但也伴隨預(yù)編程(單一場(chǎng)景任務(wù))、僅適用于結(jié)構(gòu)化環(huán)境、僅適用于固定流程與操作對(duì)象等缺點(diǎn)。

整體來看,王仲遠(yuǎn)總結(jié)稱:具身大模型的發(fā)展仍處于非常早期的階段,可類比大模型在GPT-3 之前的技術(shù)探索期,具體包括技術(shù)路線尚未形成共識(shí),學(xué)界與產(chǎn)業(yè)界對(duì)核心技術(shù)路徑存在分歧,仿真數(shù)據(jù)、強(qiáng)化學(xué)習(xí)、大小腦融合架構(gòu)等方向仍在探索中,尚未形成統(tǒng)一方法論;另外產(chǎn)業(yè)落地尚需突破,盡管智源推出具身智能跨本體大小腦協(xié)作框架等成果,但離大規(guī)模商用仍有較長(zhǎng)距離,需解決“感知-決策-行動(dòng)”協(xié)同、多模態(tài)數(shù)據(jù)融合等基礎(chǔ)問題。具體技術(shù)路徑的成熟與產(chǎn)業(yè)落地仍需多方長(zhǎng)期共同努力。

幫企客致力于為您提供最新最全的財(cái)經(jīng)資訊,想了解更多行業(yè)動(dòng)態(tài),歡迎關(guān)注本站。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: 盐池县| 宜黄县| 都江堰市| 宝兴县| 通山县| 陆丰市| 尤溪县| 宜昌市| 翁源县| 神农架林区| 阳曲县| 武穴市| 冕宁县| 临猗县| 周至县| 墨玉县| 宁国市| 万安县| 会同县| 罗江县| 廊坊市| 丰镇市| 桦甸市| 昂仁县| 林周县| 临湘市| 隆子县| 太保市| 丰顺县| 南陵县| 蓬安县| 微山县| 加查县| 油尖旺区| 修水县| 上林县| 宣恩县| 洪雅县| 邹城市| 清苑县| 梁河县|