2024 年被視作具身智能發(fā)展“元年”,全球科技界紛紛搶灘布局。自艾倫·圖靈 1950 年提出相關(guān)概念,經(jīng)多年沉淀,在大模型與生成式 AI 助力下,具身智能從理論邁向應(yīng)用,成為當(dāng)前全球人工智能領(lǐng)域的前沿?zé)狳c(diǎn)和新浪潮。
國(guó)際上,科技圈大佬馬斯克、黃仁勛等積極推動(dòng),谷歌發(fā)布 RT 系列機(jī)器人模型,RT - H 任務(wù)成功率顯著提升;英偉達(dá)成立 GEAR 實(shí)驗(yàn)室,推出 Project GR00T 及 Jetson Thor 平臺(tái);微軟、OpenAI 也投身浪潮。特斯拉擎天柱機(jī)器人更是大顯身手,從日?,嵤碌焦I(yè)應(yīng)用,潛力無限。
國(guó)內(nèi)同樣呈噴薄之勢(shì),2024 年上半年超 50 家具身智能概念創(chuàng)業(yè)公司涌現(xiàn),融資活躍。其中,如智元機(jī)器人、星塵智能、逐際動(dòng)力等在人形機(jī)器人研發(fā)成果斐然。
具身智能之所以備受矚目,在于其擁有更強(qiáng)認(rèn)知與決策力,能在復(fù)雜環(huán)境自如交互、執(zhí)行任務(wù),在不遠(yuǎn)的將來,具身智能產(chǎn)品能夠像電腦、手機(jī)、汽車等工具一樣,大規(guī)模進(jìn)入到人們?nèi)粘I钪?,大幅延展人類的感知、認(rèn)知、行為范圍。更進(jìn)一步,具身智能能夠突破人類的限制,作為人類探索世界新的方式,幫助人類更深刻的理解世界。
由此,具身智能將數(shù)字世界與物理世界相連,未來必將深刻重塑各行各業(yè),開啟一個(gè)充滿無限可能的全新智能時(shí)代。據(jù)36氪研究院測(cè)算,我國(guó)具身智能的市場(chǎng)規(guī)模已從2018年的2923億元增長(zhǎng)至2023年的7487億元,年復(fù)合增長(zhǎng)率高達(dá)20.7%,并且有望在2026年突破萬億。
數(shù)據(jù)瓶頸:制約具身智能發(fā)展的枷鎖
然而,在這一片欣欣向榮的背后,具身智能行業(yè)的發(fā)展之路卻并非坦途。當(dāng)前,行業(yè)面臨著諸多棘手的痛點(diǎn),尤其是在數(shù)據(jù)訓(xùn)練與仿真這一關(guān)鍵環(huán)節(jié),存在著嚴(yán)重的不足。
在具身智能領(lǐng)域,當(dāng)前主流的較為成熟的實(shí)現(xiàn)方案停留在模仿學(xué)習(xí),而在研的技術(shù)路徑包括強(qiáng)化學(xué)習(xí)、VLA、大腦+小腦雙層架構(gòu)、通用具身智能基石模型等。而無論采用哪種技術(shù)路徑,行業(yè)共同面對(duì)的問題卻是相同的:1、缺少高質(zhì)量的訓(xùn)練數(shù)據(jù);2、缺少高真實(shí)性的閉環(huán)仿真器。
由于具身智能算法的特殊性,其對(duì)于訓(xùn)練數(shù)據(jù)的要求非常高。以Manipulation場(chǎng)景來說,可用來作為訓(xùn)練的數(shù)據(jù)需求一般為:1、需要基于特定的視角;2、需要更高的數(shù)據(jù)維度(空間視頻、力反饋數(shù)據(jù));3、對(duì)于特定task的多樣化視頻。這使得海量的互聯(lián)網(wǎng)數(shù)據(jù)幾乎完全無法使用,只能使用價(jià)格昂貴的遙操采集設(shè)備,昂貴的人力成本,在真實(shí)世界中進(jìn)行數(shù)據(jù)采集。
另外具身智能應(yīng)用場(chǎng)景的緣故,其對(duì)閉環(huán)仿真也有特殊要求。以Manipulation場(chǎng)景來說,1、對(duì)于仿真器對(duì)于多物體之間,基于物理特性的交互特征的仿真真實(shí)性要求極高。而“物理特性”真實(shí)性是當(dāng)前仿真器實(shí)現(xiàn)上的難點(diǎn)。2、由于Manipulation操作發(fā)生在距離較近距離的物體上,因此仿真需要對(duì)近處物體有非常準(zhǔn)確和足夠真實(shí)性的展現(xiàn)。而當(dāng)前大家常用的仿真器往往在Physics和Appearance上都存在程度不一的sim2real gap。導(dǎo)致在具體使用時(shí),或者需要花費(fèi)大量的成本進(jìn)行仿真與現(xiàn)實(shí)的標(biāo)定,或者得到不置信的仿真結(jié)論。
因此,建立仿真平臺(tái)對(duì)于具身智能至關(guān)重要,因?yàn)樗鼈兲峁┝顺杀拘б娓叩膶?shí)驗(yàn)方式,確保了通過模擬潛在的危險(xiǎn)場(chǎng)景的安全性,為測(cè)試在各種環(huán)境中提供了可擴(kuò)展性,快速原型設(shè)計(jì)的能力,對(duì)更廣泛的研究社區(qū)的可訪問性,精確研究的受控環(huán)境,用于訓(xùn)練和評(píng)估的數(shù)據(jù)生成,以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn)。
世界模型:解決數(shù)據(jù)瓶頸問題的全新思路
對(duì)于制約具身智能發(fā)展的數(shù)據(jù)瓶頸,2024 年,AI 教母李飛飛發(fā)布的空間智能及相關(guān)大世界模型,猶如一顆重磅炸彈,在自動(dòng)駕駛及更廣泛的具身智能應(yīng)用場(chǎng)景中展現(xiàn)出了巨大的發(fā)展與應(yīng)用潛力,為解決數(shù)據(jù)瓶頸問題提供了全新的思路。
與生成式 AI 工具生成的 2D 內(nèi)容不同,李飛飛的世界模型開啟了從數(shù)字世界向物理世界的跨越征程,實(shí)現(xiàn)了從一維數(shù)字智能向三維空間智能的重大轉(zhuǎn)變。按照李飛飛的闡釋,空間智能意味著 AI 能夠在三維空間與時(shí)間維度中,以立體的視角進(jìn)行感知、推理以及行動(dòng),并切實(shí)地與現(xiàn)實(shí)世界產(chǎn)生互動(dòng)交流。
因此,基于空間智能技術(shù),天然可以構(gòu)成高質(zhì)量的通用仿真器。更進(jìn)一步,基于空間智能對(duì)于空間的理解和推理,可以大規(guī)模的生成高質(zhì)量的遙操數(shù)據(jù),這樣就從根本上的解決了數(shù)據(jù)瓶頸。禁錮在算法之上的兩大瓶頸得以接觸,具身智能將會(huì)大大加速進(jìn)化。
世界模型在具身智能的潛在應(yīng)用范圍極為廣泛。以自動(dòng)駕駛為例,世界模型可以實(shí)時(shí)精準(zhǔn)地把握道路狀況,并對(duì)其變化趨勢(shì)進(jìn)行精確預(yù)測(cè),重點(diǎn)聚焦于對(duì)環(huán)境的瞬時(shí)感知以及復(fù)雜變化趨勢(shì)的預(yù)估判斷。
在人形機(jī)器人領(lǐng)域,世界模型對(duì)于導(dǎo)航、物體識(shí)別檢測(cè)以及任務(wù)規(guī)劃等關(guān)鍵任務(wù)起著不可或缺的作用,可以精準(zhǔn)地解析外部動(dòng)態(tài)環(huán)境,并構(gòu)建具有交互性和實(shí)體體驗(yàn)感的環(huán)境場(chǎng)景。而在虛擬社會(huì)系統(tǒng)模擬方面,世界模型可以敏銳地捕捉并預(yù)測(cè)更為抽象的行為動(dòng)態(tài),諸如社會(huì)交往互動(dòng)以及人類決策制定等過程。
極佳科技:打造新一代4D世界模型
由于地緣政治影響,國(guó)內(nèi)率先布局世界模型和空間智能方向的先鋒企業(yè),可對(duì)標(biāo)李飛飛World Labs,進(jìn)行國(guó)產(chǎn)替代的的極佳科技引發(fā)廣大關(guān)注度。該公司聚焦于視頻生成與 4D 世界模型在空間智能領(lǐng)域的探索與拓展,并已在商業(yè)層面均收獲顯著成果,收獲了知名度與口碑。
極佳基于空間智能技術(shù),打造了新一代4D世界模型產(chǎn)品。具體來說,4D世界模型能夠?qū)⒌唾|(zhì)量的數(shù)據(jù)(圖片、單目視頻……),基于約束條件(文本prompt、圖片、結(jié)構(gòu)化信息),可控的生成高質(zhì)量“可交互的4D場(chǎng)景”。基于“可交互的4D場(chǎng)景”,既可以經(jīng)過簡(jiǎn)單變換、泛化,轉(zhuǎn)換為海量的高質(zhì)量訓(xùn)練數(shù)據(jù)(質(zhì)量等價(jià)于遙操數(shù)據(jù))。同時(shí),“可交互的4D場(chǎng)景”天然也是高精度的仿真環(huán)境,可以作為強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等多種算法訓(xùn)練/評(píng)測(cè)所使用。
極佳視界的4D模型產(chǎn)品率先在智能駕駛場(chǎng)景下完成了落地。近日,極佳科技聯(lián)合北京大學(xué)、理想汽車及中國(guó)科學(xué)院自動(dòng)化研究所聯(lián)合推出了DriveDreamer4D的下一代產(chǎn)品ReconDreamer,實(shí)現(xiàn)了自動(dòng)駕駛場(chǎng)景自由視角重建+生成。正如同李飛飛及其團(tuán)隊(duì)在「空間智能」模型中展現(xiàn)的革新一樣,ReconDreamer 僅需要單視角輸入視頻,即可通過同時(shí)重建+生成構(gòu)建逼真的 4D 世界,第一次實(shí)現(xiàn)了平移 6 米范圍的高精度渲染,推動(dòng)這一領(lǐng)域從靜態(tài)跨越至動(dòng)態(tài),從單點(diǎn)擴(kuò)展到全域通用。
憑借4D世界模型技術(shù)領(lǐng)先優(yōu)勢(shì),極佳科技與地平線、億咖通等十余家頭部主機(jī)廠企業(yè)締結(jié)商業(yè)合作。極佳科技在國(guó)內(nèi)是唯一一家以世界模型產(chǎn)品完成商業(yè)化落地的公司。在近期現(xiàn)代汽車集團(tuán)創(chuàng)新計(jì)劃頒獎(jiǎng)典禮上,極佳視界憑借 4D 世界模型與視頻生成領(lǐng)域的創(chuàng)新成果,榮膺“燈塔”創(chuàng)新開放計(jì)劃“創(chuàng)新企業(yè)獎(jiǎng)”。
具身智能:有望在世界模型的賦能下蓬勃發(fā)展
自動(dòng)駕駛是「具身智能」重要落地場(chǎng)景之一。具身智能機(jī)器人「大腦」在一定程度上和自動(dòng)駕駛相似,在開放場(chǎng)景和路徑規(guī)劃上具有一定的遷移性。同時(shí),具身智能機(jī)器人和自動(dòng)駕駛的技術(shù)在算法層面也是相通的。
鑒于自動(dòng)駕駛和具身智能在大腦構(gòu)造、開放場(chǎng)景與路徑規(guī)劃以及算法層面的高度相似性與關(guān)聯(lián)性,在自動(dòng)駕駛領(lǐng)域成功構(gòu)建并驗(yàn)證世界模型且獲頭部廠商認(rèn)可的極佳科技,無疑在具身智能這片廣袤藍(lán)海中擁有發(fā)展的無限潛力與廣闊前景,有望成為推動(dòng)具身智能行業(yè)蓬勃發(fā)展的重要引擎與加速器。
基于在智駕場(chǎng)景下的技術(shù)沉淀,在具身智能領(lǐng)域,極佳科技更進(jìn)一步,在“呈現(xiàn)重建”的能力之上,引入了可微物理引擎核函數(shù),并將可微渲染能力、可微物理能力融入到統(tǒng)一生成模型中,創(chuàng)建更接近真實(shí)世界的虛擬訓(xùn)練環(huán)境。具體結(jié)構(gòu)如下:
具體而言,大致分成3步:
1.基于“重建+生成”的循環(huán)迭代過程,完成“4D場(chǎng)景呈現(xiàn)”工作。
2.在“4D場(chǎng)景呈現(xiàn)”基礎(chǔ)上,查詢/渲染得到初始材質(zhì)場(chǎng)。將物理特性與呈現(xiàn)進(jìn)行關(guān)聯(lián)對(duì)齊。之后,基于真實(shí)數(shù)據(jù)fine-tune,確定整個(gè)場(chǎng)景中精確的材質(zhì)場(chǎng)參數(shù)。
3.統(tǒng)一生成模型內(nèi)嵌了物理引擎核函數(shù),其中對(duì)于場(chǎng)景中的物體為雙表征。生成模型基于物理引擎核函數(shù)進(jìn)行未來Gaussian的參數(shù)變化預(yù)測(cè),經(jīng)過視頻生成模塊,最終完成進(jìn)行多物體融合呈現(xiàn)。
可微渲染與可微物理的融合,構(gòu)成了真正意義的learn-based仿真器。這也是創(chuàng)造性的,基于生成模型進(jìn)行可解釋的、符合物理規(guī)律的空間推理。
展望未來,極佳科技致力于將視頻生成提升到 4D 世界模型,賦予 AI 大模型對(duì)于 4D 空間的理解、生成、常識(shí)和推理的能力,實(shí)現(xiàn) 4D 空間中的交互和行動(dòng)。極佳科技的4D世界模型會(huì)繼續(xù)朝更加通用泛化、更加高效的方向持續(xù)進(jìn)化。一方面適應(yīng)具身智能更多樣化、更復(fù)雜的業(yè)務(wù)場(chǎng)景,另一方面加速推進(jìn)世界模型提升到端側(cè)進(jìn)一步與具身智能本體進(jìn)行融合。極佳科技的4D世界模型有望成為弱人工智能向通用人工智能演進(jìn)的關(guān)鍵基礎(chǔ),扮演著至關(guān)重要的角色。
文 / 財(cái)中網(wǎng) 李曉秋