當(dāng)前位置: 首頁 ? 資訊 ? 熱點 ? 正文

極佳科技：打造新一代4D世界模型

作者：李曉秋來源：財中網(wǎng) 91412/24

2024 年被視作具身智能發(fā)展“元年”，全球科技界紛紛搶灘布局。自艾倫·圖靈 1950 年提出相關(guān)概念，經(jīng)多年沉淀，在大模型與生成

2024 年被視作具身智能發(fā)展“元年”，全球科技界紛紛搶灘布局。自艾倫·圖靈 1950 年提出相關(guān)概念，經(jīng)多年沉淀，在大模型與生成式 AI 助力下，具身智能從理論邁向應(yīng)用，成為當(dāng)前全球人工智能領(lǐng)域的前沿?zé)狳c和新浪潮。

國際上，科技圈大佬馬斯克、黃仁勛等積極推動，谷歌發(fā)布 RT 系列機(jī)器人模型，RT - H 任務(wù)成功率顯著提升；英偉達(dá)成立 GEAR 實驗室，推出 Project GR00T 及 Jetson Thor 平臺；微軟、OpenAI 也投身浪潮。特斯拉擎天柱機(jī)器人更是大顯身手，從日?，嵤碌焦I(yè)應(yīng)用，潛力無限。

國內(nèi)同樣呈噴薄之勢，2024 年上半年超 50 家具身智能概念創(chuàng)業(yè)公司涌現(xiàn)，融資活躍。其中，如智元機(jī)器人、星塵智能、逐際動力等在人形機(jī)器人研發(fā)成果斐然。

具身智能之所以備受矚目，在于其擁有更強(qiáng)認(rèn)知與決策力，能在復(fù)雜環(huán)境自如交互、執(zhí)行任務(wù)，在不遠(yuǎn)的將來，具身智能產(chǎn)品能夠像電腦、手機(jī)、汽車等工具一樣，大規(guī)模進(jìn)入到人們?nèi)粘Ｉ钪校蠓诱谷祟惖母兄?、認(rèn)知、行為范圍。更進(jìn)一步，具身智能能夠突破人類的限制，作為人類探索世界新的方式，幫助人類更深刻的理解世界。

由此，具身智能將數(shù)字世界與物理世界相連，未來必將深刻重塑各行各業(yè)，開啟一個充滿無限可能的全新智能時代。據(jù)36氪研究院測算，我國具身智能的市場規(guī)模已從2018年的2923億元增長至2023年的7487億元，年復(fù)合增長率高達(dá)20.7%，并且有望在2026年突破萬億。

數(shù)據(jù)瓶頸：制約具身智能發(fā)展的枷鎖

然而，在這一片欣欣向榮的背后，具身智能行業(yè)的發(fā)展之路卻并非坦途。當(dāng)前，行業(yè)面臨著諸多棘手的痛點，尤其是在數(shù)據(jù)訓(xùn)練與仿真這一關(guān)鍵環(huán)節(jié)，存在著嚴(yán)重的不足。

在具身智能領(lǐng)域，當(dāng)前主流的較為成熟的實現(xiàn)方案停留在模仿學(xué)習(xí)，而在研的技術(shù)路徑包括強(qiáng)化學(xué)習(xí)、VLA、大腦+小腦雙層架構(gòu)、通用具身智能基石模型等。而無論采用哪種技術(shù)路徑，行業(yè)共同面對的問題卻是相同的：1、缺少高質(zhì)量的訓(xùn)練數(shù)據(jù)；2、缺少高真實性的閉環(huán)仿真器。

由于具身智能算法的特殊性，其對于訓(xùn)練數(shù)據(jù)的要求非常高。以Manipulation場景來說，可用來作為訓(xùn)練的數(shù)據(jù)需求一般為：1、需要基于特定的視角；2、需要更高的數(shù)據(jù)維度（空間視頻、力反饋數(shù)據(jù)）；3、對于特定task的多樣化視頻。這使得海量的互聯(lián)網(wǎng)數(shù)據(jù)幾乎完全無法使用，只能使用價格昂貴的遙操采集設(shè)備，昂貴的人力成本，在真實世界中進(jìn)行數(shù)據(jù)采集。

另外具身智能應(yīng)用場景的緣故，其對閉環(huán)仿真也有特殊要求。以Manipulation場景來說，1、對于仿真器對于多物體之間，基于物理特性的交互特征的仿真真實性要求極高。而“物理特性”真實性是當(dāng)前仿真器實現(xiàn)上的難點。2、由于Manipulation操作發(fā)生在距離較近距離的物體上，因此仿真需要對近處物體有非常準(zhǔn)確和足夠真實性的展現(xiàn)。而當(dāng)前大家常用的仿真器往往在Physics和Appearance上都存在程度不一的sim2real gap。導(dǎo)致在具體使用時，或者需要花費大量的成本進(jìn)行仿真與現(xiàn)實的標(biāo)定，或者得到不置信的仿真結(jié)論。

因此，建立仿真平臺對于具身智能至關(guān)重要，因為它們提供了成本效益高的實驗方式，確保了通過模擬潛在的危險場景的安全性，為測試在各種環(huán)境中提供了可擴(kuò)展性，快速原型設(shè)計的能力，對更廣泛的研究社區(qū)的可訪問性，精確研究的受控環(huán)境，用于訓(xùn)練和評估的數(shù)據(jù)生成，以及用于算法比較的標(biāo)準(zhǔn)基準(zhǔn)。

世界模型：解決數(shù)據(jù)瓶頸問題的全新思路

對于制約具身智能發(fā)展的數(shù)據(jù)瓶頸，2024 年，AI 教母李飛飛發(fā)布的空間智能及相關(guān)大世界模型，猶如一顆重磅炸彈，在自動駕駛及更廣泛的具身智能應(yīng)用場景中展現(xiàn)出了巨大的發(fā)展與應(yīng)用潛力，為解決數(shù)據(jù)瓶頸問題提供了全新的思路。

與生成式 AI 工具生成的 2D 內(nèi)容不同，李飛飛的世界模型開啟了從數(shù)字世界向物理世界的跨越征程，實現(xiàn)了從一維數(shù)字智能向三維空間智能的重大轉(zhuǎn)變。按照李飛飛的闡釋，空間智能意味著 AI 能夠在三維空間與時間維度中，以立體的視角進(jìn)行感知、推理以及行動，并切實地與現(xiàn)實世界產(chǎn)生互動交流。

因此，基于空間智能技術(shù)，天然可以構(gòu)成高質(zhì)量的通用仿真器。更進(jìn)一步，基于空間智能對于空間的理解和推理，可以大規(guī)模的生成高質(zhì)量的遙操數(shù)據(jù)，這樣就從根本上的解決了數(shù)據(jù)瓶頸。禁錮在算法之上的兩大瓶頸得以接觸，具身智能將會大大加速進(jìn)化。

世界模型在具身智能的潛在應(yīng)用范圍極為廣泛。以自動駕駛為例，世界模型可以實時精準(zhǔn)地把握道路狀況，并對其變化趨勢進(jìn)行精確預(yù)測，重點聚焦于對環(huán)境的瞬時感知以及復(fù)雜變化趨勢的預(yù)估判斷。

在人形機(jī)器人領(lǐng)域，世界模型對于導(dǎo)航、物體識別檢測以及任務(wù)規(guī)劃等關(guān)鍵任務(wù)起著不可或缺的作用，可以精準(zhǔn)地解析外部動態(tài)環(huán)境，并構(gòu)建具有交互性和實體體驗感的環(huán)境場景。而在虛擬社會系統(tǒng)模擬方面，世界模型可以敏銳地捕捉并預(yù)測更為抽象的行為動態(tài)，諸如社會交往互動以及人類決策制定等過程。

極佳科技：打造新一代4D世界模型

由于地緣政治影響，國內(nèi)率先布局世界模型和空間智能方向的先鋒企業(yè)，可對標(biāo)李飛飛World Labs，進(jìn)行國產(chǎn)替代的的極佳科技引發(fā)廣大關(guān)注度。該公司聚焦于視頻生成與 4D 世界模型在空間智能領(lǐng)域的探索與拓展，并已在商業(yè)層面均收獲顯著成果，收獲了知名度與口碑。

極佳基于空間智能技術(shù)，打造了新一代4D世界模型產(chǎn)品。具體來說，4D世界模型能夠?qū)⒌唾|(zhì)量的數(shù)據(jù)（圖片、單目視頻……），基于約束條件（文本prompt、圖片、結(jié)構(gòu)化信息），可控的生成高質(zhì)量“可交互的4D場景”?；凇翱山换サ?D場景”，既可以經(jīng)過簡單變換、泛化，轉(zhuǎn)換為海量的高質(zhì)量訓(xùn)練數(shù)據(jù)（質(zhì)量等價于遙操數(shù)據(jù)）。同時，“可交互的4D場景”天然也是高精度的仿真環(huán)境，可以作為強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)等多種算法訓(xùn)練/評測所使用。

極佳視界的4D模型產(chǎn)品率先在智能駕駛場景下完成了落地。近日，極佳科技聯(lián)合北京大學(xué)、理想汽車及中國科學(xué)院自動化研究所聯(lián)合推出了DriveDreamer4D的下一代產(chǎn)品ReconDreamer，實現(xiàn)了自動駕駛場景自由視角重建+生成。正如同李飛飛及其團(tuán)隊在「空間智能」模型中展現(xiàn)的革新一樣，ReconDreamer 僅需要單視角輸入視頻，即可通過同時重建+生成構(gòu)建逼真的 4D 世界，第一次實現(xiàn)了平移 6 米范圍的高精度渲染，推動這一領(lǐng)域從靜態(tài)跨越至動態(tài)，從單點擴(kuò)展到全域通用。

憑借4D世界模型技術(shù)領(lǐng)先優(yōu)勢，極佳科技與地平線、億咖通等十余家頭部主機(jī)廠企業(yè)締結(jié)商業(yè)合作。極佳科技在國內(nèi)是唯一一家以世界模型產(chǎn)品完成商業(yè)化落地的公司。在近期現(xiàn)代汽車集團(tuán)創(chuàng)新計劃頒獎典禮上，極佳視界憑借 4D 世界模型與視頻生成領(lǐng)域的創(chuàng)新成果，榮膺“燈塔”創(chuàng)新開放計劃“創(chuàng)新企業(yè)獎”。

具身智能：有望在世界模型的賦能下蓬勃發(fā)展

自動駕駛是「具身智能」重要落地場景之一。具身智能機(jī)器人「大腦」在一定程度上和自動駕駛相似，在開放場景和路徑規(guī)劃上具有一定的遷移性。同時，具身智能機(jī)器人和自動駕駛的技術(shù)在算法層面也是相通的。

鑒于自動駕駛和具身智能在大腦構(gòu)造、開放場景與路徑規(guī)劃以及算法層面的高度相似性與關(guān)聯(lián)性，在自動駕駛領(lǐng)域成功構(gòu)建并驗證世界模型且獲頭部廠商認(rèn)可的極佳科技，無疑在具身智能這片廣袤藍(lán)海中擁有發(fā)展的無限潛力與廣闊前景，有望成為推動具身智能行業(yè)蓬勃發(fā)展的重要引擎與加速器。

基于在智駕場景下的技術(shù)沉淀，在具身智能領(lǐng)域，極佳科技更進(jìn)一步，在“呈現(xiàn)重建”的能力之上，引入了可微物理引擎核函數(shù)，并將可微渲染能力、可微物理能力融入到統(tǒng)一生成模型中，創(chuàng)建更接近真實世界的虛擬訓(xùn)練環(huán)境。具體結(jié)構(gòu)如下：

具體而言，大致分成3步：

1.基于“重建+生成”的循環(huán)迭代過程，完成“4D場景呈現(xiàn)”工作。

2.在“4D場景呈現(xiàn)”基礎(chǔ)上，查詢/渲染得到初始材質(zhì)場。將物理特性與呈現(xiàn)進(jìn)行關(guān)聯(lián)對齊。之后，基于真實數(shù)據(jù)fine-tune，確定整個場景中精確的材質(zhì)場參數(shù)。

3.統(tǒng)一生成模型內(nèi)嵌了物理引擎核函數(shù)，其中對于場景中的物體為雙表征。生成模型基于物理引擎核函數(shù)進(jìn)行未來Gaussian的參數(shù)變化預(yù)測，經(jīng)過視頻生成模塊，最終完成進(jìn)行多物體融合呈現(xiàn)。

可微渲染與可微物理的融合，構(gòu)成了真正意義的learn-based仿真器。這也是創(chuàng)造性的，基于生成模型進(jìn)行可解釋的、符合物理規(guī)律的空間推理。

展望未來，極佳科技致力于將視頻生成提升到 4D 世界模型，賦予 AI 大模型對于 4D 空間的理解、生成、常識和推理的能力，實現(xiàn) 4D 空間中的交互和行動。極佳科技的4D世界模型會繼續(xù)朝更加通用泛化、更加高效的方向持續(xù)進(jìn)化。一方面適應(yīng)具身智能更多樣化、更復(fù)雜的業(yè)務(wù)場景，另一方面加速推進(jìn)世界模型提升到端側(cè)進(jìn)一步與具身智能本體進(jìn)行融合。極佳科技的4D世界模型有望成為弱人工智能向通用人工智能演進(jìn)的關(guān)鍵基礎(chǔ)，扮演著至關(guān)重要的角色。

文 / 財中網(wǎng) 李曉秋

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息，并不意味著贊同其觀點或證實其內(nèi)容的真實性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問題請及時告之，本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

首頁

資訊

財中號

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點

國資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財富

專題

極佳科技：打造新一代4D世界模型

數(shù)據(jù)瓶頸：制約具身智能發(fā)展的枷鎖

極佳科技：打造新一代4D世界模型

具身智能：有望在世界模型的賦能下蓬勃發(fā)展

2023年中國經(jīng)濟(jì)面臨巨大挑戰(zhàn)，只有知道如何破局，才能縱橫股市

首頁

資訊

財中號

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

極佳科技：打造新一代4D世界模型

數(shù)據(jù)瓶頸：制約具身智能發(fā)展的枷鎖

極佳科技：打造新一代4D世界模型

具身智能：有望在世界模型的賦能下蓬勃發(fā)展

您可能感興趣的文章