肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

當(dāng)前位置: 首頁(yè) ? 資訊 ? 產(chǎn)業(yè) ? 正文

Nano Banana爆火背后,深聊谷歌多模態(tài)五大主線布局

作者:撰稿|張珺玥 編輯|陳茜 來(lái)源:硅谷101 211709/10

幾周前,這個(gè)頂著神秘“香蕉”代號(hào)的模型在評(píng)測(cè)平臺(tái)上悄然登場(chǎng),沒(méi)有任何公告、沒(méi)有官方文檔,但卻憑借著驚人的圖像質(zhì)量和角色一致性,憑實(shí)力吊打了一票老牌模型,在AI社區(qū)里引發(fā)轟動(dòng)。當(dāng)時(shí),有人猜它是OpenAI的秘密實(shí)驗(yàn)品,也有人認(rèn)為可能是獨(dú)立研究

標(biāo)簽: 谷歌 AI 生成式AI

幾周前,這個(gè)頂著神秘“香蕉”代號(hào)的模型在評(píng)測(cè)平臺(tái)上悄然登場(chǎng),沒(méi)有任何公告、沒(méi)有官方文檔,但卻憑借著驚人的圖像質(zhì)量和角色一致性,憑實(shí)力吊打了一票老牌模型,在AI社區(qū)里引發(fā)轟動(dòng)。

當(dāng)時(shí),有人猜它是OpenAI的秘密實(shí)驗(yàn)品,也有人認(rèn)為可能是獨(dú)立研究團(tuán)隊(duì)的“黑馬之作”。而8月底,謎底終于揭曉,Google親自下場(chǎng)認(rèn)領(lǐng):Nano Banana,就是Google最新發(fā)布的文生圖模型——Gemini 2.5 Flash Image。

作為Gemini 2.0 Flash的升級(jí)版,Nano Banana是一個(gè)更加貼近真實(shí)工作流的AI編輯器。它不僅能在多次編輯中保持角色和畫(huà)面的高度一致,還讓用戶只需用自然語(yǔ)言就能完成精細(xì)的局部修改和多圖合成。

相比過(guò)去大部分模型“生成一張好圖”的目標(biāo),Nano Banana則更像是一個(gè)隨時(shí)待命的設(shè)計(jì)助手,能夠幫你不斷去迭代、調(diào)整、優(yōu)化、創(chuàng)造。

大量網(wǎng)友們?cè)跍y(cè)試完后之后都表示,這可能是Photoshop時(shí)代的終結(jié)。

那么,在已經(jīng)嚴(yán)重內(nèi)卷的文生圖模型賽道,Nano Banana憑什么能再次掀起一陣狂潮? 相比OpenAI、Flux這些強(qiáng)勁對(duì)手,它有什么特別之處,真實(shí)的效果到底如何?Google的多模態(tài)能力如今又究竟發(fā)展到什么程度了呢?

01、“橫空出世”的Nano Banana

在Nano?Banana還沒(méi)被Google正式認(rèn)領(lǐng)之前,它匿名登場(chǎng)于目前全球最火、最權(quán)威的大模型測(cè)評(píng)平臺(tái)LMArena。這是一個(gè)以社區(qū)投票為主導(dǎo)的AI模型競(jìng)技場(chǎng),主要形式就是讓兩個(gè)模型匿名對(duì)戰(zhàn),用戶“盲選”出自己更滿意的結(jié)果,網(wǎng)站再根據(jù)社區(qū)用戶的投票基于一系列算法來(lái)對(duì)各家模型進(jìn)行排名。

大約在8月中旬左右,大家開(kāi)始注意到,在LMArena的文生圖和圖片編輯榜單上突然出現(xiàn)了一個(gè)陌生而神秘的模型代號(hào)——Nano Banana,并且在之后幾天內(nèi)憑借著超極穩(wěn)定和驚艷的輸出在排行榜上迅速躥升,最后穩(wěn)坐榜首。

一時(shí)間,Nano?Banana的名字迅速傳開(kāi),并引發(fā)了大量的關(guān)注與討論。大家都在猜測(cè),這個(gè)神秘的模型,究竟是誰(shuí)的手筆?

就在關(guān)于Nano Banana的討論進(jìn)入白熱化的時(shí)候,8月25日前后,包括DeepMind CEO Demis Hassabis等在內(nèi)的谷歌工程高管開(kāi)始在社交平臺(tái)上“暗戳戳”地發(fā)帶有香蕉元素的帖子,讓懸念逐漸落地。

而就在Gemini 2.5 Flash Image被正式官宣發(fā)布前,谷歌CEO Pichai更是連發(fā)了3根香蕉宣誓了對(duì)Nano Banana的“主權(quán)”。

上一次文生圖模型如此熱鬧的場(chǎng)面,還要追溯到幾個(gè)月前GPT-4o的吉卜力熱潮,這次的Nano Banana究竟好在哪里?

我們采訪了一些開(kāi)發(fā)者,大家都首先表示,Nano Banana此次*的一個(gè)突破就是它的“一致性”能力。

張宋揚(yáng)亞馬遜AGI部門Applied Scientist:我覺(jué)得最驚艷的就是它在角色的一致性上做得效果非常好,相比之前的模型,這應(yīng)該是做得*的一個(gè)。

Nathan Wang硅谷101特邀研究員Agent資深開(kāi)發(fā)者:

我覺(jué)得Nano Banana讓我覺(jué)得比較震撼的地方,就是它的一次生成成功,保持這種一致性,包括它的可編輯性是讓我很驚訝的地方。

過(guò)去,很多模型在對(duì)圖片進(jìn)行反復(fù)修改時(shí),最常見(jiàn)的問(wèn)題就是“換了衣服,人也變了臉”。比如你想把照片里的外套換個(gè)顏色,結(jié)果系統(tǒng)順手把五官也拉歪了。這種“不夠像”的小偏差,讓人很難把AI當(dāng)作可靠的創(chuàng)作工具。

而Nano Banana的改進(jìn)之處就在于,它能在多輪編輯中牢牢鎖住人物或物體的核心特征,不論是調(diào)整姿勢(shì)、換服裝,還是把狗狗放進(jìn)新的背景里,主體能夠始終保持不變。

第二個(gè)大的突破在于多圖融合。過(guò)去把兩張完全不同的照片合成在一起,常見(jiàn)問(wèn)題包括不同圖像間的不協(xié)調(diào)、空間扭曲、細(xì)節(jié)丟失或變形等等,人在場(chǎng)景里往往看起來(lái)都像是被“貼上去的”。而Nano Banana能夠在多圖合成時(shí)自動(dòng)處理風(fēng)格和邏輯一致性,讓畫(huà)面看上去渾然一體。

第三個(gè)亮點(diǎn)是自然語(yǔ)言驅(qū)動(dòng)的精準(zhǔn)修改。以前想要改動(dòng)一張照片,往往要自己畫(huà)蒙版、或者用專業(yè)工具反復(fù)擦拭?,F(xiàn)在,你只需要簡(jiǎn)單的描述:“換一個(gè)背景”、“從照片中移除整個(gè)人物”、“改變?nèi)宋锏淖藙?shì)”……Nano Banana 就能在其他部分保持不變的前提下,精準(zhǔn)執(zhí)行用戶的要求,將圖片編輯的操作門檻幾乎降到零。甚至,你都可以不使用語(yǔ)言跟它交流,隨手畫(huà)個(gè)簡(jiǎn)筆畫(huà)都可以。

此外,它還加入了多輪對(duì)話式編輯風(fēng)格混配。你可以先讓它把房間刷成薄荷綠,再補(bǔ)上書(shū)架、換個(gè)地毯,模型會(huì)一步步記住上下文,不會(huì)把之前的成果推翻。甚至,你還可以要求它把花瓣的紋理應(yīng)用到鞋子上,蝴蝶翅膀的圖案變成一條裙子,生成一種全新的創(chuàng)意風(fēng)格。

當(dāng)然,安全性也被擺在了前面。Google給所有Nano Banana生成的圖片加上了可見(jiàn)水印,同時(shí)還有肉眼不可見(jiàn)的數(shù)字水印SynthID,以保證未來(lái)能識(shí)別和追溯AI作品。

在Nano Banana正式發(fā)布之后,背后的DeepMind團(tuán)隊(duì)也首次走到臺(tái)前,講述了這款模型背后的研發(fā)故事。

團(tuán)隊(duì)介紹說(shuō),Nano Banana最核心的突破,是使用了一種叫做“交替生成” 的圖像生成的新范式。它會(huì)把用戶的復(fù)雜指令拆分成多個(gè)步驟,每一步只做一個(gè)小調(diào)整,比如先換衣服,再改背景,然后再加寵物。

這樣的方式,可以讓AI編輯不再“失憶“性的一次性亂改,而是帶著每一輪修改的”記憶“,從而保持主體的一致性。

研發(fā)人員還透露,Nano Banana之所以能在創(chuàng)意場(chǎng)景里表現(xiàn)得更自然,是因?yàn)樗浞掷昧薌emini的世界知識(shí)。此次,Gemini團(tuán)隊(duì)和Imagen強(qiáng)強(qiáng)聯(lián)合,Gemini團(tuán)隊(duì)帶來(lái)了語(yǔ)言理解和世界知識(shí)的能力,讓模型能聽(tīng)懂復(fù)雜的指令;而Imagen團(tuán)隊(duì)則提供了高質(zhì)量圖像生成和風(fēng)格控制的經(jīng)驗(yàn)

兩者結(jié)合,讓Nano Banana不僅能畫(huà),還能理解邏輯和語(yǔ)義,讓模型在“理解—?jiǎng)?chuàng)造—理解”的循環(huán)中表現(xiàn)全面。

對(duì)于Nano Banana未來(lái)發(fā)展方向,DeepMind的研究員表示,他們希望Nano Banana并不只是一個(gè)“生成圖片”的模型,而是能夠成為一個(gè)可靠的、能夠陪伴用戶進(jìn)行思考和創(chuàng)作的智能體。

根據(jù)LMArena的匿名測(cè)評(píng)結(jié)果以及谷歌公布的測(cè)試數(shù)據(jù)來(lái)看,此次的Gemini 2.5 Flash Image基本上全方位碾壓了ChatGPT 4o、FLUX Kontext、QWEN Image Edit等競(jìng)爭(zhēng)對(duì)手。而且其生成成本更是讓人驚掉下巴,單張圖像的生成成本僅需0.039美元,也就是不到3毛人民幣。

Nano Banana的真實(shí)效果真的有這么好嗎?

02、Nano Banana的實(shí)力與反饋

目前,普通用戶都可以在Google Gemini應(yīng)用程序、Google AI Studio中直接調(diào)用Nano Banana,也可以使用Gemini API和Vertex AI平臺(tái),而Adobe、Lovart等平臺(tái)也陸續(xù)宣布已經(jīng)將其集成進(jìn)創(chuàng)意工具中。

這些渠道的開(kāi)放,使得普通用戶、專業(yè)設(shè)計(jì)人士和開(kāi)發(fā)者都能輕松訪問(wèn)。

尤其值得注意的是,用戶不僅可以免費(fèi)用,跟之前很多模型的龜速出圖不同,這次Nano Banana的生成速度也非常得快,輸入指令后,大約幾秒鐘就能完成出圖或者修改。也因?yàn)檫@樣便捷、高效的操作,網(wǎng)友們可以說(shuō)是已經(jīng)“玩瘋了”。

首先,大家?guī)缀醵紝?duì)Nano Banana的“人物一致性效果”感到驚艷。給一張普通的游客照換個(gè)背景、換個(gè)衣服,假裝自己在球賽現(xiàn)場(chǎng),動(dòng)動(dòng)手指,幾秒搞定。影棚里的側(cè)面照變成正臉證件照,發(fā)型、造型換一換,更是輕輕松松就能完成。

以前品牌方需要花大量經(jīng)費(fèi)的棚拍、置景、造型,現(xiàn)在也就只需打幾行字,0成本就能出片。

此外,還能用一張卡通人物的圖片生成各式各樣的人物表情和動(dòng)作。自家的寵物也能隨意地?fù)Q個(gè)毛色或品種。

看到網(wǎng)友們發(fā)的效果這么好,我自己當(dāng)然也忍不住上手試了一下。先把我們家的薩摩耶小D換個(gè)顏色,薩摩耶秒變藏獒;再換個(gè)品種試試,哈士奇也不錯(cuò)。

再來(lái)玩玩我家兒子Benjamin,我上傳了一張我在后院抱著寶寶的照片。首先讓Nano Banana把我們瞬移去馬爾代夫、去巴黎、去北京故宮,看起來(lái)周游世界毫無(wú)難度。

接著,我讓它把我懷里的寶寶變成一只猩猩寶寶。大家可以看到,效果也非常自然,在我完全能夠保持不變的情況下,猩猩寶寶的墨鏡、表情、動(dòng)作都保留了原片。

我決定再給它加點(diǎn)難度。首先讓它把我的表情從微笑變成驚訝,接著把我的姿態(tài)從看向鏡頭轉(zhuǎn)為驚訝地看向?qū)殞?。人物的一致性依然保持得非常好?/p>

而且大家注意看,我側(cè)頭之后,我的墨鏡中的反光竟然變成了沙灘的鏡像,整個(gè)邏輯和細(xì)節(jié)真的太贊了。

雖然目前谷歌還沒(méi)有發(fā)布Nano Banana相關(guān)的技術(shù)報(bào)告, 但亞馬遜AGI部門Applied Scientis張宋揚(yáng)猜測(cè),這次Nano Bnanan的一致性控制能力之所以得到了很大提升,可能是在數(shù)據(jù)上花了很多功夫。

張宋揚(yáng)亞馬遜AGI部門Applied Scientist:

他們有一些自己的用戶數(shù)據(jù),也需要做一些數(shù)據(jù)的清洗。因?yàn)椴⒉皇撬械臄?shù)據(jù),直接拿過(guò)來(lái)用就能做到想要的效果。比如說(shuō)有些數(shù)據(jù)你需要進(jìn)行一些篩選,把一些高質(zhì)量數(shù)據(jù),包括一些我覺(jué)得比較重要,比如像人臉這種比較難做的(數(shù)據(jù)),這種你需要增加它的比例。數(shù)據(jù)的清理是一個(gè)很大的工作要做。一個(gè)是數(shù)據(jù)來(lái)源,一個(gè)是數(shù)據(jù)清理,主要是這兩點(diǎn)。

除了超穩(wěn)定的人物一致性之外,它的“多圖融合”功能看起來(lái)也已經(jīng)到了出神入化的程度。

想讓人物跨時(shí)空會(huì)面?它生成的照片幾乎能到以假亂真的程度,從人物表情到光線對(duì)焦都毫無(wú)違和感。甚至上傳幾個(gè)食材,就能幫你“做”出一道色香味俱全的菜。

首先,讓我給“老冤家”馬斯克和Altman來(lái)攢個(gè)局。

感覺(jué)大家聊得還不錯(cuò)。接著讓我們都穿上一個(gè)香蕉服裝試試。

挺可愛(ài)的,再加點(diǎn)難度,讓它把“路人”Pichai和扎克伯克來(lái)跟我們合影:可是馬斯克怎么變成小扎了?還有,Pichai去哪了?

再次對(duì)話調(diào)整后,人是回來(lái)了,不過(guò)不是馬斯克,好像也不是Pichai?

跟它確認(rèn)一下,最右這位是Pichai嗎?它居然斬釘截鐵的告訴我他是!自家老板都不認(rèn)識(shí),這可是要扣工資的呀。我決定再幫它一把,把Pichai的照片給它,看看它能不能糾正過(guò)來(lái),結(jié)果還是不行,看來(lái)只能扣工資了。

大家可以看出來(lái),Nano Banana還是有很多bug的地方,這個(gè)我們稍后來(lái)說(shuō),但一般的合影需求,其實(shí)做得還是非常絲滑,非常出神入化。

比起娛樂(lè)、玩梗,其實(shí)更重要的是,多圖融合能力現(xiàn)在已經(jīng)顯現(xiàn)出一種專業(yè)化替代的能力。

比如,有網(wǎng)友一次性輸入了包括模特照片、產(chǎn)品、布景元素在內(nèi)的十幾張圖片,讓Nano Banana進(jìn)行融合設(shè)計(jì)。最后的效果令人驚艷,幾乎可以媲美、甚至超越廣告設(shè)計(jì)公司。

而對(duì)于服裝品牌們來(lái)說(shuō),Nano Banana幾乎可以幫忙省去他們以后找模特拍產(chǎn)品圖的工作。比如讓Tylor Swift換身西裝,只需上傳一張衣服的平面照片就能搞定。

甚至還可以調(diào)整各種姿勢(shì)、光影,連續(xù)生成各種角度、各種姿勢(shì)的模特上身效果。

此外,擁有了“世界知識(shí)”的Nano Banana對(duì)抽象指令的理解能力也迎來(lái)了大幅躍升。

比如網(wǎng)友們隨手畫(huà)的一個(gè)簡(jiǎn)筆畫(huà),它就能準(zhǔn)確地結(jié)合上傳的人物圖片進(jìn)行姿勢(shì)改變與創(chuàng)意設(shè)計(jì)。讓奧特曼給你表演鞍馬,一張圖就能搞定。

再比如,在平面地圖上隨便畫(huà)一根線,它就能給你展示從這根線的視角能看到什么樣的實(shí)際風(fēng)景。

此外,官方介紹中的多輪對(duì)話式編輯和風(fēng)格混配能力也并沒(méi)有夸大其詞。

比如把它用于室內(nèi)設(shè)計(jì)和繪圖渲染,或者讓它用不同的花朵紋理給我設(shè)計(jì)一個(gè)新衣服等等。

針對(duì)目前Nano Banana所展現(xiàn)出來(lái)的能力,Nathan表示,在某種程度上來(lái)說(shuō)我們對(duì)圖片的編輯能力已經(jīng)開(kāi)始達(dá)到了文字的類似水平。

Nathan Wang硅谷101特邀研究員Agent資深開(kāi)發(fā)者:

它現(xiàn)在實(shí)現(xiàn)的功能相當(dāng)我們?cè)谖淖值倪@個(gè)階段,你把其中一段話劃出來(lái),說(shuō)你幫我改一下,或者這段話的語(yǔ)義不對(duì),你幫我重新描述一下。現(xiàn)在它能夠在圖片上做到和文字編輯一樣的效果,比如說(shuō)把某個(gè)窗簾的顏色換成紅色、換成藍(lán)色,或者把物件給去掉,從一個(gè)圖片中加這個(gè)物件,就很像我們?cè)诰庉嬑淖质降模ピ诤芗?xì)微、細(xì)枝末節(jié)的地方進(jìn)行一定程度的優(yōu)化和改變。

我覺(jué)得它是真正地在多模態(tài)的模型中做到了單一的語(yǔ)言模型可以達(dá)到的效果,這一點(diǎn)是很大的一個(gè)突破。

但其實(shí),我們以上展示都還只是Nano Banana能力的冰山一角。自發(fā)布這幾天來(lái),網(wǎng)友們還正在不斷挖出Nano Banana的各種玩法。

比如已經(jīng)火爆全網(wǎng)的”手辦模型”,我也忍不住上手制作了一個(gè),效果真的是非常可愛(ài)。

除了“手辦”等靜態(tài)操作之外,另外一個(gè)爆火的趨勢(shì)是將Nano Banana的能力跟其他平臺(tái)結(jié)合,創(chuàng)作出效果驚艷的視頻。

比如有人把Nano Banana和Seedance、 Kling結(jié)合使用,實(shí)現(xiàn)了讓梵高、蒙娜麗莎從油畫(huà)里走出來(lái)變成真人坐在中央公園聊天,有人使用Nano Banana和Seedance僅用不到兩小時(shí)就做出一個(gè)動(dòng)畫(huà)短片,有人使用Nano Banana跟Weavy制作出細(xì)節(jié)滿滿的3D產(chǎn)品介紹等等。

那么,跟其他模型相比,Nano Banana的能力是不是真的要強(qiáng)大很多呢?我們自己也進(jìn)行了幾個(gè)簡(jiǎn)單的測(cè)試。

同樣改變照片背景的指令。這是GPT-5的,人物幾乎變了樣。

這是FLUX的。人物倒是摳出來(lái)了,但是頭發(fā)少了一塊,人像是被貼上去的。

而到了讓照片融合進(jìn)行合影的指令,GPT不僅不能一次性理解并完成我的指令,生成出來(lái)的照片也完全不可用。不僅像貼上去的,甚至我這個(gè)人都變樣了。

同樣的prompt在GPT上試了一下創(chuàng)建手辦,人物比例、五官、背景等細(xì)節(jié)也都出現(xiàn)了不同程度的瑕疵。

對(duì)比使用下來(lái)*的感受是,目前在生成速度上其他模型不僅比Nano Banana慢了幾倍,效果和輸出穩(wěn)定性方面也遜色不少。

當(dāng)然,Nano Banana目前也并非沒(méi)有翻車的時(shí)候。首先,在中文能力方面,Nano Banana依然沒(méi)有出現(xiàn)質(zhì)的突破。生成的圖片依然存在文字亂碼、亂讀的現(xiàn)象。

對(duì)編輯指令的理解和執(zhí)行也會(huì)出現(xiàn)偏差,比如我在要求對(duì)這個(gè)“手辦”加上一雙腿時(shí)它直接加到了盒子上,順帶著背景里的圖片也不翼而飛。

還在多輪對(duì)話編輯中,它在面對(duì)復(fù)雜指令時(shí)可能突然就凌亂了。比如我在前文對(duì)話中想繼續(xù)讓它嘗試多圖融合,生成一張馬斯克、扎克伯格、皮柴一起圍觀我懷里猩猩寶寶的照片。不僅人物比例和表情及其不協(xié)調(diào),就連我這個(gè)照片主體變了一個(gè)人。

除此之外,網(wǎng)友對(duì)它不滿意的地方還有圖片分辨率不高、對(duì)提示詞的審查太嚴(yán)格、藝術(shù)性和審美上比不上Midjourney、Imagen等等。

但總體來(lái)說(shuō),大家對(duì)于Nano Banana評(píng)價(jià)主要還是以積極、正面為主,幾乎都認(rèn)為這是文生圖的又一里程碑。

03、五條主線谷歌的多模態(tài)生態(tài)大爆發(fā)

如果把Nano Banana放在更長(zhǎng)的時(shí)間線上來(lái)看,你會(huì)發(fā)現(xiàn),這并不是谷歌的一次“偶然爆發(fā)”。

事實(shí)上,在過(guò)去的一年多時(shí)間里,谷歌幾乎用一種“密集轟炸”的節(jié)奏,把多模態(tài)產(chǎn)品一口氣推到了前臺(tái)。各種模型、各種迭代甚至可以用眼花繚亂來(lái)形容。

目前谷歌到底有哪些多模態(tài)產(chǎn)品線呢?我們來(lái)跟你一起理一理。

谷歌的多模態(tài)產(chǎn)品目前已經(jīng)基本形成了一個(gè)完整的矩陣,它們大致可以分成五條主線。

*條主線,是文生圖Imagen系列。

Imagen系列最早可以追溯到2022年5月,當(dāng)時(shí)Google Research首次提出這一文生圖模型。它的特點(diǎn)是結(jié)合大語(yǔ)言模型理解提示,再用擴(kuò)散模型生成圖像,在當(dāng)時(shí)就被認(rèn)為是超越DALL·E 2的新一代方案。不過(guò)因?yàn)榘踩桶鏅?quán)風(fēng)險(xiǎn),Imagen一開(kāi)始并沒(méi)有開(kāi)放給公眾使用。直到2024年I/O大會(huì),谷歌才正式推出Imagen 3,真正走向產(chǎn)品化。到2025年5月,Imagen 4發(fā)布,進(jìn)一步強(qiáng)化了光影表現(xiàn)和細(xì)節(jié)質(zhì)量,朝著“接近真實(shí)攝影”的方向邁進(jìn)。

第二條主線,是文生視頻的Veo系列。

2024年1月,谷歌研究院首次發(fā)布了Lumiere,用“時(shí)空一致性擴(kuò)散”的方式直接生成整段視頻,讓動(dòng)作和背景更加連貫自然。隨后在2024年5月,I/O大會(huì)上正式亮相Veo 1,可以生成1080p高清視頻。到了同年12月,Veo 2升級(jí)至4K,并首次接入Vertex AI平臺(tái)。而在2025年5月I/O,谷歌再次亮相 Veo 3,不僅能生成視頻,還能同步生成音樂(lè)和旁白,把文生視頻真正推進(jìn)到影視級(jí)創(chuàng)作的階段。

第三條主線,是Genie系列,也就是“交互世界生成”,也被稱為“世界模型”。

和文生視頻的模型不同,Genie的目標(biāo)不是做一段“看”的視頻,而是直接生成一個(gè)“能玩”的虛擬世界。

Genie 1于2024年初首次亮相,作為*個(gè)能夠根據(jù)圖像生成可玩2D游戲環(huán)境的模型,它展示了AI創(chuàng)造互動(dòng)世界的潛力。緊隨其后,Genie 2在2024年底發(fā)布,在一代基礎(chǔ)上取得了巨大進(jìn)步,它能生成更長(zhǎng)、更復(fù)雜的3D互動(dòng)世界,將AI生成的虛擬環(huán)境從二維平面擴(kuò)展到了三維空間。

而最新的Genie 3在今年的8月5日推出,能力再次提升到了一個(gè)新高度,能夠從文本或圖像提示生成動(dòng)態(tài)、可導(dǎo)航的3D世界,并首次支持實(shí)時(shí)交互和“提示性世界事件”,允許用戶在生成環(huán)境中實(shí)時(shí)修改物體或天氣,使其成為了一個(gè)真正意義上的“世界模型”。

換句話說(shuō),它不僅能幫你生成一段畫(huà)面,還能讓你能真正地“走進(jìn)去”,去玩、去體驗(yàn)。

這讓Genie成為了谷歌多模態(tài)矩陣?yán)镆粋€(gè)特別的分支:它不是單純的視頻生成,而是文生視頻和虛擬交互的結(jié)合,預(yù)示著谷歌的多模態(tài)探索正在觸碰“沉浸式體驗(yàn)”和“虛擬世界構(gòu)建”的邊界。

第四條主線,是面向創(chuàng)作者的工具集。

2024年5月,谷歌在I/O上同時(shí)推出了ImageFX和VideoFX,讓用戶可以直接在Labs中體驗(yàn)文生圖與文生視頻。到了2025年5月,谷歌又發(fā)布了Flow,這是一個(gè)專為影視敘事設(shè)計(jì)的工具,把Veo和Imagen的能力整合到分鏡、鏡頭、敘事風(fēng)格的工作流里。

最后一條主線,就是Gemini多模態(tài)底座。

Gemini是谷歌的通用多模態(tài)基礎(chǔ)模型,是整個(gè)系統(tǒng)的“大腦”。它的核心能力在于理解、推理和處理各種信息,包括文本、圖像、音頻、視頻等。Gemini扮演著一個(gè)通用智能體的角色,為其他更專業(yè)的模型提供強(qiáng)大的基礎(chǔ)支持和世界知識(shí)。

2023年底,Gemini 1.0發(fā)布,確立了Ultra、Pro、Nano三個(gè)不同尺寸的模型家族形態(tài)。

2024年2月,Gemini 1.5發(fā)布,帶來(lái)了革命性的進(jìn)步,尤其是其突破性的長(zhǎng)上下文窗口,讓它能一次性處理海量的文本、代碼、圖像甚至視頻,這讓模型在理解復(fù)雜、冗長(zhǎng)的文檔或視頻方面有了前所未有的能力。

2025年2月,Gemini 2.0系列登場(chǎng),推出了Flash和Flash-Lite,能夠更好地應(yīng)對(duì)需要低延遲和大規(guī)模部署的應(yīng)用場(chǎng)景。

2025年8月,Gemini 2.5 Flash Image也就是大家熟知的Nano Banana正式現(xiàn)身,把“AI修圖”直接變成了人人可用的體驗(yàn)。

盤點(diǎn)下來(lái)你會(huì)發(fā)現(xiàn),谷歌的多模態(tài)戰(zhàn)略已經(jīng)逐漸清晰成型:文生圖的Imagen ,文生視頻的Veo,探索交互世界的Genie,再通過(guò)Flow、ImageFX、VideoFX把這些能力嵌進(jìn)創(chuàng)作工作流,而背后的支撐,是快速迭代的多模態(tài)底座Gemini。

在采訪中Nathan談到,谷歌所擁有的非常好的人才、基建和數(shù)據(jù)底座,是它在當(dāng)前激烈的大模型競(jìng)爭(zhēng)中的優(yōu)勢(shì)所在。在這看似復(fù)雜、龐大的產(chǎn)品線背后,谷歌其實(shí)也有著比較清晰的產(chǎn)品路線。

Nathan Wang硅谷101特邀研究員Agent資深開(kāi)發(fā)者:

它每一次發(fā)不同的模型背后還是有著消費(fèi)場(chǎng)景,或者是一定的用戶案例,其實(shí)是針對(duì)不同的用戶畫(huà)像,因?yàn)榇蠹以诋a(chǎn)品*件事就是要去了解你的客戶人群是誰(shuí),你才會(huì)去做產(chǎn)品,而不是說(shuō)做了產(chǎn)品再去找客戶人群。

所以在我看來(lái)谷歌的產(chǎn)品主線,還是根據(jù)客戶人群、應(yīng)用場(chǎng)景去開(kāi)發(fā)和迭代它的模型和產(chǎn)品,思路其實(shí)是比較清晰的。

與此同時(shí),谷歌也正在漸進(jìn)式地朝著“大而全”的智能體方向推進(jìn)。

張宋揚(yáng)亞馬遜AGI部門Applied Sci:

現(xiàn)在很多大公司都希望做一個(gè)大而全的模型,能夠支持不同的模態(tài),是一個(gè)端到端的生成模型,包括語(yǔ)音、包括圖片、包括視頻、包括文字甚至包括代碼,都希望做一個(gè)大而全的,因?yàn)檫@應(yīng)該更符合大家對(duì)智能的認(rèn)知。

但這是一個(gè)很大的框架,但在這個(gè)框架之下,我們可能需要針對(duì)每一種任務(wù)去進(jìn)行研究,比如先研究怎么去生成圖片,再怎么生成視頻。所以你會(huì)發(fā)現(xiàn),它們的模型是不同的團(tuán)隊(duì)在做,它們得先把某一個(gè)任務(wù)先突破了然后發(fā)布了一個(gè)產(chǎn)品,然后另外一個(gè)突破了再發(fā)一個(gè)產(chǎn)品。但我相信或者作為用戶的角度,我們肯定也是希望它能夠把這些模型融合在一起,這樣使用界面也更簡(jiǎn)潔。

對(duì)于未來(lái)谷歌多模態(tài)的發(fā)展,大家目前普遍猜測(cè),谷歌或許會(huì)把更多的模型能力向Gemini融合,進(jìn)而面向普通用戶打造一個(gè)的多模態(tài)的超級(jí)流量入口。

而如Imagen、Veo、Genie等模型未來(lái)則將繼續(xù)向縱深發(fā)展,主要為專業(yè)級(jí)的開(kāi)發(fā)提供服務(wù)。

圖源:ai.google

從Nano Banana,到一整套多模態(tài)矩陣,我們看到了谷歌過(guò)去一年多的加速爆發(fā)。在這場(chǎng)生成式AI的競(jìng)賽里,谷歌曾被質(zhì)疑掉隊(duì)。但現(xiàn)在,無(wú)論是圖像、視頻,還是虛擬世界和創(chuàng)作工作流,谷歌幾乎把所有環(huán)節(jié)都重新補(bǔ)齊。

這種“連環(huán)拳”式的產(chǎn)品發(fā)布,似乎在向外界釋放出一個(gè)信號(hào):谷歌不只是在追趕,而是在試圖用一個(gè)完整矩陣去重新定義生成式AI的邊界。

但問(wèn)題是,這樣的爆發(fā)能不能真正轉(zhuǎn)化為市場(chǎng)優(yōu)勢(shì)?在這場(chǎng)速度與創(chuàng)新的較量中,Nano Banana又能*多久呢?

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開(kāi)信息,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,信息僅供參考,不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有,如有侵權(quán)或其它問(wèn)題請(qǐng)及時(shí)告之,本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財(cái)中網(wǎng)合作