當(dāng)前位置: 首頁(yè) ? 資訊 ? 產(chǎn)業(yè) ? 正文

Nano Banana爆火背后，深聊谷歌多模態(tài)五大主線布局

作者：撰稿｜張珺玥編輯｜陳茜來(lái)源：硅谷101 227009/10

幾周前，這個(gè)頂著神秘“香蕉”代號(hào)的模型在評(píng)測(cè)平臺(tái)上悄然登場(chǎng)，沒(méi)有任何公告、沒(méi)有官方文檔，但卻憑借著驚人的圖像質(zhì)量和角色一致性，憑實(shí)力吊打了一票老牌模型，在AI社區(qū)里引發(fā)轟動(dòng)。當(dāng)時(shí)，有人猜它是OpenAI的秘密實(shí)驗(yàn)品，也有人認(rèn)為可能是獨(dú)立研究

標(biāo)簽：谷歌 AI 生成式AI

當(dāng)時(shí)，有人猜它是OpenAI的秘密實(shí)驗(yàn)品，也有人認(rèn)為可能是獨(dú)立研究團(tuán)隊(duì)的“黑馬之作”。而8月底，謎底終于揭曉，Google親自下場(chǎng)認(rèn)領(lǐng)：Nano Banana，就是Google最新發(fā)布的文生圖模型——Gemini 2.5 Flash Image。

作為Gemini 2.0 Flash的升級(jí)版，Nano Banana是一個(gè)更加貼近真實(shí)工作流的AI編輯器。它不僅能在多次編輯中保持角色和畫(huà)面的高度一致，還讓用戶只需用自然語(yǔ)言就能完成精細(xì)的局部修改和多圖合成。

相比過(guò)去大部分模型“生成一張好圖”的目標(biāo)，Nano Banana則更像是一個(gè)隨時(shí)待命的設(shè)計(jì)助手，能夠幫你不斷去迭代、調(diào)整、優(yōu)化、創(chuàng)造。

大量網(wǎng)友們?cè)跍y(cè)試完后之后都表示，這可能是Photoshop時(shí)代的終結(jié)。

那么，在已經(jīng)嚴(yán)重內(nèi)卷的文生圖模型賽道，Nano Banana憑什么能再次掀起一陣狂潮？相比OpenAI、Flux這些強(qiáng)勁對(duì)手，它有什么特別之處，真實(shí)的效果到底如何？Google的多模態(tài)能力如今又究竟發(fā)展到什么程度了呢？

01、“橫空出世”的Nano Banana

在Nano?Banana還沒(méi)被Google正式認(rèn)領(lǐng)之前，它匿名登場(chǎng)于目前全球最火、最權(quán)威的大模型測(cè)評(píng)平臺(tái)LMArena。這是一個(gè)以社區(qū)投票為主導(dǎo)的AI模型競(jìng)技場(chǎng)，主要形式就是讓兩個(gè)模型匿名對(duì)戰(zhàn)，用戶“盲選”出自己更滿意的結(jié)果，網(wǎng)站再根據(jù)社區(qū)用戶的投票基于一系列算法來(lái)對(duì)各家模型進(jìn)行排名。

大約在8月中旬左右，大家開(kāi)始注意到，在LMArena的文生圖和圖片編輯榜單上突然出現(xiàn)了一個(gè)陌生而神秘的模型代號(hào)——Nano Banana，并且在之后幾天內(nèi)憑借著超極穩(wěn)定和驚艷的輸出在排行榜上迅速躥升，最后穩(wěn)坐榜首。

一時(shí)間，Nano?Banana的名字迅速傳開(kāi)，并引發(fā)了大量的關(guān)注與討論。大家都在猜測(cè)，這個(gè)神秘的模型，究竟是誰(shuí)的手筆？

就在關(guān)于Nano Banana的討論進(jìn)入白熱化的時(shí)候，8月25日前后，包括DeepMind CEO Demis Hassabis等在內(nèi)的谷歌工程高管開(kāi)始在社交平臺(tái)上“暗戳戳”地發(fā)帶有香蕉元素的帖子，讓懸念逐漸落地。

而就在Gemini 2.5 Flash Image被正式官宣發(fā)布前，谷歌CEO Pichai更是連發(fā)了3根香蕉宣誓了對(duì)Nano Banana的“主權(quán)”。

上一次文生圖模型如此熱鬧的場(chǎng)面，還要追溯到幾個(gè)月前GPT-4o的吉卜力熱潮，這次的Nano Banana究竟好在哪里？

我們采訪了一些開(kāi)發(fā)者，大家都首先表示，Nano Banana此次*的一個(gè)突破就是它的“一致性”能力。

張宋揚(yáng)亞馬遜AGI部門Applied Scientist：我覺(jué)得最驚艷的就是它在角色的一致性上做得效果非常好，相比之前的模型，這應(yīng)該是做得*的一個(gè)。

Nathan Wang硅谷101特邀研究員Agent資深開(kāi)發(fā)者：
我覺(jué)得Nano Banana讓我覺(jué)得比較震撼的地方，就是它的一次生成成功，保持這種一致性，包括它的可編輯性是讓我很驚訝的地方。

過(guò)去，很多模型在對(duì)圖片進(jìn)行反復(fù)修改時(shí)，最常見(jiàn)的問(wèn)題就是“換了衣服，人也變了臉”。比如你想把照片里的外套換個(gè)顏色，結(jié)果系統(tǒng)順手把五官也拉歪了。這種“不夠像”的小偏差，讓人很難把AI當(dāng)作可靠的創(chuàng)作工具。

而Nano Banana的改進(jìn)之處就在于，它能在多輪編輯中牢牢鎖住人物或物體的核心特征，不論是調(diào)整姿勢(shì)、換服裝，還是把狗狗放進(jìn)新的背景里，主體能夠始終保持不變。

第二個(gè)大的突破在于多圖融合。過(guò)去把兩張完全不同的照片合成在一起，常見(jiàn)問(wèn)題包括不同圖像間的不協(xié)調(diào)、空間扭曲、細(xì)節(jié)丟失或變形等等，人在場(chǎng)景里往往看起來(lái)都像是被“貼上去的”。而Nano Banana能夠在多圖合成時(shí)自動(dòng)處理風(fēng)格和邏輯一致性，讓畫(huà)面看上去渾然一體。

第三個(gè)亮點(diǎn)是自然語(yǔ)言驅(qū)動(dòng)的精準(zhǔn)修改。以前想要改動(dòng)一張照片，往往要自己畫(huà)蒙版、或者用專業(yè)工具反復(fù)擦拭?，F(xiàn)在，你只需要簡(jiǎn)單的描述：“換一個(gè)背景”、“從照片中移除整個(gè)人物”、“改變?nèi)宋锏淖藙?shì)”……Nano Banana 就能在其他部分保持不變的前提下，精準(zhǔn)執(zhí)行用戶的要求，將圖片編輯的操作門檻幾乎降到零。甚至，你都可以不使用語(yǔ)言跟它交流，隨手畫(huà)個(gè)簡(jiǎn)筆畫(huà)都可以。

此外，它還加入了多輪對(duì)話式編輯和風(fēng)格混配。你可以先讓它把房間刷成薄荷綠，再補(bǔ)上書(shū)架、換個(gè)地毯，模型會(huì)一步步記住上下文，不會(huì)把之前的成果推翻。甚至，你還可以要求它把花瓣的紋理應(yīng)用到鞋子上，蝴蝶翅膀的圖案變成一條裙子，生成一種全新的創(chuàng)意風(fēng)格。

當(dāng)然，安全性也被擺在了前面。Google給所有Nano Banana生成的圖片加上了可見(jiàn)水印，同時(shí)還有肉眼不可見(jiàn)的數(shù)字水印SynthID，以保證未來(lái)能識(shí)別和追溯AI作品。

在Nano Banana正式發(fā)布之后，背后的DeepMind團(tuán)隊(duì)也首次走到臺(tái)前，講述了這款模型背后的研發(fā)故事。

團(tuán)隊(duì)介紹說(shuō)，Nano Banana最核心的突破，是使用了一種叫做“交替生成” 的圖像生成的新范式。它會(huì)把用戶的復(fù)雜指令拆分成多個(gè)步驟，每一步只做一個(gè)小調(diào)整，比如先換衣服，再改背景，然后再加寵物。

這樣的方式，可以讓AI編輯不再“失憶“性的一次性亂改，而是帶著每一輪修改的”記憶“，從而保持主體的一致性。

研發(fā)人員還透露，Nano Banana之所以能在創(chuàng)意場(chǎng)景里表現(xiàn)得更自然，是因?yàn)樗浞掷昧薌emini的世界知識(shí)。此次，Gemini團(tuán)隊(duì)和Imagen強(qiáng)強(qiáng)聯(lián)合，Gemini團(tuán)隊(duì)帶來(lái)了語(yǔ)言理解和世界知識(shí)的能力，讓模型能聽(tīng)懂復(fù)雜的指令；而Imagen團(tuán)隊(duì)則提供了高質(zhì)量圖像生成和風(fēng)格控制的經(jīng)驗(yàn)。

兩者結(jié)合，讓Nano Banana不僅能畫(huà)，還能理解邏輯和語(yǔ)義，讓模型在“理解—?jiǎng)?chuàng)造—理解”的循環(huán)中表現(xiàn)全面。

對(duì)于Nano Banana未來(lái)發(fā)展方向，DeepMind的研究員表示，他們希望Nano Banana并不只是一個(gè)“生成圖片”的模型，而是能夠成為一個(gè)可靠的、能夠陪伴用戶進(jìn)行思考和創(chuàng)作的智能體。

根據(jù)LMArena的匿名測(cè)評(píng)結(jié)果以及谷歌公布的測(cè)試數(shù)據(jù)來(lái)看，此次的Gemini 2.5 Flash Image基本上全方位碾壓了ChatGPT 4o、FLUX Kontext、QWEN Image Edit等競(jìng)爭(zhēng)對(duì)手。而且其生成成本更是讓人驚掉下巴，單張圖像的生成成本僅需0.039美元，也就是不到3毛人民幣。

Nano Banana的真實(shí)效果真的有這么好嗎？

02、Nano Banana的實(shí)力與反饋

目前，普通用戶都可以在Google Gemini應(yīng)用程序、Google AI Studio中直接調(diào)用Nano Banana，也可以使用Gemini API和Vertex AI平臺(tái)，而Adobe、Lovart等平臺(tái)也陸續(xù)宣布已經(jīng)將其集成進(jìn)創(chuàng)意工具中。

這些渠道的開(kāi)放，使得普通用戶、專業(yè)設(shè)計(jì)人士和開(kāi)發(fā)者都能輕松訪問(wèn)。

尤其值得注意的是，用戶不僅可以免費(fèi)用，跟之前很多模型的龜速出圖不同，這次Nano Banana的生成速度也非常得快，輸入指令后，大約幾秒鐘就能完成出圖或者修改。也因?yàn)檫@樣便捷、高效的操作，網(wǎng)友們可以說(shuō)是已經(jīng)“玩瘋了”。

首先，大家?guī)缀醵紝?duì)Nano Banana的“人物一致性效果”感到驚艷。給一張普通的游客照換個(gè)背景、換個(gè)衣服，假裝自己在球賽現(xiàn)場(chǎng)，動(dòng)動(dòng)手指，幾秒搞定。影棚里的側(cè)面照變成正臉證件照，發(fā)型、造型換一換，更是輕輕松松就能完成。

以前品牌方需要花大量經(jīng)費(fèi)的棚拍、置景、造型，現(xiàn)在也就只需打幾行字，0成本就能出片。

此外，還能用一張卡通人物的圖片生成各式各樣的人物表情和動(dòng)作。自家的寵物也能隨意地?fù)Q個(gè)毛色或品種。

看到網(wǎng)友們發(fā)的效果這么好，我自己當(dāng)然也忍不住上手試了一下。先把我們家的薩摩耶小D換個(gè)顏色，薩摩耶秒變藏獒；再換個(gè)品種試試，哈士奇也不錯(cuò)。

再來(lái)玩玩我家兒子Benjamin，我上傳了一張我在后院抱著寶寶的照片。首先讓Nano Banana把我們瞬移去馬爾代夫、去巴黎、去北京故宮，看起來(lái)周游世界毫無(wú)難度。

接著，我讓它把我懷里的寶寶變成一只猩猩寶寶。大家可以看到，效果也非常自然，在我完全能夠保持不變的情況下，猩猩寶寶的墨鏡、表情、動(dòng)作都保留了原片。

我決定再給它加點(diǎn)難度。首先讓它把我的表情從微笑變成驚訝，接著把我的姿態(tài)從看向鏡頭轉(zhuǎn)為驚訝地看向?qū)殞?。人物的一致性依然保持得非常好?/p>

而且大家注意看，我側(cè)頭之后，我的墨鏡中的反光竟然變成了沙灘的鏡像，整個(gè)邏輯和細(xì)節(jié)真的太贊了。

雖然目前谷歌還沒(méi)有發(fā)布Nano Banana相關(guān)的技術(shù)報(bào)告，但亞馬遜AGI部門Applied Scientis張宋揚(yáng)猜測(cè)，這次Nano Bnanan的一致性控制能力之所以得到了很大提升，可能是在數(shù)據(jù)上花了很多功夫。

張宋揚(yáng)亞馬遜AGI部門Applied Scientist：
他們有一些自己的用戶數(shù)據(jù)，也需要做一些數(shù)據(jù)的清洗。因?yàn)椴⒉皇撬械臄?shù)據(jù)，直接拿過(guò)來(lái)用就能做到想要的效果。比如說(shuō)有些數(shù)據(jù)你需要進(jìn)行一些篩選，把一些高質(zhì)量數(shù)據(jù)，包括一些我覺(jué)得比較重要，比如像人臉這種比較難做的（數(shù)據(jù)），這種你需要增加它的比例。數(shù)據(jù)的清理是一個(gè)很大的工作要做。一個(gè)是數(shù)據(jù)來(lái)源，一個(gè)是數(shù)據(jù)清理，主要是這兩點(diǎn)。

除了超穩(wěn)定的人物一致性之外，它的“多圖融合”功能看起來(lái)也已經(jīng)到了出神入化的程度。

想讓人物跨時(shí)空會(huì)面？它生成的照片幾乎能到以假亂真的程度，從人物表情到光線對(duì)焦都毫無(wú)違和感。甚至上傳幾個(gè)食材，就能幫你“做”出一道色香味俱全的菜。

首先，讓我給“老冤家”馬斯克和Altman來(lái)攢個(gè)局。

感覺(jué)大家聊得還不錯(cuò)。接著讓我們都穿上一個(gè)香蕉服裝試試。

挺可愛(ài)的，再加點(diǎn)難度，讓它把“路人”Pichai和扎克伯克來(lái)跟我們合影：可是馬斯克怎么變成小扎了？還有，Pichai去哪了？

再次對(duì)話調(diào)整后，人是回來(lái)了，不過(guò)不是馬斯克，好像也不是Pichai？

跟它確認(rèn)一下，最右這位是Pichai嗎？它居然斬釘截鐵的告訴我他是！自家老板都不認(rèn)識(shí)，這可是要扣工資的呀。我決定再幫它一把，把Pichai的照片給它，看看它能不能糾正過(guò)來(lái)，結(jié)果還是不行，看來(lái)只能扣工資了。

大家可以看出來(lái)，Nano Banana還是有很多bug的地方，這個(gè)我們稍后來(lái)說(shuō)，但一般的合影需求，其實(shí)做得還是非常絲滑，非常出神入化。

比起娛樂(lè)、玩梗，其實(shí)更重要的是，多圖融合能力現(xiàn)在已經(jīng)顯現(xiàn)出一種專業(yè)化替代的能力。

比如，有網(wǎng)友一次性輸入了包括模特照片、產(chǎn)品、布景元素在內(nèi)的十幾張圖片，讓Nano Banana進(jìn)行融合設(shè)計(jì)。最后的效果令人驚艷，幾乎可以媲美、甚至超越廣告設(shè)計(jì)公司。

而對(duì)于服裝品牌們來(lái)說(shuō)，Nano Banana幾乎可以幫忙省去他們以后找模特拍產(chǎn)品圖的工作。比如讓Tylor Swift換身西裝，只需上傳一張衣服的平面照片就能搞定。

甚至還可以調(diào)整各種姿勢(shì)、光影，連續(xù)生成各種角度、各種姿勢(shì)的模特上身效果。

此外，擁有了“世界知識(shí)”的Nano Banana對(duì)抽象指令的理解能力也迎來(lái)了大幅躍升。

比如網(wǎng)友們隨手畫(huà)的一個(gè)簡(jiǎn)筆畫(huà)，它就能準(zhǔn)確地結(jié)合上傳的人物圖片進(jìn)行姿勢(shì)改變與創(chuàng)意設(shè)計(jì)。讓奧特曼給你表演鞍馬，一張圖就能搞定。

再比如，在平面地圖上隨便畫(huà)一根線，它就能給你展示從這根線的視角能看到什么樣的實(shí)際風(fēng)景。

此外，官方介紹中的多輪對(duì)話式編輯和風(fēng)格混配能力也并沒(méi)有夸大其詞。

比如把它用于室內(nèi)設(shè)計(jì)和繪圖渲染，或者讓它用不同的花朵紋理給我設(shè)計(jì)一個(gè)新衣服等等。

針對(duì)目前Nano Banana所展現(xiàn)出來(lái)的能力，Nathan表示，在某種程度上來(lái)說(shuō)我們對(duì)圖片的編輯能力已經(jīng)開(kāi)始達(dá)到了文字的類似水平。

Nathan Wang硅谷101特邀研究員Agent資深開(kāi)發(fā)者：
它現(xiàn)在實(shí)現(xiàn)的功能相當(dāng)我們?cè)谖淖值倪@個(gè)階段，你把其中一段話劃出來(lái)，說(shuō)你幫我改一下，或者這段話的語(yǔ)義不對(duì)，你幫我重新描述一下?，F(xiàn)在它能夠在圖片上做到和文字編輯一樣的效果，比如說(shuō)把某個(gè)窗簾的顏色換成紅色、換成藍(lán)色，或者把物件給去掉，從一個(gè)圖片中加這個(gè)物件，就很像我們?cè)诰庉嬑淖质降?，去在很?xì)微、細(xì)枝末節(jié)的地方進(jìn)行一定程度的優(yōu)化和改變。
我覺(jué)得它是真正地在多模態(tài)的模型中做到了單一的語(yǔ)言模型可以達(dá)到的效果，這一點(diǎn)是很大的一個(gè)突破。

但其實(shí)，我們以上展示都還只是Nano Banana能力的冰山一角。自發(fā)布這幾天來(lái)，網(wǎng)友們還正在不斷挖出Nano Banana的各種玩法。

比如已經(jīng)火爆全網(wǎng)的”手辦模型”，我也忍不住上手制作了一個(gè)，效果真的是非常可愛(ài)。

除了“手辦”等靜態(tài)操作之外，另外一個(gè)爆火的趨勢(shì)是將Nano Banana的能力跟其他平臺(tái)結(jié)合，創(chuàng)作出效果驚艷的視頻。

比如有人把Nano Banana和Seedance、 Kling結(jié)合使用，實(shí)現(xiàn)了讓梵高、蒙娜麗莎從油畫(huà)里走出來(lái)變成真人坐在中央公園聊天，有人使用Nano Banana和Seedance僅用不到兩小時(shí)就做出一個(gè)動(dòng)畫(huà)短片，有人使用Nano Banana跟Weavy制作出細(xì)節(jié)滿滿的3D產(chǎn)品介紹等等。

那么，跟其他模型相比，Nano Banana的能力是不是真的要強(qiáng)大很多呢？我們自己也進(jìn)行了幾個(gè)簡(jiǎn)單的測(cè)試。

同樣改變照片背景的指令。這是GPT-5的，人物幾乎變了樣。

這是FLUX的。人物倒是摳出來(lái)了，但是頭發(fā)少了一塊，人像是被貼上去的。

而到了讓照片融合進(jìn)行合影的指令，GPT不僅不能一次性理解并完成我的指令，生成出來(lái)的照片也完全不可用。不僅像貼上去的，甚至我這個(gè)人都變樣了。

同樣的prompt在GPT上試了一下創(chuàng)建手辦，人物比例、五官、背景等細(xì)節(jié)也都出現(xiàn)了不同程度的瑕疵。

對(duì)比使用下來(lái)*的感受是，目前在生成速度上其他模型不僅比Nano Banana慢了幾倍，效果和輸出穩(wěn)定性方面也遜色不少。

當(dāng)然，Nano Banana目前也并非沒(méi)有翻車的時(shí)候。首先，在中文能力方面，Nano Banana依然沒(méi)有出現(xiàn)質(zhì)的突破。生成的圖片依然存在文字亂碼、亂讀的現(xiàn)象。

對(duì)編輯指令的理解和執(zhí)行也會(huì)出現(xiàn)偏差，比如我在要求對(duì)這個(gè)“手辦”加上一雙腿時(shí)它直接加到了盒子上，順帶著背景里的圖片也不翼而飛。

還在多輪對(duì)話編輯中，它在面對(duì)復(fù)雜指令時(shí)可能突然就凌亂了。比如我在前文對(duì)話中想繼續(xù)讓它嘗試多圖融合，生成一張馬斯克、扎克伯格、皮柴一起圍觀我懷里猩猩寶寶的照片。不僅人物比例和表情及其不協(xié)調(diào)，就連我這個(gè)照片主體變了一個(gè)人。

除此之外，網(wǎng)友對(duì)它不滿意的地方還有圖片分辨率不高、對(duì)提示詞的審查太嚴(yán)格、藝術(shù)性和審美上比不上Midjourney、Imagen等等。

但總體來(lái)說(shuō)，大家對(duì)于Nano Banana評(píng)價(jià)主要還是以積極、正面為主，幾乎都認(rèn)為這是文生圖的又一里程碑。

03、五條主線谷歌的多模態(tài)生態(tài)大爆發(fā)

如果把Nano Banana放在更長(zhǎng)的時(shí)間線上來(lái)看，你會(huì)發(fā)現(xiàn)，這并不是谷歌的一次“偶然爆發(fā)”。

事實(shí)上，在過(guò)去的一年多時(shí)間里，谷歌幾乎用一種“密集轟炸”的節(jié)奏，把多模態(tài)產(chǎn)品一口氣推到了前臺(tái)。各種模型、各種迭代甚至可以用眼花繚亂來(lái)形容。

目前谷歌到底有哪些多模態(tài)產(chǎn)品線呢？我們來(lái)跟你一起理一理。

谷歌的多模態(tài)產(chǎn)品目前已經(jīng)基本形成了一個(gè)完整的矩陣，它們大致可以分成五條主線。

*條主線，是文生圖Imagen系列。

Imagen系列最早可以追溯到2022年5月，當(dāng)時(shí)Google Research首次提出這一文生圖模型。它的特點(diǎn)是結(jié)合大語(yǔ)言模型理解提示，再用擴(kuò)散模型生成圖像，在當(dāng)時(shí)就被認(rèn)為是超越DALL·E 2的新一代方案。不過(guò)因?yàn)榘踩桶鏅?quán)風(fēng)險(xiǎn)，Imagen一開(kāi)始并沒(méi)有開(kāi)放給公眾使用。直到2024年I/O大會(huì)，谷歌才正式推出Imagen 3，真正走向產(chǎn)品化。到2025年5月，Imagen 4發(fā)布，進(jìn)一步強(qiáng)化了光影表現(xiàn)和細(xì)節(jié)質(zhì)量，朝著“接近真實(shí)攝影”的方向邁進(jìn)。

第二條主線，是文生視頻的Veo系列。

2024年1月，谷歌研究院首次發(fā)布了Lumiere，用“時(shí)空一致性擴(kuò)散”的方式直接生成整段視頻，讓動(dòng)作和背景更加連貫自然。隨后在2024年5月，I/O大會(huì)上正式亮相Veo 1，可以生成1080p高清視頻。到了同年12月，Veo 2升級(jí)至4K，并首次接入Vertex AI平臺(tái)。而在2025年5月I/O，谷歌再次亮相 Veo 3，不僅能生成視頻，還能同步生成音樂(lè)和旁白，把文生視頻真正推進(jìn)到影視級(jí)創(chuàng)作的階段。

第三條主線，是Genie系列，也就是“交互世界生成”，也被稱為“世界模型”。

和文生視頻的模型不同，Genie的目標(biāo)不是做一段“看”的視頻，而是直接生成一個(gè)“能玩”的虛擬世界。

Genie 1于2024年初首次亮相，作為*個(gè)能夠根據(jù)圖像生成可玩2D游戲環(huán)境的模型，它展示了AI創(chuàng)造互動(dòng)世界的潛力。緊隨其后，Genie 2在2024年底發(fā)布，在一代基礎(chǔ)上取得了巨大進(jìn)步，它能生成更長(zhǎng)、更復(fù)雜的3D互動(dòng)世界，將AI生成的虛擬環(huán)境從二維平面擴(kuò)展到了三維空間。

而最新的Genie 3在今年的8月5日推出，能力再次提升到了一個(gè)新高度，能夠從文本或圖像提示生成動(dòng)態(tài)、可導(dǎo)航的3D世界，并首次支持實(shí)時(shí)交互和“提示性世界事件”，允許用戶在生成環(huán)境中實(shí)時(shí)修改物體或天氣，使其成為了一個(gè)真正意義上的“世界模型”。

換句話說(shuō)，它不僅能幫你生成一段畫(huà)面，還能讓你能真正地“走進(jìn)去”，去玩、去體驗(yàn)。

這讓Genie成為了谷歌多模態(tài)矩陣?yán)镆粋€(gè)特別的分支：它不是單純的視頻生成，而是文生視頻和虛擬交互的結(jié)合，預(yù)示著谷歌的多模態(tài)探索正在觸碰“沉浸式體驗(yàn)”和“虛擬世界構(gòu)建”的邊界。

第四條主線，是面向創(chuàng)作者的工具集。

2024年5月，谷歌在I/O上同時(shí)推出了ImageFX和VideoFX，讓用戶可以直接在Labs中體驗(yàn)文生圖與文生視頻。到了2025年5月，谷歌又發(fā)布了Flow，這是一個(gè)專為影視敘事設(shè)計(jì)的工具，把Veo和Imagen的能力整合到分鏡、鏡頭、敘事風(fēng)格的工作流里。

最后一條主線，就是Gemini多模態(tài)底座。

Gemini是谷歌的通用多模態(tài)基礎(chǔ)模型，是整個(gè)系統(tǒng)的“大腦”。它的核心能力在于理解、推理和處理各種信息，包括文本、圖像、音頻、視頻等。Gemini扮演著一個(gè)通用智能體的角色，為其他更專業(yè)的模型提供強(qiáng)大的基礎(chǔ)支持和世界知識(shí)。

2023年底，Gemini 1.0發(fā)布，確立了Ultra、Pro、Nano三個(gè)不同尺寸的模型家族形態(tài)。

2024年2月，Gemini 1.5發(fā)布，帶來(lái)了革命性的進(jìn)步，尤其是其突破性的長(zhǎng)上下文窗口，讓它能一次性處理海量的文本、代碼、圖像甚至視頻，這讓模型在理解復(fù)雜、冗長(zhǎng)的文檔或視頻方面有了前所未有的能力。

2025年2月，Gemini 2.0系列登場(chǎng)，推出了Flash和Flash-Lite，能夠更好地應(yīng)對(duì)需要低延遲和大規(guī)模部署的應(yīng)用場(chǎng)景。

2025年8月，Gemini 2.5 Flash Image也就是大家熟知的Nano Banana正式現(xiàn)身，把“AI修圖”直接變成了人人可用的體驗(yàn)。

盤點(diǎn)下來(lái)你會(huì)發(fā)現(xiàn)，谷歌的多模態(tài)戰(zhàn)略已經(jīng)逐漸清晰成型：文生圖的Imagen ，文生視頻的Veo，探索交互世界的Genie，再通過(guò)Flow、ImageFX、VideoFX把這些能力嵌進(jìn)創(chuàng)作工作流，而背后的支撐，是快速迭代的多模態(tài)底座Gemini。

在采訪中Nathan談到，谷歌所擁有的非常好的人才、基建和數(shù)據(jù)底座，是它在當(dāng)前激烈的大模型競(jìng)爭(zhēng)中的優(yōu)勢(shì)所在。在這看似復(fù)雜、龐大的產(chǎn)品線背后，谷歌其實(shí)也有著比較清晰的產(chǎn)品路線。

Nathan Wang硅谷101特邀研究員Agent資深開(kāi)發(fā)者：
它每一次發(fā)不同的模型背后還是有著消費(fèi)場(chǎng)景，或者是一定的用戶案例，其實(shí)是針對(duì)不同的用戶畫(huà)像，因?yàn)榇蠹以诋a(chǎn)品*件事就是要去了解你的客戶人群是誰(shuí)，你才會(huì)去做產(chǎn)品，而不是說(shuō)做了產(chǎn)品再去找客戶人群。
所以在我看來(lái)谷歌的產(chǎn)品主線，還是根據(jù)客戶人群、應(yīng)用場(chǎng)景去開(kāi)發(fā)和迭代它的模型和產(chǎn)品，思路其實(shí)是比較清晰的。

與此同時(shí)，谷歌也正在漸進(jìn)式地朝著“大而全”的智能體方向推進(jìn)。

張宋揚(yáng)亞馬遜AGI部門Applied Sci：
現(xiàn)在很多大公司都希望做一個(gè)大而全的模型，能夠支持不同的模態(tài)，是一個(gè)端到端的生成模型，包括語(yǔ)音、包括圖片、包括視頻、包括文字甚至包括代碼，都希望做一個(gè)大而全的，因?yàn)檫@應(yīng)該更符合大家對(duì)智能的認(rèn)知。
但這是一個(gè)很大的框架，但在這個(gè)框架之下，我們可能需要針對(duì)每一種任務(wù)去進(jìn)行研究，比如先研究怎么去生成圖片，再怎么生成視頻。所以你會(huì)發(fā)現(xiàn)，它們的模型是不同的團(tuán)隊(duì)在做，它們得先把某一個(gè)任務(wù)先突破了然后發(fā)布了一個(gè)產(chǎn)品，然后另外一個(gè)突破了再發(fā)一個(gè)產(chǎn)品。但我相信或者作為用戶的角度，我們肯定也是希望它能夠把這些模型融合在一起，這樣使用界面也更簡(jiǎn)潔。

對(duì)于未來(lái)谷歌多模態(tài)的發(fā)展，大家目前普遍猜測(cè)，谷歌或許會(huì)把更多的模型能力向Gemini融合，進(jìn)而面向普通用戶打造一個(gè)的多模態(tài)的超級(jí)流量入口。

而如Imagen、Veo、Genie等模型未來(lái)則將繼續(xù)向縱深發(fā)展，主要為專業(yè)級(jí)的開(kāi)發(fā)提供服務(wù)。

圖源：ai.google

從Nano Banana，到一整套多模態(tài)矩陣，我們看到了谷歌過(guò)去一年多的加速爆發(fā)。在這場(chǎng)生成式AI的競(jìng)賽里，谷歌曾被質(zhì)疑掉隊(duì)。但現(xiàn)在，無(wú)論是圖像、視頻，還是虛擬世界和創(chuàng)作工作流，谷歌幾乎把所有環(huán)節(jié)都重新補(bǔ)齊。

這種“連環(huán)拳”式的產(chǎn)品發(fā)布，似乎在向外界釋放出一個(gè)信號(hào)：谷歌不只是在追趕，而是在試圖用一個(gè)完整矩陣去重新定義生成式AI的邊界。

但問(wèn)題是，這樣的爆發(fā)能不能真正轉(zhuǎn)化為市場(chǎng)優(yōu)勢(shì)？在這場(chǎng)速度與創(chuàng)新的較量中，Nano Banana又能*多久呢？

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開(kāi)信息，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問(wèn)題請(qǐng)及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

肥臀巨乳熟女网站|免费亚洲丁香|性爱超碰在线播放|丁香五月欧美成人|精产国品免费jiure99|熟女伦网导航|草草视频在线直播免费观看|外网毛片9999|约干AV一区二区|亚洲激情黄色视屏

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點(diǎn)

國(guó)資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財(cái)富

專題

Nano Banana爆火背后，深聊谷歌多模態(tài)五大主線布局

從經(jīng)開(kāi)區(qū)、高新區(qū)和港區(qū)擴(kuò)容，看鄭州與中牟、滎陽(yáng)、新鄭糾結(jié)關(guān)系

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

Nano Banana爆火背后，深聊谷歌多模態(tài)五大主線布局

您可能感興趣的文章

Nano Banana爆火背后，深聊谷歌多模態(tài)五大主線布局