大家好,我是言川。
最近,一款名為 Nano banana 的神秘圖像編輯模型火爆全網,昨晚熬了通宵測試了 100+案例,得出一個結論:它就是目前最強的圖像編輯模型,完美解決了 Flux Kontext、GPT-4o 對主體局部修改出現的變形問題。
往期報道:
直接上案例,為了測試主體一致性效果,我先用 Midjourney 生成了一張電影風格的角色分鏡圖。
提示詞:The man wearing a white mask stood in the narrow alley of the city. The shot was a frontal medium shot. He quietly gazed ahead, wearing a hooded coat with the sleeves swaying slightly in the wind. The background was a brick wall covered with colorful graffiti. The light entered from the entrance of the alley, illuminating part of the wall. The air was filled with tension and mystery.
接著上傳圖像+提示詞指令,讓 AI 幫我延展出下個分鏡圖。
提示詞:鏡頭側拍,白色面具男子緩緩走過小巷,手輕輕擦過布滿涂鴉的磚墻,步伐沉穩。墻壁上的光影隨著他的動作變換,巷口盡頭透出刺眼的白光,氛圍壓抑。
看這個角色和環境光影效果,一致性保持的非常好。用同樣的方式,就可以做出以下分鏡圖。
一張圖,一句指令,就能批量產出分鏡。
不用訓練 Lora,不用折騰復雜參數,這,才是我心目中的降本增效啊......
在這篇文章里,我將帶你全面認識這款模型,看看它到底能做到什么。全文包含 30+ 實測案例,覆蓋兩大核心功能:用嘴改圖和用圖改圖。
這款被稱作 Nano banana 的模型,早先是只能在 LM Arena 模型測評平臺使用,并且沒人知道它的來歷,非常神秘。
直到最近,謎底揭曉,它是 Google 推出的全新圖像編輯模型:Gemini 2.5 Flash Image。
官網介紹在這: https://deepmind.google/models/gemini/image/
目前官方使用方式有兩種(免費使用,但需要網絡):
- 在 Gemini 中 使用,地址: https://gemini.google.com/
- 在 AI Studio 中使用,地址: https://aistudio.google.com/
本篇文章測試的案例是在 AI Studio 中使用的,所以就用它來演示了。
打開“Chat”,在輸入框中上傳圖像和提示詞即可。
比如,我上傳了一張動漫的角色圖,然后輸入提示詞。就可以得到不同場景,但人物保持一致的圖像。
提示詞:旗袍少女從側面視角,伸手撫摸一朵盛開的荷花,身體微微前傾,裙擺隨風輕輕飄動。場景是池塘邊,荷葉與荷花環繞,水面倒映月光。
用同樣的方式,就可以快速產出一批角色一致性的圖像,但這里有幾個注意點:
- 尺寸控制:提示詞控制尺寸并不穩定,建議通過上傳參考圖來固定(生成圖尺寸 = 上傳圖尺寸)。
- 提示詞細化:雖然編輯提示詞不用寫得很復雜,但越具體、越細致,效果往往越好。
當然,這個模型也可以多輪對話修改,比如在生成時,發現這張圖的燈籠有點莫名其妙,可以輸入提示詞:“刪掉頂部的燈籠”解決。
使用方式就是這么樸實無華,下面開始咱們來看一堆實測案例。
1. 主體一致性
除了前面提到的“通過參考圖生成單張分鏡圖”,Nano banana 還支持一鍵批量生成分鏡圖。
比如,我上傳了兩張人物圖:小李子和露絲,讓他們再演一次。然后執行的指令是讓 AI 基于兩張角色圖一次性跑出 6 張分鏡圖。
提示詞:使用提供的兩張人物參考圖(男主和女主),創作一組關于他們的浪漫愛情故事的電影分鏡。整體風格為寫實浪漫的電影質感,具有柔和光影和濃厚氛圍感。請生成 6 張連續的分鏡畫面,每張畫面展示故事的發展過程,從初次相遇、情感逐漸升溫,到高潮與結局,保持電影般的敘事連貫性。要求人物形象保持一致,表情和動作隨劇情自然變化,展現豐富的情緒與張力。畫面構圖為橫版 16:9,不包含文字,僅保留視覺敘事。
展示下它給我生成的過程,除了圖像尺寸沒按照我說的 16:9 來,整體效果非常好,這也再次驗證了:在生成結果中,參考圖的影響力往往大于提示詞本身。
以下是完整的分鏡圖
2. 草圖控制
這里分享一個可能會打破大家認知的控圖技巧:通過草圖控制角色動作。
上傳兩張角色圖,然后我自己手動繪制了一張火柴人打架的草圖,再輸入提示詞,模型就能根據草稿生成對應的圖像。
提示詞:兩名角色按照圖三所示的動作展開戰斗,背景設置為契合戰斗氛圍的場景,并加入環境與角色的互動效果。最終畫面比例設定為 4:3。
接著,我又換了三張不同的參考圖,用同樣的提示詞跑圖,角色的一致性依舊保持得非常好。
除了簡易的火柴人草圖,其實還可以通過線稿草繪來精準控制人物動作。
比如,我在網上找了一張“扇臉”的草稿圖,結合提示詞進行生成,AI 也能順利跑出畫面。只不過,我并沒有指定兩個角色誰扇誰,它自動給我生成這樣的效果(試了好多次)...
AI 似乎能懂人類世界真實發生的場景,這你受得了嗎。
提示詞:兩名角色以圖三所示的姿勢展開互動,場景背景需與畫面氛圍相契合,并加入環境與角色的互動效果,畫面比例設定為 4:3。
震驚我的來了,你可以直接在畫面中添加圖片和文字注釋,讓 AI 自動幫你完成合成!
提示詞:根據輸入圖像中的注釋,生成完整的畫面。請移除文字注釋,并將對應位置替換為真實的人物和動物
但目前有個問題,就是圖像的清晰度不高,估摸著算力太高了,暫時不給我們滿血版模型玩。
3. 多圖融合
多張圖像拼成一張圖像的能力比較常見了,主要是看主體的還原度如何。這個部分直接上一個高難度案例,將 5 個動漫角色融合在一張圖中。
角色一致性表現得非常好,還訓練什么 Lora 模型,一張圖就解決了。
提示詞:使用提供的五個角色參考圖,生成一張星空下篝火場景,畫面充滿溫馨與友情,電影級光影。
再來看模特換裝,我先上傳一張人物圖和一張服裝圖,AI 就能完成換裝。
提示詞:將這件大衣穿在女模特身上,保持黑白色調
再換一整套服裝,也沒問題。
提示詞:使用提供的模特參考圖作為基礎人物,將提供的整套服裝穿在模特身上。
這對電商設計師來說絕對是狂喜場景!
我先是用即夢生成了一張模特拿飲料的圖片,能看出美年達的影子吧,但瓶子身上的細節很差。不過問題不大,換成我們指定的飲料,幾秒鐘就搞定了。
提示詞:保持模特的姿勢和表情不變,將她手中的飲料罐替換為提供紅色飲料罐
這套工作流真的很絲滑:即夢生成模特 → Nano banana 換指定產品。
提示詞:保持模特的手部姿勢和藍天背景不變,將手中拿著的飲料罐替換為提供的紅色飲料罐
同樣,我讓即夢生成了一張威士忌渲染圖,再用 Nano banana 替換成目標產品,效果依舊完美。
提示詞:保持左邊威士忌渲染圖的背景和環境不變(木質圓木底座、暖色燈光和陰影),將木樁上擺放的酒瓶替換為右圖中的威士忌瓶。
4. 文本編輯
文本編輯又可以叫做“用嘴改圖”,用提示詞來修改圖像中的物體,這是真的來搶 Phtoshop 的飯碗了。
提示詞:將她的服裝換成職業西裝,背景是辦公室場景。
提示詞:將他的服裝換成鋼鐵俠戰衣,保持人物姿勢和背景不變。
提示詞:將背景的 logo 換成 Google。
人像修圖都能做到,看這個案例,只需一句提示,AI 就能幫人物 剃胡子。
提示詞:刪掉人物臉上的胡子。
還有局部轉繪,我用它把一碗寫實的拉面轉換成插畫風格,AI 的意圖識別能力真的強到離譜。
提示詞:將畫面中的拉面和拉面碗轉換成具有奇幻感的 2D 手繪動漫插畫風格,同時保持圖像中其余部分完全不變。
最后就是老照片修復,干倒一批靠賣這套 ComfyUI 工作流的老師們。AI 的進化與普惠,優先取代是賣課的(當然也包含我在內)。
提示詞:修復這張受損的老照片,去除所有折痕、裂痕、污漬和劃痕,補全缺失的細節,提升清晰度,讓畫面自然完整。在修復的基礎上進行彩色化處理:嬰兒的膚色柔和自然,毛線帽和毛衣呈現溫暖的淺色調,母親的膚色健康自然,頭發為深棕色,衣服保持復古質感。
5. 圖像轉繪
沒啥好講的,上案例,我已經很少打開 Stable Diffusion 了。
提示詞:將這張圖轉換為黑白漫畫風格
這個手辦案例最近很火,提示詞我測試下來是通用的,各位拿去玩吧~
提示詞:將這張照片轉換為一個角色手辦。在手辦背后放置一個印有該角色圖像的包裝盒,并在旁邊展示一臺電腦,屏幕上顯示 Blender 建模的制作過程。在包裝盒前方放置一個圓形塑料底座,上面站立著角色手辦。讓 PVC 材質呈現出清晰真實的質感,并盡量將場景設置在室內環境中。
6. 物體標注
前段時間 Google 發布了一個世界模型,Nano Banana 應該是集成了這個能力,你可以僅靠一張圖像和一句提示詞,讓它幫你將建筑標注出來,并且寫上這個建筑的信息。
不過有個小坑需要注意:Nano Banana 在中文上的生成效果不佳。因此,提示詞最好翻譯成英文輸入,才能得到更理想的結果。
提示詞(需翻譯):你是一名基于位置的 AR 體驗生成器。在這張圖像中高亮顯示「巴黎圣母院」,并為其添加相關注釋信息。
提示詞(需翻譯):你是一名基于位置的 AR 體驗生成器。在這張圖像中高亮顯示「埃菲爾鐵塔」,并為其添加相關注釋信息。
以上就是本篇文章的全部內容,來嘮叨幾句。
其實,Nano Banana 這個模型早在 8 月中旬就已經火爆全網了,我一直是有在關注,但沒急著寫。
因為當時我的想法是:這不就是 GPT-4o、Flux Kontext、豆包 AI 都玩過的“用嘴改圖”嗎?感覺沒啥新鮮的,再加上 LM Arena 上的測試體驗很糟糕,我也沒怎么深入去玩。
直到最近 Google 官宣了這個事,我才真正去測試,昨晚測了個通宵,真的,太夸張了.......
以前我使用 GPT-4o、Flux Kontext,圖像編輯能力確實讓我覺得很牛,也就那樣。GPT-4o 在編輯時,會將你整張圖像進行重繪,在一些不太突出的場景下,還沒什么。
但涉及到人像、產品時,一點細微的變形,就讓它的商業價值大大降低。
而 Nano Banana,嚴謹一點,應該叫 Gemini 2.5 Flash Image,它是對局部進行重繪,完全不會影響其他區域,而且它對主體的學習能力太強了,你只需要上傳一張清晰的正面圖,它可以給你將多角度的圖像全部繪制出來。
這意味著什么?
這意味著它直接動了 Stable Diffusion 和 Photoshop 的蛋糕。因為后兩者還是有一定學習成本,而在 Gemini 2.5 Flash Image 面前,你只需要一句話、一張圖、就能快速得到你想要的圖片。
這才是真正具有商業價值的降本增效。
這才是 AI 時代下最實用的生產力工具。
當然,我也想提醒一句:AI 歸根結底只是工具。別被 取代 這種說法綁架。哪怕是智能體,也需要人類提出明確的需求。
會用工具,會思考的人,才有真正的價值。
如果你想學習 AIGC,可以加入我主理的《優設 AI 俱樂部》,俱樂部內沉淀有 2000+ 優質 AI 學習資料,涵蓋 AI 繪畫、AI 視頻、AI 提示詞、AI 工具庫、AI 商業設計案例、研究報告......
也可以點擊鏈接: https://wx.zsxq.com/group/15288828142182
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 752 位幸運星
發表評論 為下方 24 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓