Nano Banana Pro上線,AI生圖或許真的要進入“工業化”時代了

由 DeepTech深科技 發佈於 科技

'25-11-21

就在 Gemini 3 大語言模型發佈的 48 小時後,Google 在剛剛再次投下一枚重磅炸彈:Nano Banana Pro(即 Gemini 3 Pro Image)正式上線。


這款建立在 Gemini 3 Pro 架構之上的新模型,旨在解決長期困擾 AI 繪圖領域的兩大頑疾:不可控的隨機性與對物理世界認知的匱乏。與此前主打速度與成本效益的 Nano Banana(即 Gemini 2.5 Flash Image)不同,Pro 版本被明確定義爲一款“高保真(High-fidelity)”工具,它不再滿足於僅僅生成一張好看的圖片,而是試圖理解圖片背後的邏輯。這種理解力來源於 Gemini 3 強大的推理引擎,Google DeepMind 的產品經理 Naina Raisinghani 將其描述爲一種能夠調用“世界知識”的能力。



圖丨Gemini 3 Pro 圖像在文本生成圖像的人工智能基準測試中的表現(來源:Google)


最直觀的體現在於信息圖表的生成。在以往,要求 AI 繪製一張關於特定植物的科普圖,往往會得到一張充滿虛構文字和錯誤生物特徵的圖片。但在 Nano Banana Pro 的官方演示中,當用戶要求生成一張關於“烏龜串(String of Turtles)”植物的養護指南時,模型不僅準確還原了葉片特殊的紋理細節,還通過 Google Search 的接地(Grounding)技術,實時檢索並正確標註了原產地、光照需求等真實信息。



圖丨模型生成的“烏龜串(String of Turtles)”的養護指南(來源:Google)


對於設計師和品牌方而言,新模型帶來的最大驚喜莫過於對文本渲染(Text Rendering)和多語言本地化的史詩級增強。長期以來,AI 在處理圖像內文字時總是顯得力不從心,生成的字符往往亂碼難以辨認。而 Nano Banana Pro 似乎徹底攻克了這一難關。在官方展示的一個飲料品牌案例中,模型不僅在易拉罐曲面上完美貼合了英文品牌名,甚至能根據指令,直接生成符合透視關係和光影邏輯的法文版包裝圖。


而在創意控制力方面,Google 此次展現出了與其“Pro”後綴相匹配的專業度。過去,爲了保持角色一致性,創作者往往需要藉助複雜的 LoRA 訓練或 ControlNet 插件,而 Nano Banana Pro 原生支持了極高強度的上下文保持能力。


據技術文檔顯示,該模型可以同時處理多達 14 張參考圖像的輸入,並能在一個複雜的場景中,精準鎖定並保持多達 5 個不同角色的面部特徵與服裝細節不變。



圖丨在複雜構圖中保持 14 個輸入的一致(來源:Google)


無論是將草圖轉化爲精細的 3D 渲染圖,還是在不同分鏡中保持主角形象的統一,這種“導演級”的控制力讓 AI 生成的內容終於能夠承載連貫的敘事。此外,針對專業攝影需求,模型開放了對景深(Bokeh)、光影角度、色彩分級(Color Grading)等物理參數的微調權限,支持最高 4K 分辨率的輸出,這無疑是向 Midjourney 等競爭對手發起的直接挑戰。



圖丨改變圖片焦點(來源:Google)


除了模型本身的進化,Nano Banana Pro 也進一步地與 Google 生態有所整合。在前不久剛隨 Gemini 3 發佈的 Antigravity 中,開發者可以直接調用 Nano Banana Pro 生成高保真的 UI 界面原型,隨後讓 AI 智能體直接根據視覺設計編寫前端代碼。這種跨越視覺與邏輯邊界的協作方式,正在模糊設計師與程序員的職業分野。同時,該模型也已確認將整合進 Adobe、Figma 等主流創意軟件,以及 Google 自家的 Slides、Vids 和 Flow 視頻工具中,試圖全面接管創意工作流。


當然,頂級性能對應的是高昂的算力成本。Google 在定價策略上毫不掩飾其高端定位:相比於生成一張 1024px 圖片僅需 0.039 美元的普通版 Nano Banana,使用 Pro 版本生成一張 1080p 或 2K 圖像的成本躍升至 0.139 美元,而 4K 圖像的單次生成成本更是高達 0.24 美元。這清晰地劃分了用戶羣體:Flash 版本服務於日常娛樂和快速預覽,而 Pro 版本則是爲那些容錯率極低的專業商業場景準備的。


爲了驗證 Google 官方宣傳的這些“神奇特性”是否屬實,我也在第一時間進行了實測。


我首先要求模型生成一張“酸鹼滴定實驗原理與滴定曲線綜合示意圖”。在上個版本的 Nano Banana 中,這類有較多漢字且考察理解能力的教學示意圖絕對無法是完成的,通常你會得到滿是亂碼的座標軸和錯亂的玻璃儀器。但這次 Nano Banana Pro 交出的答卷讓人震驚。如實測圖所示,模型精準地繪製出了滴定管、錐形瓶等實驗裝置,以及右側的滴定曲線等,都與要求相符。唯一可惜的是,圖片中的文字標註,多少還是有輕微的模糊和亂碼。



(來源:Nano Banana Pro)



我要求它生成一張“具有《守望先鋒》風格的第一人稱射擊遊戲 HUD 界面,生成的圖像展現出相當驚人的語義理解力,儘管個別 UI 佈局、地圖場景等元素與實際遊戲不同,但遊戲角色、字體風格與遊戲整體美術風格都高度統一,還原程度相當高。



(來源:Nano Banana Pro)


至於在下面這個常規的考察對物理光影的掌控能力的場景中,其理解能力和真實程度也是不必多說。



(來源:Nano Banana Pro)


甚至還能生成連貫的漫畫。



(來源:Nano Banana Pro)


初步體驗下來,儘管還有一些遺憾,但這大概確實是目前對提示詞依從度最高、文字處理能力最強的圖像模型。


此外,爲了防範更強大的模型帶來更多深度僞造(Deepfake)的風險。Google 宣佈所有經由 Nano Banana Pro 生成的圖像都將強制嵌入 SynthID 數字水印。這是一種在像素層面無法被肉眼察覺,但能被算法精準識別的技術,即便圖片經過裁剪、壓縮或濾鏡處理,水印依然有效。


Google 甚至在 Gemini App 中直接面向消費者推出了驗證工具,用戶只需上傳圖片並詢問“這是 AI 生成的嗎?”,系統即可給出判定。對於免費用戶,圖片上還會保留可見的“Gemini Sparkle”標記,只有企業級用戶和 Ultra 訂閱者才能獲得無可見水印的純淨圖像。這顯然是在爲未來的監管風暴做準備。當 AI 生成的圖像逼真到連光影物理學都無懈可擊時,唯一的辨別方式可能真的只剩下密碼學了。


Nano Banana Pro 的發佈,或許真的標誌着 AI 圖像生成進入了“工業化”階段。


如果說 2023-2024 年是 AI 繪畫的“奇觀時代”,大家驚歎於它能畫出什麼;那麼 2025 年則是“控制力時代”,大家開始在意它能多精準地執行命令。


通過 Gemini 3 Pro 的認知能力與 Antigravity 的工程化落地,Google 正在將“文生圖”從一種娛樂消遣,轉變爲一種可精確控制、可規模化生產、具備真實世界認知的工業級服務。儘管更高昂的價格可能會勸退部分個人創作者,但對於那些渴望將想象力無損轉化爲生產力的專業人士來說,這或許正是他們等待已久的那塊拼圖。


參考資料:

1.https://blog.google/technology/ai/nano-banana-pro/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=

2. https://blog.google/technology/developers/gemini-3-pro-image-developers/


運營/排版:何晨龍

Scroll to Top