作者 | 周一笑 你可以不关心香蕉的代价,但很难忽视Nano Banana这根香蕉。 在交际媒体和技能社区,用户正热衷于分享它的各种玩法,有人用它把桌面手办转换成真人 Cosplay,有人上传多张素材图,天生风格同一的合成画,另有人把孩子顺手画的洋火人一键升格成影戏级动态分镜。
Nano Banana的快速相应和天然度,让创作更像及时对话,而不是反复抽卡。这也是很多人第一次感到,AI图像天生变得像及时创作。用户不再必要反复调试布局化的咒语,而是通过简朴的天然语言对话,就能对图像举行准确修改 。 再加上几秒内天生的速率,整个过程的流通感是亘古未有的 。这也直接动员了 Gemini App 的用户增长,在短时间内,Nano Banana为Gemini App带来了凌驾1000万新用户。
它的走红,乃至让一些人遐想起了ChatGPT的发布时候,人们耐久不息的从各个角度讨论它、利用它、乃至是疑神疑鬼推测它背后的技能实现,而Nano Banana简直给用户带来了雷同ChatGPT初期的惊艳感,让大量非技能用户第一次体验AI本领的进化,到高质量、及时、交互式的图像天生/编辑。 1 Nano Banana毕竟做对了什么? Nano Banana的好用,不是单一本领的提拔,而是它从根本上改善了AI图像创作的流程。 已往,用户必要学习布局化的提示词才气获取较好的结果。如今,这个过程酿成了一场流通的对话,发出“给这个人戴上眼镜”或“把配景换成阴天”如许的指令,对画面举行准确的局部修改 ,Nano Banana能记着你们的对话,举行相应的相应。 这种影象力也表现在脚色同等性上。以往必要LoRA或Dreambooth等复杂微调技能才气实现的人物固定,如今用户只需用一张图定下脚色,就能在后续的对话中,让同一个人出如今差别场景、摆出差别姿势 。在“长得像本人”这个焦点需求上,Nano Banana已经与其他模子拉开了代差。 它还能将多张输入图像无缝融合成一个连贯的画面,把一张图里的物体天然地放进另一张图的场景里 。更深一层,与很多基于美学练习的模子差别,Nano Banana背后整合了Gemini家属的天下知识与推理本领 。这让它在实行指令时更智慧,好比能明白实际天下的概念,为你画的特定场景选择适当的植物物种 。 让这统统体验真正落地的,是速率。数秒的相应时间,带来的不但是服从,它鼓励用户快速实验、快速失败、快速调解,用不停的试错来探索创意,而非寻求一次乐成。其团队成员将这种迭代的过程,称为真正的魔力地点 。
在团队的访谈和公开分享里,Nano Banana的几个方向被反复提及:笔墨渲染、交织天生、速率哲学,以及天下知识的引入。这些关键词,勾勒出了它的差别之处。 在许多人的直觉里,笔墨渲染是附属本领,能不能把广告牌上的字写对,似乎无伤风雅。但对Nano Banana团队而言,这却是权衡团体性能的焦点指标 。笔墨是一种高度布局化的视觉信息,一个笔画的渺小毛病都会让人立即辨认堕落误 。 当模子能精确渲染笔墨时,它也学会了如安在像素层面把控布局和细节,这一本领迁徙到其他使命时,会带来团体质量的提拔 。团队厥后把笔墨渲染看成一种“署理指标”(Proxy metric),成为连续优化的抓手。 一些LLM从业者尤其表达了把笔墨渲染作为“署理指标”的带来的开导:找到符合的署理指标,可以或许成为牵动团体性能提拔的杠杆。选择一个对准确度要求极高的使命,通过优化它来驱动团体本领提拔。当模子要对齐到一个极度精致、布局化、容错率极低的子使命时,它被迫学会的底层本领,每每会溢出到更宽泛的使命里。
假如说笔墨渲染办理了画得对的题目,那么交织天生(Interleaved Generation)则改变了“怎么画”的过程。已往的图像天生更像是抽卡,相互之间没有上下文接洽 。Nano Banana引入的交织天生机制改变了这一点 。模子在同一个上下文里天生多张图,第二张能记着第一张,第三张能记着前两张 。这种串行方式让创作更像一个过程,上下文的连贯性,带来了比以往稳固得多的体验。 而要让这个布满过程感的创作体验不被割裂,速率是关键。在图像编辑中,完善险些是不大概的。Nano Banana团队的共识是,与其寻求一次性满意全部细节,不如夸大速率 。由于只要天生充足快,用户完全可以毫无生理负担地快速迭代 。 除了流程上的革新,模子在内容明白的深度上也与已往差别。另一个被反复夸大的点,是它在天生过程中引入了天下知识 。这使得它不但能画出视觉上美丽的图像,还能处置惩罚带有知识和配景要求的复杂指令 。比方,在一个80年代美国购物中央风格的场景里,模子不但明白购物中央,还能在细节上符合谁人年代的服饰、灯光和空间语法 。 这种本领的实现,也源于团队的融合。一方面,Gemini团队在推理、天下知识和上下文明白上的上风,为模子奠基了底子 。天生与明白并不是割裂的,团队在访谈中多次夸大,图像明白和图像天生像“姐妹本领”,提拔一端每每会推动另一端。 另一方面,Imagen团队在图像美学和天然度上的履历,资助模子办理了“看上去是否真实、是否优雅”的题目 。二者联合,使得Nano Banana在同等性和美感之间找到了均衡。 Nano Banana团队也透露了将来的方向,他们寻求的并不但是视觉质量的提拔,而是让模子更智慧(smart) ,就是指当用户给出一个含糊或不完备的指令时,模子可以或许明白意图,乃至在效果上逾越原始的要求 。团队成员Mostafa形容这种体验是,“我很高兴它没有完全听我的” 这有点雷同模子不再只是被动实行,而是具备了肯定的审美判定和创造力的Agent。 1 一些料想 对于Nano Banana的底层架构,官方险些没透露什么信息 。这种"黑箱"状态,也引发了技能社区讨论和推测。 一种观点以为,它大概相沿了MMDiT(多模态扩散Transformer)的门路 。这种计划通过同一的Transformer架构处置惩罚文本和图像,将差别模态的信息编码到同一个表现空间里,以实现更原生的跨模态天生 。 也有分析以为模子上层大概有Gemini 2.5如许的大语言模子负责语义明白和推理,而下层则毗连一个专门优化过的扩散模子,用于完成高质量的图像输出,以此联合两者的上风 。
别的,一位个人简介为DeepSeek AI 研究员的小红书用户以为其计划思绪更靠近Janus或UniFluid的同一门路 。即在同一个Transformer主干上,同时接入负责明白的编码器和负责天生的解码器,从而高效地实现看图明白和文本出图的双向本领。 1 Nano Banana时候? ChatGPT 时候的焦点,在于技能飞跃带来了零门槛的体验,并敏捷转化为大众代价。Nano Banana 在很大水平上复刻了这一点。
但范围同样存在。模子卡片已经明白指出,Gemini 2.5 Flash Image 在长文本渲染和复杂细节的究竟性出现上仍有不敷,作为 Gemini 2.5 Flash 的附加本领,它也继续了底子模子的广泛限定。所谓原生多模态,仍旧方向图像使命优化,而Google在底层实现上的克制披露,也让外界难以全面判定它的真正突破。 即便云云,Nano Banana 已经证实,图像天生正走向一个全新的阶段。Nano Banana 已经来了,Giant Banana 还会远吗? 点个“爱心”,再走 吧 |