来源:环球网 技能培训小课堂。图为云南展馆。“绝技绝活”展演。展出的智能机器人。近日,第三届全国职业技能大赛在河南郑州举办。比赛以“技能照亮前程”为主...
2025-09-23 0
现在最好的图像质量,和几年后图像质量可能相差不大,实际在于模型能力下限的提升。
未来的交互一定是多模态的,识别用户的意图特别关键。
这是一篇 Nano Banana 背后核心团队成员的专访,信息量很大。
在 Nano Banana 正式上线后的近一个月以来,社交平台上充满了各种「邪修」玩法和探索。Nano Banana 的热度甚至一度冲击了图像、修图类产品的股价。
Nano Banana 为什么好用?读懂背后的「how」特别重要。Nano Banana 核心团队是如何思考和做图像模型的?基于图像模型的能力,衍生出来的应用会有哪些特点?
在一期播客节目中,Nano Banana 核心团队研究员 Nicole Brichtova 和 Oliver Wang,围绕基于模型打造产品时遇到的挑战、如何思考解决「空白画布难题」以及如何与其他图像编辑产品进行交互等话题进行了分享。
TLDR:
图像模型未来的趋势可能和 LLM 的发展很像,从单纯的创意工具变为信息查询工具。
未来,模型应该会变得更主动、更智能,能根据用户的问题,灵活运用文本、图像等不同模态进行交互。
如何把 LLM 中的「世界知识」融入到图像模型,让生成的图像能真正帮到用户,是未来图像模型非常重要的一个应用方向。
用户对于模型一步到位生成「成品」的期待是不切实际的。
模型产品的交互界面(UI)设计目前是仍是被低估的。如何把各种模态整合起来,让普通人更容易使用这些模型、了解模型的能力,同时让模型适配具体的工作流。这个方向的价值还没被充分重视。
多模态交互的核心问题在于如何识别用户的意图,以及如何根据用户意图和他们实际想完成的任务,切换到不同的交互模式,因为用户的需求往往不明确。要向用户解释「机器人做不到什么」非常困难,关键在于明确问题边界,在界面设计上让用户清楚「哪些操作可行」。
满足用户美学相关的需求很难,需要深度的个性化才能给用户提供有用的建议。
Midjourney 成功的关键在于比其他团队更早搞清楚了如何进行模型的后续训练,尤其是如何通过后续训练生成具有风格化和艺术性的图像。
图像生成模型未来的关键进步会体现在「模型的可表达性」方面。
现在最好的图像质量,和几年后最好的图像质量可能相差不大;但现在最差的图像质量,会比几年后最差的图像质量差很多。
未来所有团队都会朝着「通用模型(Omni Models)」的方向发展,也就是能处理多种任务的模型。图像、视频领域的很多技术是共享的,未来甚至可能融合在一起。
未来有能力训练 LLMs 的团队,或者能让图像模型具备丰富世界知识的团队,可能会在图像领域占据主导地位。
超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
主持人:在「Nano Banana」正式发布前,你们内部觉得哪些用法会最火、最让你们兴奋?现在推向市场后,实际情况和你们想的一样吗?
Nicole:对我来说,最令人兴奋的其实是「角色一致性」,能看到自己出现在不同场景中。比如,我真的做了一整套幻灯片,里面有我出现在「通缉令」上的样子、扮演考古学家的样子,基本上涵盖了我童年时梦想过的所有职业。我们甚至还制作了一套包含我面部图像的电子邮件模板,团队里其他人的图像也有收录,方便我们开发新模型时随时参考。
主持人:在 AI 领域,这绝对是最高荣誉了。
Nicole:而且这些图像都很有个人特色,我非常兴奋。所以我一开始就对「角色一致性」功能很期待,因为它能让人们以一种全新的方式「想象自己」,这种方式在以前其实很难实现。这也确实成了用户最感兴趣的功能之一。
我们发现,人们会把自己的形象变成「小雕像」,这是一个非常流行的使用场景。不过有一个场景让我很意外:很多人用它来给老照片上色,这对用户来说是很有情感意义。比如「现在我终于能看到自己婴儿时期的真实模样了」,或者「我能从这些黑白照片里看到父母当年的样子了」。这种反馈真的很暖心。
主持人:一款产品火了之后,肯定会收到无数的功能需求。用户最常提的是什么?你们觉得图像模型的下一个里程碑会是什么?
Nicole:我们在推特上收到最多的需求是「更高分辨率」,很多专业用户会提这个。目前模型的分辨率是 1K,用户希望能更高。另外,「透明背景」也是高频需求,因为这对专业场景来说非常实用。这两个应该是我见过最多的需求,除此之外,还有「更好的文字渲染效果」。
主持人:大家都很好奇,是什么让模型的性能提升这么多?
Oliver:我觉得情况其实很「朴实」,没有哪一个单一因素能决定一切,关键在于把所有细节都打磨好,不断优化「技术方案」,而且团队已经在这个问题上钻研了很久。说实话,我们自己也有点意外这个模型能这么成功。我们知道它是个不错的模型,也很期待它的推出,但没想到反响会这么强烈。比如,我们在「竞技场」(Arena)平台发布后,不仅评分很高,更让我在意的是,有太多用户为了使用这个模型而涌入 LM Arena,以至于我们要一次次提高「每秒查询量」(QPS)来支撑负载。这完全超出了我们的预期,也让我们第一次意识到:「哦,这东西真的很特别,有很多人需要它」。
主持人:我觉得这就是整个 AI 生态最有趣的地方之一:你们作为开发者,虽然对自己构建的模型有一定了解,但只有当它推向市场、接受大众检验时,你才能真正明白它的「潜力到底有多大」。
主持人:「Nana Banana」已经刷屏网络了。除此之外,AI 图像领域还有哪些「你觉得值得关注,但目前没太多人留意」的动态?
Nicole:我觉得是「图像的事实性维度」。比如人们用「Nano Banana」制作信息图表,或者上传尼亚加拉大瀑布的照片,让模型标注信息。作为演示,效果看起来还不错,但仔细看会发现:文字有乱码、信息不准确,还会重复。这个方向目前关注的人不多,但我相信未来会不断优化。
Oliver:这和 LLM 的发展其实很相似。比如 GPT-1 和 GPT-2 刚出来时,人们觉得「很有趣」,会用它写创意内容,这类任务的「可接受答案范围很广」。但现在,人们很少用 LLM 做创意了,更多是用它「查询信息」「进行对话」,甚至「寻找情感陪伴」。我认为图像模型也可能经历类似的转变:从「创意工具」变成「信息查询工具」,未来人们甚至可能在「需要陪伴时」和视频模型对话。这种趋势在未来是有可能出现的。
Nicole:而且模型应该会变得「更主动」。现在,用户必须主动提出「我要生成一张图」的需求,但如果查询本身「需要图像辅助」呢?其实我们在搜索引擎里已经习惯了这种「主动适配」,搜索时,系统会根据需求自动返回「文字+图像」或纯图像结果。我期待未来的模型能更主动、更智能:根据用户的问题,灵活运用不同模态(文本、图像等)进行交互。
主持人:「Nano Banana」这个名字背后有什么故事吗?
Nicole:我们团队有一个 PM 叫 Nana。当时为了这次发布,她凌晨 2 点半还在加班,就是那时候想出了这个名字。因为听起来很有趣,所以大家就一直用了。现在它甚至成了「半官方名称」毕竟「Gemini 2.5 Flash 图像模型」确实有点拗口。
主持人:是啊,这个名字很成功,连谷歌的高管都在推特上发香蕉表情,可见这个名字已经「深入人心」。
Nicole:如果说品牌推广有什么心得的话,那就是「名字最好能搭配一个合适的表情符号」,这样更容易让人记住。
主持人:你们解决了「角色一致性」这个大难题。在你们看来,图像模型接下来的「前沿突破点」会是什么?
Oliver:我认为,这款模型最令人兴奋的一点在于,你可以开始向它提出「更复杂的需求」了。以前,你可能需要把想要的图像细节描述清楚,但现在,你可以像跟 LLM 对话一样「寻求帮助」。比如,有人会这样用:「我想重新布置我的房间,但不知道该怎么做,给我一些建议吧」,这时模型就能给出合理的方案,比如「根据你的房间配色,这些家具会很搭」。
对我来说,真正有意思的是,如何把 LLM 中的「世界知识」融入图像模型,让生成的图像能真正帮到用户,比如展示用户没想到的方案,或者解答用户的「信息查询类需求」。比如用户问「这个东西是怎么工作的」,模型能直接生成一张示意图,标注出「它的工作原理是这样的」。我认为这会是这类模型未来非常重要的一个应用方向。
主持人:图像模型能从 LLM 的进步中获益多少?而且随着 LLM 持续发展,这种获益趋势会继续保持吗?
Oliver:当然能获益,而且几乎 100%得益于 LLM 的「世界知识」。其实,这款模型的正式名称是「Gemini 2.5 Flash 图像模型」,「Nano Banana 」只是个更有趣的昵称。
Oliver:我甚至在想,我们的成功有多少是因为「Nano Banana」这个名字朗朗上口。但它确实是一款 Gemini 系列模型,所以你可以像和 Gemini 对话一样和它交流,它能理解 Gemini 能理解的所有内容。我认为,将图像模型与语言模型整合,对提升模型的实用性和功能性来说,是至关重要的一步。
Nicole:你可能还记得,两三年前,如果你想让模型生成图像,必须描述得非常具体,比如「一只猫坐在桌子上,背景是这个样子,颜色是这些」。但现在不用这么麻烦了,很大程度上就是因为语言模型的性能大幅提升了。
主持人:是的,现在已经不用像以前那样「偷偷进行 Prompt 转换」了。以前的「小技巧」是:你输入一句话,系统会把它转换成一段 10 句话的详细 Prompt ,确保模型能准确生成内容。但现在模型的复杂度已经足够高,能直接理解简单 Prompt 了,这真的很令人兴奋。
主持人:从产品角度来看,「Nano Banana」的用户群体其实非常多样。有知道自己要做什么的专家,也有很多面对「空白画布难题」的普通用户。讲讲你们是如何为这两种完全不同的用户设计产品的?
Nicole:首先,LM Arena 上的用户,甚至包括开发者,他们都非常专业,熟悉这些工具的用法,还能想出我们没预料到的新场景。比如,有人会把照片里的物体变成「全息图」,我们既没针对这个场景做过训练,也没指望模型能擅长这个,但模型做得很好。
而对于普通消费者来说,「简化操作」很重要。比如现在你打开 Gemini 应用,会看到到处都是「香蕉表情」,我们这么做是因为发现,很多人听到「香蕉」(指模型)后,去应用里却找不到它,因为之前没有明显的入口。我们还和创作者合作,提前展示一些使用场景,给出示例,这些示例能直接链接到 Gemini 应用,点击后 Prompt 会自动填充。我认为,在「初始界面引导」方面,我们还有很多可以做的,比如提供视觉化指导。
另外,在编辑图像时,或许可以加入「手势操作」,不用完全依赖 Prompt 。有时候即使你想要某个特定效果,也需要写一段很长的 Prompt ,但这对大多数消费者来说并不自然。我会用「父母测试」来验证产品,如果我的父母能轻松使用,那它才算合格。但目前我们还没达到这个标准,所以还有很长的路要走。不过核心思路其实是「多展示、少说教」:给用户能轻松复刻的示例,让分享变得简单。就像 Oliver 常说的,这没有什么「神奇的单一解决方案」,需要多方面努力。
Oliver:「社交分享」其实是解决「空白画布难题」的关键。人们看到别人用模型做的内容后,因为模型默认支持「个性化」,所以很容易想到「我也可以把自己、朋友或宠物放进去试试」。这种「模仿式创作」是「Nano Banana」传播的重要方式。
主持人:目前交互主要还是通过文字。从长期来看,还有哪些「设计界面」能让人们更便捷地与模型交互?这方面有什么让你们感到兴奋的想法吗?
Nicole:我觉得我们现在只是刚刚触及「交互可能性」的表层。最终,我希望所有的「模态」(文本、图像、语音等)能融合在一起,形成一种「智能界面」,它能根据你要完成的任务,自动选择最合适的交互方式。
比如现在,我们已经在向「 LLM 不仅输出文本,还能在用户需要时输出图像或可视化解释」的方向发展。语音交互也很有潜力,因为它对人来说是非常自然的方式,但目前还没有人真正解决「如何将语音交互融入用户界面」的问题。我们现在仍主要依赖「输入文字」,或许可以结合「手势」,比如你想从图像中删除某个物体,就像在草稿本上涂掉它一样简单。而如何根据任务需求,无缝切换不同的交互模态,这是我非常感兴趣的方向,在这方面还有很多探索空间。
此外,我觉得「用一个简短 Prompt 就能生成『可直接落地的成品』」这种想法是在炒作。实际上,生成内容后需要大量迭代优化,即使是人们在社交平台上分享的内容,背后也需要投入很多精力才能打磨成最终效果。所以这种「一步到位」的期待有点不切实际,未来的交互界面(UI)目前是被低估的。如何把各种模态(文本、图像、语音等)整合起来,让普通人更容易使用这些模型、了解模型的能力,同时让模型适配具体的工作流。这个方向的价值还没被充分重视。
主持人:现在「语音交互界面」面临的局限是什么?
Nicole:我觉得部分原因可能是「优先级排序」,我们现在还在全力提升模型的核心能力。不过语音技术在过去几年也确实取得了很大进步,所以我认为很快就会有人着手探索「语音与图像模型的结合」,我们团队可能也会做这方面的工作。
我一直在琢磨这种交互界面可能的样子。我觉得问题的核心在于,如何识别用户的意图,以及如何根据用户意图和他们实际想完成的任务,切换到不同的交互模式,因为用户的需求往往不明确。而且这样一来,界面可能又会回到「空白画布」的状态,那如何向用户展示「哪些操作是可行的」呢?这本身就是个很大的挑战。
我们发现,用户在使用聊天机器人时,总会默认它「什么都能做」,毕竟你可以像跟人对话一样跟它交流。但实际上,要向用户解释「机器人做不到什么」非常困难;尤其是当工具的功能已经非常强大时,要清晰展示「它能做什么」也并不容易。所以我认为,关键在于明确问题边界,在界面设计上让用户清楚「哪些操作可行」,最终帮助他们完成几乎所有想做的事。
主持人:聊聊「模型评估」。除了放到 LM Arena 平台上公开测试,你们常规的评估具体是怎么做的?在「如何判断和衡量模型好坏」这件事上,有什么心得?
Oliver:其实,语言模型和视觉语言模型的进步带来了一个好处:现在已经形成了一种「反馈循环」,我们可以利用语言模型的智能,来评估它自己生成的内容。这就形成了一个良性循环,能同时推动语言模型和图像模型这两个领域的进步,这点非常令人兴奋。说到底,用户自己才是「判断图像是否符合需求」的最终标准。所以像 LM Arena 平台那样,让用户输入自己的 Prompt 来使用模型,其实是评估模型的最佳方式。
Nicole:「审美」也很重要。 Oliver 比较谦虚,其实她是团队里「对图像细节敏感度极高」的人,他能一眼看出图像的效果好不好、有哪些缺陷。我们团队里有几位这样的成员,在模型训练完成后,会先进行大量的「人工初筛」,判断模型输出的结果是否合格。
聊回你问的「评估方法」,我们会从很多渠道(包括 X )收到用户反馈,了解「哪些功能好用、哪些不好用」。之后我们会调整评估标准,一方面确保「好用的功能不会退化」,另一方面针对社区希望改进的「不好用的功能」,集中精力优化。
主持人:在你们见过的「资深用户」中,有没有什么特别让人印象深刻的使用场景?
Oliver:我个人最喜欢的资深用户场景吗?我之前大部分职业生涯都在做视频相关的工作,所以对视频工具和创作工具特别感兴趣。我发现,「Nana Banana」和 Voe3 这类视频模型结合使用时,能成为制作 AI 生成视频的实用工具,它能帮你更快地构思创意、规划镜头。有意思的是,这和电影行业的制作流程很像:先用「分镜脚本」梳理故事和镜头,现在用户也会用这种方式,制作更连贯、更长的视频内容。
Nicole:我很惊讶有人会把它用在「实际的建筑工作流」中。比如从蓝图开始,先生成类似 3D 模型的效果(但不用真的建 3D 模型),再进一步迭代成设计图。这大大缩短了工作流中「繁琐重复的环节」,让人们能把精力放在「有创意、有趣且自己真正喜欢的环节」上。而且我没想到,它在这类场景中「开箱即用」的效果会这么好。
主持人:就像在各个领域中,用图像模型快速搭建「基础框架」一样。
Nicole:还有一个场景是「通过代码生成网站 UI」。以前,从「输入 Prompt 」到「生成网站代码」的过程总让我觉得很突兀,中间少了一个「迭代设计」的环节,没法快速修改设计方案。但现在,我们终于能在「生成代码前」先迭代设计,直到满意后再生成代码。
主持人:这简直就是未来的工作流。毕竟,如果生成的代码不符合你的审美,或者和你的预期完全不符,那之前花在「生成代码」上的算力不就白费了吗?这样做确实合理多了。
Nicole:而且这样也更有趣。就像 Oliver 说的,人们会把新技术融入现有的工作流,这个过程其实很自然。虽然现在 LLM 的进步很快,已经能「从 Prompt 直接生成网站」,这很令人惊叹,但我觉得,在「设计迭代」这个中间环节多花点时间,确保最终效果符合自己的审美,对用户来说会更有乐趣。
主持人:我们在这个方向上进展到哪一步了?
Oliver:「美学」相关的需求其实挺难满足的,因为它需要深度的个性化才能提供有用的建议。而且我认为,在技术层面,「个性化」本身也还在持续优化中。所以我们现在离「精准理解用户需求」还有一段距离。但我觉得,通过「少量澄清」和「与模型对话」,这也是我对模型最期待的功能之一,情况会越来越好,你可以像在聊天线程里一样跟模型交流,逐步细化需求,最终得到你想要的图像。
主持人:你觉得「个性化」会停留在「Prompt 层面」吗?比如,通过对话和上下文来实现?还是说,未来每个人都会有自己专属的「美学模型」?
Oliver:我觉得更多还是会停留在「 Prompt 层面」。比如,根据用户之前告诉过你的个人偏好,模型就能做出更贴合需求的决策。至少我希望是这样。毕竟,如果每个人都要有自己的模型,还要负责维护,那听起来会很麻烦。所以这可能是未来的发展方向。
Nicole:但我确实认为,不同人会有截然不同的「美学偏好」,而且在这个层面上,一定程度的「个性化」是必不可少的。比如,你在谷歌的「购物标签页」上搜索毛衣时,会收到很多推荐,但你其实希望能「贴合自己的审美」,甚至能「结合自己衣柜里已有的衣服」,看看哪些新衣服能搭配。我希望这种需求能通过「模型的上下文窗口」来实现,比如把衣柜里衣服的图像喂给模型,让它推荐能搭配的款式。我对这个方向非常期待,也希望能实现。当然,或许在「模型层面」还需要一些额外的「美学控制」,但我猜这可能更多会应用在「专业工作流」中。
主持人:所以,你们觉得未来会是一个通用模型,靠精准的 Prompt 通吃所有场景?还是会出现更多细分模型,比如专门做「未来风」或某种特定风格的模型?
Nicole:我一直很惊讶,「现成模型」(off-the-shelf model)能支持的使用场景范围居然这么广。但就像你说的,在一些「面向消费者的场景」中,比如快速勾勒房间里某个物品的样子,它的表现已经很好了;但一旦进入「更高级的功能需求」,比如为营销或设计工作流制作最终成品,就需要结合其他工具才能让模型真正发挥作用,变得实用。
主持人:咱们把视角拉远一点,聊聊整个「图像模型领域」。自从 Stable Diffusion 和 Midjourney 出现后,这个领域的发展速度简直像坐了火箭。 你们觉得过去两三年里,图像生成模型的「关键里程碑」有哪些?
Oliver:确实是「火箭式发展」。最初我在这个领域工作时,生成对抗网络(GAN)还是主流的图像生成方法,当时我们都为 GAN 的效果惊叹,但它只能在非常有限的范围内生成图像。比如能生成看起来还不错的人脸,但也只有「正面人脸」这一种。后来,能「泛化生成」且「完全由文本控制」的模型开始出现,但最初它们的规模很小,生成的图像也很模糊。不过那时候我们就意识到:「哇,这东西会改变一切」,于是大家都开始投入精力研究。但没人能预料到它会以这么快的速度进步。
我觉得这背后有两个原因:一是有很多顶尖团队在攻克这些难题,二是「良性竞争」的推动。看到其他团队发布出色的模型时,大家都会被激励,比如「Midjourney 之前一直遥遥领先,效果好得惊人」,我们就会琢磨「他们是怎么做到的?为什么效果这么好?」. 另外,Stable Diffusion 作为开源模型的出现,也让我们看到了「开发者社区的潜力」,原来有这么多人想基于这些模型开发新东西。这无疑是另一个「爆发点」。不过说实话,在这个领域工作既有趣又有点「令人沮丧」:一方面模型在飞速进步,另一方面用户的期待也在不断提高。现在用户会抱怨一些「小问题」,但你心里会想「天呐,你知道我们为了优化这个模型付出了多少努力吗?一年前生成的图像还完全不真实,当时大家都惊叹不已,」。不得不说,人类对新技术的「审美疲劳」来得真快。
主持人:Midjourney 为什么当初能在这个领域「遥遥领先」这么久?感觉有很长一段时间它都是行业标杆。
Oliver:我觉得Midjourney 比其他团队更早搞清楚了「如何进行模型的后续训练」,尤其是「如何通过后续训练生成具有风格化和艺术性的图像」。这正是他们的核心优势,专注于「让用户能控制图像风格」,并确保「无论生成什么内容,视觉效果都很出色」。在当时,这一点非常关键:因为如果能把生成范围「聚焦在『好看的图像』这个小领域」,就能把这个领域的效果做得更好。从「专注于高质量风格化图像」起步,对他们来说是个非常好的策略。后来,包括 Midjourney 在内的所有模型(比如 Flux、GPT 图像模型等)都开始「拓宽生成范围」,现在已经能生成更多品类的图像,同时还能保持高质量。
主持人:是什么让模型能「拓宽生成范围」,不再只局限于生成那些经过筛选的优质图像了?
Oliver:原因有很多。首先,我们都搞清楚了「训练数据应该是什么样的」;其次,模型规模和算力都在自然增长,以前做不到的事,现在因为「规模变大了」,就能实现了。
主持人:图像模型进步这么大,但我现在不确定,我们是「只剩 10%的进步空间」,还是「三年后回头看,会觉得『当时居然觉得那些模型很好用,真是可笑』」。你怎么看这个问题?而且现在生成的图像已经很不错了,我甚至想象不到「下一个 10 倍级的提升会是什么样」。
Oliver:我认为我们还有很长的路要走。先不说其他应用场景,单是「图像质量」这一项,就有巨大的提升空间。我觉得关键进步会体现在「模型的可表达性」方面:现在我们能完美生成某些内容,生成的图像和真实图像几乎无法区分;但一旦超出「用户常生成的常见内容」范围,图像质量就会急剧下降。比如那些需要「更多想象力」或「融合多个概念」的 Prompt ,生成效果往往很差。
所以我觉得,未来的模型可能会呈现这样的趋势:「现在最好的图像质量,和几年后最好的图像质量可能相差不大;但现在『最差的图像质量』,会比几年后『最差的图像质量』差很多」。
我们会让模型的实用性更强,适用场景也更广泛。而且我们发现,模型的适用范围越广,用户能发掘的使用场景就越多,模型本身也会变得更有用。
主持人:你们既提供模型也提供 API,你们怎么判断哪些功能适合放进 Gemini 这样的通用聊天工具,哪些更适合留给其他专业产品去实现?
Nicole:我觉得这两类场景的定位完全不同。我们发现,用户会用 Gemini 进行「快速迭代」,比如我们团队有人想重新设计花园,就会先在 Gemini 里生成效果图,想象可能的样子,然后再找景观设计师合作,把这个想法细化、落地。所以 Gemini 更像是「创意构思的第一步」,很少会成为「最终成品的制作工具」。
但对于资深用户(比如开发者)来说,他们会搭建更复杂的工具,将多个模型串联起来使用,这是一个更精密、更复杂的「多工具协作流程」。聊天机器人的优势在于「帮你启动创意、提供灵感」,还能支持很多「有趣、易分享」的场景,比如和家人朋友分享创作成果。我觉得这种定位会一直保持下去,因为有更高需求的资深用户,总会倾向于使用「更可视化」或「更专业」的工具。
主持人:那「编辑工作流」该如何融入其中呢?用 AI 生成初始创意很棒,但要把作品从 95%打磨到 100%,你们觉得未来还需要依赖传统的编辑工具吗?还是说整个工作流会发生变化?
Oliver:我觉得这很大程度上取决于用户类型。有些用户对效果有「像素级的精准要求」,对于这类需求,我们必须将模型与现有工具(比如 Adobe 的各类产品)整合;而有些用户更需要「灵感启发」,对效果的要求没那么严格,对他们来说,在聊天机器人里快速生成创意就足够了。所以这两种应用场景都很重要。
Nicole:关于「像素级控制」,我两天前刚了解到一个案例:在制作不同产品或品牌的广告时,模特的「视线方向」会对广告传达的信息产生很大影响,因为观众的注意力会被模特的视线引导。这种精细的控制,用聊天机器人是很难实现的。所以对于这类用户和场景,未来依然需要「专业工具」和「极高精度的控制能力」。
Oliver:说到底,关键在于「哪些需求能用语言描述清楚,哪些不能」。语言很适合传达「宏观想法」,但如果想让某个元素「向左移动 3 个像素」,用语言描述就很别扭了。所以我认为,「传统工具」和「AI 模型」会长期共存。
主持人:是的,如果我们观察专业艺术家或创作者的完整工作流,会发现他们很难用语言精确描述自己的操作,很多时候都是「凭感觉」。在谷歌内部,你们自己最期待看到这个图像模型在哪些产品或业务中落地?
Nicole:我觉得有很多方向。首先是创意领域,比如「照片应用」,在照片库里直接进行编辑就很方便。比如我每年都会有几次需求,把家庭照片做成生日贺卡,如果能在照片应用里直接完成,会非常便捷。
另外,「知识性场景」也很有潜力。在谷歌的各类产品中,如果一个 5 岁的孩子想了解「光合作用」,但网上没有合适的可视化素材,模型能生成专属的示意图,这会给「个性化视觉学习」开辟很多新场景和机会,毕竟很多人都是「视觉型学习者」。
Oliver:我觉得「办公协作(Workspace)」也是个很棒的方向。比如 PowerPoint 和谷歌幻灯片(Google Slides),未来人们或许能制作出「更有吸引力的演示文稿」,而不是千篇一律的「文字列表」。
主持人:我刚开始工作时做过咨询,要是当时有这功能就太好了。我太懂那种「花大量时间调整格式」的痛苦了。
Nicole:以前做幻灯片,都要先在白板上画分镜,确定标题、图表位置(比如「左边放这个数据集的图表」)。如果能把这些需求喂给 LLM ,让它帮忙完成这些繁琐的工作,那就太让人兴奋了。
Oliver:甚至可以直接「拍一张白板上的照片」,让模型来识别内容。
主持人:图像模型和视频模型的关系是什么?它们的研发是独立的,还是会相互借鉴?这两个领域的互动多吗?
Oliver:它们的联系非常紧密。我认为未来所有团队都会朝着「通用模型(Omni Models)」的方向发展,也就是能处理多种任务的模型。这类模型有很多优势,长期来看或许会成为主流,不过我也不确定。但可以肯定的是,我们在图像生成领域学到的很多技术,会被应用到视频生成模型中,反过来也是。这也是视频生成领域能快速发展的原因之一。整个行业已经掌握了这类问题的解决思路。所以我觉得它们就像「亲密的伙伴」,会共享很多技术,未来甚至可能「融合在一起」。
主持人:你说的「技术」,是指图像和视频模型背后的核心技术框架是相似的?
Nicole:从工作流来看,人们也经常「互补性地使用这两类模型」。比如,如果你是电影制作人,前期的创意迭代往往会先在 LLM 中梳理思路,然后在图像模型中快速生成帧画面,这样更快、成本也更低,最后才会进入视频制作阶段。所以即使从「工作流和易用性」的角度看,这两类模型也存在互补性。另外,它们需要解决的很多问题是相似的,比如「一致性」,无论是图像还是视频,都需要保证角色、物体、场景的一致性。只是视频领域更复杂一些,因为要在多帧画面中维持这种一致性。
主持人:你觉得视频模型领域接下来需要解决的核心问题是什么?
Oliver:我认为,首先是让视频模型具备「和最新图像模型同等的可控性」,这对视频领域的发展影响很大,也是值得关注的方向。其次,视频团队也在持续优化「分辨率」和「长时一致性」。当然,「让同一个角色出现在多个场景中」也是用户最迫切的需求之一。所以未来的发展方向很明确:朝着「更长、更连贯的视频内容」迈进。
主持人:图像模型领域的市场格局,最终会走向 LLM 领域那样,由少数几家头部玩家主导吗?
Oliver:这是个好问题。到目前为止,我认为图像领域仍有「小团队做出顶尖模型」的可能。我们已经见过不少小实验室开发出非常出色的模型了。我希望这种情况能持续下去,因为小团队的参与会让这个领域更有活力。
但就像我之前说的,图像模型的「世界知识储备」和「实用性提升」,其实非常依赖「规模效应」,尤其是 LLMs 的规模。所以我猜测,未来「有能力训练 LLMs 」的团队,或者「能让图像模型具备丰富世界知识」的团队,可能会在图像领域占据主导地位。我们看到中国的一些大型实验室也在推出优秀的图像模型,这和 LLM 领域的趋势很像。所以我认为,未来图像领域也会出现这样的头部玩家。
主持人:对图像模型来说,使用「最先进的开源模型」,和使用「前沿的闭源 LLM」相比,劣势会很大吗?
Oliver:这是个很棒的问题。我觉得答案很大程度上取决于「开源模型的未来发展」,毕竟开源领域的变化非常快。大概一年前,「用开源模型」看起来还是个很稳妥的选择,但现在情况可能没那么明朗了。不过我也不确定开源模型的未来走向,它仍有很大可能性继续发展,支撑更多小实验室训练出优质的图像模型。
转载原创文章请添加微信:founderparker
相关文章
来源:环球网 技能培训小课堂。图为云南展馆。“绝技绝活”展演。展出的智能机器人。近日,第三届全国职业技能大赛在河南郑州举办。比赛以“技能照亮前程”为主...
2025-09-23 0
现在最好的图像质量,和几年后图像质量可能相差不大,实际在于模型能力下限的提升。未来的交互一定是多模态的,识别用户的意图特别关键。这是一篇 Nano B...
2025-09-23 0
IT之家 9 月 23 日消息,据游戏媒体 Insider Gaming 上周(9 月 16 日)报道,索尼 PlayStation 的新一期 Sta...
2025-09-23 0
下月是索尼发表A7 IV四周年的日子,相信很多影友都会关心A7 V究竟会否在年底前出现。 传闻网刚刚流出拟似 A7 V 之工程样本谍照,新谍照透露新机...
2025-09-23 0
随着短视频的流行,横屏视频转竖屏的需求日益增长。不管是为了对手机端播放优化,还是社交媒体发布,以及对竖屏显示器适配,掌握简单高效的修改视频尺寸方法,能...
2025-09-23 0
万众期待Meta Connect大会,竟成了AI眼镜的“照妖镜”!扎克伯格华丽发布会,被尴尬“翻车”无情打脸。即便掌控60%市场份额,Meta也治不好...
2025-09-23 0
在GPU领域,英伟达绝对是王者,不管是普通渲染类GPU,还是人工智能AI加速卡,英伟达都没有对手,在全球处于绝对的王者。不过,在中国市场,英伟达却越来...
2025-09-23 0
人民财讯9月23日电,中国职业技术教育学会与优必选科技日前签署了战略合作协议。双方将围绕“共育人形机器人领域高技能人才”展开系列合作。具体措施包括共建...
2025-09-23 0
发表评论