前言:
2025年八月,Google正式公开了Nano-banana的产品代号,再次改写了图像领域的竞争规则。
技术的巨轮轰鸣向前,每一次飞跃都令人心潮澎湃,却又让无数身处行业中的我们陷入更深的思索:当能力的边界以月为单位拓展,我们究竟该如何自处?
这是一个资源高度集中、方向瞬息变的时代。
算力已成为昂贵的入场券,数据是稀缺的战略资产,而模型的进化速度远远快于商业的理解能力。
我们反复权衡:是追逐最前沿的技术概念,还是回归真实可触的业务逻辑?是投入不确定的长期架构,还是拥抱短平快的商业变现?
没有人能给出笃定的答案,也没有任何选择承诺必然的回报。很多努力,可能终其周期都未必溅起水花;很多坚持,或许只是漫长产业化中的一粒微尘。
这篇文字并非成功的总结,而是一段关于过往两年的记录。它关于信念,也关于迷茫;关于技术人的执着,也关于商业现实的约束;关于在巨浪中迷失方向,又试图看清航线的尝试。
让我们回到踏上这条船的那一天,一切源自2023年。
2023年
2023年,ChatGPT带来的产业震动尚未平息,GPT-4推动的Copilot X第一次真正走入生产线代码的日常。OpenAI逐步走向封闭,技术报告不再公开,一场静默的技术垄断悄然形成。
没人说得清它是如何实现这一代跨越的——是算力的胜利,数据的艺术,还是架构的突变?
也正是在这样模糊的氛围中,Prompt Engineering(PE)从极客圈的玩具走向工程化的必须。从最初的角色扮演提示,到STAR结构化表达,再到人类反馈强化与思维链(Chain-of-Thought)的初步融合,整个行业都在试图"更好地引导模型行为"。而当OpenAI推出Assistants API,这一切似乎突然变得触手可及——至少表面如此。
当时的技术决策者普遍分裂为两派:
- ●一派相信,"暴力美学"仍将主导:模型会继续以每8-10个月一代的速度跨越式演进,过早投入复杂工程可能是一种浪费;
- ●另一派则坚持,"控制力优于等待":应从工程侧构建可迭代的架构——哪怕某天模型突变导致重写,也能保留数据、流程与认知的壁垒。
我想押注后者,但现实往往是预算、资源与时间的函数。
我们最终走了一条中间路径:以OpenAI接口为核心,搭建可拖放式AI工作流编辑器,让客户自主组合多种AI能力。它迅速长成了当时最流行的技术方案之一。
为了进一步压低使用门槛,我们还基于Assistants API做了定制化封装——尽管那时它仍处处是限制:最多20个助理可建、文档处理能力薄弱、输出稳定性差。
同年,微软发布AutoGen,多智能体架构突然站上风口。我们投入研究,但它仍严重依赖提示词工程、工具链贫乏、行为不可控。
不过它揭示了一种可能:如果多个模型能各司其职、协同作业,或许会打开更广阔的应用场景。
它标志着行业思维开始从**"AI作为一个工具或功能(AI as a feature)"向"AI作为一个自主流程(AI as a process)"**转变。在后者的世界里,AI不再仅仅是人类指令的被动执行者,而是能够主动规划、拆解和执行复杂任务的参与者。这一概念上的飞跃,进一步凸显了"工程控制"的重要性——当价值从单个智能体的能力,转移到对多个智能体进行高效、可靠的调度和管理时,那个负责调度的"大脑",即系统架构,就成为了整个系统的核心。
2024年
2024年初,我们已初步完成技术方案,并带着它走向真实世界的招标场。
也就在这时,OpenAI推出GPTs商店。它再次提醒我们:对小团队而言,唯一能积累的壁垒或许只有数据——标注数据、交互数据、用户反馈数据。我们开始筹备硬件资源,计划用微调将通用模型"业务化"。
然而二月,一项紧急交付项目打乱了所有节奏。研发暂停,团队转向支援——在很多公司,AI团队往往兼作"消防队",技术推进取决于业务是否"着火"。
更具讽刺意味的是,当团队因内部"救火"而陷入技术静默期时,外部的AI行业却正以前所未有的速度剧烈演变。这种内部停滞与外部加速的鲜明对比,制造了一种巨大的战略焦虑。
在2024年的那几个月里,行业里程碑事件接踵而至:Meta的Llama 3模型发布,其性能首次在多个基准测试中逼近甚至超越了GPT-4的早期版本,打破了OpenAI一家独大的神话;OpenAI自己也推出了GPT-4o,以其惊人的实时多模态交互能力,重新定义了人机交互的边界;与此同时,支撑AI应用落地的关键技术栈也在快速成熟,向量数据库技术、模型微调的最佳实践、以及RAG(检索增强生成)架构都在经历着快速的迭代和优化。
六月,公司终于提出"All In AI"的战略口号。
但战略之下,执行仍充满矛盾:
- ●数据收集被认为"成本高昂而效果不明";
- ●自研技术路线被质疑"为什么不能像Dify那样快?"——尽管Dify当时连10MB的非标PDF都处理不了;
- ●没人深入思考:我们的AI到底该如何为客户创造价值?仿佛"有AI"本身就已是答案。
我一度陷入维护与补坑的循环中,直到一个新项目将我拉出——那是一个完全重新构思的AI产品:
- ●我们重构了原来的RAG架构,突破5MB的txt文档需要数分钟的荒谬处理时长,实现真正可用的长文本、表格与PDF解析;
- ●我们搭出一套多智能体框架,不再直接调用OpenAI,而是具备路由、调度与回溯能力的自治系统——类似今日Coze或Joy Agents的早期形态。
它虽不完美,但在当时已属少见。我们隐隐觉得,这条路或许是对的。
但我们都没料到,变化竟来得如此之快,一切不对工程化和数据的押注,可能最终会一败涂地。
2025年
2025年春节前夕,DeepSeek 做出了一个影响行业走向的决策:发布新一代模型并选择全面开源。与之前许多机构将技术闭源作为竞争壁垒的做法不同,DeepSeek 将这一代技术霸权转化为开放工具,推动了一场由下至上的AI能力普及。
企业——尤其是中小型团队——终于有机会基于自身业务数据,训练出智能、专属且可控的AI能力。
这一释放,彻底激活了长尾场景中的AI应用浪潮。
它不仅降低了模型使用的门槛,更重塑了行业对"壁垒"的理解:从纯粹模型规模的竞争,转向数据质量、工程鲁棒性与多模型协同能力的综合较量。
这一实践,也象征着AI范式的一次静默转移:
从追求"AI即功能(AI as a feature)"或"AI即流程(AI as a process)",逐渐进入"模型即产品(Model as a Product)"的时代。
在这个时代中,AI系统不再被简单视为某个功能点或流程自动化工具,其本身就是一个完整、端到端、可持续演化的数字产品。它背后依赖的,不仅是算法创新,更是深度的领域认知、工程架构积累与对用户场景的闭环理解。
而近期Google Nano-banana在图像领域的突破,可能正是源自于谷歌数十年前为了识别不同文字而搜集的海量资料与标注数据,以及在OCR和文字结构方面的认知,从而从文字着手,终究突破了图像结构问题。
在这样快速迭代与高度不确定的AI浪潮中,技术决策者往往面临一系列根本性的路线选择:
- ●一派坚持"效益优先",主张将资源集中于可快速交付、具有明确商业回报的项目,认为过早投入底层架构或技术深耕是一种奢侈;
- ●另一派则倡导"架构优先",认为唯有通过持续积累领域数据、建设工程化的控制能力与可复用的AI基础设施,才能在模型持续突变的环境中保持系统级的竞争力。
我始终倾向于后者。但在真实商业环境中,这类选择往往不取决于技术理想,而取决于组织能否容忍沉默期的长度、是否愿意为尚未发生的回报提前布局。
我们常常陷入多重张力的拉扯之中:
- ●项目交付的即时价值与能力建设的长期回报
- ●经济效益的可见性与技术信念的无形投入
- ●追随外部技术风向与坚守自身的工程路线
也许没有人有答案,正如我站在Google Nano-banana的节点上,仍然在思考未来如何选择。
而真正的挑战,或许并不在于如何做出"正确"的选择,而是你能否即时勇敢做出下一个选择。
你会怎么选?
后记:仓促成文,毕竟给自己定的期限是今天,所以有很多不完善的地方(特别是2025年部分),欢迎讨论和指正。其实2025年变化太快,这也是这篇文章的构想之一,同时也是近半个月的方向迷茫,坚持做AI是不是正确的?以及什么才是正确的?至少如今的我,依然没有答案。本篇文章由DeepSeek依据完全中立的立场进行了一定程度的改写,本来想了不少逸闻,但后来想想还是收敛着吧。
严正声明:本文仅代表一家之言,可能和事实有所出入,如果你有意见,你是对的。