编者按:写在DeepSeek V4发布前夕
2017年,Google的八位研究员发表了一篇论文,叫《Attention Is All You Need》。标题里的"All You Need"有一种技术人的浪漫,好像在说:我们找到了那个唯一重要的东西,其他都可以放下。九年后的今天,我想借用这个句式,谈谈这九年里发生的事。
一
如果你在过去一年刷过任何中文社交媒体,你大概率见过这样的内容:一个标题党视频告诉你"不用AI就会被淘汰",一个知识星球在卖"AI提效保姆级教程",一个自媒体在渲染"一人公司月入十万"的叙事。做餐饮的在问怎么用AI写菜单,做会计的在问怎么用AI做报表,连你妈都开始转发"ChatGPT免费使用指南"。
大厂的步子更大。从套壳OpenClaw到自研大模型,从个人知识库到Skills技能市场,Agentic Workflow成了每一个产品经理PPT里必须出现的词,MCP和Skills成了每一个技术分享会上的热门话题。
焦虑是真实的。但绝大多数人的焦虑,不是因为理解了什么,而是因为不理解什么。一个做传统行业的老板听说AI能提效,但他不知道提什么效、怎么提效、提效之后省下来的人力该干什么。一个程序员被MCP、Skills、Harness Engineering这些概念轰炸,但他没有时间去搞清楚这些东西到底是什么、和十年前他写的微服务有什么关系。
当所有人都在跑的时候,没有人停下来问一句:我为什么要跑?
二
让我们先拆解那些制造焦虑的技术名词。
想象你经营一家餐厅。
LLM是你的主厨。这位主厨读过上万亿份菜谱,能根据你的要求做出几乎任何菜式。但他只会做菜,不会买菜、不会洗碗、不会招呼客人。他甚至有时候会"幻觉",你让他做麻婆豆腐,他可能给你端上来一道从来没见过的创意菜。
Agent是你的餐厅经理。他站在主厨和整个餐厅之间,负责理解客人的需求、安排后厨的流程、协调买菜和上菜的节奏。
MCP是后厨的标准化传菜窗口。以前每家餐厅的传菜窗口都不一样,主厨想跟仓库沟通得重新学一套规矩。MCP做的事情很简单:统一这个窗口的规格。它被叫做"AI时代的USB-C接口"。
Skills是后厨的可插拔工具模块。今天需要做日料,就插上"刺身刀"这个技能;明天需要做烘焙,就换上"烤箱控制"技能。用到什么拿什么,不用的时候不占脑子。
Harness Engineering是后厨的管理制度和安全规范。主厨是天才,但天才也会犯错,可能把盐当成糖,可能忘了关火。Harness做的事情就是给主厨的行为加上护栏:输出验证、错误自愈、权限控制。
Agentic Workflow是整个餐厅的运营流程。它规定了"接单-备菜-烹饪-出品"的完整链路,但在某些环节,主厨可以自主发挥。像爵士乐:有基本的和弦进行,但演奏者可以在框架内即兴。
现在你看,这些概念并没有那么可怕。它们本质上是传统软件工程中"服务解耦"思想在AI时代的重新表达。API网关变成了MCP,微服务变成了Skills,Kubernetes变成了Harness,BPMN流程编排变成了Agentic Workflow。名字换了,内核没变。而能够看穿这件新衣服、认出里面那个老问题的人,并不多。
三
36氪旗下的"暗涌"团队在采访中写道:"这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把'是非观'置于'利害观'之前,并提醒我们看到时代惯性,把'原创式创新'提上日程的人。"
他们说的是梁文锋。
2025年1月20日,DeepSeek发布R1推理模型,一夜之间引爆全球。按照常理,这是一个乘胜追击的绝佳时机,融资、扩张、铺产品线、抢占市场份额。梁文锋没有这么做。当行业追逐用户数、融资额、估值时,他说"抢用户并不是我们的主要目的"。当竞争对手纷纷降价打价格战时,他说"我们只是按照自己的步调来做事,然后核算成本定价。原则是不贴钱,也不赚取暴利"。当记者问他为什么选择从模型结构切入而非直接做应用时,他的回答是:"如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。"
在所有人都向东走的时候,他知道自己的方向。而知道方向的前提,是对这片土地足够熟悉。Attention机制不是从石头里蹦出来的,它借鉴了CNN的多头卷积核思想,继承了RNN的序列建模遗产。MoE也不是DeepSeek发明,早在1991年就被提出,只是现在才工程化可行。当你知道这些,就不会被每一个"新概念"吓到,大多数"创新"只是老问题的重新包装。
MiniMax创始人闫俊杰回忆,他和梁文锋2023年初认识后,梁有两件事对他启发很大:一是品牌做得非常好,另一个是"DeepSeek一开始没有产品,所以更聚焦"。在这个"既要又要"的时代,敢于说"我不要",本身就是一种稀缺的能力。
但这种"不要"不是消极的回避。梁文锋判断"多模态生成不是智能的主线",所以不跟风;判断"闭源护城河是短暂的",所以坚持开源;判断"疲劳会损害判断力",所以不卷加班。每一个"不"背后,都是对技术本质的理解。这种理解,是钻研的结果。
杨植麟的故事不太一样。月之暗面的起家法宝是"长文本"。2023年10月,杨植麟提出了一个在当时看来相当大胆的判断:"Lossless long context is everything。"这个判断直接催生了支持20万汉字输入的Kimi Chat。但当整个行业开始疯狂卷长文本,腾讯、阿里纷纷跟进百万级上下文,杨植麟却在2024年底完成了一次关键转向:将重心转向"深度推理能力"。他的判断是:传统的预训练已经接近瓶颈,人类互联网积累的高质量文本数据已经快被用光了。他的答案是,通过让模型在推理过程中生成"思维链",模型可以实现自我演化。"思考的重要性远大于交互。"交互只是必要条件,而思考决定了智能的上限。
《晚点》播客报道过一个细节:Kimi和阿里都决定在下一代旗舰模型中使用线性注意力(DeltaNet),而MiniMax则选择回归传统的full attention。这背后是一个技术判断:线性注意力虽然在绝对算力上优势有限,但在数据受限情况下学习效率更高,而高质量数据正是当前AI发展的最大瓶颈。同样是技术路线的分叉,你选择哪条路,取决于你对技术本质的理解,而不是哪条路看起来更"主流"。
Kimi团队在训练万亿参数模型时,发现用了11年的Adam优化器已经力不从心,于是转向了非主流的Muon优化器。训练过程中遇到了注意力分数爆炸的问题,他们没有退回AdamW,而是自己发明了MuonClip来解决。这种在约束条件下创造解的能力,不是凭空来的,它是无数次"遇到问题、理解问题、解决问题"之后长出来的东西。
DeepSeek的工程选择同样如此。当行业热议MCP、Skills、Harness Engineering时,DeepSeek在做什么?它在用TileLang替代Triton和CUDA,在探索mHC架构,在研究如何把文本转成图片再输入模型来做OCR。这些工作不性感,不符合"24小时不停歇的数字员工"这种自媒体叙事。但它们指向一个更本质的问题:智能的上限在哪里?
钻研给了你判断的基础,工程直觉给了你解决问题的能力。但还有一个更难的问题:在无数个可以做的事情里,你选择做哪个?
梁文锋说:"一个人一天能高质量输出的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源,得不偿失。"当Google、OpenAI、xAI的核心团队每周工作70到80小时,DeepSeek的大多数员工下午六七点就下班了。这不是懒散,这是对"什么是真正重要的事情"的判断。
杨植麟同样经历了这样的考验。2025年初DeepSeek冲击波席卷整个中国AI行业,月之暗面面临一个选择:继续烧钱投流抢用户,还是收缩战线押注技术?他砍掉了约70%的投流预算,停更了K1系列产品线,砍掉了多条C端泛娱乐产品线。代价是Kimi App的月活从2165万"腰斩"至903万。但Agent的浪潮来得太快。当OpenClaw证明"本地部署+工具调用"可以掀起全民热潮,Kimi迅速推出了Kimi Claw,预装OpenClaw的云端服务,内置K2.5模型,实现"零代码、零硬件、一键部署"。数据显示,Kimi的收入在20天内超越了2025年全年总和。这种快速跟进是妥协吗?未必。真正的判断力不是固执,而是知道何时坚持、何时转向。就像晚点报道里说的,梁文锋"在外部竞争加剧时,分辨噪音与信号,坚持该坚持的,改变要改变的"。
Agent的本质是什么?不是"让AI替你工作",而是"重新定义工作的边界"。当MiniMax创始人闫俊杰说"OpenClaw是一个长期趋势的开端,而非一次性红利",他看到的是Token消耗量6倍增长背后的结构性变化,人机交互正在从"对话"转向"执行"。但执行什么?这才是真正需要想清楚的事情。
我见过太多人,在LLM时代采取了两种极端的态度。第一种是"全面拥抱",每一个新模型都试用,每一个新工具都安装,每一个新概念都学习。他们看起来很努力,实际上只是在用忙碌掩盖焦虑。第二种是"全面排斥","AI都是泡沫""这些概念过两年就没了"。他们选择待在舒适区里,用"务实"来包装"懒惰"。第一种人会被信息洪流淹没,第二种人会被时代洪流淘汰。而那些真正能站稳的人,往往有一个共同点:他们会花时间搞懂Transformer的基本原理,不需要能从零实现,但需要理解注意力机制到底在做什么。他们会花时间搞懂MoE的架构,不需要记住每一个变体,但需要理解"稀疏激活"这个核心思想为什么重要。只有理解了底层,才能判断表层;只有知道了"是什么"和"为什么",才能判断"值不值得"。
DeepSeek的核心研究团队超过七成是本科生和硕士生,超过七成不到三十岁。梁文锋选人的标准不是学历和背景,而是"热爱和好奇心"。这种能力不是一种身份标签,它是一种可以培养的思维方式,前提是你愿意沉下去,而不是浮在表面。
八年后的今天,我们知道Attention不是All You Need。你还需要数据、算力、工程优化,你需要知道自己到底需要什么。
2026年的春天,OpenClaw的龙虾图标还在屏幕上挥舞钳子,地方政府还在出台"养虾补贴",自媒体还在渲染"一人公司"的财富神话。但在这些噪声之下,真正重要的工作正在安静进行:DeepSeek在探索国产GPU适配,Kimi在优化长上下文架构,无数工程师在解决具体的显存溢出问题和梯度发散问题。
在这个信息爆炸的时代,最奢侈的不是算力,不是数据,而是高质量输出的时间。而决定这些时间投向哪里的,就是你的品味。
Attention is all you need?不。
Taste is all you need.
说明:Trae Solo为主要搜索整理工具,Kimi,DeepSeek亦有贡献