Taste Is All You Need

2026-04-10

deepseekLLMAI战略行业观察技术判断力

编者按：写在DeepSeek V4发布前夕

2017年，Google的八位研究员发表了一篇论文，叫《Attention Is All You Need》。标题里的"All You Need"有一种技术人的浪漫，好像在说：我们找到了那个唯一重要的东西，其他都可以放下。九年后的今天，我想借用这个句式，谈谈这九年里发生的事。

一

如果你在过去一年刷过任何中文社交媒体，你大概率见过这样的内容：一个标题党视频告诉你"不用AI就会被淘汰"，一个知识星球在卖"AI提效保姆级教程"，一个自媒体在渲染"一人公司月入十万"的叙事。做餐饮的在问怎么用AI写菜单，做会计的在问怎么用AI做报表，连你妈都开始转发"ChatGPT免费使用指南"。

大厂的步子更大。从套壳OpenClaw到自研大模型，从个人知识库到Skills技能市场，Agentic Workflow成了每一个产品经理PPT里必须出现的词，MCP和Skills成了每一个技术分享会上的热门话题。

焦虑是真实的。但绝大多数人的焦虑，不是因为理解了什么，而是因为不理解什么。一个做传统行业的老板听说AI能提效，但他不知道提什么效、怎么提效、提效之后省下来的人力该干什么。一个程序员被MCP、Skills、Harness Engineering这些概念轰炸，但他没有时间去搞清楚这些东西到底是什么、和十年前他写的微服务有什么关系。

当所有人都在跑的时候，没有人停下来问一句：我为什么要跑？

二

让我们先拆解那些制造焦虑的技术名词。

想象你经营一家餐厅。

LLM是你的主厨。这位主厨读过上万亿份菜谱，能根据你的要求做出几乎任何菜式。但他只会做菜，不会买菜、不会洗碗、不会招呼客人。他甚至有时候会"幻觉"，你让他做麻婆豆腐，他可能给你端上来一道从来没见过的创意菜。

Agent是你的餐厅经理。他站在主厨和整个餐厅之间，负责理解客人的需求、安排后厨的流程、协调买菜和上菜的节奏。

MCP是后厨的标准化传菜窗口。以前每家餐厅的传菜窗口都不一样，主厨想跟仓库沟通得重新学一套规矩。MCP做的事情很简单：统一这个窗口的规格。它被叫做"AI时代的USB-C接口"。

Skills是后厨的可插拔工具模块。今天需要做日料，就插上"刺身刀"这个技能；明天需要做烘焙，就换上"烤箱控制"技能。用到什么拿什么，不用的时候不占脑子。

Harness Engineering是后厨的管理制度和安全规范。主厨是天才，但天才也会犯错，可能把盐当成糖，可能忘了关火。Harness做的事情就是给主厨的行为加上护栏：输出验证、错误自愈、权限控制。

Agentic Workflow是整个餐厅的运营流程。它规定了"接单-备菜-烹饪-出品"的完整链路，但在某些环节，主厨可以自主发挥。像爵士乐：有基本的和弦进行，但演奏者可以在框架内即兴。

现在你看，这些概念并没有那么可怕。它们本质上是传统软件工程中"服务解耦"思想在AI时代的重新表达。API网关变成了MCP，微服务变成了Skills，Kubernetes变成了Harness，BPMN流程编排变成了Agentic Workflow。名字换了，内核没变。而能够看穿这件新衣服、认出里面那个老问题的人，并不多。

三

36氪旗下的"暗涌"团队在采访中写道："这位技术理想主义者，提供了目前中国科技界特别稀缺的一种声音：他是少有的把'是非观'置于'利害观'之前，并提醒我们看到时代惯性，把'原创式创新'提上日程的人。"

他们说的是梁文锋。

2025年1月20日，DeepSeek发布R1推理模型，一夜之间引爆全球。按照常理，这是一个乘胜追击的绝佳时机，融资、扩张、铺产品线、抢占市场份额。梁文锋没有这么做。当行业追逐用户数、融资额、估值时，他说"抢用户并不是我们的主要目的"。当竞争对手纷纷降价打价格战时，他说"我们只是按照自己的步调来做事，然后核算成本定价。原则是不贴钱，也不赚取暴利"。当记者问他为什么选择从模型结构切入而非直接做应用时，他的回答是："如果目标是做应用，那沿用Llama结构，短平快上产品也是合理选择。但我们目的地是AGI，这意味着我们需要研究新的模型结构，在有限资源下，实现更强的模型能力。"

在所有人都向东走的时候，他知道自己的方向。而知道方向的前提，是对这片土地足够熟悉。Attention机制不是从石头里蹦出来的，它借鉴了CNN的多头卷积核思想，继承了RNN的序列建模遗产。MoE也不是DeepSeek发明，早在1991年就被提出，只是现在才工程化可行。当你知道这些，就不会被每一个"新概念"吓到，大多数"创新"只是老问题的重新包装。

MiniMax创始人闫俊杰回忆，他和梁文锋2023年初认识后，梁有两件事对他启发很大：一是品牌做得非常好，另一个是"DeepSeek一开始没有产品，所以更聚焦"。在这个"既要又要"的时代，敢于说"我不要"，本身就是一种稀缺的能力。

但这种"不要"不是消极的回避。梁文锋判断"多模态生成不是智能的主线"，所以不跟风；判断"闭源护城河是短暂的"，所以坚持开源；判断"疲劳会损害判断力"，所以不卷加班。每一个"不"背后，都是对技术本质的理解。这种理解，是钻研的结果。

杨植麟的故事不太一样。月之暗面的起家法宝是"长文本"。2023年10月，杨植麟提出了一个在当时看来相当大胆的判断："Lossless long context is everything。"这个判断直接催生了支持20万汉字输入的Kimi Chat。但当整个行业开始疯狂卷长文本，腾讯、阿里纷纷跟进百万级上下文，杨植麟却在2024年底完成了一次关键转向：将重心转向"深度推理能力"。他的判断是：传统的预训练已经接近瓶颈，人类互联网积累的高质量文本数据已经快被用光了。他的答案是，通过让模型在推理过程中生成"思维链"，模型可以实现自我演化。"思考的重要性远大于交互。"交互只是必要条件，而思考决定了智能的上限。

《晚点》播客报道过一个细节：Kimi和阿里都决定在下一代旗舰模型中使用线性注意力（DeltaNet），而MiniMax则选择回归传统的full attention。这背后是一个技术判断：线性注意力虽然在绝对算力上优势有限，但在数据受限情况下学习效率更高，而高质量数据正是当前AI发展的最大瓶颈。同样是技术路线的分叉，你选择哪条路，取决于你对技术本质的理解，而不是哪条路看起来更"主流"。

Kimi团队在训练万亿参数模型时，发现用了11年的Adam优化器已经力不从心，于是转向了非主流的Muon优化器。训练过程中遇到了注意力分数爆炸的问题，他们没有退回AdamW，而是自己发明了MuonClip来解决。这种在约束条件下创造解的能力，不是凭空来的，它是无数次"遇到问题、理解问题、解决问题"之后长出来的东西。

DeepSeek的工程选择同样如此。当行业热议MCP、Skills、Harness Engineering时，DeepSeek在做什么？它在用TileLang替代Triton和CUDA，在探索mHC架构，在研究如何把文本转成图片再输入模型来做OCR。这些工作不性感，不符合"24小时不停歇的数字员工"这种自媒体叙事。但它们指向一个更本质的问题：智能的上限在哪里？

钻研给了你判断的基础，工程直觉给了你解决问题的能力。但还有一个更难的问题：在无数个可以做的事情里，你选择做哪个？

梁文锋说："一个人一天能高质量输出的时间很难超过6-8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源，得不偿失。"当Google、OpenAI、xAI的核心团队每周工作70到80小时，DeepSeek的大多数员工下午六七点就下班了。这不是懒散，这是对"什么是真正重要的事情"的判断。

杨植麟同样经历了这样的考验。2025年初DeepSeek冲击波席卷整个中国AI行业，月之暗面面临一个选择：继续烧钱投流抢用户，还是收缩战线押注技术？他砍掉了约70%的投流预算，停更了K1系列产品线，砍掉了多条C端泛娱乐产品线。代价是Kimi App的月活从2165万"腰斩"至903万。但Agent的浪潮来得太快。当OpenClaw证明"本地部署+工具调用"可以掀起全民热潮，Kimi迅速推出了Kimi Claw，预装OpenClaw的云端服务，内置K2.5模型，实现"零代码、零硬件、一键部署"。数据显示，Kimi的收入在20天内超越了2025年全年总和。这种快速跟进是妥协吗？未必。真正的判断力不是固执，而是知道何时坚持、何时转向。就像晚点报道里说的，梁文锋"在外部竞争加剧时，分辨噪音与信号，坚持该坚持的，改变要改变的"。

Agent的本质是什么？不是"让AI替你工作"，而是"重新定义工作的边界"。当MiniMax创始人闫俊杰说"OpenClaw是一个长期趋势的开端，而非一次性红利"，他看到的是Token消耗量6倍增长背后的结构性变化，人机交互正在从"对话"转向"执行"。但执行什么？这才是真正需要想清楚的事情。

我见过太多人，在LLM时代采取了两种极端的态度。第一种是"全面拥抱"，每一个新模型都试用，每一个新工具都安装，每一个新概念都学习。他们看起来很努力，实际上只是在用忙碌掩盖焦虑。第二种是"全面排斥"，"AI都是泡沫""这些概念过两年就没了"。他们选择待在舒适区里，用"务实"来包装"懒惰"。第一种人会被信息洪流淹没，第二种人会被时代洪流淘汰。而那些真正能站稳的人，往往有一个共同点：他们会花时间搞懂Transformer的基本原理，不需要能从零实现，但需要理解注意力机制到底在做什么。他们会花时间搞懂MoE的架构，不需要记住每一个变体，但需要理解"稀疏激活"这个核心思想为什么重要。只有理解了底层，才能判断表层；只有知道了"是什么"和"为什么"，才能判断"值不值得"。

DeepSeek的核心研究团队超过七成是本科生和硕士生，超过七成不到三十岁。梁文锋选人的标准不是学历和背景，而是"热爱和好奇心"。这种能力不是一种身份标签，它是一种可以培养的思维方式，前提是你愿意沉下去，而不是浮在表面。

八年后的今天，我们知道Attention不是All You Need。你还需要数据、算力、工程优化，你需要知道自己到底需要什么。

2026年的春天，OpenClaw的龙虾图标还在屏幕上挥舞钳子，地方政府还在出台"养虾补贴"，自媒体还在渲染"一人公司"的财富神话。但在这些噪声之下，真正重要的工作正在安静进行：DeepSeek在探索国产GPU适配，Kimi在优化长上下文架构，无数工程师在解决具体的显存溢出问题和梯度发散问题。

在这个信息爆炸的时代，最奢侈的不是算力，不是数据，而是高质量输出的时间。而决定这些时间投向哪里的，就是你的品味。

Attention is all you need？不。

Taste is all you need.

说明：Trae Solo为主要搜索整理工具，Kimi，DeepSeek亦有贡献