Kimi“打破Transformer架构”真相

本周,一篇题为《Attention Residuals》的论文,将Kimi推至全球人工智能领域的聚光灯下。论文作者之一,甚至是一名年仅十七岁的高中生。xAI首席执行官埃隆·马斯克与Google高级人工智能产品经理Shubham Saboo,亦公开发文祝贺。后者更宣称,Kimi正在触及Transformer架构中“长达十年无人触碰的部分”。

一时间,舆论场喧嚣四起。诸如“打破Transformer架构”、“硅谷破防”、“改写行业规则”等标题,迅速占据头条。

本文结论先行:这是一项天才般的构想,一次极其硬核的研究,但其本质并未脱离Transformer架构的基本框架。至于那些耸人听闻的标签,大多出自营销号之手,缺乏事实依据。

事实上,针对残差连接的探索并非孤例。从2022年的DeepNorm到2024年的DenseFormer,优化这一深度神经网络的基石,始终是业界持续发力的方向。Kimi研究团队并非此技术路线的开辟者,却在这条既有路径上,贡献了一个兼具激进性、优雅性与工程潜能的解决方案。

01

深层Transformer的结构性困境

在规模化法则的驱动下,提升模型性能的路径愈发依赖于参数与规模的扩张,神经网络层数的激增成为必然。然而,研究团队注意到一个关键现象:数据在神经网络层间传递时,存在着“PreNorm稀释问题”。PreNorm作为一种归一化技术,因其能有效稳定训练、加速收敛,已成为现代架构的主流选择。

为便于直观理解,不妨将一个大模型比作一条由一百名程序员组成的流水线。每位程序员对应一层神经网络,共同协作完成一个大型软件项目。

在传统的标准残差连接模式下,层与层之间的状态更新遵循如下公式:

当前层的输出,等于上一层输出与该层自身“修改部分”(即变换函数输出)的直接相加。类比而言,每位程序员接收前一位的代码,附上自己的修改后,传递给下一位。

这种简单累加的方式,在实践中会引发连锁问题。从数学视角审视,它将导致两个互为因果的训练困境:

其一,早期信息被稀释掩埋。首层神经网络提取的原始特征——例如token的初始语义——在经历数十层累加后,其相对权重被逐层消解,面目模糊。流水线末端的程序员,无从知晓源头究竟起草了怎样的底层逻辑。模型越深入,对早期低级特征的精确检索与利用便越困难。

其二,数值尺度膨胀与梯度失衡。残差的持续累加,如同项目代码库的无休止扩充。后期加入的程序员若想使自己的改动产生可见影响,不得不添加更大量的代码。对应到网络,深层必须输出数值规模更大的信号,才能在累加中占据一席之地。这一现象在正向传播中或许尚可容忍,但在反向传播中则潜藏危机:浅层梯度可能剧烈震荡,深层梯度却趋于微小,整个网络的梯度分布极度不均,训练极易失稳。

因此,研究的核心命题便凝练为:如何让处于网络最深层的“程序员”,依然能够清晰辨识并调用首位“程序员”所撰写的基础代码?

02

时间维度与深度维度的对偶映射

Kimi研究团队的关键洞见,在于识别出神经网络演进史中,时间序列处理与网络深度构建之间存在的对偶关系。

Transformer并非神经网络的初始形态。约在2018年前,循环神经网络(RNN)主导着序列建模。RNN以时序方式逐词处理文本,将历史信息压缩为单一隐藏状态向后传递。其后果是,后序单元只能接收一个混杂了过往信息的“压缩包”,早期输入极易被遗忘——这一过程,与标准残差连接的信息传递机制惊人地相似。

Transformer则凭借注意力机制,颠覆了这一范式。在自回归解码中,每一位置的词元,都能直接“回望”序列中所有前置词元,并通过加权聚焦关键信息。在时间维度上,注意力机制完美消解了信息压缩与遗忘的难题。

一个自然的类比由此浮现:能否在网络的深度维度上,扬弃残差连接所隐含的“RNN式思维”,转而引入注意力机制?

这正是Kimi论文的核心创新——注意力残差(Attention Residuals, AttnRes)。传统残差累加公式被重塑为一个基于Softmax的注意力加权形式:

新公式不再将浅层输出简单相加,而是为每一层配备一个“伪查询向量”,使其能够动态扫描之前所有层的输出,并为那些包含关键信息的层赋予极高的Softmax权重。无关信息层的权重则被压至近零。

这套内容感知、输入依赖的选择机制,本质上是将Transformer的核心理念横向迁移至残差路径的设计中。残差连接由此从被动的“信息搬运”,转变为主动的“按需检索”,有效规避了深层信息稀释的痼疾。

03

从理论构想到系统级工程

若仅止步于此,注意力残差仍可能囿于实验室的理想图景。真实的大模型工程实践,尤其面对千亿参数、分布式训练的严苛环境,直接套用该机制将引发显存与通信的“爆炸”。

在分布式训练普遍采用激活重算、流水线并行等技术的前提下,若强行实现跨层全连接,深层网络将不得不跨物理GPU节点,获取所有浅层完整的输出张量。随着层数L增加,跨阶段数据传输量与显存占用将以O(Ld)规模急剧膨胀,对算力集群构成灾难性负担。

因此,Kimi团队为解决工程落地而提出的分块注意力残差,展现出极高的实用智慧。

为将理论付诸实践,Kimi团队设计了一套精妙的降维方案:

核心思路是“分块降维”。

回到程序员流水线的比喻:要求末位程序员洞悉每一位前序同事的具体贡献,意味着每位前序程序员都需保留完整的“草稿箱”——这在物理空间上是不可行的。解决方案是,将程序员划分为N个部门。部门内部沿用标准残差,并将多层的输出压缩成一个单一的“块级表征”。部门之间则启用注意力残差机制,只需关注这N个块级表征,而无需追溯每个具体层级的输出。

这一简单而大胆的策略,直接将显存与通信的复杂度从O(Ld)降至O(Nd),为理论落地扫除了最大障碍。

其次,训练阶段的跨阶段缓存设计进一步优化了通信开销。在主流的交错式流水线调度模式下,每个物理GPU常需处理多个计算阶段。团队为此设计了本地缓存机制,确保先前接收到的块级表征驻留于本地显存,从而避免跨节点重复传输。此举大幅压缩了流水线并行的通信峰值,并使跨块通信时间可被计算过程有效掩盖。

最后,推理阶段的双阶段计算与在线Softmax融合,缓解了内存带宽瓶颈。推理时反复读取大量历史块级表征,易导致严重的内存带宽压力。研究团队采用双阶段策略:第一阶段以批处理方式计算跨块注意力,摊销内存读取成本;第二阶段顺序计算块内局部注意力。两阶段结果通过在线Softmax技术无缝合并,并与RMSNorm等算子进行内核融合。

技术细节无需赘述,但结果令人印象深刻:上述复杂的跨层注意机制叠加后,Block AttnRes带来的额外训练开销几乎可以忽略;在典型自回归推理场景中,端到端延迟增幅低于2%。Kimi团队在改写大模型底层网络拓扑的同时,实现了如此程度的优化,堪称工程上的奇迹。

04

实证效果与产业意义

最终,Kimi研究团队将这套架构部署至一个参数规模为48B(激活3B)的小型MoE模型,并使用高达1.4万亿token的数据进行真实环境预训练。

规模化法则曲线显示:在同等算力投入下,应用Block AttnRes的模型始终获得更低的损失值。简单换算,该架构使模型能达到传统基线模型需耗费1.25倍算力方可实现的性能。对于耗资动辄千万美元级的预训练阶段而言,“白嫖”25%的算力增益,蕴含着巨大的商业价值。

下游能力测试中,需要多步骤逻辑推理的任务获益最为显著:

GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%。这一结果在逻辑上高度自洽:数学推导与代码生成皆要求模型具备长时间推理与信息保持能力,AttnRes的深度检索机制恰好契合了这种“不忘初衷”的内在需求。

月之暗面创始人杨植麟在2026年英伟达GTC大会上的公开演讲,也从侧面印证了这套架构的价值:“要推动大模型智能上限持续突破,必须对优化器、注意力机制和残差连接等底层基石进行重构。”

当然,这项技术距离真正颠覆Transformer架构或改写行业规则,尚有显著距离。核心工程代码尚未完全开源,公开仓库中仅提供伪代码级别的演示。同时,论文中亮眼的实验结果,全部出自月之暗面自有的模型结构与私有数据。注意力残差能否在其他主流大模型上复现出稳定且显著的收益,仍有待第三方独立验证。

客观而言,在深度学习领域,对底层机制进行启发式修改的尝试并不鲜见。但一篇论文能获得马斯克的“光速”点赞,本身已说明其分量。

最准确的论断或许是:这是一个兼顾了学术美学与工程实用性、值得全行业深入跟踪的残差机制新设计。它并非推翻Transformer的神话,而是为这座大厦添上了一块关键的砖石。

而月之暗面借此向世界展示:在底层架构创新的“深水区”,中国AI企业同样有能力交出极具技术含量、堪称世界级水准的答卷。

苹果推送iOS 26.4与iPadOS 26.4 RC版 新增多项功能

【CNMO科技消息】当地时间3月18日,苹果公司向开发者及公开测试用户推送了iOS 26.4与iPadOS 26.4的候选发布版本(RC版)。此次更新距离第四个测试版发布仅一周时间,若无重大漏洞被发现,该版本将作为正式版面向全球用户推送。

已注册的开发者及参与公开测试的用户可通过iPhone或iPad的“设置”应用下载更新。具体路径为:进入“通用”选项,选择“软件更新”即可获取最新测试版本。

此次更新为iPhone和iPad带来了多项实用功能。在Apple Music应用中,新增的“播放列表创作空间”功能允许用户通过文本描述生成符合特定主题、情绪或活动的歌曲列表,例如输入“适合雨天阅读的轻音乐”即可自动生成对应歌单。此外,应用内还新增了“附近音乐会”功能,可基于用户位置推荐本地演出信息,并优化了专辑与播放列表的展示界面,采用全屏艺术封面设计提升视觉体验。

苹果播客应用首次支持原生视频内容创作与分发。更新后,创作者可直接通过播客应用上传视频节目,并利用苹果的个性化推荐算法及编辑精选功能扩大内容传播范围。视频内容将与现有音频播客共享订阅体系,为创作者提供更多变现途径。

系统层面新增了多个表情符号,包括长号、宝箱、扭曲表情、多毛生物、战斗云、虎鲸及山体滑坡等图案。安全功能方面,“被盗设备保护”默认开启,可防止设备丢失后被恶意重置;新增的“环境音乐”小组件允许用户快速访问白噪音资源;健康应用中则加入了“平均就寝时间”指标,帮助用户分析睡眠规律。

AI养肥了腾讯云,马化腾:首次规模化盈利

智东西

作者 | 李水青

编辑 | 云鹏

腾讯云的“上岸”时刻,比预想中来得更快一些。

智东西3月18日报道,刚刚,腾讯控股发布2025年第四季度及全年财报。财报显示,腾讯总营收达到7518亿元,其中To B业务收入创新高达2294亿元,企业服务持续提速,而最关键的一点是——腾讯云终于实现了年度“规模化盈利”

“2025年我们保持了健康的增长,云业务收入加速增长并实现了规模化盈利。”腾讯董事会主席兼CEO马化腾在财报中如是说。

这句话背后,是曾经长期被视为“烧钱机器”的云业务,开始真正转动利润飞轮。此前,国内云厂商中仅阿里云宣布全年规模化盈利,华为云尚未宣布盈利情况。

而这个利润飞轮转动,离不开AI。以元宝、Ima、QQ浏览器等为代表的一批腾讯系AI产品加速破圈,部分应用月活已经迈入千万乃至亿级门槛。

在今日业绩电话会议中,马化腾公开谈及“养虾”,他认为,龙虾(开源AI Agent框架OpenClaw的昵称)应该能够让AI落地到各种丰富的场景中,而不像过去那样完全集中在ChatBot里,可以结合微信的去中心化理念进行落地

今年以来,一支围绕龙虾等AI Agent构建的“工具军团”正在腾讯悄然成型——WorkBuddy、QClaw、云开发平台等产品,开始连接开发者、企业与场景。不久前,马化腾曾爆出在朋友圈转发腾讯全系“龙虾”产品矩阵推文,并称一批产品陆续赶来。

马化腾发文截图(图源:网络)

“这些人人鼓舞的初期迹象,表明AI投入将为我们开拓新的机遇。”马化腾说。

腾讯总裁刘炽平在腾讯业绩电话会议中透露,去年腾讯在AI新产品上投入180亿元,今年至少翻倍。

截至3月18日财报发布前的收盘时刻,腾讯股价同比上涨0.09%,报550.5港元/股(482.68元人民币/股),总市值50130亿港元(约合43954亿元人民币)。

腾讯股价走势(图源:腾讯自选股)

一、腾讯云赚钱了,12年烧钱终上岸

中国云计算行业曾经信奉一个铁律:这是一个需要十年才能看到回报的生意。对于腾讯云而言,这个预言恰好应验。

2013年腾讯云面向全社会全面开放、进入公有云市场,到2025年首次实现全年规模盈利,恰好走过了12个年头。腾讯财报显示,得益于供应链持续优化以及PaaS、SaaS业务的强劲增长,腾讯云在2025年首次实现全年规模盈利,迈入高质量发展新阶段。

此前1月中旬,腾讯云副总裁、产业生态合作业务负责人杨晨透露,腾讯公有云从2024年Q4已开始正式盈利,这与大幅剔除不健康的生意、专注平台产品有关。

过去几年,国内云厂商一度陷入残酷的“价格战”,为了抢占市场份额,在很多项目上各家甚至亏本赚吆喝。而腾讯云的这次盈利,预示着行业进一步从拼规模转向拼质量。背后至少可能有以下三层变化:

第一,是需求结构的变化。过去驱动云增长的主要是互联网客户,如游戏、电商、社交等,而现在,AI成为新的核心变量。大模型训练、推理、智能体部署,对算力、存储、数据处理提出了更高需求,直接拉动云资源消耗。

第二,是产品结构的变化。单纯卖IaaS资源利润薄,而腾讯近几年持续强化PaaS与SaaS能力,比如音视频、数据平台、AI工具链等,这些高附加值产品开始成为利润来源。

第三,是效率的变化。随着规模扩大与供应链优化,腾讯云的成本结构明显改善,这也是“规模盈利”成立的基础。

支撑这一转变的,是企业服务需求的变化。腾讯财报显示,其金融科技及企业服务板块(To B业务)全年实现营收2294亿元,占总营收的31%创历史新高,其中企业服务收入同比增长22%。这背后是AI带来的结构性机会——企业对AI算力、平台和工具的需求爆发,让云服务从过去的“卖资源”变成了“卖能力”。

从全球云计算市场来看,腾讯补上了与国际巨头的关键一环。无论是AWS、微软云还是谷歌云,虽然他们并未都明确公布云业务盈利额,但云业务确已成为利润核心。而现在,腾讯也进入同一叙事轨道。

二、狠砸857亿搞研发,预告AI大牛姚顺雨“大招”

如果要找腾讯2025年最舍得砸钱的地方,答案无疑是AI。

财报显示,腾讯2025全年研发支出高达857.47亿元,资本开支达791.98亿元,双双创下历史新高。这些钱流向了哪里?大模型和智能体是两大核心方向。

腾讯还在财报中预告,混元3.0大模型即将发布,其智能化水平相比混元2.0显著跃升。

这有望成为AI大牛姚顺雨加入腾讯之后的首次真正亮大招,所谓的“显著跃升”到底到什么程度?引发产业人士关注。

此前2025年12月17日,腾讯宣布官宣年仅27岁的前OpenAI研究员姚顺雨出任“CEO/总裁办公室”首席AI科学家,同时兼任AI Infra部与大语言模型部负责人,向总裁刘炽平、技术工程事业群总裁卢山双线汇报,成为混元研发核心掌舵人。

同期,腾讯以壮士断腕的决心,为混元3.0的研发在组织层面扫清障碍——启动大模型研发架构调整,新成立大语言模型部、多模态模型部、AI Infra部、AI Data部及数据计算平台部。这确立了大模型与AI产品一体化发展的思路。这释放了一个信号:AI不再是某个实验室的“副业”,而是贯穿所有业务的主线。

此前2月3日,姚顺雨加入腾讯混元团队首个成果发布曾引起高度关注,其推出一个专门评测大语言模型能否从上下文中学习新知识并正确应用的基准CL-bench,揭示大模型真正瓶颈。表现最好的GPT-5.1(high)任务成功率也仅有23.7%。混元3.0在解决这一“大模型真正瓶颈”上能力如何?答案很快将揭晓。

另外,财报还公布了腾讯在多模态能力上的进展:混元图像3.0生图模型上线元宝后,春节期间AI创作达到数十亿次;混元3D创作引擎保持行业领先,正在构建全球开放技术生态。

研发投入正在转化为实际的“技术壁垒”。截至2025年底,腾讯全球专利申请超9.4万件,授权超5.2万件。数字背后是一整套AI技术栈的完整布局——从底层的基础模型,到中间层的开发工具,再到上层的应用产品。

三、AI产品月活破圈,“小龙虾”智能体大军悄然成型

如果说To B业务体现的是赚钱能力,那么C端AI产品则体现的是规模能力。

最亮眼的是元宝。这款腾讯AI应用的前身正式进入“亿级俱乐部”,月活跃用户突破1亿。上线“元宝派”后,元宝正在探索AI社交、多模态等新能力,搜索能力也在加速迭代。

同时,围绕OpenClaw等需求爆发,腾讯迅速整合资源,推出WorkBuddy、QClaw、云开发平台等一系列产品,覆盖个人、开发者与企业三大场景。

腾讯这轮AI布局,并没有押注单一超级应用,而是走了一条更“腾讯式”的路径——多点开花。来看几个财报数据:

– Ima(AI工作台)月活突破1300万,知识库文件超4.2亿;

– QQ浏览器推出全场景AI+服务,AI能力累计服务超1.3亿用户;

– 搜狗输入法混元驱动AI语音识别准确率达98%,移动端月活超6.7亿;

– 腾讯会议AI用户量同比增长超150%;

– 腾讯云代码助手CodeBuddy覆盖超90%工程师,整体编码时间缩短40%。

当用户在用搜狗输入法语音输入、用腾讯会议记笔记、用QQ浏览器搜资料时,背后都有混元大模型在默默支撑。

结语:AI Agent爆火,喂饱云厂商

2025年,AI Agent成为科技圈最火的关键词,这一轮技术浪潮的直接受益者无疑是云厂商。Agent需要算力,需要模型服务、数据工具、安全防护,这些全部跑在云上。

对于腾讯云而言,2025年的盈利不是终点,而是一个新起点。当AI从烧钱变成赚钱,当云业务从成本中心变成利润中心,这家公司的增长逻辑正在被重写。

正如财报所言:“这些人人鼓舞的初期迹象表明,AI投入将为我们开拓新的机遇。”而刚刚盈利的腾讯云,正是这个新机遇里最值得期待的那一块拼图。

别克至境世家纯电版MPV上市:48.99万元,900V 6C超快充电池

IT之家 3 月 19 日消息,别克至境世家纯电版 MPV 于 3 月 17 日上市,售价 48.99 万元。

金石之约权益延续:至境世家纯电版 3 年内单次事故车损超购车价 30%,无需修旧车直接换新车。即日起特斯拉及上汽通用品牌车主增换购至境世家纯电版,即可享至高 20000 元专属补贴。此外还为用户提供价值 62000 元的 5 重专属上市购车权益。

IT之家从官方介绍获悉,该车长宽高为 5260mm*2023mm*1820mm,轴距为 3160mm,配备 330mm 超长三排滑轨、2056L 超大后备箱、225mm 超宽礼宾踏步、银翼礼宾光毯、532mm 分段式长扶手、手势智控滑移门等配置。新车提供哑光灰、珍珠白、幻影黑等车色,以及霞紫月白、琥珀暖棕两款内饰色。

该车为 MPV 全球首搭 900V 6C 超快充电池,CLTC 纯电续航里程 601 公里,提供 640kW 峰值充电功率,10 分钟 400km 快速补能;采用逍遥纯电双电机四驱,5.1s 零百加速,550N·m 最大扭矩,332kW 同级最强主电机

辅助驾驶方面,该车搭载逍遥智行高阶辅助驾驶以及 Momenta R6 强化学习大模型,提供行业领先“无断点”城市 NOA 领航辅助、行业顶尖全车位泊车辅助。

座舱方面,该车搭载纳诺怡 X 空气净化系统、母婴级亲肤面料、多功能拓展坞、-10°C~50°C 可制冰冷暖箱、多姿态零重力座椅、全车三排悬浮层、八屏 AI 数字座舱。

内存荒缓解成本高 美光警告:需投入巨资才能满足需求

美光

美光

凤凰网科技讯 北京时间3月19日,据彭博社报道,内存芯片巨头美光科技周三警告称,为满足激增的市场需求,公司将需在产能上投入巨资。这一表态给该公司整体乐观的业绩预测蒙上了一层阴影。

美光在周三发布的季度财报中表示,2026财年(截至今年8月)资本支出将超过250亿美元,超出分析师预计的224亿美元。美光还补充道,2027财年支出将同比增加逾100亿美元。

“我们预计2027财年资本支出将显著增加。”美光CEO桑杰·梅赫罗特拉(Sanjay Mehrotra)在电话会议上表示。

这一巨额支出反映出美光为满足市场对其内存芯片的旺盛需求而付出的代价,尤其是AI计算所用的高带宽内存。尽管美光销售额预计将持续飙升,但最新财报却遭遇投资者冷遇,股价一度下跌4.9%至每股439美元。(作者/箫雨)

更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。

武汉小米智能家电工厂正式对外开放参观,今起开启预约

IT之家 3 月 18 日消息,今天傍晚,小米集团大家电部总经理单联瑜在微博宣布:武汉小米智能家电工厂正式对外开放参观,3 月 & 4 月参观报名现已开启。为保证参观质量,每场参观限定 20 组米粉。

2025 年 10 月,小米智能家电工厂正式投产,该厂也是小米的第三座大型智能工厂,是小米大家电业务的重要里程碑,也标志着小米完整打通了产品设计-产品研发-产品制造的闭环。

作为新一代智能工厂,该工厂目前实现了高度自动化。在注塑与钣金车间已实现全流程 100% 自动化的“黑灯生产”,部分零部件公差可精准至 ±0.05 毫米。厂内配备一条总长 4.2 公里的空中运输带,用以连接六大车间,实现物料的跨区智能流转。

厂内还配备 161 台 AMR 自主移动机器人,能自主导航、智能避障,完成核心部件的精准配送。全厂智能物流覆盖率高达 94%,得益于智能系统,该厂平均每 6.5 秒就能下线一台空调。

此外,该厂还实现了关键部件 100% AI 视觉质检。传统制造往往只对整机进行全检,对零部件则采取抽检。小米智能家电工厂通过 AI 视觉质检技术,实现了对内外机主板、注塑件、钣金件、风轮、蒸发器、冷凝器等关键零部件的 100% 高精度检测。高像素相机扫描结合端侧 AI 模型,检测既快速又准确。

IT之家查询获悉,小米智能家电工厂是小米集团继汽车超级工厂、手机智能工厂后第三座大型智能工厂,也是小米首座大家电工厂,坐落于武汉市东湖高新区。2024 年 8 月,小米智能家电工厂签约落户武汉,同年 11 月 26 日奠基开工,2025 年 1 月 20 日完成结构性封顶。签约 3 个月开工、开工 2 个月封顶,效率刷新“光谷速度”。

35岁魔咒失效,中年人逆袭掌权AI革命?

我们播客的合作者姚嘉在最近这期节目里有一个很有趣的洞察,他把这称作AI创业大潮中的“老头乐现象”:

在这一轮AI革命中弄潮的,很多都是四五十岁的中年人,比如OpenAI 的 Altman,41 岁,Anthropic 的 Amodei,42 岁;DeepMind 的 Hassabis,48 岁。最近大红大紫的OpenClaw的开发者Steinberger,38 岁,都已经退休过一回了。

这个现象放在中国也有类似情况,智谱AI的张鹏44岁,DeepSeek的梁文锋41岁,阶跃星辰的姜大昕40岁,MiniMax闫俊杰也37岁了!

当然要说这群人是“老头乐”,那也有点伤人。不过说是中年革命,应该不过分。这跟30年前的互联网革命有很大不同,那几乎是一个辍学生和穿帽衫的男孩们统治的时代。

没人会真的把这群掌控千亿市值、定义技术走向的人称作“老头”,但姚嘉的调侃里藏着核心事实:本轮AI革命的话语权,牢牢掌握在中年人的手中。

当我们切开一个个AI项目的外壳,会发现这场革命的底层逻辑,从一开始就注定了——它偏爱相对更有积累、有情商、有敬畏心的中年人。这种权力的移转并非偶然,也与运气、情怀、年龄歧视没什么关系。

互联网是快消品,AI是重工业

创业类型有很多,但互联网创业的逻辑经历了30年的造富效应,最为人所熟知:找痛点、搭团队、快速迭代、冲高流量、抬高估值、上市变现,在某个赛道牢牢占据一块市场。

但在新的这轮AI创业浪潮中,无论是资源密集度的门槛,还是宏观经济周期的改变,加上监管环境、公众舆论对创业者的要求,都与互联网革命不可同日而语。

先看资金门槛,如果说互联网革命是生产洗衣粉的轻工业,AI革命就是生产万吨乙烯的大基建。

互联网刚刚萌芽时,创业成本低到惊人。几台廉价服务器、一个创业点子、几个同学伙伴,就能在车库中、宿舍里启动一个项目。

扎克伯格在哈佛宿舍搞Facebook,启动资金2000美元;马云创办阿里巴巴,启动资金靠“18罗汉”凑一凑,50万元人民币。那时候的创业,拼的是“敢想敢干”,资金从来不是最大的绊脚石。

AI创业则是另一番景象——它是资本密集型的“重工业竞赛”,没有巨额资金,连入场券都拿不到。训练一个领先的基座模型,需要数以万计的GPU、极高的电力供应,以及数亿甚至数十亿美元的持续投入。

巴克莱银行有个分析,AI基础设施的资本开支已进入超常增长阶段,预计到2030年,仅美国数据中心的电力需求就将比目前增长三倍,达到每年5600亿度电——等于新增了三个三峡大坝的发电量。

中国在本轮AI革命中主打一个价格便宜量又足,但这并不意味着中国的AI项目可以轻资产投入。以港股上市公司智谱为例,他们训练GLM-130B大模型时,使用96台DGX-A100(每台8×40G),预训练持续60天,等价于花费490万美元的云服务费用。

这还只是一个版本模型训练的基础费用与时长!

梁文锋的DeepSeek-V3模型,算是“低成本高效益”的典范,仅为GPT-4估算成本的二十分之一到十分之一,但训练成本依然达到557.6万美元。如果没有幻方量化数百亿规模、几十个百分点年收益率所形成的资金池,也无法支撑这样的研发投入。这种规模的资金门槛,绝大多数年轻创业者都无法承担。

资金之外,工程经验的门槛,也把大多数年轻人挡在了门外。

互联网创业的技术门槛相对较低,只要能快速实现MVP(最小可行产品),就能获得市场反馈、持续迭代。但AI创业不一样,大模型训练涉及分布式系统、优化算法、数据工程、硬件适配,每个环节都需要深厚的工程经验,每一步都不能出错。

还拿智谱AI举例。根据团队开源的研发时间线,GLM130B从2022年初开始进行多平台适配、算法与框架调试、数据准备和大规模测试,正式持续的预训练仅在5-7月这三个月内完成,大部分时间都用于“适应性调整和系统调整”,真正稳定训练的时间不到2个月。

这种“踩坑-填坑”的过程,与互联网时代的小步快跑、快速迭代格格不入,反而更类似于传统的工程建设。

姜大昕的经历也印证了这一点。这位47岁的阶跃星辰创始人,出身于微软亚研院,在自然语言处理、机器学习领域积累了数十年经验,是多个顶级会议的区域主席和期刊编委。

他创立阶跃星辰后,选择了“多模态统一”的技术路线——不是简单拼接不同模态模型,而是从架构层面实现原生融合。这种高难度的技术选择,需要对技术边界有清醒的认知,更需要深厚的工程功底,而这两种功力的积累都需要漫长的时间。

组织能力和人脉资源,更是中年创业者的“独家优势”。

互联网创业初期,团队规模小,管理简单,年轻人靠热情和冲劲就能带动团队。但AI创业需要的是规模化的组织管理,需要协调科研、工程、市场、资本等多个环节,需要整合学术、产业、资本等多方资源——这些能力,只能在长期的职业积累中慢慢沉淀。

张鹏的“清华系”网络,就是最好的例子。他在清华深耕二十余年,积累了强大的学术网络和产业资源,智谱AI的董事长刘德兵、首席科学家唐杰均为清华系人士,许多清华校友甚至辞掉国外顶级公司的工作,加入智谱AI。这种强大的人才感召力,不是年轻创业者能复制的。

闫俊杰虽然年仅37岁,处于中年与青年的边界,但他的组织能力同样来自长期积累。在商汤科技担任副总裁期间,他见证了“AI四小龙”的辉煌与困境,深刻理解上一代AI落地的痛点。创立MiniMax后,他打造了一支平均年龄29岁的年轻团队,却能凭借自己的管理经验,实现扁平化管理,让团队快速迭代产品,最终仅用4年就完成上市,刷新了AI公司的上市速度纪录。

说到底,互联网创业是“点子驱动”,AI创业是“积累驱动”。年轻人或许有更好的点子,但中年人有足够的资金、经验、人脉和组织能力,能把点子变成真正的技术、真正的产品、真正的商业价值。这不是年龄的胜利,而是积累的胜利。

资本也学会品尝时间的滋味

资本也是决定创业风向的重要一极。AI时代中年人能掌权,很大程度上,是资本的外部环境与行为模式发生了根本转变。

互联网时代,资本的主要玩法是普遍撒网、覆盖赛道,赛马中的领先者获得更高倍率的资本追投,直到上市套现。YC开创的5万美元占5%股份的玩法是这一潮流的集大成者,VC愿意把钱投给大量年轻创业者——哪怕他们没有经验、没有盈利模式,只要有一个概念足以让后面几轮投资者愿意接盘,资金就会纷至沓来。

杨致远、拉里佩奇、扎克伯格,这些杰出的年轻人奠定了这一模式的基础。直到Uber的超长规模融资难以为继,和WeWork带来的击鼓传花的破裂,这一模式终于失去了光环。

WeWork泡沫破裂、全球化被特朗普中止,加上疫情的冲击和元宇宙的伪命题,资本开始变得小心翼翼起来,LP(有限合伙人)对风险溢价的要求更高,VC再也不敢“广撒网、博概率”,而是转向“精挑细选、选赢家”。他们的投资逻辑,从“赌未来”变成了“求确定性”。而这种确定性,恰恰是中年创业者能提供的。

投资机构Antler做过一个统计,2021年,AI独角兽创始人的平均年龄达到了40岁的峰值。在真正具有高护城河的核心基座模型领域,经验的溢价依然存在,VC的资金依然优先流向那些拥有“深厚履历”的中年人。

OpenAI、Anthropic、xAI等头部初创公司的核心团队,几乎清一色是曾在谷歌、Meta或顶级研究机构沉淀超过十年的“老兵”。Sam Altman能拿到巨额融资,离不开他在Y Combinator担任总裁期间建立的投资人网络;Dario Amodei创立Anthropic后,能快速获得资本青睐,得益于他在OpenAI主导GPT-2、GPT-3安全评估的深厚经验;Demis Hassabis的DeepMind,能被谷歌以6.5亿美元收购,更是因为他在AI领域的长期积累和跨界视野。

VC对创业者的评估维度,也发生了彻底的转变。

互联网时代,VC最看重的是创业者“快速实现MVP的能力”,行业经验、资本调动能力都不是必需品,甚至偏好“外行颠覆者”。但在AI时代,资本的评估标准完全反转:他们更看重创业者的深层R&D背景、大规模算力管理经验,看重他们对垂直行业的深层认知,看重他们处理复杂算力合约、电力供应的能力,看重他们获取优质数据、算法专利、合规壁垒的能力。

在临门一脚的资本退出路径方面,AI时代的资本也更偏向中年创业者。互联网时代,VC主要依靠IPO退出,而AI时代,私募股权融资和巨头并购整合成为更为主流的退出方式——微软收购Nuance、入股OpenAI,谷歌收购DeepMind,都是典型案例。

在中国也有类似情况,基座大模型的主要玩家基本是字节、阿里这类超级巨头,即使有一些创业公司诞生,但大公司的战略投资也早早找上门去。

VC的算盘变了,创业的风向自然也变了。当资本不再追着“少年天才”跑,而是围着有积累、有确定性的中年人转,AI革命的话语权,自然就落到了中年人的手中。

反应过来的监管与媒体不再听之任之

如果说资本转向是“推力”,那么监管收紧和媒体叙事转变,就是“拉力”——它们共同将中年人推向了AI革命的前台。

互联网革命的来临,有很强的“猝不及防”意味。正如马云所说,“当年你爱搭不理,后来就高攀不起”。起于草莽的互联网产业,早期很像年轻人的玩闹,甚至诞生了给beg(乞讨)加个“.com”后缀就能上市薅钱的段子。

各国监管层对这种前所未有的事物抱持宽容的态度,媒体也更愿意报道少年英雄改变世界的吸睛故事(虽然后来更多的仅仅是少年暴富)。

但是经历过“颜色革命”、社会撕裂、贸易战、全球大流行之后,互联网对社会结构的深刻改变暴露无遗,无论是监管层还是媒体,对新的技术革命都更加审慎起来。

面对AI伦理、数据隐私、算法公平,这些监管要求,需要创业者不仅要有技术,还要懂政策、懂法律,且有足够的社会责任感。年轻人或许敢“先上车后补票”,但中年人更清楚,一旦触碰监管红线,所有的努力都将面临不可预测的未来。

所以在OpenAI如日中天的时候,仅仅因为伦理问题上的分歧,创始团队就会爆发伤筋动骨的宫斗;而在中国,监管层从大模型上线伊始就要求合规注册。随着AI安全与合规成为企业的必选项,那些懂政策、有经验、能平衡技术创新与合规要求的中年创业者,更容易获得政策支持。

Sam Altman的表现,就是最好的例子。作为OpenAI的CEO,他每年都要参加美国国会听证会,向议员们解释AI的技术边界、安全风险和监管建议。他善于将复杂的技术概念,转化为公众和监管层能理解的叙事,既能推动AI技术发展,又能满足监管要求。

2023年的“董事会风波”中,他快速复职,不仅展现了组织掌控力,更体现了他对监管环境、公众情绪的精准把握。

媒体叙事的转变,更是强化了中年创业者的优势。

Sam Altman和Demis Hassabis的媒体形象,不再是“反叛的创业者”,而是“科学家与思想家的结合体”。媒体报道他们时,更关注他们对AI安全的发声、对社会伦理的思考,关注他们如何负责任地推动技术发展。Demis Hassabis获得诺贝尔化学奖后,媒体重点报道的,不是他的“天才光环”,而是他如何通过跨学科积累,实现AI对科学的突破,以及他对“AI for Science”范式的长远规划。

这种叙事转变,背后是公众的心理需求。AI模型对普通大众而言是“黑盒”,是人们对未知的恐惧,需要通过信赖“成熟人物”来获得心理补偿。

路透社研究院的调查显示,62%的受访者更倾向于信任有专业人士监督的AI内容。媒体聚焦资深领袖,实际上是在向公众传递一种“技术在受控”的信号——而一个40岁、拥有深厚学术背景、谈吐得体的中年人,比一个20岁、穿着帽衫的年轻人,更能提供这种安全感。

中年人主导不意味着排斥年轻人

当然,中年人掌控AI革命,并不意味着年轻人在AI时代没有立足之地,在数十年一遇的巨大蛋糕面前,这两个群体并不是非此即彼的互斥关系,AI时代也同样涌现出了一批优秀的年轻创业者。

月之暗面的杨植麟出生于1992年,2015年以清华计算机系第一名毕业,随后获得卡内基梅隆大学博士学位,师从苹果AI研究负责人Ruslan Salakhutdinov。2023年,31岁的他创立月之暗面(Moonshot AI),推出Kimi智能助手,以“长文本处理”为核心差异化,迅速获得市场认可。2024年,他完成超10亿美元融资,估值达25亿美元,成为国内AI大模型公司单轮最高金额融资的获得者。

张祥雨则是“技术天才”的另一典范。这位1990年出生的研究者,是ResNet残差网络论文的第一作者,论文总引用数超30万次,是深度学习领域最具影响力的研究者之一。2023年,他加入姜大昕的阶跃星辰,担任首席科学家,与姜大昕形成“老中青”技术梯队,为阶跃星辰的多模态技术突破提供了核心支撑。

在AI的实施层,年轻人更是占据了主导地位。

港股上市公司MiniMax的员工中,平均年龄仅29岁,73.8%是研发人员,三分之一有海外背景——这些年轻人,是MiniMax快速迭代产品、实现4年上市的核心力量。智谱AI的员工中,也有大量“90后”“95后”年轻工程师,他们负责技术实现,将张鹏等中年领导者的战略想法,转化为具体的产品和技术。

年轻人是“技术原住民”,他们成长于互联网时代,对新技术、新产品的接受度极高,能快速捕捉行业趋势,敢于尝试颠覆性创新。他们也很少有家庭和财务的双重压力,没有过高的机会成本,能够承受更高的创业风险,能够全身心投入到创业中。他们可以在车库里、宿舍里,用最低的成本尝试新的想法,哪怕失败,也能快速调整、重新出发——这种“无产者”的创新勇气,是他们独特的资源优势。

四个方向与一个期待

AI革命给中年人带来了前所未有的机遇,但这并不意味着,所有人都能抓住这份机遇。

不少中年人,在面对AI浪潮时,会陷入两种极端:要么盲目自信,认为自己的经验足以应对一切,不会被AI所取代;要么过度焦虑,担心自己的经验被新技术淘汰,害怕被年轻人超越。这两种心态,都无法抓住AI时代的机遇。

事实上,中年人要抓住AI革命的机遇,关键不是对抗年龄,而是发挥积累的优势——把自己多年的经验、人脉、资源,与AI技术结合起来,实现厚积薄发。结合一些AI领域先行者的经历,我们总结出四个实战方向供参考。

第一,做领域问题的精准定义者,而非一线执行者。

中年人最大的财富,不是会写代码、会调模型,而是看透了行业中哪些问题是“真正值得解决的”。

龙虾之父Peter Steinberger就是最好的例子。他有过成功的创业经历,其项目被大公司收购,已经财务自由。制作Open Claw(当时还叫Clawdbot)的灵感,来自他旅行时的一个动念:现在的AI大多是一问一答式操作,能不能让它部署在本地电脑,通过WhatsApp等IM软件,直接命令它干活呢?

在推出Open Claw之前,Steinberger已经制作过44个AI项目,结合第一次创业经验,他清晰地知道企业管理者对AI的需求是什么。正是这种时间和经历的积累,助推了开源史上攀升最快项目的诞生。

第二,构建知识图谱护城河,打造不可替代的竞争力。

随着通用大模型的普及,基础模型的能力会逐渐趋同,真正的竞争力,来自将AI与企业内部的非公开、高价值数据相结合。中年人多年积累的行业Know-how、隐性知识,正是构建这种竞争力的核心资源。

梁文锋的DeepSeek,就是靠这种“知识护城河”脱颖而出。他凭借量化投资背景带来的“系统优化”思维,将多年积累的算法经验,融入大模型训练中,专注于“模型架构创新”和“训练效率优化”,在MoE(混合专家模型)、MLA(多头潜在注意力)等技术点形成独特优势,最终以极低的训练成本,实现了接近GPT-4的性能。

中年从业者可以推动自己的组织,建立“语义层”和企业知识图谱,将自己多年积累的隐性知识数字化,然后与AI技术结合,打造出具有行业特色的AI产品。这种将行业经验与算法结合的能力,是刚毕业的AI博士、年轻创业者都难以复制的,也是中年人的核心竞争力。

第三,掌握“敏捷领导力”,做好人机协同的管理者。

AI正在将“固定职位”拆解为“动态任务流”,中年管理者不能再停留在“管理人”的层面,而要转向“管理AI协同的人机系统”。年轻人擅长利用AI工具提高执行效率,中年人则擅长协调资源、统筹全局,两者结合,才能实现效率最大化。

闫俊杰的管理方式,值得中年创业者借鉴。他创立的MiniMax,团队平均年龄仅29岁,他没有采用传统的层级管理,而是打造了扁平化的团队结构,充分发挥年轻人的积极性和创造力。

同时,他利用自己的行业经验,为团队定方向、控风险,将AI工具集成到产品迭代的每一个环节,实现了“年轻团队+中年掌舵”的高效协同,最终仅用4年就完成上市。

中年管理者要学会从“任务指派者”变为“工作流集成商”,将AI集成到决策工作流中,确保AI在决策发生的瞬间,就能提供支持。同时,要学会激励年轻团队,尊重年轻人的创新想法,实现“经验+活力”的双赢。

第四,发挥成熟优势,做好监管沟通者和伦理把关者。

随着AI监管的收紧,信任成为最稀缺的资源。中年人在建立共识、维护透明度、遵循道德规范方面的经验,AI无法模拟,也无法跨越式积累。这种“软实力”,将成为中年创业者在AI时代的另一核心优势。

Dario Amodei就是靠这种“软实力”,赢得了资本和公众的信任。他从OpenAI出走后,始终坚持“有益、诚实、无害”的AI开发理念,通过Constitutional AI技术,实现对模型行为的精细控制,主动应对AI伦理和监管挑战。这种对伦理和合规的坚守,让Anthropic在激烈的竞争中,占据了独特的优势。

中年从业者在AI项目中,要率先建立合规与安全框架,通过建立“人类审查循环”,消除算法偏见,增强组织内外部对AI系统的信任。同时,要关注AI的长期社会影响,确保技术发展符合公司价值观和监管要求,这样才能实现长期可持续发展。

如果说互联网革命像是一场草原上的野火,它迅速焚烧旧有的植被,让新苗得以在废墟上肆意生长。那么AI革命,更像是一场深层的地质运动。它没有烈火烹油的喧嚣,却在缓慢而有力地重塑整个人类社会的底层板块。

当AI真正可用后,执行的成本会被无限降低。但人类多年积累的经验、洞察、人脉和责任,正在成为最稀缺、最不可替代的资源。这一次,机会站在长时间的积累一边。

亿纬锂能龙泉三号&龙泉四号全固态电池成功下线

IT之家 3 月 18 日消息,亿纬锂能官方今日宣布,3 月 17 日,亿纬锂能龙泉三号 & 龙泉四号全固态电池下线仪式在成都基地圆满举行。

亿纬锂能表示,此次龙泉三号、龙泉四号全固态电池的成功下线,是公司技术创新的重要里程碑,将推动行业向更高安全标准、更高能量密度方向发展。

IT之家查询获悉,龙泉三号全固态电池主要面向消费领域,可以在 2MPa 以下工作,特点是高体积能量密度;龙泉四号全固态电池主要面向动力领域,容量提升至 60Ah,目前可以在≤5MPa 压力下循环,初步具备实用化潜力。

公开资料显示,2022 年,亿纬锂能布局落子成都经开区,建成投产 9GWh 的产线,启动了固态电池研究院成都量产基地的建设,逐步形成“消费电池、动力电池、储能电池”全系产品矩阵,应用于新能源汽车、低空经济、人形机器人、电动工具等领域。

去年,亿纬锂能固态电池研究院成都量产基地完成了 10~60Ah 全固态电池制造能力建设,并初步打通了固态电池生产制造工艺,发布了龙泉二号全固态电池,主要面向人形机器人、低空飞行器以及 AI 等高端装备应用领域。

纳米颗粒在人体内“教导”T细胞精准“杀敌”

财联社3月19日电,美国约翰斯·霍普金斯大学医学院的科学家宣布在工程化免疫细胞疗法领域取得一项重要进展。他们开发出一种新型可生物降解纳米颗粒,能在体内直接“教导”并重编程免疫T细胞,使其获得识别并清除致病细胞的能力。这项研究为治疗癌症及自身免疫性疾病(如系统性红斑狼疮)提供了新策略。相关论文发表在最新一期《科学进展》杂志上。