每经AI快讯,千寻智能官微3月19日消息,近日,具身智能企业千寻智能与京东集团正式签署战略合作协议。双方宣布将在2026年至2029年期间,围绕消费级产品定制、技术合作、场景开放落地及营销共建等方面展开深度合作,共同推动具身智能技术在零售领域的应用加速。
标签: [db:标签]
大模型“想太多干太少”?国内AI团队祭出多个技术大招,破解成本困局

作者 | 云鹏
编辑 | 漠影
当前,“龙虾”火爆全球,从消费者到企业,纷纷开始“养龙虾”,但在部分提高效率的同时,这种AI智能体所带来的问题也同样突出。
除了数据安全,处理复杂任务分分钟烧掉海量Token的问题也困扰不少用户,干活一时爽,一看账单傻眼。

海外有用户曝出,他只是问了一句“你好”,模型进行大量思考直接烧掉数十美元。
如果说个人场景尚且可以灵活处理,但企业级AI应用落地,则必须要面对高Token消耗带来的成本挑战。
OpenClaw这类Agent其实只是AI的“手脚”,背后的模型才是真正的“大脑”,要解决高消耗高成本的问题,仍然要从核心的模型入手。
当前企业在Agent模型底座的选择上面临着“两难困境”,想要高智能,就必须面对成倍Token消耗,以及推理延迟的增加,而选择低成本,则往往需要牺牲模型能力。
对企业来说,任何无效Token消耗都是真金白银的流失,因此在当下,模型效率已经成为决定企业智能的核心要素。
近来,国内AI大模型团队YuanLab.ai发布并开源了Yuan3.0 Ultra多模态基础大模型,在国内外引起较高关注。

发布当天,其在GitHub上公布了完整的模型权重、代码和技术报告:

「开源地址 」
GitHub项目:
https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
论文链接:
https://arxiv.org/abs/2601.14327
值得一提的是,这是当前业界仅有的三个万亿级开源多模态大模型之一,其最核心的创新之处在于通过LAEP技术——基于学习的自适应专家剪枝,在不破坏功能结构的情况下剪除冗余,实现了33%的参数减少,且训练速度还暴涨了49%,输出时间缩短14%的同时准确率提高16%。
可以说是真正的鱼和熊掌兼得,成本和智能“既要又要”。
从检索增强生成、多模态文档理解、表格数据分析、内容摘要与工具调用等任务,Yuan3.0 Ultra在多个企业级AI常常面对的核心场景和难点方面表现突出。

在YuanLab.ai团队看来,效率不是成本优化的“可选项”,而是模型能力的“组成部分”,他们的目标就是让企业能以更少的算力开销,产生更大的智能。
Yuan3.0 Ultra证明了旗舰级智能可以通过更高效、更经济、更可控的方式实现,可以说给企业Agent落地提供了核心能力支撑。
一、三项关键技术创新背后,如何实现“有效思考”与“极致降本”?
26年初,YuanLab.ai团队就已经发布了Yuan3.0 Flash模型,聚焦推理端效率,减少无效token消耗,通过RIRM、RAPO等核心技术创新打破了“高智能必须高Token消耗”的悖论,验证了“更少算力,并不意味着更弱能力”。
而这次发布的Yuan 3.0 Ultra旗舰模型,进一步裁除冗余专家,让模型结构更加精炼,通过LAEP、LFA、RIRM等技术实现了“不需要无节制堆算力就能获得更强智能”。
整体来看,Yuan 3.0 Ultra从预训练架构、注意力机制到推理范式,进行了全链路技术创新。基于“有效思考”技术体系,其实现了“有效规模”的进一步突破,可以说解决了大模型“参数虚高、算力浪费、落地困难”的痛点。
具体来看,其核心突破点之一是自适应专家裁剪算法(LAEP),简单来说,专家不需要更多,而在于更有效。
如果把MoE架构大模型比作一个百人研发团队,其核心优势本该是“专业分工、高效协作”,但在真实的工程实践中,却出现了严重的“团队管理失控”。
MoE大模型普遍存在预训练专家负载严重不均衡的问题,训练稳定阶段最高与最低专家负载差异可达近500倍。
少数专家承担了绝大多数计算任务,而大量低贡献专家长期处于低负载状态,造成算力资源的严重浪费,也导致模型参数虚高、利用效率低下,企业落地成本居高不下。

预训练过程中各层专家token分布的演化趋势(左列)及稳定阶段负载分布(右列)
简单来说:少数几个专家干了绝大多数的活,部分专家全程“摸鱼”。
行业主流MoE模型(Mixtral、DeepSeek-V3)普遍依赖辅助损失函数来约束专家利用率,“精度与均衡不可兼得”。
YuanLab.ai团队研发了自适应专家裁剪算法(LAEP),基于MoE模型预训练过程中自然形成的专家功能专一化规律,动态识别并剔除低贡献冗余专家,对模型结构进行自适应裁剪与专家重排。
具体来说,就是“多劳多得”、“按劳分配”,计算资源倾斜给价值和贡献更高的专家。
这一过程类比人类大脑学习过程中对神经连接的优化重组——保留高效信息处理通路,削弱低效连接,在维持甚至强化模型专业化能力的同时,提升算力利用效率。
从实际效果来看,预训练初始1515B参数优化至1010B,参数规模减少33.3%;预训练算力效率提升49%、单次推理仅激活68.8B参数;性能方面也处于头部阵营。

Yuan3.0 Ultra采用LAEP+专家重排机制有效提升机制训练效率
核心突破点之二,是语义建模能力升级,基于LFA技术强化长上下文语义关联能力。
在企业实际应用中,模型常常需要处理图文混排的财报、多页技术文档、跨文档知识检索等复杂任务。这类场景对长上下文语义关联能力要求极高——模型必须能从大量信息中精准捕捉关键内容,忽略无关干扰。
为此,Yuan3.0 Ultra引入了局部过滤注意力机制(Localized Filtering-based Attention,LFA),实现对语义关联的精准筛选与强化,有效过滤无效注意力干扰,提升模型对长上下文、复杂语义关系的建模能力,从而更准确地理解各种信息来源的脉络。
从实际效果来看,面对企业级场景中长上下文的图文混排文档解析、跨文档知识检索、多步骤Agent推理等需求,模型在长文本、复杂结构信息处理中都能保持较高准确率。
核心突破点之三,是升级“有效思考”范式,利用RIRM+RAPO技术体系,减少无效Token。这也是聚焦推理阶段另一核心浪费——大模型“过度反思”。
在Agent连续任务链中,大模型常常陷入“过度反思”——明明已经得出正确答案,却还要反复推敲,导致Token消耗成倍增加,响应延迟拉长。这种无效反思在复杂任务中尤为突出,是企业级AI落地的一大成本黑洞。
Yuan3.0 Ultra从强化学习层面入手,通过RIRM+RAPO两大技术创新根治这一顽疾:
反思抑制奖励机制(RIRM)就是在万亿参数规模的大规模强化学习中,对反思次数引入精细化奖励约束,教导模型在复杂企业级任务中,获得可靠答案后主动停止无效反思,同时保留深度推理能力,从根本上修正“过度思考”行为。

采用优化后的RIRM训练Yuan3.0 Ultra的动态过程,训练准确率在整个训练过程中呈现稳步上升趋势,平均响应长度随着训练的进行逐渐下降
反思感知自适应策略优化算法(RAPO)则针对万亿级MoE模型强化学习训练不稳定、效率低的行业难题,完成了算法架构的深度优化,进一步提升大规模MoE模型的训练稳定性与训练效率。
总体来看,LAEP决定了模型“用多少有效参数去学”、LFA决定了模型“如何精准捕捉有效信息”、RAPO保障了模型“如何稳定高效地学习”、RIRM明确了模型“推理到什么程度该停”。
YuanLab.ai团队一系列底层模型架构创新,让万亿级旗舰模型实现了“企业用得起、用得好、能落地”。
二、吃透企业AI应用核心场景,五项关键能力出众
诸多技术创新加持下,Yuan3.0 Ultra在大部分核心企业场景中都有出色表现,用团队的话来说,Yuan3.0 Ultra从设计阶段就针对企业真实应用场景进行能力构建,是一个能够驱动复杂智能体(Agent)的“核心引擎。
在检索增强生成(RAG)领域,Yuan3.0 Ultra在ChatRAG、DocMatix等评测中取得领先成绩,可以精准定位并利用企业私域知识。
ChatRAG涵盖长文本检索、短文本与结构化检索及维基百科检索,Yuan3.0 Ultra在这项测试中的平均准确率68.2%,10项任务中9项位居首位。

在企业实际业务中,大量关键信息存在于技术方案、财报报告、行业研究材料等文档中,这些内容通常包含图文混排结构、复杂表格以及跨页面信息关联,是企业构建知识体系过程的难点。
多模态复杂表格理解评测MMTab覆盖表格问答、事实核查、长文本表格处理等多个任务类型,Yuan3.0 Ultra在这一测试中以62.3%的平均准确率超越Claude Opus 4.6和Gemini 3.1 Pro。

在高质量总结生成方面,企业内部知识通常分散在文档库、知识库系统以及业务数据库中,信息来源复杂且结构不统一,要在这样的环境中获取有效信息,不仅需要检索能力,还需要对多源内容进行语义整合与综合分析。
在文本摘要生成评测SummEval中,Yuan3.0 Ultra平均精度62.8%,表现出色。这一测试从词汇重叠、语义相似度与事实一致性三个维度综合评估摘要质量,是智能体应用中历史信息压缩能力的重要参考。

精通多步骤工具调用与协作,为自动化执行复杂任务打下坚实基础,是Agent应用关键能力,在智能体工具调用方面,Yuan3.0 Ultra表现均衡,在工具调用评测BFCL V3中平均得分67.8%。

这一测试包含静态函数选择、动态实时执行、多轮上下文维护、相关性检测与无关调用拒绝等维度评估真实工具调用能力。
最后,在企业运营场景中,大量业务决策依赖数据库查询、报表分析以及跨系统数据整合,在这些场景下,企业往往需要将业务问题转化为数据库查询,并结合数据结果进行分析与总结。
在考察数据库查询语句生成能力的Text-to-SQL评测中,Yuan3.0 Ultra在Spider 1.0及BIRD评测上表现出色。
从综合测试结果来看,Yuan3.0 Ultra是真正能打的企业大模型。
结语:提升单位算力真实智能密度,打破企业两难困境
“龙虾”的火爆让我们看到了AI给个人和企业带来的巨大价值潜力,但同样也让我们看到了让AI真正能“干好活”,落地在企业场景所必然要面对的挑战。
从Flash到Ultra,YuanLab.ai团队一直在向着这一方向发力,直指企业核心痛点,其技术创新目标很明确:提升单位算力所产生的真实智能密度,让大模型的能力可以真正转化为企业可落地、可负担、可稳定使用的业务价值。
此次Yuan3.0 Ultra推动大模型从“能力展示”走向“规模化落地”,打破了困扰行业已久的成本效率困境。这是YuanLab.ai团队对下一代基础大模型结构的又一次探索实践,给业界MoE大模型结构创新、预训练算力效率提升提供了新的路径。
面向未来,AI必将更加深入地与企业业务相结合,在更多真实场景中落地,而底层模型技术的迭代仍将是核心驱动力,YuanLab.ai团队不仅给技术的探索提供了新思路,也给企业提供了用好AI的更优解。
人工智能重塑短视频内容生态
最新发布的《中国短视频发展研究报告(2025)》指出,人工智能重塑了短视频内容生态。作为推动文化创新和突破的重要工具,AIGC已经全面应用到短视频创作、传播的全产业链各个环节,尤其是Seedance 2.0视频生成模型,在自运镜和分运镜、多模态思考、音画同步生成、多镜头叙事等方面实现突破,极大释放了短视频内容生产力和传播力,全面重塑短视频内容生态。
数据显示,2018年12月—2023年12月,短视频用户规模从6.48亿增长至10.53亿,使用率也从78.20%攀升至96.40%,尽管用户增长率从19.33%下降到4.05%,但整体上仍保持增长态势。进入2024年,短视频用户规模和使用率却经历了“双降”,至2024年12月用户规模为10.40亿,使用率为93.80%,用户增长率为-1.30%。在经历了短暂下降后,2025年短视频用户规模和使用率又迎来新增长,到2025年12月,短视频用户规模达到新高10.74亿,用户使用率为95.40%,用户增长率为3.27%。
报告指出,全民共创共享趋势日益强化。短视频是互联网条件下新大众文艺的典型形态,创作主体呈现多元化、大众化趋势,外卖员、导游、民间手艺人等纷纷成为短视频创作者,使短视频创作实现了从“为大众”“写大众”到“大众写”“大众享”的转变,全民共创共享成为显著特征。2025年,“苏超”火爆出圈,大量赛场实况“名场面”,点燃了全民共创热情,参与玩梗、接梗、造梗,从而催生了海量二创短视频。“苏超”相关话题在主要短视频平台上播放量超818亿次。数据显示,2023年12月,全网短视频账号总数为15.5亿个,日均短视频更新量近8000万条;到2024年12月,我国短视频创作者账号规模达16.2亿,每日全国上线短视频突破1.3亿条。无论是短视频账号总数和日更新条数都实现大幅增长。同时,短视频平台通过多种形式的变现渠道,提升创作者收入,职业创作者群体随之不断壮大。
除此之外,短视频产业生态不断优化,广泛赋能千行百业。首先,短视频激活了消费新动能。2025年全国网上零售额达15.97万亿元,比上年增长8.6%,其中短视频在带动网上零售方面发挥了重要作用。其次,短视频也重塑了文旅新模式,将传统旅游决策路径缩短为“观看即向往”的即时行动,直接引导消费行为。此外,短视频还重构了广告新范式。短视频广告深度嵌入移动互联网平台,依托平台技术算法突破传统广告的生产模式、分发机制和时空限制,逐渐重构广告新范式。一方面,在AIGC等技术驱动下,短视频广告内容生产迈向规模化、算法化和精品化,实现广告由传统依赖人工创意生产向与技术协同的人机结合模式转变。另一方面,在平台推荐算法和大数据分析能力加持下,短视频广告的分发机制更具精准性,实现“千人千面”的智能广告分发。(记者 杨赞)
汽车早报|过半经销商去年未完成销量目标 奇瑞宣布战略布局“人造太阳”
工信部发布新一批减免车辆购置税新能源汽车车型目录
工信部发布《减免车辆购置税的新能源汽车车型目录》(第二十八批),小米YU7、小鹏GX、问界M6EV等多款车型在列。
乘联分会:3月1-15日全国乘用车市场零售56.1万辆,同比下降21%
乘联分会公布数据显示,3月1-15日,全国乘用车市场零售56.1万辆,同比去年3月同期下降21%,较上月同期增长2%,今年以来累计零售314万辆,同比下降19%;3月1-15日,全国乘用车厂商批发64.8万辆,同比去年3月同期下降20%,较上月同期增长36%,今年以来累计批发414.1万辆,同比下降12%。
中国汽车流通协会:过半经销商去年未完成销量目标,新车业务亏损加剧
据澎湃新闻,3月18日,中国汽车流通协会发布《2025年全国汽车经销商生存状况调查报告》(下称《调查报告》)并指出,2025年汽车经销商普遍未能完成全年销量目标,价格倒挂持续,新车业务亏损加剧,汽车经销商亏损面增加,盈利面收窄。针对年度销量目标完成率,《调查报告》显示,2025年全年超过一半的经销商未能完成年度销量目标,仅44.3%的经销商完成了年度目标。销量目标完成情况不及2024年。
在盈利能力方面,《调查报告》显示,汽车经销商盈利比例从2024年的39.3%收窄至23.5%,持平比例为20.8%,亏损比例则增加至55.7%。在经销商的毛利构成中,新车、售后和金融保险的毛利贡献分别为-25.5%、80.8%和24.3%。新车销售毛利贡献仍为负数,且亏损持续扩大,主要业务板块收入及利润贡献向非新业务倾斜,售后服务及其他业务毛利贡献增加。由于商业银行消费金融产品的调整,金融保险的毛利贡献出现大幅度下滑。
吉利汽车2025年营收为3452亿元,同比增长25%
3月18日,吉利汽车发布2025年全年业绩报告。2025年吉利汽车总收入为3452亿元,同比增长25%;归母净利润为168.5亿元人民币,同比增长0.2%;每股末期股息为0.50港元。
奇瑞汽车:2025年公司拥有人应占利润同比增加34.6%
3月18日午间,奇瑞汽车在港交所公告,2025年度集团大部分收入来自燃油车销售;集团收入为3002.87亿元,同比增加11.3%;公司拥有人应占利润为190.19亿元,同比增加34.6%。董事会于2026年3月18日举行的会议上建议派付截至2025年12月31日止年度的末期股息,每股人民币0.86元,股息总额为人民币50亿元。
吉利安聪慧:沃尔沃、极星、莲花、Smart品牌也要实现协同发展
3月18日,在吉利汽车控股有限公司业绩发布会上,吉利控股集团CEO安聪慧向界面新闻等媒体表示,吉利控股集团旗下品牌沃尔沃、极星、莲花跑车和Smart等,也将响应《台州宣言》,实现协同发展。安聪慧表示,控股层面已经成立了战略委员会,将对上述品牌确立更清晰的市场定位,产品和市场规划要更加科学和协同,采购体系全面共享,制造资源共享共用,售后网络和渠道协同。
吉利淦家阅:2026年吉利汽车国内销量要做到第一
3月18日,在吉利汽车控股有限公司业绩发布会上,吉利汽车集团CEO淦家阅向界面新闻等媒体表示,2026年,吉利汽车集团国内销量要做到第一。据悉,2026年吉利集团整体销量目标为345万辆,其中燃油车中国星系列销量为120万辆,银河品牌155万辆,极氪和领克品牌合计70万辆。
奇瑞宣布:战略布局“人造太阳”
据第一财经,3月18日,在奇瑞汽车电池之夜上,奇瑞正式宣布战略布局可控核聚变,投身“人造太阳”的研发。
启境GT7将首发十项新技术
3月18日,据启境汽车官方微博,启境首款车型启境GT7将首发十项新一代智能技术,包括华为乾崑最新激光雷达、新一代小艺智能体、华为乾崑赤兔平台、新一代抬显等。
速腾聚创已全面接入英伟达三大核心生态
美国当地时间2026年3月16日至19日,NVIDIA GTC 2026大会在圣何塞举行。界面新闻记者获悉,RoboSense速腾聚创已全面加入NVIDIA Jetson、DRIVE、Omniverse三大生态系统。会上,英伟达宣布Robotaxi Ready平台新增比亚迪、吉利、日产等企业,合作打造L4自动驾驶汽车。该平台已聚合比亚迪、吉利、日产、丰田、Lucid、Uber、小马智行、文远知行、Momenta等RoboSense多位产业客户伙伴。
FF启动高管及员工集体增持计划
3月18日,法拉第未来(NASDAQ: FFAI)宣布推出高管及员工购股计划。根据该计划,部分高管及员工将在递延部分薪酬的基础上参与本次购股安排。根据计划,部分高管及员工将在2026年3月1日至2026年5月31日的三个月期间内递延发放部分基本薪酬,预计税后金额约50万美元,以用于本次购股安排。在完成相关股份回购后,公司拟将回购股份转让给参与此次购股计划的高管及员工,履行相应的递延薪酬安排,具体将依据适用薪酬方案条款执行。
三星电子计划2027年下半年开始为特斯拉生产芯片
3月18日,据报道,三星电子表示,预计将于明年下半年开始在得克萨斯州工厂为特斯拉量产芯片。
量子信息科学奠基者获图灵奖
Kimi“打破Transformer架构”真相
本周,一篇题为《Attention Residuals》的论文,将Kimi推至全球人工智能领域的聚光灯下。论文作者之一,甚至是一名年仅十七岁的高中生。xAI首席执行官埃隆·马斯克与Google高级人工智能产品经理Shubham Saboo,亦公开发文祝贺。后者更宣称,Kimi正在触及Transformer架构中“长达十年无人触碰的部分”。

一时间,舆论场喧嚣四起。诸如“打破Transformer架构”、“硅谷破防”、“改写行业规则”等标题,迅速占据头条。
本文结论先行:这是一项天才般的构想,一次极其硬核的研究,但其本质并未脱离Transformer架构的基本框架。至于那些耸人听闻的标签,大多出自营销号之手,缺乏事实依据。
事实上,针对残差连接的探索并非孤例。从2022年的DeepNorm到2024年的DenseFormer,优化这一深度神经网络的基石,始终是业界持续发力的方向。Kimi研究团队并非此技术路线的开辟者,却在这条既有路径上,贡献了一个兼具激进性、优雅性与工程潜能的解决方案。
01
深层Transformer的结构性困境
在规模化法则的驱动下,提升模型性能的路径愈发依赖于参数与规模的扩张,神经网络层数的激增成为必然。然而,研究团队注意到一个关键现象:数据在神经网络层间传递时,存在着“PreNorm稀释问题”。PreNorm作为一种归一化技术,因其能有效稳定训练、加速收敛,已成为现代架构的主流选择。
为便于直观理解,不妨将一个大模型比作一条由一百名程序员组成的流水线。每位程序员对应一层神经网络,共同协作完成一个大型软件项目。
在传统的标准残差连接模式下,层与层之间的状态更新遵循如下公式:

当前层的输出,等于上一层输出与该层自身“修改部分”(即变换函数输出)的直接相加。类比而言,每位程序员接收前一位的代码,附上自己的修改后,传递给下一位。

这种简单累加的方式,在实践中会引发连锁问题。从数学视角审视,它将导致两个互为因果的训练困境:
其一,早期信息被稀释掩埋。首层神经网络提取的原始特征——例如token的初始语义——在经历数十层累加后,其相对权重被逐层消解,面目模糊。流水线末端的程序员,无从知晓源头究竟起草了怎样的底层逻辑。模型越深入,对早期低级特征的精确检索与利用便越困难。
其二,数值尺度膨胀与梯度失衡。残差的持续累加,如同项目代码库的无休止扩充。后期加入的程序员若想使自己的改动产生可见影响,不得不添加更大量的代码。对应到网络,深层必须输出数值规模更大的信号,才能在累加中占据一席之地。这一现象在正向传播中或许尚可容忍,但在反向传播中则潜藏危机:浅层梯度可能剧烈震荡,深层梯度却趋于微小,整个网络的梯度分布极度不均,训练极易失稳。
因此,研究的核心命题便凝练为:如何让处于网络最深层的“程序员”,依然能够清晰辨识并调用首位“程序员”所撰写的基础代码?
02
时间维度与深度维度的对偶映射
Kimi研究团队的关键洞见,在于识别出神经网络演进史中,时间序列处理与网络深度构建之间存在的对偶关系。
Transformer并非神经网络的初始形态。约在2018年前,循环神经网络(RNN)主导着序列建模。RNN以时序方式逐词处理文本,将历史信息压缩为单一隐藏状态向后传递。其后果是,后序单元只能接收一个混杂了过往信息的“压缩包”,早期输入极易被遗忘——这一过程,与标准残差连接的信息传递机制惊人地相似。
Transformer则凭借注意力机制,颠覆了这一范式。在自回归解码中,每一位置的词元,都能直接“回望”序列中所有前置词元,并通过加权聚焦关键信息。在时间维度上,注意力机制完美消解了信息压缩与遗忘的难题。
一个自然的类比由此浮现:能否在网络的深度维度上,扬弃残差连接所隐含的“RNN式思维”,转而引入注意力机制?
这正是Kimi论文的核心创新——注意力残差(Attention Residuals, AttnRes)。传统残差累加公式被重塑为一个基于Softmax的注意力加权形式:

新公式不再将浅层输出简单相加,而是为每一层配备一个“伪查询向量”,使其能够动态扫描之前所有层的输出,并为那些包含关键信息的层赋予极高的Softmax权重。无关信息层的权重则被压至近零。
这套内容感知、输入依赖的选择机制,本质上是将Transformer的核心理念横向迁移至残差路径的设计中。残差连接由此从被动的“信息搬运”,转变为主动的“按需检索”,有效规避了深层信息稀释的痼疾。
03
从理论构想到系统级工程
若仅止步于此,注意力残差仍可能囿于实验室的理想图景。真实的大模型工程实践,尤其面对千亿参数、分布式训练的严苛环境,直接套用该机制将引发显存与通信的“爆炸”。
在分布式训练普遍采用激活重算、流水线并行等技术的前提下,若强行实现跨层全连接,深层网络将不得不跨物理GPU节点,获取所有浅层完整的输出张量。随着层数L增加,跨阶段数据传输量与显存占用将以O(Ld)规模急剧膨胀,对算力集群构成灾难性负担。
因此,Kimi团队为解决工程落地而提出的分块注意力残差,展现出极高的实用智慧。
为将理论付诸实践,Kimi团队设计了一套精妙的降维方案:
核心思路是“分块降维”。
回到程序员流水线的比喻:要求末位程序员洞悉每一位前序同事的具体贡献,意味着每位前序程序员都需保留完整的“草稿箱”——这在物理空间上是不可行的。解决方案是,将程序员划分为N个部门。部门内部沿用标准残差,并将多层的输出压缩成一个单一的“块级表征”。部门之间则启用注意力残差机制,只需关注这N个块级表征,而无需追溯每个具体层级的输出。
这一简单而大胆的策略,直接将显存与通信的复杂度从O(Ld)降至O(Nd),为理论落地扫除了最大障碍。
其次,训练阶段的跨阶段缓存设计进一步优化了通信开销。在主流的交错式流水线调度模式下,每个物理GPU常需处理多个计算阶段。团队为此设计了本地缓存机制,确保先前接收到的块级表征驻留于本地显存,从而避免跨节点重复传输。此举大幅压缩了流水线并行的通信峰值,并使跨块通信时间可被计算过程有效掩盖。
最后,推理阶段的双阶段计算与在线Softmax融合,缓解了内存带宽瓶颈。推理时反复读取大量历史块级表征,易导致严重的内存带宽压力。研究团队采用双阶段策略:第一阶段以批处理方式计算跨块注意力,摊销内存读取成本;第二阶段顺序计算块内局部注意力。两阶段结果通过在线Softmax技术无缝合并,并与RMSNorm等算子进行内核融合。
技术细节无需赘述,但结果令人印象深刻:上述复杂的跨层注意机制叠加后,Block AttnRes带来的额外训练开销几乎可以忽略;在典型自回归推理场景中,端到端延迟增幅低于2%。Kimi团队在改写大模型底层网络拓扑的同时,实现了如此程度的优化,堪称工程上的奇迹。
04
实证效果与产业意义
最终,Kimi研究团队将这套架构部署至一个参数规模为48B(激活3B)的小型MoE模型,并使用高达1.4万亿token的数据进行真实环境预训练。

规模化法则曲线显示:在同等算力投入下,应用Block AttnRes的模型始终获得更低的损失值。简单换算,该架构使模型能达到传统基线模型需耗费1.25倍算力方可实现的性能。对于耗资动辄千万美元级的预训练阶段而言,“白嫖”25%的算力增益,蕴含着巨大的商业价值。
下游能力测试中,需要多步骤逻辑推理的任务获益最为显著:

GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%。这一结果在逻辑上高度自洽:数学推导与代码生成皆要求模型具备长时间推理与信息保持能力,AttnRes的深度检索机制恰好契合了这种“不忘初衷”的内在需求。
月之暗面创始人杨植麟在2026年英伟达GTC大会上的公开演讲,也从侧面印证了这套架构的价值:“要推动大模型智能上限持续突破,必须对优化器、注意力机制和残差连接等底层基石进行重构。”
当然,这项技术距离真正颠覆Transformer架构或改写行业规则,尚有显著距离。核心工程代码尚未完全开源,公开仓库中仅提供伪代码级别的演示。同时,论文中亮眼的实验结果,全部出自月之暗面自有的模型结构与私有数据。注意力残差能否在其他主流大模型上复现出稳定且显著的收益,仍有待第三方独立验证。
客观而言,在深度学习领域,对底层机制进行启发式修改的尝试并不鲜见。但一篇论文能获得马斯克的“光速”点赞,本身已说明其分量。

最准确的论断或许是:这是一个兼顾了学术美学与工程实用性、值得全行业深入跟踪的残差机制新设计。它并非推翻Transformer的神话,而是为这座大厦添上了一块关键的砖石。
而月之暗面借此向世界展示:在底层架构创新的“深水区”,中国AI企业同样有能力交出极具技术含量、堪称世界级水准的答卷。
苹果推送iOS 26.4与iPadOS 26.4 RC版 新增多项功能
【CNMO科技消息】当地时间3月18日,苹果公司向开发者及公开测试用户推送了iOS 26.4与iPadOS 26.4的候选发布版本(RC版)。此次更新距离第四个测试版发布仅一周时间,若无重大漏洞被发现,该版本将作为正式版面向全球用户推送。

已注册的开发者及参与公开测试的用户可通过iPhone或iPad的“设置”应用下载更新。具体路径为:进入“通用”选项,选择“软件更新”即可获取最新测试版本。
此次更新为iPhone和iPad带来了多项实用功能。在Apple Music应用中,新增的“播放列表创作空间”功能允许用户通过文本描述生成符合特定主题、情绪或活动的歌曲列表,例如输入“适合雨天阅读的轻音乐”即可自动生成对应歌单。此外,应用内还新增了“附近音乐会”功能,可基于用户位置推荐本地演出信息,并优化了专辑与播放列表的展示界面,采用全屏艺术封面设计提升视觉体验。
苹果播客应用首次支持原生视频内容创作与分发。更新后,创作者可直接通过播客应用上传视频节目,并利用苹果的个性化推荐算法及编辑精选功能扩大内容传播范围。视频内容将与现有音频播客共享订阅体系,为创作者提供更多变现途径。
系统层面新增了多个表情符号,包括长号、宝箱、扭曲表情、多毛生物、战斗云、虎鲸及山体滑坡等图案。安全功能方面,“被盗设备保护”默认开启,可防止设备丢失后被恶意重置;新增的“环境音乐”小组件允许用户快速访问白噪音资源;健康应用中则加入了“平均就寝时间”指标,帮助用户分析睡眠规律。
AI养肥了腾讯云,马化腾:首次规模化盈利

智东西
作者 | 李水青
编辑 | 云鹏
腾讯云的“上岸”时刻,比预想中来得更快一些。
智东西3月18日报道,刚刚,腾讯控股发布2025年第四季度及全年财报。财报显示,腾讯总营收达到7518亿元,其中To B业务收入创新高达2294亿元,企业服务持续提速,而最关键的一点是——腾讯云终于实现了年度“规模化盈利”。
“2025年我们保持了健康的增长,云业务收入加速增长并实现了规模化盈利。”腾讯董事会主席兼CEO马化腾在财报中如是说。

这句话背后,是曾经长期被视为“烧钱机器”的云业务,开始真正转动利润飞轮。此前,国内云厂商中仅阿里云宣布全年规模化盈利,华为云尚未宣布盈利情况。
而这个利润飞轮转动,离不开AI。以元宝、Ima、QQ浏览器等为代表的一批腾讯系AI产品加速破圈,部分应用月活已经迈入千万乃至亿级门槛。
在今日业绩电话会议中,马化腾公开谈及“养虾”,他认为,龙虾(开源AI Agent框架OpenClaw的昵称)应该能够让AI落地到各种丰富的场景中,而不像过去那样完全集中在ChatBot里,可以结合微信的去中心化理念进行落地。
今年以来,一支围绕龙虾等AI Agent构建的“工具军团”正在腾讯悄然成型——WorkBuddy、QClaw、云开发平台等产品,开始连接开发者、企业与场景。不久前,马化腾曾爆出在朋友圈转发腾讯全系“龙虾”产品矩阵推文,并称一批产品陆续赶来。

马化腾发文截图(图源:网络)
“这些人人鼓舞的初期迹象,表明AI投入将为我们开拓新的机遇。”马化腾说。
腾讯总裁刘炽平在腾讯业绩电话会议中透露,去年腾讯在AI新产品上投入180亿元,今年至少翻倍。
截至3月18日财报发布前的收盘时刻,腾讯股价同比上涨0.09%,报550.5港元/股(482.68元人民币/股),总市值50130亿港元(约合43954亿元人民币)。

腾讯股价走势(图源:腾讯自选股)
一、腾讯云赚钱了,12年烧钱终上岸
中国云计算行业曾经信奉一个铁律:这是一个需要十年才能看到回报的生意。对于腾讯云而言,这个预言恰好应验。
2013年腾讯云面向全社会全面开放、进入公有云市场,到2025年首次实现全年规模盈利,恰好走过了12个年头。腾讯财报显示,得益于供应链持续优化以及PaaS、SaaS业务的强劲增长,腾讯云在2025年首次实现全年规模盈利,迈入高质量发展新阶段。
此前1月中旬,腾讯云副总裁、产业生态合作业务负责人杨晨透露,腾讯公有云从2024年Q4已开始正式盈利,这与大幅剔除不健康的生意、专注平台产品有关。
过去几年,国内云厂商一度陷入残酷的“价格战”,为了抢占市场份额,在很多项目上各家甚至亏本赚吆喝。而腾讯云的这次盈利,预示着行业进一步从拼规模转向拼质量。背后至少可能有以下三层变化:
第一,是需求结构的变化。过去驱动云增长的主要是互联网客户,如游戏、电商、社交等,而现在,AI成为新的核心变量。大模型训练、推理、智能体部署,对算力、存储、数据处理提出了更高需求,直接拉动云资源消耗。
第二,是产品结构的变化。单纯卖IaaS资源利润薄,而腾讯近几年持续强化PaaS与SaaS能力,比如音视频、数据平台、AI工具链等,这些高附加值产品开始成为利润来源。
第三,是效率的变化。随着规模扩大与供应链优化,腾讯云的成本结构明显改善,这也是“规模盈利”成立的基础。
支撑这一转变的,是企业服务需求的变化。腾讯财报显示,其金融科技及企业服务板块(To B业务)全年实现营收2294亿元,占总营收的31%,创历史新高,其中企业服务收入同比增长22%。这背后是AI带来的结构性机会——企业对AI算力、平台和工具的需求爆发,让云服务从过去的“卖资源”变成了“卖能力”。

从全球云计算市场来看,腾讯补上了与国际巨头的关键一环。无论是AWS、微软云还是谷歌云,虽然他们并未都明确公布云业务盈利额,但云业务确已成为利润核心。而现在,腾讯也进入同一叙事轨道。
二、狠砸857亿搞研发,预告AI大牛姚顺雨“大招”
如果要找腾讯2025年最舍得砸钱的地方,答案无疑是AI。
财报显示,腾讯2025全年研发支出高达857.47亿元,资本开支达791.98亿元,双双创下历史新高。这些钱流向了哪里?大模型和智能体是两大核心方向。

腾讯还在财报中预告,混元3.0大模型即将发布,其智能化水平相比混元2.0显著跃升。
这有望成为AI大牛姚顺雨加入腾讯之后的首次真正亮大招,所谓的“显著跃升”到底到什么程度?引发产业人士关注。
此前2025年12月17日,腾讯宣布官宣年仅27岁的前OpenAI研究员姚顺雨出任“CEO/总裁办公室”首席AI科学家,同时兼任AI Infra部与大语言模型部负责人,向总裁刘炽平、技术工程事业群总裁卢山双线汇报,成为混元研发核心掌舵人。
同期,腾讯以壮士断腕的决心,为混元3.0的研发在组织层面扫清障碍——启动大模型研发架构调整,新成立大语言模型部、多模态模型部、AI Infra部、AI Data部及数据计算平台部。这确立了大模型与AI产品一体化发展的思路。这释放了一个信号:AI不再是某个实验室的“副业”,而是贯穿所有业务的主线。
此前2月3日,姚顺雨加入腾讯混元团队首个成果发布曾引起高度关注,其推出一个专门评测大语言模型能否从上下文中学习新知识并正确应用的基准CL-bench,揭示大模型真正瓶颈。表现最好的GPT-5.1(high)任务成功率也仅有23.7%。混元3.0在解决这一“大模型真正瓶颈”上能力如何?答案很快将揭晓。
另外,财报还公布了腾讯在多模态能力上的进展:混元图像3.0生图模型上线元宝后,春节期间AI创作达到数十亿次;混元3D创作引擎保持行业领先,正在构建全球开放技术生态。
研发投入正在转化为实际的“技术壁垒”。截至2025年底,腾讯全球专利申请超9.4万件,授权超5.2万件。数字背后是一整套AI技术栈的完整布局——从底层的基础模型,到中间层的开发工具,再到上层的应用产品。
三、AI产品月活破圈,“小龙虾”智能体大军悄然成型
如果说To B业务体现的是赚钱能力,那么C端AI产品则体现的是规模能力。
最亮眼的是元宝。这款腾讯AI应用的前身正式进入“亿级俱乐部”,月活跃用户突破1亿。上线“元宝派”后,元宝正在探索AI社交、多模态等新能力,搜索能力也在加速迭代。
同时,围绕OpenClaw等需求爆发,腾讯迅速整合资源,推出WorkBuddy、QClaw、云开发平台等一系列产品,覆盖个人、开发者与企业三大场景。
腾讯这轮AI布局,并没有押注单一超级应用,而是走了一条更“腾讯式”的路径——多点开花。来看几个财报数据:
– Ima(AI工作台)月活突破1300万,知识库文件超4.2亿;
– QQ浏览器推出全场景AI+服务,AI能力累计服务超1.3亿用户;
– 搜狗输入法混元驱动AI语音识别准确率达98%,移动端月活超6.7亿;
– 腾讯会议AI用户量同比增长超150%;
– 腾讯云代码助手CodeBuddy覆盖超90%工程师,整体编码时间缩短40%。
当用户在用搜狗输入法语音输入、用腾讯会议记笔记、用QQ浏览器搜资料时,背后都有混元大模型在默默支撑。
结语:AI Agent爆火,喂饱云厂商
2025年,AI Agent成为科技圈最火的关键词,这一轮技术浪潮的直接受益者无疑是云厂商。Agent需要算力,需要模型服务、数据工具、安全防护,这些全部跑在云上。
对于腾讯云而言,2025年的盈利不是终点,而是一个新起点。当AI从烧钱变成赚钱,当云业务从成本中心变成利润中心,这家公司的增长逻辑正在被重写。
正如财报所言:“这些人人鼓舞的初期迹象表明,AI投入将为我们开拓新的机遇。”而刚刚盈利的腾讯云,正是这个新机遇里最值得期待的那一块拼图。
别克至境世家纯电版MPV上市:48.99万元,900V 6C超快充电池
IT之家 3 月 19 日消息,别克至境世家纯电版 MPV 于 3 月 17 日上市,售价 48.99 万元。
金石之约权益延续:至境世家纯电版 3 年内单次事故车损超购车价 30%,无需修旧车直接换新车。即日起特斯拉及上汽通用品牌车主增换购至境世家纯电版,即可享至高 20000 元专属补贴。此外还为用户提供价值 62000 元的 5 重专属上市购车权益。


IT之家从官方介绍获悉,该车长宽高为 5260mm*2023mm*1820mm,轴距为 3160mm,配备 330mm 超长三排滑轨、2056L 超大后备箱、225mm 超宽礼宾踏步、银翼礼宾光毯、532mm 分段式长扶手、手势智控滑移门等配置。新车提供哑光灰、珍珠白、幻影黑等车色,以及霞紫月白、琥珀暖棕两款内饰色。

该车为 MPV 全球首搭 900V 6C 超快充电池,CLTC 纯电续航里程 601 公里,提供 640kW 峰值充电功率,10 分钟 400km 快速补能;采用逍遥纯电双电机四驱,5.1s 零百加速,550N·m 最大扭矩,332kW 同级最强主电机。
辅助驾驶方面,该车搭载逍遥智行高阶辅助驾驶以及 Momenta R6 强化学习大模型,提供行业领先“无断点”城市 NOA 领航辅助、行业顶尖全车位泊车辅助。

座舱方面,该车搭载纳诺怡 X 空气净化系统、母婴级亲肤面料、多功能拓展坞、-10°C~50°C 可制冰冷暖箱、多姿态零重力座椅、全车三排悬浮层、八屏 AI 数字座舱。
内存荒缓解成本高 美光警告:需投入巨资才能满足需求

美光
凤凰网科技讯 北京时间3月19日,据彭博社报道,内存芯片巨头美光科技周三警告称,为满足激增的市场需求,公司将需在产能上投入巨资。这一表态给该公司整体乐观的业绩预测蒙上了一层阴影。
美光在周三发布的季度财报中表示,2026财年(截至今年8月)资本支出将超过250亿美元,超出分析师预计的224亿美元。美光还补充道,2027财年支出将同比增加逾100亿美元。
“我们预计2027财年资本支出将显著增加。”美光CEO桑杰·梅赫罗特拉(Sanjay Mehrotra)在电话会议上表示。
这一巨额支出反映出美光为满足市场对其内存芯片的旺盛需求而付出的代价,尤其是AI计算所用的高带宽内存。尽管美光销售额预计将持续飙升,但最新财报却遭遇投资者冷遇,股价一度下跌4.9%至每股439美元。(作者/箫雨)
更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。