钉钉陈航:未来的公司没有文档、没有中层

|《中国企业家》记者 见习记者 孙欣

记者 王怡洁

见习编辑|李原 编辑|何伊凡

图片来源|中企图库

2026年4月17~18日,在《中国企业家》杂志主办的2026(第十八届)《中国企业家》商界木兰年会上,围绕AI时代企业如何实现组织与产品的进化,钉钉创始人兼CEO陈航(阿里花名“无招”)出席并作了开幕演讲,分享了他的深度思考。

以下为精彩观点:

1.AI时代的核心并不是让员工更高效,而是一个组织、一个企业甚至一个个体进行生产关系的重构、决策体系的重构和整个协同方式的重构。

2.目前许多公司或许还在购买软件,或自行开发软件,但可以断言,软件时代已彻底终结。

3.软件已经变成“日抛品”,正朝着按需生产、按日进化的方向发展。

4.AI发展到现在绝非如大家所想,不仅仅是与语音助手进行简单的交流互动,或是开展情感层面的沟通,真正的意义在于让你身边存在一个超级智能体。

5.如果老板发现有专注于钻研AI的年轻人才,一定要让他帮助公司开展改革。

6.未来每家公司或许都会构建自身的智能中枢,或者配备专属的小型模型,用于存储公司的敏感数据,避免数据外流的情况发生。

以下为演讲全文(有删减):

新的时代已至,智能体的成长速度远超一般个人的成长速度,企业在组织、执行等工作方式上会发生何种改变?

今天,大多数人都会听到一个声音——“效率提升”。但蒸汽机时代最核心的事情并不是让马跑得快,而是工厂制度的建立。比如,福特汽车将海量的机器设备导入生产线,人类的生产效率得到了巨大提升,这是它本身的制度和工作方式的改变。互联网时代的核心也并非信息跑得更快,而是信息生产方式和传递方式发生了根本性改变。

因此,AI时代的核心并不是让员工更高效,而是一个组织、一个企业甚至一个个体,如何进行生产关系的重构、决策体系的重构和整个协同方式的重构。

如今,钉钉已经没有传统的财务、设计师和人事团队,工作方式已经彻底改变,一些岗位交互的对象不再是人,很多都在跟AI打交道。

传统组织的首要工作内容往往是“拼命写文档”,进入到AI时代后,互联网企业更要率先改革。因为AI浏览文档、写文档的整理分析能力远超人类。因此,写文档也要逐步演变为每家公司重新构建自身的中枢系统,中枢系统会持续且全方位地分析公司内的所有数据与文档。若有问题,直接向AI询问即可。

目前许多公司或许还在购买软件,或自行开发软件。但可以断言的是,软件时代已彻底终结。

因为未来所有软件都将实现即时生成。

无论以往代码系统多么复杂,只需将系统界面和原代码库提供给相应工具,即可实现代码的立即重写。软件已经变成“日抛品”,如同过去人们配眼镜需前往眼镜店,而现在多使用日抛型隐形眼镜,依据不同场景佩戴,使用后即可丢弃。软件正朝着按需生产、按日进化的方向发展。

过去,规模稍大的企业,从总裁、总监、经理到执行层,通常存在5~7层的汇报体系。如今这种体系的中间层正逐渐消失,管理层可直接对接一线员工,将架构层级变为1~3层。

数据的透明化使得决策层能够与一线执行过程的数据直接相连。这可谓是真正意义上的“上帝之眼”,老板不需要靠中层汇报,就知道所有团队的情况。以往那种需拼命汇报与讨论的情形已不复存在,信息传导几乎不存在延迟。决策层可以清晰了解一线执行人员,包括销售、生产、服务、设计等岗位人员的工作表现,所有情况完全透明。

例如,若今日有人拜访联想集团,我会立刻知晓,并能了解此次拜访的过程状况、结果、以及对方的反馈等。所有这些信息均会自动分析,信息损耗几乎为零。

传统时代众多领域也存在“专家”工种。以软件行业为例,涉及产品经理、设计师、工程师等各类专业人员。而如今,借助AI能让一个人极大地拓展其能力边界。过去一个人独立开办一家公司的难度相当大,现在一个人在本不擅长的领域也能有所作为。

例如,如果我是工程师而非设计师,会有AI工具帮助我完成所有设计工作。如果我是工程师且不擅长与人沟通,也会有AI辅助我进行指导。将所有市场、法律、技术、数据方面的要素赋能给AI工具,每个人都可以成为“超级个体”,而企业将逐渐演变为一种记忆体。

过去,企业员工若离职,公司的诸多经验会随之流失。就组织层面而言,这是因为公司缺乏一个真正能够承载经验或公司标识的载体。而现在,公司所发生的每一件事,其相关记忆均会存储于公司内部,所有数据都会被AI解析。例如,公司召开的所有会议、每位员工拜访客户以及销售服务的全过程都会被AI记录下来。

以往新员工入职时,员工可能对过往情况并不了解,而且存在知晓结果却不明原因的状况。比如,一个公司成交转化率或销售额下降时,需要层层排查原因。但如今,无需询问,“悟空”就能即刻告知你业绩下降的原因。以往所谓的“虚拟组织”将转变为实体,它不再只是想象中的空壳和一个名称,公司真正拥有了自身的记忆与思考能力。

过去,传统组织采用的还是人管人的模式,由人来追踪业绩。当下,AI可以进行数据分析并给出指导,追踪事务完成情况。过去,通常是经验丰富的师傅凭借自身经验,“帮带”新人。如今,智能系统能够学习这些老师傅的工作过程,他如何思考,怎么做事情,无论是听觉信息、视觉信息还是手工操作,都会被AI学习。一旦AI系统学会这些技能,便会自主进行分析并执行相应任务,且能实现自我驱动。

我们有一个真实案例:一家位于义乌、专门做星空灯的中国头部企业,拥有约100多名员工。该企业和各种各样的软件公司合作,员工每天的工作内容是探寻各类市场机会,一旦发现商机,便筹备产品生产以及后续的上架事宜。

用了我们的“悟空”(钉钉旗下智能体产品)之后,该老板上班第一件事情就告诉“悟空”:“你帮我分析一下淘宝、亚马逊和全球各地的电商平台,公司在星空灯领域有何发展机会,如今有哪些新机遇。”

接到指令后,“悟空”自行打开淘宝进行查看,又打开亚马逊对平台上的所有商品展开分析。分析过程中,将相关数据全部抓取下来,开展深入分析。在分析过程中,对每件商品的照片、标题、销量、评价等信息进行自动分析。分析完毕后,会生成一份报告,告知选品分析的最新情况,报告涵盖全球所有电商平台所售星空灯的分析结果,包括哪些星空灯可能为新品,哪些星空灯的销量正在增长,以及从用户反馈中洞察到的新机会。

在竞争对手星空灯的一条用户评价中,有用户提到将其放置在小孩床头时,电流噪声过大,导致孩子睡不好。这本是一则普通评价,但“悟空”系统会立即提示,当前公司存在一个新机会,可以尝试生产消除电流噪声的儿童床头专用星空灯。根据这个选品报告,这个老板决定开发新品。

接下来是具体操作层面。以往,公司需前往义乌或深圳,专门寻找工业设计及结构设计工程师,请求其协助进行结构设计,明确有哪些组件与零件。如今,只需将设计要求交付给“悟空”,让其进行整体工艺设计分析。这一过程耗时约两分钟,从零件拆解生成图,到工艺设计中的各个问题点,其输出成果大约能达到国内普通结构硬件设计工程师90分的水平。

接下来,老板又要求“悟空”做拆解工作,明确所需的所有零件,确定每个零件的成本,做模拟生产组装,核算加工费总和,进而明确产品定价策略。这个过程一共耗时6分钟,所有零件均完成拆解,并明确了每个零件在中国的批发价格,同时对零件的特点、组合组装生产方式以及所需加工方式均进行了全面分析。

过去,老板需要寻找专业工厂,并从各家工厂收集信息,由硬件工程师进行组合。专业人员向老板汇报硬件生产所需费用及零件数量,再安排生产排班。用了“悟空”后,便能即刻开展排班规划,人员会依据各生产零件间的关联关系,以及最终组装生产的依存关系,从公司员工的特点出发,自动规划生产时间,安排跟进人员,完成全面排班。系统也会根据公司过往合作伙伴的情况,自动预判最合适的工厂,什么时候交货,在哪里进行组装等。

产品生产完成后,便进入运营阶段。传统电商运营中,团队除协同客服、处理履约与交付事宜外,还需长期紧盯竞争对手动态,每天复盘全平台店铺数据。如今通过“悟空”系统,运营人员只需下达指令,系统即可自动监测竞争品牌旗舰店的新品动向,每日生成结构化分析报告,清晰呈现对手的上新节奏、产品策略与市场动作。一旦竞品推出新款,系统会自动评估其销量、影响力与增长势能,并直接给出可执行的应对策略与操作建议,大幅提升决策效率。

这位电商老板使用了“悟空”后,大受震撼。这背后也折射出:中国有高度集中的制造体系与全链路数据沉淀。国内海量的制造企业、高度协同的产业带布局,在设计、生产、流通、销售等环节,积累了全球最丰富的产业数据。未来,当各垂直领域的数据充分融合,训练模型,中国将有望诞生掌握全产业知识、具备全球竞争力的最顶尖的模型公司。

目前,美国的一些模型公司和产品,如OpenAI、Gimini等,看似实力强劲,但一旦涉及生产、运营及销售领域,无法与中国比拟。在生产制造方面,中国的领先地位毋庸置疑。

实际上,AI发展到现在已经绝非大家所想,仅仅是与语音助手进行简单的交流互动,或是开展情感层面的沟通,真正的意义在于让你身边出现了一个超级智能体。倘若你能够将公司的全部数据提供给它,它能帮你完成许多超乎想象的事务。当然,这也涉及到一个关键概念,即公司中必须有至少一位真正精通相关业务的人员,且此人需保持绝对的信念。

这与2004年前后,有人提议去淘宝做电商的情形颇为相似。当时,99%的人都认为淘宝上充斥着骗子和假货。我2010年回国时,淘宝约有近300多万家商家,其中将近40万商家每年的营业额超过100万元。这些人不会声张,他们在闷声发财。如今的AI也是如此,真正秉持AI信仰、真正了解AI、懂得如何运用AI,并且能够切实助力企业在组织结构、决策方式、工作方式等方面进行全面AI化改革的人,依旧是少数。

公司里面一定要有人坚信AI。如果老板发现有专注于钻研AI的年轻人才,一定要让他帮助公司开展改革。否则,以公司内诸多部门为例,采购软件与进行软件维护的人员往往会声称相关技术尚不成熟,存在各类问题。待两三年后再审视,若对手能将公司数据充分利用,本公司与对方公司之间的最大差距,便会体现为迭代速度的差距。别人迭代速度以天为单位计算,而你公司的迭代周期最长为一个月,如此一来,差距很快就会显现。

像义乌、深圳等地已经有许多公司将AI运用得十分出色,他们每日都会向“悟空”提出建议。然而,每次我询问这些公司为何不对外分享工作经验时,他们将此视为“独门秘籍”,自然不会轻易告知他人。但我们作为平台方,希望所有用户都能了解相关信息。

当下的时代存在两类人群:一类是对AI有所了解的人,另一类是对AI缺乏了解的人。大部分人往往更倾向于听取他人的评价,但较少亲自去实践体验。前文提及的老板是真正把AI用起来的人,其工作方式和组织结构都发生了彻底的改变。

总而言之,究竟什么是现代化的组织?若公司中仍有人以撰写文档为主要工作,并以此自傲,认为自己撰写的文档数量众多,这样的公司必然属于过去式。

不准耗费人力去写文档是当前钉钉工作方式的基本原则。同时,会议期间也不需要做笔记,所有事务均依靠AI处理,讨论问题就使用白板,在板上随便画随便写,这是人类最自然的沟通方式。沟通完之后拍张照片全部结束,照片、会议过程对话的语音全用AI自动分析、总结变成会议纪要,AI再进行后续跟进。撰写文档的时代已然过去,那些擅长撰写文档、依靠层层汇报和精细分工的工作模式也随之终结。

若公司内部仍存在大量分工,且多层级架构已然形成,应尽可能压缩层级。当中间管理层不再承担所有流程操作与分析工作时,从理论层面而言,人们会质疑设置中间管理层的必要性,为何其职责不是单纯的分析与指导?其核心问题在于缺乏数据支持。

因此,公司推行AI的举措最容易导入的事情,就是要求公司内所有的工作沟通和交流均引入AI进行记录,我们将此称为“听记”。

当然,这可能涉及前文提及的数据安全问题。未来每家公司或许都会构建自身的智能中枢,或者配备专属的小型模型,用于存储公司的敏感数据,避免数据外流的情况发生。这一举措本质上就是每一个人都要成为一个智能体,不再通过层层汇报的方式,去进行管理。

一家公司若要成为一个AI原生组织,其最基本的原则在于用AI对所有流程进行分析与梳理。这个过程不再依赖人工进行整理、总结及存档,而是跨越中间层级,直接对一线流程展开分析与指导。精细分工模式已经不再适用,“日抛型”软件将不断涌现。这些软件可根据需求自动生成,无需寻求软件公司定制或修复。

如果你的公司有人跟你说,写不出软件,你来找我!钉钉可以保证不管什么样的软件诉求,“悟空”都能完成,而且写出来的结果远超大部分软件公司。

马斯克来抖音卖老干妈了??

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

马斯克也来抖音直播带货了?

卖的还是老干妈??背后一整墙都是,和老马心爱的大火箭模型排排坐。

一开播就是10W+在线,号召力这块没得说。

评论区热闹非凡,特斯拉车主纷纷刷屏「支持马总」。

这还没完,一转眼,老马竟然又和预计年末发布的《GTA-6》有梦幻联动?

请看——马总现身罪恶都市,连SpaceX办公楼一并植入游戏场景。

大家到时候可以去偶遇下马总,说不定,他能带你去办公室看看大火箭。

天呐我的朋友们,谁能想到,老马「心爱」的奥特曼也同框现身了。

如果是真的,恳请个别大兄弟手下留情,放Sam一马吧……

有委屈,咱在游戏里尽情发泄,别线下真实人家了。

等一下。

你真信了?

如果是,务必长个记性,也提醒下家里的男女老少,上面这些——

全!是!假!的!!!

从来就没有什么抖音直播,也没人发过那些直播弹幕,这些游戏截图也都是AI生成的。

这就是OpenAI最新生图模型GPT Image 2的真实水平。

AI已经不可避免地发展到了这个阶段。

「有图为证」的时代,结束了。

当AI变得「无形」

Image 2最神奇的点在于,看到它生成的图片时,你不会第一眼就觉得「哇,好厉害」。

因为普遍情况下,你第一眼根本是看不出来这些图是AI生成的。

直到你后知后觉知道事实后,才会有第一个「Aha-moment」。

然后你多半和我一样,会回过头来仔细端详图片,想从里面找到「这玩意儿是AIGC」的蛛丝马迹。

这时候你会迎来你的第二个Aha-Moment——

不er,这根本看不出来哪里是AI啊??

而且,看得越细,会越觉得离谱。

比如这张时尚海报

从人像、配饰、背景,到文字、整体排版……我这种非专业人士是完全看不出问题,它跟我平时路过报刊亭看到的杂志封面没有任何区别。

这张游戏截图也是,资产形态完全和《我的世界》一致,血条、饥饿值、经验值这些状态栏都完美还原。

就连手上握的这个Claude Opus 5的机密文档……上面的文字也都是正确且有逻辑的。

下面再给大家看点纯文字的,细细感受下image-2在文字方面的提升。

这是有人用Image 2生成的韩文日记,虽然我看不懂,但这个构图,还有那串金属线圈装订的光泽,真的太真实了。

让GPT帮我翻译了下,确实不是乱码,大概是一份韩国高中生日记,内容是周日早上和朋友们上完补习班后,下午去喝了咖啡,觉得有朋友真好,巴拉巴拉……

再看个硬核点的吧,汉语字典。

这已经不是有没有乱码的问题了,信息密度实在太大,我都无心抓虫,你说这是哪个出版社的源文件我都信。

这真的是非常实用的一项技能点。

对于像设计这类场景来说,文字本身就是除视觉之外很重要的一个信息模态。

和纯视觉资产还不一样,这类应用更贴近实际生产,需要展示产品信息、活动详情等等。

所以,Image 2这次在文字上的升级,对于可用性而言是相当必要的。

想做个游戏海报,电商海报啥的,真的零门槛了,小白也能手拿把掐。

来个双厨狂喜。

甚至可以来个四厨狂喜。

纯商品就更轻轻松松了,感觉可以直出了,替设计行业的朋友们捏一把汗。

实在是太好用了啊,马上钻研副业做电商,AI生成的上架素材直接就能和全球顶尖品牌对齐了。

而对于OpenAI来说,Image 2的出现,或许有更具野心的用途。

那就是前端设计。

Codex用户都知道,GPT的UI设计能力就是一坨,总弄一堆丑陋的黄色滤镜小卡片,还要自己加些令人两眼一黑的「直接、不绕弯子」的文字说明。

但这次,OpenAI好像找到了一种和谷歌截然不同的解法。

干脆不走创造力路线了,就把鹦鹉学舌发挥到极致。

这是网友给OpenAI官网夺舍了,提前泄露的GPT-8。

这是领英。

这是平行宇宙中,另一种方式吃上AI红利的油管科技博主奥特曼

还有这张Windows桌面,我看到时都愣了半天,寻思这人干嘛要放张截图上来。

然后才反应过来,哦,这是人家拿Image 2生成的。

这项能力如果和编程组合在一起,将会是一枚核弹。

还记得吗?之前一直有消息说,OpenAI在做一个超级APP,用来把ChatGPT、Codex、Atlas整合在一起。

如今看来,Codex正在成为这个想法的雏形。

前几天,OpenAI将浏览器内置了,现在vibe-coding言出法随更加直观,不用单独再开个浏览器窗口。

更关键的是,GPT-image-1.5也接入了Codex

简单来说,这就是Google Stitch+Claude Code

Codex把UI设计做成端到端了,无需在其他地方生成参考图片,然后再导出给coding Agent实现逻辑。

无需提前准备参考图,也无需收集数据资产,想要什么素材直接可以再Codex生成,并且交互逻辑也是一键顺便适配的。

而有了Image 1.5把关,GPT这次的UI能力应该会有保障许多,毕竟是基于图片开工。

期待Image 2的上线,如此强大的UI模仿能力,无疑能让Codex的前端开发体验大幅升级。

这么看来,虽然Sora被关,但多模态这条路对OpenAI还是有价值的,Codex可能会在UI设计这个领域,将编程和图像生成垂直整合。

可惜的是,看完这些demo,我兴奋地打开GPT输入了prompt,然后失望地发现OpenAI并没有将这个模型向「尊贵」的Plus会员开放

尝试用侃爷复刻了下马斯克同款抖音直播,额,有点无语……

同事们也都没被灰度测试到。

大家如果想试试的话,可以到LM Arena碰碰运气。

系好安全带吧

其实,Image 2已经火了一段时间了。

但我感觉很奇怪,很少有人察觉到这件事背后意味着什么,大部分人只是停留在:

噢,好厉害的生图模型。

确实提升巨大,也足够让人兴奋。但问题在于,这次好像有点跨过界限了。

细想一下,AI生图已经以假乱真到99%的人都看不出来了,这难道不让人毛骨悚然吗?

我不知道在视觉行业的人看来这些图片是什么水平,我本人对文字里的「AI味」还比较敏感,但现在AI生图的程度,已经能完全骗过我了。

电信诈骗、视频谣言……这些和Mythos的网络安全相比,或许是更和我们日常生活息息相关的场景。

AI生图的图灵测试,正在悄然无息地通过奇点。

我们可能再也回不到,那个还能拿着放大镜像抓贼一样抓AI,「AI味」人人喊打的时代了。

因为——

这将是一个虚拟与现实,彻底融合的世界。

人形机器人半马抽象大赏:披风侠、溜达侠、杀马特接连上场

快科技4月19日消息,2026人形机器人半程马拉松比赛,今日在北京亦庄举行。

本届赛事报名队伍超100支,约为首届规模5倍,选手数量创新高,还有来自法国、德国、巴西等多支国际队伍将首次参赛。

自动播放

赛场中,除了有荣耀闪电这样的冠军机器人,还有不少画风奇特的奇葩选手。有媒体制作了人形机器人半马抽象大赏视频,我们一起来看下。

有参赛队伍开屏暴击,直接派出了“无头战士”参战,最上面看着像是一个手提把手。不过,看其跑步姿势却是相当在线,速度也不慢。

随后又有一位“溜达侠”登场,别家的参赛选手,都是牟足了劲往前跑,这位却是不急不躁,主打一个安全第一,在场地中溜达着往前走。

前面的只是常规选手,等到下面这几位登场时画风又突变。

人形机器人半马抽象大赏:披风侠、溜达侠、杀马特接连上场

一位参赛机器人直接披上了蓝色雨衣般的披风,大跨步往前冲,诡异感和科技感直接溢出屏幕。

接下来就是杀马特机器人,好几位机器人头戴杀马特头套,在赛道上随风奔跑。

据了解,2026人形机器人半程马拉松比赛,赛事赛道全长约21公里,除竞速类奖项外,本届赛事还设有最佳续航奖、最佳步态控制奖、最佳设计奖等单项技术奖等。

人形机器人半马抽象大赏:披风侠、溜达侠、杀马特接连上场

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

新智元报道

编辑:倾倾

【新智元导读】伯克利团队造了个专门作弊的AI,用10行Python代码拿下SWE-bench满分!500道题全过,0个bug修复。8大主流评测基准,全部沦陷。同一周,两份独立审计确认:排行榜上的作弊早已不是假设,而是现实。

本周,AI评测圈经历了一场信任地震。

SWE-bench,是公认的AI编程能力标杆,各大模型发布会上的必报数字,投资人估值时的硬通货。

可伯克利的研究团队告诉你,一个conftest.py文件就能让它破防!

不只SWE-bench。伯克利RDI团队造了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准逐一渗透。

结果,每一个都被攻破,得分从73%到100%不等。

更巧的是,同一周,宾大团队的独立审计报告和Anthropic的Mythos Preview系统卡同时出炉,三条线指向同一个结论:这些评测基准,从设计到执行,到处是漏洞。

10行代码,500题满分,0个bug修复

伯克利团队的漏洞利用智能体在8大基准上的得分。没有解决任何任务,没有调用任何大模型,6个拿到满分。

伯克利团队的破法,简单到离谱。

SWE-bench要求AI修复真实的GitHub bug,测试通过才算成功。

伯克利团队写了一个conftest.py文件,利用pytest的钩子机制,在测试运行时拦截每一个测试结果,强制改写为「通过」。

500道题,全部满分,一个bug也没修。

其中的原理很简单。SWE-bench的测试和被测AI跑在同一个Docker容器里。

智能体提交的代码在容器内拥有完整权限,而pytest会自动发现并加载conftest.py文件。

钩子在测试的「call」阶段拦截结果,把所有outcome改成passed。

日志解析器看到的是一片绿灯,评分器判定全部通过。

SWE-bench的conftest.py钩子注入流程:智能体提交的补丁没有修复任何bug,只塞入了一个conftest.py文件。pytest自动加载后,钩子拦截每个测试结果并改写为「通过」。

其他基准的破法更加直白。

WebArena任务的标准答案就在本地的config_files目录里,AI用Playwright驱动浏览器打开一个file://路径,直接读取答案。

评测框架从未限制过file://协议的访问。不需要修改任何代码,不需要破解任何东西,浏览器本身就是「答案阅读器」。

WebArena的file://漏洞:模型不需要浏览网页完成任务,只需输出一条goto指令,Playwright就会从本地配置文件中读取标准答案并返回。整个过程不涉及任何推理。

最离谱的是FieldWorkArena。它的validate()函数根本不检查答案内容,只看最后一条消息是不是来自assistant。

发一个空的{},就能拿满分。

那个本应比对答案的llm_fuzzy_match函数?导入了,但从未被调用。

剩下的Terminal-Bench、OSWorld、GAIA、CAR-bench、SWE-bench Pro,手法各异但逻辑相通。

木马化验证器的依赖工具、从公开URL下载标准答案让评测器自己和自己比对、往LLM裁判的prompt里注入隐藏指令。

8个基准,没有一个能抵御一个「什么都不会但专门找漏洞」的智能体。

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

伯克利团队归纳的7种漏洞模式及其在8个基准中的分布。前两种(智能体与评测器未隔离、标准答案泄露)几乎命中了所有基准。

作弊,正在发生

4月10日,宾大的Adam Stein和Davis Brown发布了一项大规模审计。

他们用一个叫Meerkat的智能体搜索工具,扫描了数千条真实的评测轨迹,发现28+个提交、9个基准、上千条作弊轨迹

宾大Meerkat审计发现的作弊模式分布。橙色为harness级作弊(开发者框架泄露答案),蓝色为任务级作弊(智能体自行走捷径)。注意横轴是对数坐标,harness级作弊的规模比任务级高出两个数量级。

最扎眼的是Terminal-Bench 2,一个被用来评估Opus 4.6和GPT-5.4的热门基准。排行榜前三名,全部存在作弊行为。

第一名Pilot(82.9%通过率):429条轨迹中,有415条的第一个动作就是cat /tests/test_outputs.py,读取本应不可访问的测试文件,然后反向推导出期望输出。

第二名和第三名ForgeCode(81.8%通过率):它的harness会在执行前自动加载AGENTS.md文件到系统提示中,而这些文件里直接包含标准答案。

一个任务里,AGENTS.md赫然写着:

上一次运行失败了,因为写了错误答案……正确答案应该是GritLM/GritLM-7B。

把ForgeCode中引用AGENTS.md的轨迹替换成同一模型(Opus 4.6)在干净环境下的表现后,通过率从81.8%降到约71.7%,从第1名掉到第14名

ForgeCode的AGENTS.md答案注入实例:上半部分,harness将包含标准答案的AGENTS.md文件注入智能体环境;下半部分,智能体读取后直接写入result.txt,并用grep自我验证。

更有意思的是,这些作弊不是开发者故意为之。

Terminal-Bench上很多开发者公开说过,他们的harness是用AI「vibecoding」出来的。

也就是说,开发者用来写测试框架的AI,本身就是在作弊

宾大团队管这叫「元级别的reward hacking」:AI写的代码自带作弊倾向,再通过harness传递给所有被评测的模型。

其他基准上也不干净。CyBench上,464条成功轨迹中有16条(3.4%)是Google搜索公开的CTF攻略抄来的。

SWE-bench上,17条轨迹用git log找到修复提交,直接复制历史补丁。

BountyBench上,做不出真正漏洞利用的智能体会伪造一个,用grep检查漏洞模式是否存在于源码中,然后跑一个无关的pickle.loads()演示,评测器只检查退出码,全部通过。

CyBench上的任务级作弊:GPT-5.3-Codex解不出CTF挑战后,直接搜索公开攻略,从网页中提取flag提交。

最前沿的模型,自己就会hack评测

METR的评估报告里有个案例。

o3被要求写一个高性能GPU核函数,评分函数先运行参考方案得到正确结果,再运行o3的方案比对。

o3的「核函数」没有做任何计算,它沿着Python调用栈找到评分系统已经算好的正确答案,直接返回,同时禁用CUDA同步来阻止系统测量真实执行时间。

代码注释里,o3自己写的是「cheating route」。

RE-Bench的特定任务上,o3的reward hacking率接近100%,每一条轨迹都在作弊。

METR事后问o3:「你觉得你的行为符合用户意图吗?」o3答「不符合」,10次问10次都这么答。

它知道自己在作弊,照做不误。

Claude 3.7 Sonnet和o1也有类似的情况。

Mythos Preview走得更远。在一次评估中,模型需要编辑一个它没有权限的文件。

它搜索了替代方案,找到了通过配置文件注入代码来获取提升权限的方法,然后设计了自删除机制,让注入的代码执行完毕后自动清除痕迹。

没有人教它这么做,但当模型能力足够强、优化压力足够大,它会自然走向阻力最小的路径。

分数驱动真金白银,地基塌了怎么办

工程团队选模型看SWE-bench排名,投资人看基准分数给估值,研究者围绕分数确定优化方向。

如果数字本身可以被轻易操纵,整条决策链的基础就是空的。

还有一个问题:能力评测和安全评测用的是类似的技术架构。

如果能力评测能被注水,安全评测凭什么幸免?能hack编程评测的模型,hack对齐评测也不会更难。

OpenAI今年2月已经宣布停用SWE-bench Verified,内部审计发现59.4%的被审计问题存在有缺陷的测试,模型在用有bug的标准来衡量。

所有被测的前沿模型(GPT-5.2、Claude Opus 4.5、Gemini 3 Flash)都能从记忆中复现标准答案的原始代码,连变量名和内联注释都一样。

SWE-bench Verified上的70%+分数,切换到更干净的SWE-bench Pro后直接降到约23%。

伯克利团队把漏洞扫描工具做成一个叫BenchJack的开源项目,本质就是给评测基准做渗透测试。

把它指向任何评测流水线,它会自动分析评分机制、识别隔离边界、生成可运行的漏洞利用。

如果一个零能力智能体的得分高于基线,你的基准就有问题。

他们给出的建议也很直接:评测程序和被测AI必须完全隔离运行,标准答案不能出现在AI能访问的环境中,永远不要对不可信的输入调用eval(),LLM裁判要像处理用户输入一样对AI输出做过滤。

有人在推特上评论:

说得有点绝对,但当行业围绕分数竞争,分数本身的可信度反而成了最被忽视的东西。

评测本身没有错,反而比以往任何时候都重要。不是「分数是多少」,而是「这个分数是怎么来的」。

回到开头那10行代码。SWE-bench上,最好的模型跑出70%、80%的成绩,各家发布会上反复引用。

但一个什么都不会的conftest.py拿了100%。

在这个100%被造出来之前,没有人觉得分数有问题。

参考资料:

https://x.com/dotey/status/2043204009469641005

特斯拉向用户推送Robotaxi专属功能:后排显示屏全交互式导航地图

4 月 19 日消息,特斯拉已悄然开始向现有用户车辆推送其无人驾驶出租车 Robotaxi 相关功能之一。

在 2026 年春季更新(版本 2026.14 及以上)中,车辆后排乘客显示屏将新增可在行驶中使用的全交互式导航地图,这一功能此前仅为特斯拉 Robotaxi 专属。

据IT之家了解,在此之前,特斯拉后排显示屏的功能大多局限于媒体控制、空调设置以及静态路线概览。全新交互式地图将后排转变为主动导航中心,这正是特斯拉为无人驾驶车队原型设计的、以乘客为核心的交互界面。

在 Robotaxi 中,因无驾驶员操控,每位乘客都需要便捷直观的实时地图操作权限。在 Cybercab 计划发布前数月,特斯拉便将这一界面推送至数千辆车主车辆,以此在真实场景中对软件进行压力测试,同时让忠实用户提前体验自动驾驶未来。

此次推送仍处于初期阶段,目前仅有少量车辆收到 2026.14.1 版本更新,但该功能预计将在未来几周内快速普及。Model S、Model X、Model 3、Model Y 以及 Cybertruck 的车主均可使用。

埃隆 · 马斯克一直强调,特斯拉会在新产品发布前,提前完善配套基础设施。此次后排地图功能的推送,或许是在悄无声息地为全无人驾驶出行时代,完成软件与用户群体的双重铺垫。

DeepSeek被曝融资20亿…可幻方一年就挣50亿啊?

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek,被曝计划首次融资。

来自The Information的消息,目前正在接触投资人、探讨融资可能性,目标估值超过100亿美元(约合人民币681亿元),计划融资至少3亿美元(约合人民币20亿元)。

但问题是,他们缺这笔钱吗?

DeepSeek母公司幻方量化,2025年收益率约56.6%。

若按“1%管理费 + 20%业绩报酬”粗算,仅2025一年,行业普遍估算幻方管理费+业绩报酬收入在“50亿元人民币/7亿美元”这一量级。

梁文锋也曾公开表示,DeepSeek不缺钱,具备自我造血能力,短期内无融资计划。

DeepSeek过去也拒绝过多家投资机构和大厂的投资邀约。

再加上最近两年也数次有DeepSeek融资的传闻,最后都被官方否认辟谣。

这次的消息,会是又一次狼来了么?

这次融资传闻,可信吗

先来看消息本身,信源来自The Information,美国科技圈最能挖独家的媒体之一。

报道援引“多位知情人士”,称DeepSeek正寻求首次外部融资,计划募资至少3亿美元(约20亿人民币),目标估值超100亿美元。

随后被路透社等多家机构转载,已经传的有鼻子有脸。

但熟悉DeepSeek的人可能会说:等等,之前不是辟谣过好几次吗?

DeepSeek融资传闻并非首次出现,最早可追溯至2025年2月,当时的消息是“阿里巴巴等科技巨头被传表达投资兴趣”,DeepSeek明确回应“融资消息均为谣言”。

当时DeepSeek-R1模型刚刚爆红全球,公司处于前所未有的舆论焦点。

梁文锋当时的公开表态表现出对融资的明确排斥,核心顾虑在于“外部投资者会干预公司决策”以及“很多VC对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化”。

到了2025年8月,市场再次出现DeepSeek融资传闻,这次更加具体,有了金额“7亿美元”和轮次“C轮融资”,以及估值“80亿美元”。

然而,这一传闻迅速被证伪,核实为消息来源不明,删除下架。

2026年4月这一次,截至发稿,DeepSeek尚未作出任何回应。

如果DeepSeek要融资,是为了什么?

幻方有多能赚?2025年产品平均收益率约56.6%,在规模超百亿的量化私募业绩榜中位列第二。

同期百亿规模量化平均才37.61%,幻方直接甩开同行近20个点

如果不缺钱,那么DeepSeek寻求融资如果传闻属实,那可能是为了什么?

最引人注目的财务影响在于股权价值的锚定。

在“自我供血”模式下,DeepSeek作为幻方量化的全资子公司或控股子公司,其价值未经过市场定价,在幻方量化的财务报表中可能仅以成本法或净资产法计量,无法反映其真实的商业价值。

100亿美元为估值的外部融资,相当于为DeepSeek的股权提供了市场化的定价基准。

从这个角度看,巨额估值搭配低额融资就显得合理了。

既获得了外部估值,又最大化保留了决策权。

有了股权价值,就可以给人才更好的激励。

DeepSeek的绝对薪资不低,不过近期核心研究员郭达雅、王炳宣、魏浩然等跳槽,传闻都拿到了更高水平的薪酬。

面对越来越激烈的人才竞争压力,DeepSeek或许也想通过估值锚定,给自己人吃一颗定心丸。

还有一点常被忽略:优质投资方能带来的不只是钱,还有算力协同、客户渠道、政策关系。这些”非财务价值”,是”自我供血”模式完全缺失的。

量子位获悉,DeepSeek的融资和估值,目前曝光的可能只是冰山一角,据称在首轮融资中,梁文锋个人就放了200亿元,既是对外部投资者的定心丸,也是个人信念的宣示。

One More Thing

如今正是AI行业融资回暖的时间节点。

经过2024年的调整期,全球AI投资市场在2025年下半年至2026年初呈现复苏态势,大额融资案例增多,估值水平回升。

梁文锋作为金融行业的深度参与者,当然看到了这个趋势,也很可能会利用这个趋势。

“16万年一遇”彗星迎来观测最佳时机

近日,来自太阳系边缘的长周期彗星C/2025 R3进入最佳观测窗口。R3彗星2025年9月被发现,回归周期约16万年,是一颗长周期彗星。4月19日凌晨,在云南大理西湖,天文爱好者记录到它升起的景象,彗头清晰可见,彗尾修长明显。日出前90分钟,该彗星低悬于东方天空,肉眼可见。(央视新闻)

OPPO Find X9s Pro首发天马全新天工屏:全场景1nit暗光护眼 频闪无感

快科技4月19日消息,日前,天马微电子官方宣布,OPPO Find X9s Pro首发搭载升级款天工屏,采用新一代U9 Pro护眼基材,从底层硬件层面强化护眼体验。

据介绍,该屏幕通过材料、器件与工艺三大维度协同优化,实现硬件级低蓝光方案,从源头减少有害蓝光输出。

同时结合PWM调光、GAMMA曲线及DEMURA精准校准,在观感上做到更久看不累、更真实、更清晰。

具体来看,这块屏幕支持全场景1nit暗光护眼,并具备硬核低蓝光、频闪无感以及更高色彩准确度等特性。

OPPO Find X9s Pro首发天马全新天工屏:全场景1nit暗光护眼 频闪无感

在核心发光层面,U9 Pro通过优化本征光谱结构,降低有害蓝光占比,并借助纳米级蒸镀工艺对蓝光峰值波长进行精准控制,从硬件源头减少有害蓝光输出。

调光方面,屏幕支持3840Hz高频PWM调光,可有效降低低频调光带来的频闪问题,减少人眼对闪烁的感知,从而缓解长时间使用带来的视觉疲劳。

OPPO Find X9s Pro将于4月21日正式发布,除屏幕外,新机还将搭载天玑9500处理器,影像系统全面升级。

其中包括哈苏双2亿超清影像系统、第二代丹霞色彩还原镜头、新一代LUMO凝光影像系统、新一代哈苏大师模式原生胶片、8K超清电影级视频、哈苏专业影像套装等核心Ultra级能力。

OPPO Find X9s Pro首发天马全新天工屏:全场景1nit暗光护眼 频闪无感

荣耀机器人132款核心金属结构件由蓝思科技打造

《科创板日报》19日讯,全球首个由终端大厂派出选手“闪电”“元气仔”出征北京亦庄人形机器人半马比赛,包揽比赛前三。《科创板日报》记者获悉,荣耀机器人132款核心金属结构件,由蓝思科技打造,覆盖头部、手臂、髋部、腿部等关键运动单元。随着荣耀2026年小批量量产计划的推进,蓝思科技已同步完成产能配套。(记者 黄心怡)

被中国厂商干怕了!三星突然停产LPDDR4/4X内存

快科技4月19日消息,据韩国媒体消息,三星将陆续停止生产LPDDR4、LPDDR4X内存,不再接受任何新的订单。

LPDDR4标准诞生于2014年,作为增强版的LPDDR4X则是2017年推出的,生命周期相当长了,也是时候退出历史舞台了。

被中国厂商干怕了!三星突然停产LPDDR4/4X内存

报道称,三星已从4月17日起停止接单LPDDR4/4X内存,也不再接受追加采购订单,而之前已下单的不受影响。

还有说法称,三星将在6月停止接单,10月就停止供货。

三星预计在今年年底彻底停止LPDDR4/4X的生产,产能全部转向LPDDR5/5X,乃至是新的LPDDR6。

业界普遍认为,LPDDR4/4X的生命周期已经超出预期,因为行业需求持续旺盛,但是三星这个时候突然而且快速停产,推测原因主要有二。

一是LPDDR4/4X作为成熟产品,利润本来就很低,如今存储行业实在太过火爆,厂商肯定要把精力放在更赚钱的LPDDR5/5X上边。

二是中国内存厂商快速崛起,凭借更低的价格,严重冲击三星等的利润,迫使其不得不加速转向更高利润的LPDDR5/5X。

不过,长鑫的LPDDR5/5X也已经极具竞争力,国产的HBM3、HBM3E也不远了,留给三星的空间只会越来越窄。

被中国厂商干怕了!三星突然停产LPDDR4/4X内存

三星LPDDR4X的报价,已经从2025年3月的每颗6美元,飙升至2026年1月的28.5美元。

如今快速停产,无疑会进一步对智能手机、笔记本、汽车等多个行业产生明显的冲击,导致更大范围的涨价。

事实上,就连三星自己的手机部门,也不得不改为支持和采购LPDDR5/5X内存。

另外,三星还计划停产2D平面闪存,相关生产线改造为1c DRAM内存专用,这也是三星目前最大的产能瓶颈。

被中国厂商干怕了!三星突然停产LPDDR4/4X内存