每经专访爱奇艺创始人兼首席执行官龚宇:最快今夏,将出现纯AI制作爆款长剧

每经记者:丁舟洋 宋美璐 每经编辑:杨军

时光刻度划过13年,中国网络视听大会再次在成都举办。

13年来,大会主论坛的面孔与声音几度更迭,而爱奇艺创始人兼首席执行官龚宇,却是极少数坚守的“全勤生”。4月15日,当《每日经济新闻》记者在专访中提及这一细节时,龚宇自嘲道:“现在的语境下自称‘老资格’,似乎并不讨喜。”

爱奇艺创始人兼首席执行官龚宇接受每经记者专访。受访者供图

新旧变化,在这个行业里的确是加速度。

十多年前,以“爱优腾”(爱奇艺、优酷、腾讯视频)为代表的长视频“优等生”,还是挑战传统电视台、抢占用户时间的视听行业“新物种”。然而,短视频的崛起迅速改变了这一格局。用户刷短剧总时长超过长剧的现实,让长视频平台、长剧公司等这一行业的“头部玩家们”思考何去何从。

“AI的出现将提振长视频内容行业。”龚宇认为,甚至精品长剧成本占比高的头部演员成本,也将被改变,爱奇艺已经与一线演员洽谈其肖像权在AI影视剧中的合作,“乐观估计,今年夏天就会出现纯AI制作的爆款长片”。

平台自制头部内容投入占比将下调

清华大学自动化专业“本硕博”出身的龚宇,对技术有一种天然的敏锐与热情。

“AI技术其实并不年轻,只是一直不到位。直到2016年左右,深度学习算法才激发了它的活力;特别是AI大模型在2022年开始以后,才应用到了各行各业。”对于AI在影视行业的影响,龚宇用“振兴”来定义。

“用AI生成长片,现在已经没有什么技术性的障碍了。”龚宇认为,“故事讲得流畅、人物有弧光、有高质量的情感输出,目前的AI工具已经基本能够做到这三点。”

AI可以显著降低影视制作成本、缩短影视制作周期。当单体内容成本降低到原来的十分之一后,创作者数量将会增加10倍,作品数量将会增加百倍,用户规模也将激增。在他看来,面对这一变化,长视频平台的应对方式就是去中心化——让内容更丰富、让创作者获得更多机会、让创作者更公平地获得经济回报。

“长视频媒体未来要转型为创作者和用户的社区,同时自身仅保留少量头部内容的制作,这便是去中心化的架构,也正指引着爱奇艺的战略航向。”龚宇的这番论断,在长剧从业者中激起了另一层涟漪——“平台是要削减头部内容的预算了吗?”

“平台对于自制及采购头部内容的投入比例必然会下降,但因为产业规模增加、蛋糕变大,绝对金额或许会先降后升。”龚宇向每经记者回应称,所以现在的关键就在于哪些头部内容公司能够率先完成自我迭代。

""

龚宇在网络视听大会演讲。每经记者 张建 摄

“我现在是又焦虑又兴奋,用AI创作长篇影视内容,还有太多技术性障碍和技术细节需要克服,所以焦虑。AI又绝对是十年一遇的科技机遇,它太特殊了,学会了人的智力,又反过来作用于人类,我兴奋于这一切的发生。”

“我们不会变成一家大模型公司”

如今纯AI生成的短剧、漫剧已是爆发式增长。AI也作为辅助工具广泛运用在长剧、电影、综艺等影视长片内容中,但纯AI制作的长片还没有出现。

“我说的纯AI生成,是里面的每一个角色、物品都是数字虚拟出来的,或者是真人演员AI形象迁移过来的。”在龚宇看来,最快今年夏季、最迟今年秋冬季就一定能出现纯AI生成的长片,而且是爆款长片。

他注意到,与过往新技术出现“既得利益群体”的普遍抵触不同,影视从业者几乎普遍积极拥抱AI。“大家都觉得AI势不可挡,现在的障碍在于能否快速掌握这一工具。我们需要又有影视审美能力,又有AI制作技术的从业者,这是现在亟需的。”

无论是Seedance还是可灵,目前针对专业影视创作者的付费影视大模型,其背后是头部大厂在算力成本上的不断烧钱与投入。记者注意到,爱奇艺也将正式上线一款影视智能体“纳逗Pro”,爱奇艺也在卷大模型了?

“纳逗Pro只是一个辅助工具,底层是接入各种已有的影视大模型,他们技术越卷越升级,我们的工具越好用。优质内容才始终是爱奇艺想要挖掘的‘金子’,但我们在挖金子过程中发现市面上的铲子还不够好用,我们就自己造一个铲子出来。我们并不会变成一家大模型公司。”

“举个例子,像武打镜头,仅靠大模型的提示词去精准描述,难度非常大,生成的画面和音效往往都难以达到预期。但我们的AI智能体‘纳逗Pro’则不同,比如在制作某部剧集时,我们可以直接调用一段男女对打的戏份作为参考。虽然生成的镜头不会完全复制,但能够精准捕捉并复刻那种飞来飞去的动作风格,这极大地提升了创作效率和成片效果。而这一切的核心优势在于,这些参考素材都是爱奇艺拥有完整版权的知识产权,这是通用视频大模型无法触及的壁垒,也从根本上规避了侵权风险。”

纳逗Pro将采用付费模式,但会员服务仍将是爱奇艺收入的重要支柱。

“除此之外,AI长剧的广告收入也将大幅提升。因为广告是基于流量的,只要我们有大量的创作者内容,用户观看流量变大,广告就会增多。我们会基于广告收入与创作者公开透明地分成,如果在爱奇艺上独家发行,分成比例更高。”

针对AI驱动下的“去中心化”模式将如何重塑平台收益的问题,龚宇认为这需要时间的沉淀与积累。他给出了明确的时间表:“今年夯实基础,明年初见成效,到了第三年,收益将实现显著增长。”

演员肖像权参与纯AI长片并享分账收益

自从AI生成真人视频技术逐渐成熟以来,“肖像权”一直是行业讨论最集中的议题。从Seedance 2.0上线不久便宣布禁止使用真人肖像生成视频,到AI真人短剧撞脸素人引发争议,影视行业一边拥抱效率革命,一边也在寻找版权与伦理边界。

“很多一线演员都在和我们合作。”谈及AI影视的肖像授权时,龚宇告诉《每日经济新闻》记者,爱奇艺正在与多位演员洽谈授权合作,涉及男、女主的肖像生成,用于具体项目中的AI影视内容开发。

奥斯卡金像奖得主、《卧虎藏龙》摄影师鲍德熹,发起了“鲍德熹·爱奇艺AI剧场” 主办方供图

在他看来,AI时代的演员授权逻辑,并不会颠覆现有影视工业规则,而是对传统规则的延伸。“就跟现在电影一样,一个演员同意在某个项目里使用一次肖像,并不意味着其他项目都可以无限使用。”龚宇表示,未来AI肖像授权也将采取项目制、角色制授权模式,由演员经纪团队代表协商执行。“按照知识产权和个人肖像权现有的世界规则来推动,阻力会很小。”

这意味着,演员的“数字资产”开始具备更清晰的商业价值。过去,演员收入主要来自片酬、商务代言及部分分账;未来,演员的数字形象授权有望成为新增收入来源。龚宇透露,使用演员肖像权参与AI剧集制作后,演员未来还可与投资方进行收益分账,“快的话,今年秋天就会有案例出现”。

在成本端,这对演员而言同样是一种助力。龚宇指出,当前演员参与一部长剧拍摄,往往需要在横店等影视基地驻组三到四个月,每天工作13至14小时,几乎没有个人生活。“有了AI影视剧之后,劳动强度会大幅下降,原来一部戏拍三四个月,现在可能两周就完成,相当于有一个数字分身帮自己打工。所以一线演员愿意自己肖像权被合规开发。”

而在平台经营层面,一方面,一线演员资源的可复制性提高,有望缓解长剧长期面临的档期冲突、头部演员供给稀缺与片酬高企问题;另一方面,AI演员迁移也可能放大长视频平台内容的“长尾价值”。龚宇在采访中提到,长尾内容为爱奇艺贡献了更大比例的利润。

过去,经典IP受限于演员档期、制作成本和翻拍难度,许多内容难以重启开发;但在AI技术推动下,平台已拥有版权储备的老剧、经典角色,有望以更低成本实现再生产。近两年,已有多部因演员问题被“尘封”的影视作品,通过AI换脸等方式重新进入市场。

不过,龚宇也强调,平台不会放任演员数字形象泛滥使用。“我们要控制它不能泛滥,要让它保持契约性的价值。太多技术性跟商业规则方面的东西正在建立过程中。”

工信部:要加快急需标准制定,制定发布自动驾驶、数据安全、网络安全等标准

4月16日,第六届全国汽车标准化技术委员会(以下简称“全国汽标委”)成立大会在北京召开,工业和信息化部党组成员、副部长辛国斌出席大会并讲话。

辛国斌充分肯定了第五届全国汽标委在健全汽车技术标准体系、优化标准供给质量、提升标准国际影响力等方面取得的成绩,以及在促进产品质量提升和产业技术进步、支撑我国汽车产业形成全球竞争优势方面发挥的重要作用。辛国斌强调,党中央、国务院高度重视标准化工作,习近平总书记多次作出重要指示批示,为新时期开展汽车标准化工作提供了根本遵循。“十五五”时期是我国建设汽车强国、扩大产业竞争优势的重要窗口期,要充分发挥标准支撑产业发展的基础性、引领性作用,以高水平标准促进汽车产业高质量发展。要持续完善标准体系,系统谋划、前瞻布局,构建汽车行业“十五五”技术标准体系。要加快急需标准制定,制定发布自动驾驶、数据安全、网络安全、碳足迹核算、车用人工智能等标准。要强化标准全生命周期管理,创新工作机制、模式和方法,加大标准宣贯力度和实施成效动态评估,形成管理闭环。要加强国际标准法规协调,深度参与全球汽车标准法规制定,推动标准协同、检测互认,更好服务我国汽车产业走出去。

会议宣读了批准全国汽标委换届的公告,听取了第五届全国汽标委工作报告,审议通过了第六届全国汽标委章程、秘书处工作细则,并针对汽车行业“十五五”技术标准体系及重点领域体系建设方案、第六届全国汽标委组织管理创新等进行了交流研讨。工业和信息化部、公安部、生态环境部、交通运输部、海关总署、国家标准委等相关司局,行业机构、重点企业等单位的78名委员(代表)参加会议。

全国汽标委于1988年正式成立,下设29个分技术委员会,是国内最大的专业标准化技术组织,全面负责汽车产品的国内标准制定和国际标准法规协调。截至“十四五”末,已制定发布汽车(含摩托车)相关国家和行业标准达1650项,形成覆盖全链条、全流程、全生命周期的汽车标准体系;同时,积极参与世界车辆法规协调组织(WP.29)、国际标准化组织(ISO)、国际电工委员会(IEC)等框架下国际汽车标准法规制定与协调工作,担任近40个重要职务,牵头制定30余项全球技术法规和国际标准。

马斯克加快筹备Terafab半导体项目,特斯拉官方正为其招揽人才

4月17日消息,特斯拉官方招聘网页显示,特斯拉正为其Terafab半导体项目在中国台湾展开人才招募。

3月22日,马斯克在美国得克萨斯州奥斯汀市举办“Terafab”项目发布会,宣布正式启动由特斯拉、SpaceX与xAI联合打造的“Terafab”项目。

据悉,该项目将打破全球现有芯片制造的分工模式,旨在打造一个集芯片设计、光刻、制造、内存生产、先进封装及测试于一体的全垂直整合半导体制造中心。按照马斯克的计划,他们将把芯片设计生产全链条集中在单一厂区内,形成“制作掩膜—芯片制造—测试—优化掩膜—再制造”的极速迭代闭环。

特斯拉此次为中国台湾推出至少9个关键工程职位,要求具备5年以上经验,重点锁定2纳米级工艺及7纳米以下先进制程技术。


Terafab项目被特斯拉称为“有史以来规模最大的芯片制造工厂”。有报道称,Terafab的目标是每年制造相当于1太瓦计算能力的芯片(含逻辑芯片、存储芯片及封装产能),其中约80%算力用于太空领域,20%用于地面应用。该项目预计将建在位于得克萨斯州奥斯汀市的特斯拉园区内。特斯拉希望该项目在2029年开始芯片制造,然后逐步扩大规模。

马斯克称,当前全球AI算力年产量约20吉瓦,Terafab的年算力产能相当于前者当前规模的50倍。马斯克介绍,“Terafab”项目内设两个晶圆厂,每个晶圆厂专注一种芯片,并将实现全流程闭环生产。

马斯克透露,全球目前尚无任何厂区能将逻辑、存储、封装、测试、光刻掩膜等全部放在一起,实现这一全流程一体化布局,其迭代速度较常规产线高出一个数量级,可支撑算力芯片的极限工艺试验与新物理方向研发。

此前,据财联社报道,知情人士称,马斯克团队希望供应商尽快提供价格估算,并以“光速”推进项目。团队已经与芯片行业供应商进行了接洽,要求尽快完成芯片制造设备的交付。接洽的公司包括应用材料、东京电子和Lam Research等,特斯拉员工据悉已就一系列芯片制造设备询价并询问交货时间。在过去几周里,他们还联系了光掩模、衬底、蚀刻机、沉积机、清洗设备、测试仪和其他设备的制造商。

另据券商中国援引外媒报道,英特尔宣布将加入该项目,与SpaceX和特斯拉合作,为Terafab提供芯片制造的专业支持。英特尔首席执行官陈立武在上周五的一份备忘录中表示,英特尔计划在未来几周向员工披露英特尔参与Terafab项目的范围和性质。而两家公司的合作代表了英特尔与马斯克公司间的战略联盟。陈立武还表示,英特尔首席技术官Pushkar Ranade将负责英特尔与Terafab的技术合作,而他本人将亲自监督该项目的开展。

英特尔在社交媒体平台发文称,其技术能力将有助于加速“Terafab”实现“年产1太瓦(terawatt)算力”的目标,以推动AI和机器人技术的未来发展。

陈立武在另一篇帖子中表示,“Terafab”项目代表了未来硅逻辑芯片、存储芯片和封装构建方式的一次飞跃。 “马斯克在人工智能、交通运输、通信、机器人和太空旅行等领域的宏伟愿景,高度依赖于充足且不间断的硅芯片供应。因此,英特尔是帮助他实现愿景的理想合作伙伴。”

据悉,特斯拉AI芯片计划近期取得重大突破。4月15日,马斯克在社交平台X上发文称,“恭喜特斯拉AI芯片设计团队成功完成AI5芯片的流片。AI6、Dojo3以及其他令人期待的芯片也正在开发中。”马斯克表示,AI5将成为有史以来产量最高的AI芯片之一。

供应链专家Brad Gastwirth表示,虽然Terafab有雄心壮志,但其执行情况的可见性仍然有限。目前该项目还没有明确的生产时间表,也没有关于资本密集度或每片晶圆成本的细节,更没有关于良率提升预期方面的指导,考虑到先进节点生产的敏感性,这些预期至关重要。

不怕成本高 台积电表态:扩大对美国投资 更有信心了

快科技4月17日消息,台积电日前发布了Q1季度财报,359亿美元的营收、66.2%的毛利率等非常亮眼,不过市场关心的美国芯片厂的营收情况并没有公布。

台积电去年公布的财报数据中,位于美国亚利桑那州的Fab 21芯片工厂一度巨亏99%,但Q4季度的财报中就显示已经扭亏为盈了,按理说今年Q1季度的表现会更好,只是现在没公布具体表现。

在美国建芯片厂的成本众所周知都是远高于亚洲地区的,但台积电还是在美国压力下对美投资1650亿美元,目前第一座芯片厂已经开始量产4nm工艺,还处于产能爬坡的阶段。

后续的投资还在继续,这次财报会议上CEO魏哲家也表示台积电在美国拿到了第二块土地,公司希望在亚利桑那州建设更多晶圆厂,以支持美国客户对先进工艺未来多年的需求。

魏哲家表示,台积电正在努力推进相关计划,随着过去一段时间在亚利桑那州积累的更多经验,公司如今已经比去年更有信心,能够获得良好进展,并积极向前推进。

针对美国建厂的成本问题,魏哲家也表示随着建厂及运营经验的积累,未来有望进一步改善成本结构。

从台积电的回应来看,对美投资及建厂还会继续推进,不过外界担心的成本及运营等问题,他的回应都是泛泛而谈的套话,目前看不出什么有效信息,美国芯片工厂何时能真正盈利还要走着看。

不怕成本高 台积电表态:扩大对美国投资 更有信心了

【本文结束】如需转载请务必注明出处:快科技

责任编辑:宪瑞

世界模型五大门派,围攻光明顶

春节后,图灵奖得主杨立昆的新公司 AMI 拿了 10.3 亿美元融资,创下欧洲 AI 公司种子轮纪录;

AMI 拿钱几周前,李飞飞创办的 World Labs 也宣布了 10 亿美元融资;

本周早些时候,极佳视界获得数十亿元融资,估值超百亿;

昨天,阿里巴巴发布了世界模型「快乐生蚝」HappyOyster;

今天,群核科技在港交所敲钟。

这些公司,共同竞逐同一赛道:世界模型。

杨立昆曾经放话说:「大语言模型在通往超级智能的路上是条死胡同。」乍一听上去否认了大语言模型的价值,但限定条件是实现 AGI,细想还是有些道理。

可以这么简单理解:ChatGPT 能写代码能做题,却搞不清物理世界的基本规律——你让它描述「苹果落地」,它说得头头是道;但你问它苹果为什么会落地,它其实是在背课文,它并不一定真正理解重力。

问题的根源在于:大语言模型的训练数据是互联网文本,而真实世界是三维的、连续的、充满物理规律的。

这就是世界模型成为科研精英接下来攻关方向的原因。

不过,大家都在谈世界模型,但没人对这几个字的含义达成一致。有视频预测的路线,有的在建 3D 场景,有的在搭仿真平台,还有直接从神经科学出发的方向……

Meta 的研究科学家 Zhuokai Zhao,在 X 账号上分享了自己认为的世界模型「五大门派」。

这五大门派,分别都是什么呢?

本文基于 Zhao 的推文,参考了多方资料展开研究和扩写,希望对于有兴趣了解世界模型的你有所帮助。

JEPA 派:杨立昆的「抽象哲学」

JEPA 全称是 Joint-Embedding Predictive Architecture(联合嵌入预测架构)。它是杨立昆等人提出的一种新型 AI 架构。

简单来说,JEPA 的核心思想是:让 AI 像人类一样通过「观察」来学习世界的运行规律,而不是通过死记硬背像素或单词:AI 不用记住每片叶子的位置,它只需要知道风会吹落树叶。

在杨立昆看来,像 Sora 这种模型,本质是在「逐像素预测下一帧」。他认为这在物理上不可能——在充满随机性的世界里,你不可能精确预测每片树叶的飘落轨迹。

JEPA 的解法是:与其预测像素,不如在抽象的「表征空间」里做预测。

具体做法是先用编码器把视频转成抽象的数学表示,然后在这个空间 (latent space) 里预测「会发生什么」。比如预测「球会滚下桌子」这一更加「长期」和符合物理规律的结果,而非重复地预测球滚落的每一帧画面。

V-JEPA 2 目前是这个路线的代表作。该模型有 12 亿参数,基于 100 万小时无标签视频预训练。最惊人的是,它仅需 62 小时机器人数据,就能实现零样本规划动作。在陌生环境处理陌生物体,成功率能达到 65-80%。

对比传统机器人学习方法,可能需要数千小时示范数据,V-JEPA 2 对数据需求极致压缩。

杨立昆的原话是:如果表征足够好,你就不需要为每个任务从头训练。

不过,在创立了 AMI 公司之后,这位图灵奖得主科研大佬也要在现实面前低头。他说,AMI 的商业化产品可能要几年后才能看到。

这是一笔长线投资,但资本愿意赌。AMI 已经得到了第一轮 10 多亿美元的融资,投资方包括你知道的几乎所有业界和跨界大佬。

空间智能派:李飞飞的「建筑师」路线

如果说 JEPA 关注「时间预测」,另一位 AI 基础研究大佬李飞飞创立的 World Labs,则是盯上了另一个维度:「空间重建」。

这两条路线的分歧,从底层逻辑就开始了。

JEPA 认为智能的核心是在抽象层面预测「接下来会发生什么」,所以它不在乎像素级的细节,追求的是高效的因果推理。

李飞飞的出发点不一样。她认为,真正的智能需要对三维世界有显式的理解,包括几何结构、深度关系、物体之间的相对位置。

With spatial intelligence, AI will understand the real world

换个方式讲:JEPA 想教 AI 理解「球会从桌子上滚下去」这个规律,而 World Labs 想教 AI 理解「桌子有多高、球在桌子的什么位置、地板和桌子的距离是多少」。

前者关心事件的逻辑链条,后者关心空间的物理结构。

这种差异直接决定了产品形态。World Labs 2025 年 11 月发布了首款产品 Marble。输入一段文字描述、一张照片、一段视频,甚至一个粗糙的 3D 草图,Marble 输出的不是一段视频,而是一个可编辑、可导航、可导出的 3D 世界。

你可以在里面旋转视角、移动物体、改变光照条件,还能把结果导出为高斯溅射 (Gaussian Splat)、三角网格 (mesh)或视频格式,直接拖进 Unreal Engine 或 Unity 里用。

图片

这里还有个容易被忽略的技术细节:很多视频生成模型能做出好看的画面,但本质上是在逐帧「编故事」,前后帧之间没有一个统一的 3D 结构做支撑。

而 Marble 生成的 3D 场景具备「空间一致性」。底层维护着一个真实的空间表示,所以转身回来,世界还是那个世界。

World Labs 的团队配置也很值得一提:联合创始人 Ben Mildenhall 是 NeRF(Neural Radiance Fields)的发明者重新定义了计算机视觉领域对 3D 重建的认知;另一位联创 Christoph Lassner 是 3D 图形方面的专家。

这个团队的知识结构,决定了 World Labs 从一开始就在走一条「显式 3D」的路线,而不是从 2D 视频里「暗示」三维关系。

2026 年 2 月,World Labs 宣布完成 10 亿美元融资,投资方包括 NVIDIA、AMD 和 Autodesk。

刚才提到的产品 Marble,也已经面向普通用户和商业场景推出,影视工作室、游戏开发者都在用它。

不过,Marble 目前也有明显的局限。生成的 3D 世界在走几步之后会开始出现视觉变形,出现所谓的「幻觉」。

这跟 JEPA 路线追求的「理解物理规律」形成了对比:World Labs 擅长重建空间的「样子」,但对空间中「会发生什么」的理解还比较薄弱。

李飞飞本人也坦承 Marble 只是第一步。她把最终目标定义为「空间智能」,意思是 AI 不光能看懂一个场景的结构,还能在里面做推理、做规划、做交互。这条路还很长,但方向很明确:从三维空间的显式建模出发,逐步加入物理和因果的理解。

学习型仿真派:DeepMind「造梦师」

DeepMind 的 Genie 3,可能是目前最接近「魔法」的世界模型思路。

谷歌的路线跟前两派又有了区别。它做的事情,比「理解世界」和「重建空间」都更往前,也更直接:制造出一个足够真实,而且可以实时交互的虚拟环境,让 AI 直接在里面练出真本事。

输入一句「在暴风雨中的威尼斯运河划船」,它就能生成一个 720p、24fps 的 3D环境。你可以控制角色在里面移动、操作道具、甚至修改天气。

你打碎一个花瓶,碎片会留在地上。你走开再走回来,碎片还在那里。也就是说,Genie 3 的「持久性」,从环境持久性进一步细化到了「对象持久性」(object permanence)。

但这对计算架构提出了很高的要求。DeepMind 的研究主管 Shlomi Fruchter 说,要实现实时交互,模型需要每秒多次回溯查询一分钟前的信息。

这样的 Genie 3,很像是一个运行中的游戏引擎。但这种情况经过自媒体的夸张加工,形成了一种常见的误解,也即 Genie 3 是游戏引擎的替代品。

其实并非如此,它没有真正硬编码的物理引擎,所有的行为都是模型从训练数据中「学」到的。

这既是优势也是劣势。优势在于它的灵活性:模型自己能推断出物理属性和碰撞规则,;劣势在于它的物理模拟仍然不如传统引擎(硬编码)精确。

至于持久性,受制于前面提到的计算架构限制和算力压力,目前 Genie 3 只能维持几分钟的连贯性,之后画面就开始走样——这对于游戏是不可接受的。

到此为止,DeepMind 也只是解决了「造出环境」,训练 AI 呢?那就要用到谷歌研发的另一个东西 Dreamer 了。

DreamerV4 于 2025 10 月发表,是一个无需跟真实环境交互,完全在「想象」中学习的世界模型框架。

它成为第一个纯靠离线数据就在 Minecraft 里挖到钻石的 AI 。要知道,从零开始挖到钻石需要连续做出超过两万次精确的鼠标和键盘操作,包括砍树、造工具、挖矿、冶炼,中间还要躲避怪物和处理各种突发情况。

之前 OpenAI 的 VPT 模型要完成类似任务,需要 27 万小时的标注视频加上 19.4 万小时的在线强化学习。DreamerV4 用的数据量只有它的百分之一。

Agent Lightning – Microsoft’s Open-Source Framework for Training Agent ...

DeepMind 目前在推动将「生成的环境」和「虚拟的智能体」进行结合,在完全虚拟但又完整闭环的环境里进行训练。

谷歌这条路线的核心赌注是:像素级别的生成虽然不等于物理理解,但如果生成的环境足够真实、足够多样化,在里面训练出来的智能体就有可能泛化到现实世界。这是一个还没有被证明的假设,也是这条路线最大的风险所在。

卖水卖铲子:英伟达作为基建供应商

前面三条路线各有各的技术理想,但都面临同一个现实问题:世界模型训练需要极其庞大的数据量和算力。谁来提供这些基础条件?

英伟达的 Cosmos 平台就是在回答这个问题。它的定位很清楚:你们都在造世界模型?我来提供造世界模型的工具……

NVIDIA Cosmos: The Makings of a World Foundation Model | Mixpeek

Cosmos 包含几个核心组件。首先是数据处理管线 Cosmos Curator,能在 14 天内处理 2000 万小时视频,加速世界模型的训练;而传统 CPU 方案处理这么多数据需要 3 年以上。

其次是视觉 Tokenizer,就像大语言模型把文字切分成「词元」(token) 来处理,世界模型需要把视频帧切分成某种可计算的表征。Cosmos 的 Tokenizer 压缩率比业界方案高 8 倍,支持多种视频比例和时长,能处理从机器人第一视角到自动驾驶鱼眼镜头的各种格式。

最后是最关键的三种预训练模型家族:负责预测环境未来状态的预测模型 Cosmos Predict、将模拟迁移到真实的仿真模型 Cosmos Transfer,以及负责让机器人做规划的推理模型 Cosmos Reason。这些预训练模型都通过开放许可证发布,开发者可以免费下载。

自从 2025 年 1 月在 CES 上发布后,Cosmos 迭代飞速,目前仿真模型和推理模型已经进化到第二代,Predict 到了 2.5 代。小鹏在用 Cosmos 做自动驾驶仿真,Figure AI 等硅谷头部机器人公司也在用它生成训练数据。

背后还是英伟达的老套路:用免费开放软件来锁定硬件生态。用 Cosmos 来训练世界模型,最后还是需要英伟达的 H、Jetson 等平台,以及 CUDA 生态。

黄仁勋在 CES 上的原话是:世界基础模型之于物理 AI,就像大语言模型之于生成式 AI。

他押注的是,世界模型会像大语言模型一样,变成一个巨大,且对世界带来显著变革的赛道,而英伟达要确保的,是不管谁最终胜出,手里拿着的都是 N 家的铲子。

主动推断派:来自神经科学的「异端」

并不是所有人都在走深度学习的主流路线来实现世界模型。这个赛道上还有「异端」:

代表公司 Verses 的首席科学家卡尔·弗里斯顿 (Karl Friston) 来自于神经科学领域,他是「自由能原理」的提出者,知名度极高,Google Scholar 引用量在神经科学领域排名很靠前。

这个理论的大意是:所有生物系统的行为,本质上都在做一件事情,即不断生成对外界的预测,然后采取行动来减少预测和现实之间的偏差。

这跟主流 AI 的思路有什么区别?

强化学习,也即当今主流方向,其核心逻辑是「奖励最大化」:给 AI 设一个目标,让它试错以找到最优策略。Friston 的主动推断框架,追求的却是「减少意外」。

如果非要简化形容:一个是逐利,一个是避险。

一个直观的比喻:强化学习像是一个被胡萝卜引导的驴子,朝着奖励的方向走。主动推断像是一个在陌生城市里的旅行者,不断修正自己对这座城市的心理地图,让自己对下一个路口的预期尽量准确。前者是被目标驱动的,后者是被好奇心和不确定性驱动的。

基于这个理论, Verses 开发了 AXIOM 框架。

它有两大特点:首先是对象中心化,即世界由离散对象组成,每个对象有属性、有关系。

深度学习通常把一个场景处理为一个高维向量,不会显式区分场景里的具体物体。而 AXIOM 把世界建模为离散对象组成的结构,每个对象有属性、有和其他对象的关系。

这种处理方式,可以说更接近人类的认知方式:我们看一个房间,不是在处理像素矩阵,而是在识别「椅子在桌子旁边、窗帘是拉开的」这些结构化的关系。

其次是贝叶斯推理:用概率分布表示信念,通过消息传递更新,而非梯度下降。

举个例子,基于 AXIOM 框架,一个在仓库里工作的机器人,面对一个从未见过的物体时,应该知道自己「不确定这是什么」,而不是盲目地去拟合,猜测该物体可能是一个自己知道的什么东西,然后去执行有可能是错误的策略。

去年 6 月,Verses 宣布在雅达利游戏的 Gameworld 10K 基准测试中超越了 DeepMind 开发的 DreamerV3,训练数据量远少于后者,完成游戏的所用步数只有 1/8。

更激进的是,AXIOM不需要预训练。你把机械臂的关节换成陌生物体,它能实时重新规划——因为它在在线推理,而非执行固定策略。

Verses 的商业化产品叫 Genius,目标客户主要是金融、机器人和智慧城市领域,比如可以用主动推断模型来对市场不确定性进行建模。这家公司也被 Gartner 写进了关于 AI、空间 AI 和物理 AI 的研报中。

AI 学界的知名大喷子,纽约大学教授 Gary Marcus 曾经说,很多搞机器学习的人对在模型里放入任何先验结构有一种「暴力的厌恶」(意即总认为从零搭建的机器系统能够 somehow 涌现出真正的智能),但 Verses 没有这个毛病。

毕竟,生物智能的进化花了几十亿年打磨,所做的事情并不是梯度下降。

尽管如此,Verses 的主动推理路线,短期内很难成为主流。但 Friston 的理论在神经科学界有深厚积累。如果世界模型真的需要更接近生物智能的原理,这一派可能会后来居上。

写在最后

五条路线,从多个侧面回答同一个问题:世界模型到底是什么,该如何实现?他们之间并不是非此即彼的逻辑,更像是同一块拼图的不同碎片。

门派

代表

核心优势

主要挑战

JEPA

AMI

数据效率极高,抽象表征

商业化周期长

空间智能

World Labs

可编辑3D,设计/游戏刚需

物理动态性较弱

学习型仿真

DeepMind

交互性强,训练成本低

像素生成≠物理理解

基础设施

英伟达

全栈平台,生态锁定

依赖硬件销售

主动推断

Verses

实时适应,可解释性强

生态兼容性差

世界模型突然爆发,不是偶然。

大语言模型遇到瓶颈,边际收益在递减,幻觉、推理能力、多模态理解仍是硬伤。资本需要新故事;具身智能崛起。人形机器人、自动驾驶、工业自动化都需要AI与物理世界交互。纯文本训练的模型解决不了这个问题。

另外,高质量物理交互数据也十分稀缺且昂贵。世界模型可以在仿真中生成无限数据,被这些世界模型研究者认为是终极解法。

杨立昆曾断言,五年后没有人会再用今天这样的大语言模型。虽然说的很夸张,但对趋势的观察不无道理:

AI 已经读完了万卷书,接下来该行千里路了。而世界模型会成为它的眼镜和四肢。

至于五大门派谁能胜出,答案可能并不重要。长期来看,融合或许是唯一的出路。毕竟,真正的智能大概不会只有一种形态。

文|杜晨

首发降500元!REDMI Book 2026开售:国补价4674元起

快科技4月17日消息,REDMI Book 2026正式开售,首发直降500元,叠加国家15%以旧换新补贴,国补后到手价4674.15元起。

该系列提供14英寸、16英寸双版本,搭载Intel Core Ultra 5-125H处理器,14核18线程设计,最高60W性能释放,配备LPDDR5X 7467MT/s内存与PCIe 4.0固态硬盘。

提供16GB+512GB、16GB+1TB、32GB+1TB三档配置可选,满足不同用户存储与性能需求。

首发降500元!REDMI Book Pro 2026开售:国补价4674元起

14英寸版本采用2.8K 120Hz高刷屏,峰值亮度500尼特;16英寸版本为2.5K 120Hz高刷屏,亮度400尼特。

采用镜面屏方案,虽然存在一些反光问题,但确实不少用户喜欢镜面屏的显示效果。

首发降500元!REDMI Book Pro 2026开售:国补价4674元起

内置80Wh大容量电池,搭配100W GaN充电器,支持手机应急快充。

接口涵盖雷电4、全功能USB-C、HDMI 2.1、USB-A及3.5mm音频口。

首发降500元!REDMI Book Pro 2026开售:国补价4674元起

具体价格如下:

REDMI Book 14 2026:

Ultra5-125H+16G+512G:5999元,首销5499元

Ultra5-125H+16G+1TB:6499元,首销5999元

Ultra5-125H+32G+1TG:6999元,首销6499元

REDMI Book 16 2026:

Ultra5-125H+16G+512G:6199元,首销5699元

Ultra5-125H+16G+1TB:6699元,首销6199元

Ultra5-125H+32G+1TG:7199元,首销6699元

OpenAI据悉斥资超过200亿美元购买Cerebras芯片,并获得股权

4月17日消息,据报道,OpenAI近日达成一项协议,有望在未来几年内降低其计算成本。OpenAI已同意在未来三年内向Cerebras支付超过200亿美元,用于使用该公司芯片驱动的服务器。作为协议的一部分,OpenAI将获得Cerebras部分股份。

AI算力驱动半导体景气上行,南方基金郑晓曦把握产业成长机遇

AI 算力、数据中心和智能终端持续放量,正在推动全球半导体景气进入上行阶段。南方基金郑晓曦精准把握 AI 驱动下的产业升级机遇,助力投资者分享半导体行业成长价值。

消息面上,AI 算力、数据中心和智能终端持续放量,正在推动全球半导体景气进入上行阶段,并直接带动晶圆厂资本开支水平与稼动率维持高位。在先进逻辑、HBM、3D NAND 等高复杂度工艺中,部分重要材料品类呈现单片用量上升、品类数增加、或价格抬升的复合通胀,因此在半导体行业景气上行阶段,部分产业链环节呈现更强的增长弹性和业绩落地确定性。

从业绩表现看,郑晓曦管理的南方信息创新混合基金(A 类:007490,C 类:00791)与南方半导体产业股票基金(A 类:020553,C 类:020554)A类份额近一年净值增长率分别为74.29%与79.13%,均显著跑赢33.14%与41.59%的同期业绩比较基准(数据来源:同花顺,以上数据截至 2026 年 4 月 16 日)。

南方信息创新混合(A 类:007490/C 类:007491)

南方半导体产业股票发起(A 类:020553/C 类:020554)