李飞飞发布全新世界模型

梦瑶 发自 凹非寺

量子位 | 公众号 QbitAI

李飞飞世界模型新成果又又又来了!

World Labs直接一口气放出了两款新模型:Marble 1.1Marble 1.1-Plus

主打一个——几分钟,就能把真实地点「搬」进3D世界~(开眼啦.jpg)

例如,随手拍几张房间的多视角照片然后喂给模型,我们就能得到一个能自由查看、带空间感的完整3D房间:

哪怕只有一张普通照片,它也能直接往外长出一个超超超大视野的3D世界,是不是有点VR眼镜的效果了!

还没完,因为除了能用平面生成3D世界外——

模型还能将原本高糊的画面提高清晰度,提高画面亮度对比度,最后生成一个视觉细节更丰富的视觉效果:

网友看到这效果,真·蚌埠住了,直言:这简直是每个室内设计师的梦想!!

(你还真别说,我第一反应也是感觉好适合家装行业用啊??)

Marble 1.1系列模型一手实测

虽说两款模型都属于Marble 1.1字辈儿的同系列模型,但是吧,俩模型在生成能力上还是各有侧重点的。

具体区别我也帮大家浅浅总结了一下:

*Marble 1.1模型:更偏向画质优化,重点提升光照和明暗对比,前代里常见的过曝、泛白这类问题会明显减少。

*Marble 1.1-Plus模型:更偏向空间生成,能在原有平面图基础上自动补出更大的3D覆盖范围,拉出一个更完整、更开阔的大世界。

(省流版:1.1更适合拿来提画质,1.1-Plus更适合拿来做更大范围的3D世界)

使用方法也非常简单,我们直接在Marble官网中选择对应的模型就可以使用了。

(而且我发现即便是新用户也默认有几千积分,大概可以生成个4次的样子??!!)

话不多说,我们直接实测走起,先来考一下Marble 1.1的画面处理能力如何!

这次我给Marble 1.1喂了一张ChatGPT生成的《我的世界》同款风格的视觉平面图,长这样子:

参考图

大概等了3~5分钟,一个可以360度自由切换视角、空间感很强的3D游戏世界就被roll出来了,be like:

Marble 1.1输出效果

前面我们也提到过,Marble 1.1模型最大的亮点就是「画质」上的体现。

从这组输入输出的对比来看,成片后的分辨率并没有啥问题,而且几乎可以说是1:1还原,画面里也没有冒出特别明显的噪点。

不仅如此生成结果在色彩表现上更饱满一点,空间里的光感也更完整了,整体质感还是非常ok的!!

我们干脆趁热打铁,同一张图,我们再丢给Marble 1.1-Plus,康康模型会整出什么花活~

(狠狠吐槽一下:1.1-Plus模型的生成等待时间比1.1翻了一倍…)

(我等,我等,我狂等)

Marble 1.1-Plus输出效果

咋说呢,从整体的视觉延展度度确实感觉比1.1模型更好。

同样一张图,Marble 1.1-Plus拉出来的空间尺度会更大一些,画面往远处铺开的感觉也更明显。(大家觉着呢)

but——问题也来了。

和刚才1.1的结果放在一起对比之后,会发现1.1-Plus在画质细节上反而稍微吃亏一点,整体看上去有一点发糊??

(省流版:如果是单纯玩玩的话,建议大家那点免费的积分留着给Marble 1.1吧…)

官方和实测案例看过了,接下来我们看看网友们用两个模型都玩出了啥东西~

先看下面这位网友,直接用Marble 1.1把自己的工作室做成了一个超大3D空间,你别说,甚至有点像游戏里的密室逃脱游戏??

再看下面这位网友,直接生成了一个巨大无比的家居仓库,那种一眼望不到头的空间感一出来,压迫感居然还挺强,甚至有点惊悚片现场的意思了:

画风,朝着更离谱的方向发展了。

比如这位朋友,直接roll出来了个真实的拳击游戏竞技场,真实感狠狠拿捏住了(但这个巨型人头属实把我吓了一跳!):

当然除了实测效果外,大家很关心的「定价问题」也值得说说。

官方定价页面显示,Marble 1.1的生成消耗均为1,500积分,和上一代价格保持一致。

换句话说就是同样的积分,换来新一代模型,性价比明显更高??

但是对于需要生成更大视野范围的1.1-Plus来说嘛,则需要在原本积分基础上再消耗一些credit…

此外,关于如何上手这些模型官方也给出了一些建议——建议新用户直接从Marble 1.1开始使用。

所以我们也不难看出,World Labs自身也认为1.1已经能完全接替1.0标准版的位置了。(我猜)

API方面呢,目前默认调用的仍是上一代Marble 1.0,但官方表示后续会将默认模型切换为Marble 1.1,大家可以蹲蹲。

另外,此前的Marble-0.1-plus、Marble-0.1-mini等旧命名后续会逐步移除,并统一映射到1.0系列:

OMT

其实如果我们把这次新发布的Marble 1.1放回到World Labs自己的技术路线里看,它其实更接近他们这两年反复强调的一个关键词——spatial intelligence(空间智能)。

从这次发布的两个新模型的表现来看,也确实能感觉到模型在「空间能力」上的明显提升:

Marble 1.1让输出画质质量更强,Marble 1.1-Plus让空间覆盖范围更广,也算是对技术路线又一次比较具体的落地展现了。

当然了,问题嘛,也很明显。

大家也发现了,那就是现阶段的世界模型,似乎还很难完美兼顾 「大空间」与「高画质」……

像Marble 1.1-Plus这种能大范围扩展空间的模型,面对输入图之外的未知区域,本质上是在做智能脑补。

为了保证庞大场景的逻辑自洽,模型往往不得不采用更保守、平滑的生成策略,世界一旦做大,模型要处理的信息量就会成倍往上走。

那代价嘛,就是——《糊图》。

当然了,成本问题也是一方面,按照现在的定价,模型只能在空间范围和画质细节之间找平衡择其一了…

(期待有二者兼得的那一天…)

模型确实是好模型,也确实很好玩,感兴趣的友友可以直接上手试试~

MiniMax发布MMX-CLI,两行代码安装调用,“龙虾”多模态能力大涨

作者 | 佳扬

编辑 | 云鹏

智东西4月9日消息,今日MiniMax稀宇科技发布MMX-CLI,这是一款面向AI Agent的命令行工具。

官方称,MMX-CLI支持在Claude Code、OpenClaw等环境中原生调用其全模态模型,涵盖编程、视频生成、语音合成和音乐创作等功能,无需额外编写MCP Server或适配复杂接口。仅需两行代码,即可完成MMX-CLI的安装和调用

MMX-CLI提供全面的多模态能力,包括多回合文本对话和流媒体输出、可调整尺寸和批量生成的图像、支持异步处理和进度跟踪的视频生成、多语音文本转语音和流媒体播放、带歌词的音乐创作,以及图像理解和描述功能,帮助AI Agent高效完成创作和分析任务。

目前,MMX-CLI需要购买Token plan才能使用。Token Plan价格根据不同的套餐和使用量而有所不同。官方提供了多档订阅方案,用户可以按月或按年支付,每个套餐对应不同的Token额度和调用上限。其中标准版Starter套餐每月29元,Plus套餐每月49元,Max套餐每月119元;极速版Plus-极速版每月98元,Max-极速版每月199元,Ultra-极速版每月899元。

Token plan

一、两行命令完成安装和调用

MMX-CLI将MiniMax的多模态能力通过统一命令行接口开放给Agent,涵盖文本、图像、视频、语音、音乐等核心能力。

·文本处理:支持多回合对话、流式输出、系统提示词和JSON格式,使Agent可直接解析和调用生成内容。

·图像生成:文本转图像功能支持宽高比调整和批量生成。

·视频生成:提供异步处理和进度跟踪。

·语音合成:多语音文本转语音和流媒体播放能力,拥有30多种音色。

·音乐创作:基于文本生成音乐,可自定义歌词,实现自动化音乐制作与内容丰富化。

·图片理解:图像描述与识别。

主要功能

官方称,Agent可通过两行命令完成安装和调用,实现从文案生成到图像、语音和视频输出的完整自动化工作流,大幅提升多模态任务效率

官方安装代码

官方文本、图片、音频生成代码

二、针对Agent的专门优化

传统命令行工具主要面向人工用户,直接让AI Agent使用往往会遇到问题,例如输出信息夹杂干扰内容、错误信息需要人工阅读判断、参数缺失会导致任务停滞,以及长时间运行的任务无法高效管理等。

对此,MMX-CLI针对Agent在非交互式环境下的使用特点进行了底层优化

·纯数据输出与隔离:stdout仅输出文件路径或JSON数据,进度条和状态提示被划归stderr,保证Agent解析结果干净准确。

·语义化状态码:不同错误类型对应独立Exit Code,Agent无需解析文本即可判断失败原因并决定是否重试,包括鉴权、参数缺失、超时和网络异常。

·异步与非阻塞设计:任务参数缺失时直接退出,长耗时任务可通过提交后台执行,使Agent能并行处理多个任务。

·无缝接入Token Plan:每次生成可直接计入订阅配额,方便使用和管理,同时避免额外付费或复杂授权流程。

MiniMax官方提供了完整文档和源码,开发者和企业可在GitHub获取。

结语:MiniMax全模态能力的拓展

MMX-CLI的推出为开发者提供了一个轻量入口,让MiniMax的全模态能力更容易嵌入现有AI Agent工具链中。对于终端重度用户和需要快速调用图像、视频、语音的场景,它简化了流程。

目前工具仍处于早期阶段,功能覆盖全面但缺乏大规模公开性能数据。未来随着迭代,其在Agent生态中的实用性值得持续观察。

2025年度新能源汽车积分出炉,比亚迪、特斯拉、吉利前三

IT之家 4 月 9 日消息,工信部 4 月 7 日发布 2025 年度乘用车企业平均燃料消耗量与新能源汽车积分情况

其中,企业平均燃料消耗量按车型对应产量 / 进口量加权计算得出。2025 年度企业平均燃料消耗量积分核算中,对标准配置制动能量回收系统、高效空调且具有循环外节能效果的车型,其燃料消耗量可相应减免一定额度(可累加)。

此外,核算年度进口量 2000 辆以下的未获境外乘用车生产企业授权的进口乘用车供应企业,暂不实施积分核算。

IT之家附具体各企业情况如下(表中企业按拼音字母排序):

其中,比亚迪汽车工业有限公司的 2025 年平均燃料消耗量积分、新能源汽车积分依然一骑绝尘,分别达到了 10730341(2024 年积分 13136644)和 3864310(2024 年积分 3838187)。

此外,理想汽车、长安汽车、东风汽车集团、广汽埃安、零跑汽车、赛力斯汽车、上汽通用五菱、特斯拉(上海)、蔚来、小米汽车、小鹏、豪情汽车、吉利汽车均实现了超百万的平均燃料消耗量积分,相比 2024 年的百万积分榜新增了小米汽车

而在新能源汽车积分方面,比亚迪、特斯拉、吉利汽车排名前三,其余超百万积分的车企包括小米汽车、零跑汽车、小鹏、长安汽车。

申万宏源:光互连成为提升AI算力上限重要演进方向 高性能产品单价有望持续提升

财联社4月9日电,申万宏源发布研报称,网络设备正从传统的800G向1.6T速率跃升,光互连成为提升AI算力上限的重要演进方向。未来技术路径演进将带来光通信在AI产业的价值量提升,高性能产品单价有望持续提升,提高光通信环节在AI算力链中的价值量。Lumentum(LITE.US)在OFC 2026上预测,光通信市场空间将保持高速扩张,到2030年,涵盖可插拔光模块、共封装光学(CPO)和光路交换机(OCS)的AI光通信总潜在市场(TAM)将从2025年的180亿美元飙升至900亿美元。

乘联分会:3月新能源月度批发销量破万厂商达19家

乘联分会公布数据显示,3月新能源乘用车企业总体走势较强,比亚迪纯电动与插混双驱动夯实自主品牌新能源领先地位;以比亚迪汽车、吉利汽车、奇瑞汽车等为代表的狭义插混表现持续较强。在产品投放方面,随着自主车企在新能源路线上“多线并举”策略的实施,市场基盘持续扩大,新能源月度批发销量突破万辆的厂商达到19家(同比多1家,环比多3家),占新能源乘用车总量91.9%(上月90.9%,去年同期92.4%)。其中,比亚迪汽车(295,693辆)、吉利汽车(127,319辆)、特斯拉中国(85,670辆)、长安汽车(75,754辆)、奇瑞汽车(64,014辆)、零跑汽车(50,029辆)、理想汽车(41,053辆)、广汽埃安(40,733辆)、东风汽车(36,604辆)、蔚来汽车(35,486辆)、上汽通用五菱(34,662辆)、上汽乘用车(34,360辆)、小鹏汽车(27,415辆)、长城汽车(21,857辆)、小米汽车(21,440辆)、赛力斯汽车(20,012辆)、极狐汽车(15,307辆)、广汽丰田(12,536辆)、一汽红旗(11,780辆)。国内新能源乘用车零售突破2万辆的企业品牌是:比亚迪汽车(194,131辆)、吉利汽车(96,842辆)、长安汽车(64,439辆)、特斯拉中国(56,107辆)、理想汽车(41,053 辆)、上汽通用五菱(40,441辆)、蔚来汽车(35,383辆)、零跑汽车(33,420辆)、广汽埃安(33,044辆)、东风汽车(28,998辆)、鸿蒙智行(26,582辆)、奇瑞汽车(22,905辆)小鹏汽车(22,710辆)、小米汽车(21,440辆)、上汽乘用车(21,317辆)。

联想中国方案服务业务新财年誓师,营收利润剑指“双20%”增长

凤凰网科技讯 4月9日,联想中国区方案服务业务近日公布2026/2027新财年业绩指引,计划在上一财年实现营收与利润双超20%的基础上,继续维持“双20%”的业绩增长目标。联想集团高级副总裁戴炜指出,新阶段的核心驱动力将依托升级至5.0版本的擎天AI原生架构,以推动AI服务在企业端的规模化落地应用。

联想集团高级副总裁、中国方案服务业务群总经理戴炜

联想集团高级副总裁、中国方案服务业务群总经理戴炜

据悉,该业务板块此前已在全国11个城市完成城市超级智能体布局,并在中小企业端推出轻量化的百应Mini及消费端想帮帮智能体。为支撑新一财年的增长预期,联想对其底层技术底座进行了重构,擎天AI目前已确立AI FoundryxCloud智能云两大核心模块。其中,AI Foundry侧重于智能体自演进、企业知识本体与模型编排等业务逻辑的数据流转;xCloud智能云则专注于模算一体优化及算力运营保障。

在具体的商业化落地层面,联想方案服务业务明确了三大升级方向。首先是擎天智能体解决方案,该板块将聚焦政企客户的本地化专属部署,覆盖政府、教育、制造、交通、金融及能源等行业,并同步推出企业数字员工产品擎天Claw。其次,联想百应向AaaS(智能体即服务)平台转型,通过百应Claw为核心重构产品组合,提供按需订阅的云化AI服务,覆盖营销、销售、客服及运维场景。最后,联想AI全周期服务则整合了咨询、系统集成、底层运维、臻算及ESG服务,向企业提供端到端的AI交付服务。联想管理层试图通过技术底座的分拆与产品线的重组,在当前财年完成AI技术从测试概念向企业级实质调用的转化。

让你“鞭打”Claude,被Anthropic直接发“律师函”了吧

编辑|杨文

这张梗图,大家还有印象吧?

最近有人搞了个「数字鞭子」的整活项目,起名为「badclaude」,专门用来督促 Claude 好好干活。

项目介绍写道:「有时候 Claude Code 跑得太慢,你必须把它抽回正轨。」

用户安装后,可以在系统托盘点击图标召唤一把虚拟鞭子,再次点击即可落鞭。每次挥鞭,程序会向 Claude Code 发送一个 Ctrl-C 中断信号,并随机附上五条「激励语」之一。

整个项目充满玩梗性质,在社交媒体上吸引数百万人围观。

然而,Anthropic 并不觉得好笑。

公司向该项目作者发出了停止侵权通知函,理由是项目名称直接使用了「Claude」,并以与 Claude Code 交互为卖点进行宣传推广,这种做法可能让用户误以为该项目与 Anthropic 存在关联、合作或得到官方背书。

通知函措辞正式而强硬,要求作者立即停止在项目名称、标题、描述及推广材料中使用「Claude」、「Anthropic」或任何近似品牌标识,删除一切暗示与 Anthropic 存在关联或获得授权的表述,并在未获书面授权前不得继续使用上述品牌标识。函件还设定了明确期限,作者须在 2026 年 4 月 14 日前以书面形式确认已完成整改。

通知函具体如下:

我们写信是关于您目前公开称为「badclaude」的项目。根据公开材料,该项目似乎使用了 Claude 的名称,并在与 Claude 的互动功能框架中进行营销,可能会引起关于来源、赞助、关联或背书的混淆。任何暗示该项目与 Anthropic 有关系、经过 Anthropic 批准或与 Anthropic 关联的情况,都可能会误导公众。

因此,我们在此要求您立即停止在项目的名称、标题、营销、描述或推广中使用 Claude、Anthropic 或任何类似的品牌标识,删除任何可能暗示与 Anthropic 有关系、得到 Anthropic 背书或授权的声明、文字或材料,并在未经明确书面授权的情况下,避免将 Anthropic 的品牌标识与该项目相关联。同时,请在 2026 年 4 月 14 日之前提供书面确认,表明您已遵守上述要求。

此信函发出时不损害任何权利或救济,所有权利均保留。此信函的内容不应被视为对任何事实、主张或法律立场的完整陈述。

巧了,收到 Anthropic 停止侵权函本来就是该项目路线图的一部分。

Anthropic 此举引发网友热议。

有人反对,觉得 Anthropic 过于敏感。

「严格来说,如果你的名字叫 Claude,你就完蛋了。准备好收到一份要求你改名的停止侵权通知函吧。」

「我们现在任何地方都不能使用『 Claude 』这个词了吗?那不就是著名科学家『Claude Shannon』的名字吗?」

「我们以后所有 Claujak 项目都得采用 Wojak 的命名系统了……」

「他们接下来应该发一条『 Claude 的命也是命』的推文。」

支持者则认为 Anthropic 的反应情有可原,毕竟这个项目太过离谱。

「你造了个跟 Claude 商标沾边的东西,还直接拿 Claude 来命名,搞出了热度,结果还指望什么事都不会发生?饶了他们吧。」

「如果有人认为 Anthropic 这样做是在刁难业余爱好项目,那真是愚蠢至极,恕我直言。Anthropic 究竟有什么理由要让自己的品牌与此类内容产生联系?」

「允许人们对某事物进行模拟暴力,会使得他们在现实中实施暴力行为变得更加容易。人们往往并不了解自身的心理机制,我们应当对此感到担忧:居然有人构思出这样的内容,并且还有人认为它有趣。」

淘宝闪购推出“外卖接力”新模式,已落地全国20多个城市

4月9日,界面新闻获悉,面向综合商场、医院园区、大型社区等部分外卖难取、难送地点,淘宝闪购已在业内率先推出“外卖接力”新模式,通过分段协作、专人取送的方式,解决外卖最难的100米。 目前,这一项目已在杭州、上海、深圳、苏州、成都、贵阳等全国20多个城市近百个点位落地,在一些点位,骑士单均可节省10到20分钟 。

脉脉发布80家“隐形大厂”:平均月薪最高近7万

凤凰网科技讯 4月9日,昨日,职场社区平台脉脉发布80家“隐形大厂”名单,涵盖智谱、SHEIN、地平线、Momenta、月之暗面、摩尔线程、优必选、宇树科技等企业,涉及AI大模型、智能驾驶、机器人、芯片、跨境电商等赛道。此外,脉脉还从80家企业中进一步筛选出20家高速成长企业形成“隐形大厂20强”。

从薪酬水平来看,“隐形大厂”已展现出不输传统大厂的竞争力。脉脉平台数据显示,2025年,Momenta的新发岗位平均月薪达到69815元。某机器人企业在脉脉发布了一个岗位信息,年薪1亿元招聘“具身智能首席科学家”。此外,非技术岗位同样具备竞争力:智谱“大模型销售经理”最高月薪5万元,小马智行“增长及用户运营产品经理”最高月薪3.5万元。

从城市分布看,北京集中于AI、智能驾驶、芯片(智谱、月之暗面、Momenta、摩尔线程);上海聚焦芯片制造与游戏(沐曦、燧原科技、叠纸游戏);深圳以机器人、跨境电商、智能硬件为特色(优必选、SHEIN、拓竹科技);杭州在机器人、脑机接口方向突出(宇树科技、强脑科技)。

为什么垂直AI应用正在改写游戏规则

  你是否也相信,OpenAI 那一万亿美元的估值意味着通用 AI 会吞噬整个经济?如果你这么想,那可能需要重新审视一下了。最近读到 Nikhil Davar 和 Byrne Hobart 的一篇深度分析,彻底改变了我对 AI 应用竞争格局的看法。他们提出了一个极具颠覆性的观点:真正能够捕获巨大经济价值的,可能不是那些试图成为"万能路由器"的通用 AI 平台,而是那些深耕在特定垂直领域、位于经济活动边缘的专业化 AI 应用。

而他们用来证明这个观点的案例更是让人震惊:OpenEvidence,一家医疗领域的 AI 公司,最近以 120 亿美元的估值完成融资,比去年 10 月的 60 亿美元估值翻了一倍。更惊人的是,他们的广告收入年化已经达到 1.5 亿美元,并且以每月 30% 的速度增长,毛利率高达 90%。一家成立不到几年的公司,已经聚合了美国 50% 以上的医生,每天使用时长平均 14 分钟。上一次有技术产品被医生群体如此快速采用,还是 Google 出现的时候。

这个案例让我开始深入思考一个问题:在 AI 时代,通用平台和垂直应用之间的竞争格局,到底会如何演变?为什么一个专注医疗领域的 AI 应用,能够在 OpenAI、Anthropic 和 Google 这些巨头的包围下,不仅生存下来,还能建立起几乎不可撼动的护城河?

Router 的本质是什么

Davar 和 Hobart 在几个月前提出了一个非常有意思的概念框架,叫做"Routers, Apps, AGI"。他们的核心观点是:AI chatbot(聊天机器人)的真正价值,不在于它能回答多少问题,而在于它能把查询路由到任何可以回答这些问题的工具上——可能是另一个模型,可能是第三方服务,可能是服务提供商的结账页面,也可能是需要雇佣的顾问的联系方式。本质上,这是一个 Hayekian(哈耶克式)的愿景:最大的问题是通用的信息传输。

我对这个观点的理解是:每当世界上任何地方发生变化,都会以不可预测的方式改变人们的最优行为。你需要某种系统将这些信息传递给目标接收者,同时不会用琐碎信息淹没他们。价格机制是一种优雅的解决方案,但按需智能可以在更多维度上运作。换句话说,AGI(通用人工智能)不是数据中心里的诺贝尔奖得主,而是一种超人类的协调技术,代表着经济本身的某种高保真模拟。

想象一下,如果我们都戴着 Google Glasses,或者更进一步,拥有某种脑机接口,那么 Google 独家访问这些高保真的实时传感器,就能通过组织世界上所有高熵信息来协调大量经济活动,而且是在信息创建的那一刻就开始组织。OpenAI 大约一万亿美元的估值,就是在押注 OpenAI 能够在更大的经济份额上应用这种路由过程,或者比任何其他公司更精确地做到这一点。

但我认为这个愿景有一个关键假设:通用 router(路由器)能够获得足够的传感器数据,并且能够建立足够的信任,让用户愿意通过它来完成各种任务。而 Davar 和 Hobart 的文章恰恰指出了这个假设的问题所在:有太多经济上有价值但难以识别的"暗物质",是中心化的大型实验室看不到的。而那些更专注的垂直应用,已经在看到这些经济上有价值的问题,并且会在相当长一段时间内继续这样做。

OpenEvidence 如何建立不可复制的护城河

OpenEvidence 的案例之所以引人入胜,是因为它清晰地展示了垂直 edge router(边缘路由器)如何在巨头的夹缝中不仅生存,还能茁壮成长。他们的策略可以总结为三个词:信任、独家性和复合效应。

医生可能是世界上最看重资质认证的群体之一,部分原因是他们整个成年早期都在赚取一个人为稀缺的资质。一个技术取代资质、取代人类专业知识的可识别信号、取代专家机构的世界,会让医生感到非常不舒服。Davar 和 Hobart 提到了一个很生动的建议:下次你去看医生时,问问他们关于你在 Google 或 ChatGPT 上找到的某些健康建议,观察他们的面部表情和反应。我自己也试过类似的情况,医生的反应通常是介于怀疑和不屑之间。

OpenEvidence 深刻理解了这一点,并实施了一套完整的可信度策略。他们明确地与那些在开放互联网上训练的实验室进行对比定位。那些实验室的训练数据包括健康博客、社交媒体等等——任何用"医生讨厌这个奇怪技巧"来营销的疗法都会出现在广泛的训练数据集中。OpenEvidence 则训练了一套专门的模型集合,完全基于 3500 万份同行评审的来源,最初是从 FDA、CDC、PubMed 等公共领域材料开始的。他们的模型在训练或推理期间与公共互联网完全没有连接。

这意味着他们早期系统的幻觉风险明显低于 o1 之前的推理范式 LLM,而且产品是免费的,所以医生开始病毒式地采用它。这里有一个非常聪明的地方:那些早期采用者中,恰好有一些人是最负盛名的医学期刊编辑委员会的高级成员。这导致了下一个关键环节:OpenEvidence 能够锁定与 JAMA、NEJM、NCCN、美国医学会、所有 11 种 JAMA 专科期刊、美国家庭医师学会、美国急诊医师学院等的独家内容合作伙伴关系。

这里有一个特别有意思的细节。OpenEvidence 的 CEO Daniel Nadler 提供了一些背景信息:一些资金雄厚的 AI 公司向 NEJM 投入了大量资金,但他们拒绝了。如果 NEJM 是一家私营公司,他们可能会同意,但他们是非营利组织,所以他们拒绝了,因为马萨诸塞州医学会作为非营利组织,更关心作为非营利组织使命的神圣性和纯洁性,而不是只想获得某种快速商业合同。事实上,是 NEJM 主动联系 OpenEvidence,而不是相反:"在我们的案例中,我们没有出现在他们门口。新英格兰医学杂志编辑委员会中有很多高级人物是 OpenEvidence 的重度用户,他们希望他们的内容出现在他们正在使用的东西中。"

我认为这个案例揭示了一个深刻的洞察:在某些垂直领域,资质认证和信任不仅仅是营销手段,它们是产品本身的核心组成部分。通用 AI 平台无法复制这一点,因为它们的价值主张本质上是通用性和便利性,而不是在特定领域的深度专业性和可信度。

Dark Matter 的概念:无法被发现只能被创造的价值

Davar 和 Hobart 文章中最让我震撼的部分,是关于"dark matter"(暗物质)的讨论。这不是物理学上的暗物质,而是指那些在经济上极具价值但难以识别的上下文信息。OpenEvidence 所创造的暗物质,是医生基于高熵、特殊患者情况的临床不确定性。

这里有一个关键的认知转变:这种暗物质不是被发现的,而是被创造的。它之所以被创造,完全是因为信任的存在。中心化路由器无法通过提供更优越的通用智能来复制这一点,因为医生不会为他们不信任的平台生成上下文。你可以将医生向 OpenEvidence 询问或透露的内容集合,建模为他们非常犹豫向 ChatGPT 询问的确切内容集合:缺乏信任会创造极高的验证成本,而不验证不受信任的输出带来的不对称下行风险,意味着有价值的上下文根本不会被生成。

我对这一点的理解是:这完全颠覆了关于上下文和 AI 的常见假设。默认的心智模型是一种发现模型:有价值的信息存在于世界上某个地方,传感器的工作就是去找到它,抓取它,然后将其传回路由器。但 OpenEvidence 的服务更接近于销售对知情猜测的确认,加上支持它的文档。

医生的思维轨迹——将关于患者症状、诊断结果、病史的实时数据流以及他们所有先前的知识和直觉归结为临床假设,特别是他们对假设的怀疑("临床不确定性")——此前在任何其他系统中都不存在,无论是本地、云端、纸上,哪里都没有。也许当医生向另一个他们信任的医生询问特定患者场景的建议时,它作为电波存在过。没有人能够大规模实时地调查医生的诊断不确定性;最好的医生不会填写调查问卷,即使他们填了,填写调查问卷的行为在质量上也不同于从真实、新颖患者案例的持续流中,在真实的压力和不确定性下透露的上下文。

Mercor、Surge 和 Scale 这些公司正在试图为大型实验室复制这一点,但质量不一样,大量的体面输入也无法弥补最佳输入的质量:那些雇佣医生为通用 AI 工具提供和评价答案的公司,雇佣的是那些没有通过使用专用 AI 工具赚大钱的医生,而且可能会受到负面选择。这很难改变,因为存在货币的时间价值。Mercor、Surge、Scale 等公司付钱让你训练一个模型,而该训练的输出在未来某个时间点会有价值。患者或保险公司今天就在为医生的输出付费,而这些输出对他们来说(至少在理论上)今天就极具价值。

这个洞察让我重新思考了 AI 应用的竞争优势来源。不是谁拥有更大的模型,不是谁拥有更多的计算资源,而是谁能够创造出一个环境,让用户愿意在其中透露他们最有价值的思考和不确定性。这种价值创造是关系性的,是交互性的,无法通过简单的数据抓取或模型升级来复制。

垂直 Edge Router 的五个价值维度

Davar 和 Hobart 提出了一个非常有用的框架来理解 router 的价值。他们认为,router 的价值超越了原始智能,是以下几个因素的某种乘法函数:解决问题的绝对人数、这些人的经济价值、为他们解决的问题的相对经济价值、用户浮现的解决问题所需信息的比例,以及你能够多完整地解决这些问题。

OpenEvidence 在所有这五个维度上都极具优势。他们为医生解决问题(美国收入最高的专业人士),而且为很多医生解决:截至上个月,美国 50% 以上的医生,即 60 万人,正在使用 OpenEvidence,平均每天使用 14 分钟。他们解决的是医生面临的经济价值最高的问题:临床决策,也就是在不确定性和实时情况下对患者的实际诊断和治疗。而且他们是迄今为止最完整的解决方案:基于最负盛名的医学期刊的证据,在 USMLE(美国医师执照考试)上得分 100%,帮助医生将患者匹配到可能挽救生命的临床试验,建议最有可能解决患者问题并帮助医生完成工作的上下文感知治疗路径、药物、医疗设备等等。

我特别欣赏这个框架的地方在于,它强调了"完整性"的重要性。很多 AI 应用只是提供信息或建议,但无法真正执行或完成任务。OpenEvidence 则在不断扩展它的"actuator"(执行器)能力。他们今天的主要执行器是提供广告(将医生的注意力路由到制药公司),但临床试验匹配是一个完全不同的、更有价值的执行器(将患者路由到试验)。下一个逻辑执行器可能是事前授权自动化(路由付款),很难看到这会在哪里停止:每个新执行器都扩展了 OpenEvidence 可以访问和执行的解决方案集合,同时对中心化路由器保持上下文的暗化。

这让我想到,AI 应用的真正护城河可能不在于 AI 技术本身,而在于它能够建立的完整价值链。从信息到建议,从建议到执行,从执行到结果验证,每一步都在深化与用户的关系,创造更多的暗物质,吸引更多的解决方案提供商。这是一个自我强化的飞轮,而通用 AI 平台很难在所有垂直领域同时建立这样的飞轮。

为什么通用 AI 无法赢者通吃

这篇文章给我最大的启发,是它挑战了"通用 AI 将赢者通吃"的主流叙事。OpenAI、Anthropic 和 Google 都推出了医疗保健产品,那么为什么 OpenEvidence 还能有持久性?答案归结为复合信任以及这种信任所带来的能力。

文章中提到了一个深刻的认识论失败模式,我觉得值得深入思考。大型实验室的整个智能理论都预设:更多数据和更多计算在所有领域产生更有能力、经济上更有价值的系统。他们的商业模式、资本支出策略和投资者叙事都迫切希望这是真的。OpenEvidence 的成功是一个非常好的反例:它使用在少得多的数据上训练的专门模型创造了巨大的经济价值。大型实验室不容易承认,在最具经济价值的领域之一,正确类型的较少数据优于每种类型的更多数据。

在某种程度上,承认这一点会质疑他们的整个策略,或者至少表明他们可能在问错误的问题。这也意味着,与其从更好的模型中获得一次大胜利,不如在所有有足够训练数据产生专门模型的 N 个主题上获得 N 次大胜利,其中没有一个完全值得成为头条新闻。在这一点上,他们的业务更接近 Bloomberg 或 FactSet 的业务:收集和清理数据仍然有很多收入(和利润!),但它不像通用智能产品那样扩展。

我认为这个观察非常深刻。它暗示了 AI 的未来可能不是一个统一的通用智能平台统治一切,而是无数个垂直专业化的 AI 应用,每个都在自己的领域建立深度护城河。这些应用的总价值可能远远超过任何单一通用平台的价值,因为它们能够更深入地渗透到经济活动的各个角落,创造和捕获那些通用平台无法触及的暗物质。

飞轮效应:信任如何创造不可复制的优势

OpenEvidence 的成功可以概括为一个强大的飞轮:独家的 credentialed ground truth(有资质认证的基础真相)使传感器值得信任 → 信任使潜在暗物质变得可识别(50% 以上的美国医生每天透露他们的临床不确定性,因为他们信任传感器)→ 可识别的暗物质在不泄露给中心化路由器的情况下私下货币化(制药公司为访问医生最高意图时刻支付 70-150 美元的 CPM)→ 越来越多的解决方案,从临床试验患者招募到事前授权再到医疗设备发现等,不断接入,并复合暗物质的生成和捕获。

随着越来越多的边缘/领域特定问题被识别并通过越来越大的解决方案账本准确、完整地解决,一个新的信号被创建并复合:领域中经过验证的结果。这些经过验证的结果(某些匹配解决某些问题的效果如何)可以通过强化学习来改进边缘路由器。这是一个失控的优势,如果没有前面的步骤以及让这个过程成熟所需的时间,是很难复制的。

我特别想强调的是时间维度的重要性。这不是那种可以通过投入更多资源快速复制的优势。信任需要时间建立,独家合作关系需要时间积累,用户行为数据需要时间沉淀,结果验证需要时间观察。即使 OpenAI 明天决定全力进军医疗领域,他们也无法在短期内获得 NEJM 的独家合作,无法让医生群体立即信任他们,无法快速积累 60 万医生每天 14 分钟使用时长所产生的暗物质。

这让我想到了投资中的复利概念。OpenEvidence 每天都在复利他们的优势:更多的使用产生更多的数据,更多的数据吸引更多的合作伙伴,更多的合作伙伴提供更好的解决方案,更好的解决方案吸引更多的用户。这个飞轮一旦转起来,就会产生巨大的动能,很难被打破。

临床试验匹配:Actuator 扩展的典型案例

文章中提到的一个具体例子特别能说明问题:OpenEvidence 刚刚推出了临床试验匹配和患者招募功能。制药公司目前每年向 CRO(临床研究组织)支付数十亿美元来招募患者进行临床试验并运行这些试验,非常缓慢且低效。如果 OpenEvidence 能够比 CRO 更快地填充三期试验,并且匹配更好的患者,制药公司将受益匪浅。招募期越快,试验开始得越快,患者越好,试验成功的可能性就越高。

一个更快、成功可能性更高的试验意味着药物在专利保护下获得垄断利润的时间更长。具体来说,平均制药公司目前每年仅在患者招募上就花费约 20 亿美元(每位患者约 4 万美元),80% 的试验延迟。每延迟一天,根据药物不同,损失的收入在 60 万到 800 万美元之间。对于重磅药物(如 GLP、Keytruda 等),专利保护下的单日价值约为 800 万美元。制药公司愿意支付远高于 70-150 美元 CPM 的价格来加速这一过程。

这个例子让我深刻理解了 actuator(执行器)扩展的概念。OpenEvidence 今天的主要执行器是提供广告,但临床试验匹配是一个完全不同的、更有价值的执行器。下一个逻辑执行器可能是事前授权自动化,很难看到这会在哪里停止。每个新执行器都扩展了 OpenEvidence 可以访问和执行的解决方案集合,同时对中心化路由器保持上下文的暗化。

我认为这揭示了垂直 AI 应用的一个关键优势:它们可以沿着价值链自然扩展,因为它们深度嵌入在特定的行业生态系统中。通用 AI 平台可能能够在表面层面提供类似的功能,但无法像垂直应用那样深入到行业的核心流程和决策环节中。

中间游戏:Edge Router 的时代

Davar 和 Hobart 使用了"middle game"(中间游戏)这个术语来描述当前的状态。从理论上讲,随着时间的推移,实验室和中心化的经济世界模型应该能够获得一切,但存在一个中间游戏,非常值得深入考虑——特别是因为游戏规则正在逐渐揭示。

我对这个"中间游戏"的理解是:我们正处在一个过渡期,通用 AI 的愿景尚未完全实现,但垂直 AI 应用已经在创造实实在在的价值。这个过渡期可能会持续很长时间,长到足以让那些在垂直领域建立了强大护城河的公司,成长为难以撼动的巨头。

文章的结尾部分提出了一个一般化的论点,我觉得非常有说服力:无论哪里存在两个(或更多)经济上有价值但难以识别的上下文池,而中心化路由器无法桥接(或不被信任桥接),边缘路由器都有机会创建受信任的传感器,生成并捕获暗物质,并使其对愿意付费的市场参与者可识别。

这个框架可以应用到很多其他垂直领域。法律领域有没有类似的暗物质?金融领域呢?教育领域呢?制造业呢?我认为答案是肯定的。在每个这样的领域,都存在着只有深度嵌入该领域的专业化 AI 应用才能捕获的价值。

我的反思:通用与专业的辩证法

读完这篇文章,我对 AI 应用的竞争格局有了全新的认识。过去我倾向于相信"通用 AI 将统治一切"的叙事,但现在我意识到这可能过于简化了。现实可能更接近于一个多层次的生态系统:通用 AI 平台提供基础能力,但真正的价值捕获发生在垂直应用层。

OpenEvidence 的案例让我特别深刻地意识到,在某些领域,信任和专业性不是可以通过更强大的技术能力来弥补的东西。医生不会仅仅因为 ChatGPT 更聪明就开始向它透露他们的临床不确定性。同样,律师不会仅仅因为通用 AI 能够理解法律文本就开始依赖它来做关键决策。在这些高风险、高专业性的领域,建立信任需要的不仅是技术能力,还需要领域专业性、合规性、与行业标准和实践的深度整合。

我也开始思考这对创业者意味着什么。如果你正在构建 AI 应用,也许不应该试图成为下一个 OpenAI,而应该找到一个足够大、足够有价值的垂直领域,在那里建立深度护城河。关键是找到那些存在大量"暗物质"的领域——那些有价值但难以被通用平台捕获的上下文信息。

从投资角度看,这也改变了我对 AI 公司估值的看法。OpenEvidence 120 亿美元的估值,在传统软件公司的标准下可能显得过高,但如果你理解了他们所建立的飞轮效应和护城河的深度,这个估值就开始显得合理了。他们不仅仅是一个软件工具,而是医疗决策生态系统中的一个关键节点,能够创造和捕获其他任何人都无法触及的价值。

最后,我想说的是,这篇文章最有价值的地方,不是它预测了未来会发生什么,而是它提供了一个清晰的框架来思考 AI 应用的竞争优势来源。无论你是创业者、投资者还是从业者,理解"edge router"的概念、"dark matter"的本质、以及信任和专业性在某些垂直领域的不可替代性,都会帮助你在这个快速演变的领域中做出更好的判断。

AI 的未来可能不是一个赢家通吃的游戏,而是一个既有通用平台又有无数垂直应用的生态系统。在这个生态系统中,真正的价值捕获可能发生在那些能够在特定领域建立深度信任、持续创造和捕获暗物质、并不断扩展其执行器能力的垂直应用身上。这是一个令人兴奋的时代,因为它意味着机会不仅仅属于那些资源最雄厚的科技巨头,也属于那些能够深刻理解特定领域需求、建立真正信任关系的专业化团队。