
摘要:
“我认为马拉松和我们完全是两个领域,我们与做语言模型的公司距离更近”。
凤凰网科技 出品
作者|赵子坤
编辑|董雨晴
在刚刚过去的机器人马拉松比赛中,机器人晃动着刀锋般的“双足”,跑出了比人类快的速度。
“马拉松的机器人,都是在腿上做文章。硬件在中国从来都是没壁垒的,我们做的,本质是基础模型的事,壁垒要高得多。”自变量CEO王潜在包括凤凰网科技在内的媒体沟通环节中谈到。
4月21日,刚宣布完成B轮融资的自变量,打出了一个看起来更为“激进”的口号:35天后,新一代机器人入驻真实家庭。

发布会上,一台白色轮式双臂机器人缓缓滑上台,一只机械臂夹着垃圾桶,一只机械臂夹起了王潜演讲途中随手扔下的纸团。
在他的设想里,区别于提前编好程序、遥控操作的“命令式机器人”,这种自主行动的机器人将成为新的“家庭成员”。
“机器人进入家庭,是我们这个时代最难的技术问题之一。”当前机器人的核心瓶颈不在本体,而在智能。在家庭这个环境复杂的“考场”里,没有预设剧本,猫随时跳上桌子,拖鞋永远不在原地,随机的碎片事件机器人无法自主处理。
“现在的机器人硬件已经到位了,双足、灵巧手、力控关节都很好。但大脑没有跟上,只是空有一身漂亮的肌肉而已。”
在王潜看来,当前业内主流的VLA架构是“三个模块(视觉、语言、动作)在传话”,每传一次就丢一次信息,VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。
自变量的答案是彻底重写架构:用世界统一模型(WUM)从零训练一个原生大脑,让它真正理解重力、摩擦力和惯性。
自变量宣布,一个月后的“进家”的机器人,将搭载新一代自研具身智能基础模型 WALL-B——自变量将它定义为全球首个基于世界统一模型架构(World Unified Model,WUM) 的具身智能基础模型。

应用方面,自变量与 58 同城合作,将搭载 WALL-AS 模型的机器人送入真实家庭,与保洁阿姨协同作业,实现全球首次机器人进入家庭,并服务人类复杂的家居生活——这可能也是首次机器人在 C 端复杂环境的大规模落地。
“5月份进家时,理论上它应该能处理所有我们让它做的事情。所有在物理上可触及范围内的事情,它都能做。当然,这不代表100%自主完成,必要时还是需要人进行远程兜底监管,以保证安全。”在被问到进家具体能力时,王潜对凤凰网科技回答道。
“OpenAI领先Google约两年,在机器人领域这个时间窗口会长很多,大概还有三年以上的时间。”王潜判断,即便大厂下场,创业公司仍有机会。
发布会后,从进家落地、技术架构到行业竞争,自变量CEO王潜与CTO王昊接受了凤凰网科技等媒体的采访,以下是实录精编,经过不更改原意的删改:

谈机器人进家落地:“这是一个20%GDP规模大的市场”
Q: 新一代机器人进入家庭后,是否有设立阶段性目标?比如通过几个月的训练,期望它在哪方面能力有新提升?
王潜: 我们是希望机器人在进入家庭的第一天就能帮我们做大部分家务。当然一开始可能不够完美,但我们希望它能通过更多地操作系统、提升AI能力,尽快变成一个完全独立自主的家庭助手。
Q: 有行业人士认为,机器人必须足够通用才有进家的必要性和市场接受度。您判断现阶段的通用性是否足够?一个能完成家庭大部分活动的机器人的预期时间表是怎样的?
王潜: 是的,5月份进家时,理论上它应该能处理所有我们让它做的事情。所有它在物理上可触及范围内的事情,它都能做。当然,这不代表它100%靠AI自主完成,必要时还是需要人进行远程兜底监管,以保证安全。
王昊: 在家庭场景的探索中,我们发现家庭里没有特别高频的单一需求,但有很多零碎的长尾需求,这些需求组合起来构成了日常生活。
过去,机器人进家找不到用处,是因为从来没有一个机器人能干多件事。当机器人能处理这些琐碎需求,比如摆鞋、叠衣、铲猫砂,它们集合起来就是一个巨大的需求。我们的目标是覆盖好这些长尾任务,让它成为一个全方位的家庭助手。
Q: 5月份进家,是确定机器人能完成预期中超过几件以上的家务能力,这已是一个确定的商业服务,而非实验?
王潜:是的。我们在58到家平台上提供的将是一个付费服务,大家可以在APP上自由下单。它不是预设好的演示,是所有人都可以申请的正式服务。
Q: 公司未来几年有哪些应用落地的目标?比如某个时间点进入多少家庭?
王潜:我们暂时没有特别明确的数量目标,比如三年或五年进入多少家庭。更多是以技术追问的方式来思考。我们希望在2-3年内,实现物理世界的“ChatGPT时刻”,希望物理世界的“Aha moment”是我们第一个做出来的。
Q: 和58同城的合作进家,如果用户下单机器人清扫服务,是否需要公司员工全程陪同或后台操作?
王潜:目前现场不太需要员工实时支持了,就是一个保姆和一个机器人进家。机器人在物理可达范围内做得不错,人在现场主要是处理它物理上无法触及的情况,比如过道太窄。但这不代表环路里完全没人,会有远程接管。当机器人发现事情做不了时,会发信号给远程人员进行接管,类似百度萝卜快跑的模式,解决难点后再交还给AI。
Q: 家庭机器人瞄准的市场规模有多大?
王潜:通用机器人面对的市场不能用单纯的经济数字衡量。如果只看家庭场景,历史上经济学测算显示,家务劳动约占GDP的20%。人们每天花在家务上的时间大约是工作时间的1/4到1/5。所以这是一个非常巨大的市场。
Q: 未来机器人进入家庭,预期价格是怎样的?能否让普通家庭都用得上?
王潜:当机器人广泛进入家庭时,我们一定希望所有家庭都能用得起。价格上会有区隔,就像汽车一样,有基础款也有高端款。但机器人跟端侧设备不一样的是,不是单纯消费品,它是一个生产力设备。就像马斯克说的,机器人和火星是绝配,因为你可以把机器人发射到火星上去。长远看,当机器人推动生产力爆发后,也能把自己的价格压低,能让每个普通家庭都负担得起。
Q: 进入家庭的机器人,哪些场景是需求最多的,有没有一些量化的数据?
王昊: 家庭场景的特点是,在进门之前你无法预设具体任务。进家那一刻起,机器人就要开始自主规划和拆解任务,这与实验室预设任务完全不同。家庭环境的自然复杂性是最高质量的数据来源,这种交互式采集方式,是唯一能获取这种高价值数据的途径。
王潜: 我们不希望机器人是受限的。你可以从功能上分类,比如清洁、做饭、照顾老人宠物,但本质上我们希望机器人能平等地对待所有任务,是一个没有限制的通用智能体。这正是我们追求AGI的核心逻辑。
Q:你们提到机器人进家后是”边干边学”,那它自我迭代的周期是怎样的?
王潜: 我们的模式是,机器人在执行任务的同时就在进行数据回流和在线学习,因此没有一个固定的迭代周期概念,你可以理解为它一直在持续进化。

谈原生模型:“目前业界主流做法都有问题,我们走的是第三条路”
Q:自变量在数据路线上,包括仿真、真机、UMI等多种方式,整体的规划是怎样的?
王昊: 我们的核心是强调数据要来自现实环境。获取途径不止一种,过去主要靠机器人本体操作采集,现在有了可穿戴设备,甚至可以简化为用相机采集纯视频数据。这些数据的信息密度和容量不同。
我们将现实数据分为几层:最底层是纯视频数据,中间层是手持或穿戴设备采集的数据,上一层是机器人本体数据,再往上是交互式数据,即让机器人自主探索并通过人机协作获得数据。从下到上,数据采集难度依次增加,但训练难度不同,数据价值也不同。越容易获取的数据,训练难度可能越大。本质上,要形成一个好的大模型,你需要找到好方法对数据进行有效压缩。这离不开模型和数据闭环的整体策略。
Q: 行业认为1万条数据是实现零样本泛化的一个节点,目前发布时已收集了多少数据?是否已达到泛化状态?进入家庭后数据收集的核心目标是什么?
王昊:在一个家庭里任务是多样的,我们不应为机器人预设采集多少次才能学会。我们的做法是,先让搭载了前期训练的模型去尝试,它肯定能做一部分,我们把那些做不好的地方通过人机协作补上。
在家庭中采集数据,我们不以“条数”衡量,而是以任务丰富度和任务的平均长度、复杂性来衡量其价值。我们的数据回流方式不是离线式的“先采集-再训练-再部署”,而是通过大规模预训练让模型具备零样本泛化基础后,直接进家进行在线学习。机器人先自己做,做不了的通过人机协作解决,数据实时回流,模型即时进化。
Q: 全国成立了很多具身智能数据联盟。自变量似乎有自己的数据体系,如何看待这种联盟趋势?
王潜: 我们对任何合作都持非常开放的态度。但行业尚处早期,数据采集厂对各公司的意义可能不同。我们对数据质量要求较高,在数据闭环里的哲学和运营方式可能与别人不完全一样,所以倾向于建设自己的数据体系。
Q: 之前开源的模型解决灾难性遗忘问题,今天你们也强调了减少数据损耗和丢失。这些做法的初心是什么?
王潜:最关键的方法论是“减少人为干预”。人为干预越少,模型表现越好。历史上所有模型都走向了减少人为手工设计,从分层次模型到端到端,从分离式动捕到远程动捕,核心是走向一个完全统一的大模型架构。
目前业界主流做法是继承已有的VLM或视频生成模型,但我们认为这两种方式都有问题,因为它们并非为物理交互任务而生。我们走的是第三条技术路线:从头开始训练一个世界统一模型,让它能理解并解决物理世界的所有问题。这是我们方法论上最重要的一点。
王昊: 从资源维度看,23年做端到端模型时缺数据,所以需要继承预训练模型。现在我们的数据规模已达到可以从头训练原生模型的程度,不再受限于以前的模型结构。
Q: 今天提到的机器人能进家做很多活、泛化性强,这在技术上非常突破。达成这种泛化能力,技术架构上有什么更新?
王昊:最核心的还是数据。数据规模和质量到了量级,自然会推动模型架构向更优方向发展。零样本泛化是数据规模突破某个临界点后自然出现的结果。我们在当前阶段,数据是核心驱动力。所以我们把它推到家庭里去,不管是基于公众需求,也是我们在商业上探索的一些需要。
Q: 解决机器人泛化能力,除了数据还有哪些难点需要突破?
王潜: 模型架构本身很重要。我们必须做原生模型,从头训练,以捕捉物理世界的复杂规律。继承已有模型,会在语义理解、物理规律理解上存在问题。
物理世界是高度复杂的,这跟做自动驾驶、语言模型或者是多模态时没遇到的情况。为什么跑马拉松的机器人没有这个挑战,因为它主要抵抗的是一个恒定的重力场,它脚底下踩的那个地方踩歪了没有什么太大的影响,但是我们手上做这个操作,比如说歪了0.1毫米可能整个就失败掉了。
王昊:物理世界模型的挑战是独特的。我们需要处理动态视觉、2D到3D的推理,以及物理交互中的复杂随机性,这些在数字世界模型中从未遇到过。
Q: 如何看待行业当前在泛化性方面的发展水平,后面在样本泛化方面有何规划?
王昊:当前阶段,如果期望不高,机器人会带来惊喜;但如果以人的标准衡量,则会失望。我们的泛化性体现在,同一类任务在不同家庭环境中都能应对,尽管物理难度各异。行业整体都能观察到零样本泛化的现象,只是程度不同。希望大家给行业一些耐心,我们的发展速度可能超出直觉。
王潜: 真正意义上的大泛化突破,可能就在非常近的未来。
Q: 自变量自有数据采集工厂的建设进度和资本开支情况如何?
王潜: 我们自建的数据工厂是国内最早的,从2024年初开始,完全是用自有资金建设。它现在是全国乃至世界规模最大的工厂之一,这确实是资本开支的重要部分。
Q: 自有工厂采集的数据和外部购买的数据配比如何?不同类型数据在提升泛化能力时的作用有何不同?
王潜:我们平等对待所有来源的数据,不会预先设定一个固定配比来区分对待。
王昊: 当你开始精细调配比时,说明数据已经相对充裕。不同类型数据的价值取决于其包含的物理信息密度。纯视频数据采集容易,但信息密度低,有物理极限。高信息密度的本体数据采集难、比例小。混合数据时,我们的大原则是减少人为干预,让模型自己去挖掘不同数据源的信息。

谈行业竞争:“比起跑马拉松的硬件,我们技术壁垒够高,领先窗口期还有三年”
Q: 机器人马拉松显示了硬件门槛在降低,大厂系统性能力很强,领先窗口期可能只有几个月。在“大脑”能力没有外显评测标准的情况下,如何保证大脑能力的领先性,领先窗口会有多久?
王潜:首先,我认为马拉松和我们完全是两个领域,我们与做语言模型的公司距离更近。领先性上,数据和软硬一体能力是关键。建立一个从数据收集、清洗、训练到评测的完整配套工程体系是最难的部分,这构成了长久竞争力。例如OpenAI当年领先Google约两年,我认为在机器人领域这个时间窗口会更长,可能超过三年。
Q: 具身智能赛道的壁垒是什么,哪些是真正的门槛,哪些只是阶段性领先?
王潜:跑马拉松更多是硬件的事,硬件在中国从来都是没有壁垒的,今天做出来一个特别好的硬件,明天供应链全都被整出来了,后天所有人都可以做。我们做的本质是技术模型,壁垒要高得多。因为机器人是集成了硬件、软件、智能、产品和生活方式的完整链路,技术本身的壁垒可能就有三年甚至更长时间。它是一个系统性壁垒,不只在单一维度。
Q:如何看待大厂全面进入具身智能领域带来的竞争?
王潜:我们身后站着几乎所有在AI领域有布局的大厂(小米、阿里等)。他们投资我们,也恰恰说明了创业公司的独特优势。市场足够大,创业公司在软硬一体的能力、技术本身的壁垒上具有优势。资源不构成壁垒,技术才是。大模型历史上,大厂投入巨量资源但追赶OpenAI依然用了近两年时间。
为什么大家会认为在大模型的时代技术门槛变低了,因为有蒸馏。蒸馏做得太多了,以至于忘了什么是真正的技术差距了,但机器人没法蒸馏,技术壁垒会更高。
Q: 自变量拿到了四家大厂的投资,打动投资人的核心是什么?
王潜:现在我们看到的所有物体没有办法依靠机器生产出来。机器制造机器,永远需要人参与,于是指数发展变成了线性发展。等到具身成熟时,理论上生产力也会是指数级发展。那现在对整个行业来说,资本热度是欠缺,甚至可以说是过冷的。我们的股东是中国乃至全球做AI模型最好的公司,技术判断力是毋庸置疑的,看中的也是我们的技术领先性,对我们也没有短期回报要求。