对话自变量CEO王潜：一个月后，机器人就可以接单进家了 - 纸飞机TG账号老号购买-telegraph账号自助下单

摘要：

“我认为马拉松和我们完全是两个领域，我们与做语言模型的公司距离更近”。

凤凰网科技出品

作者｜赵子坤

编辑｜董雨晴

在刚刚过去的机器人马拉松比赛中，机器人晃动着刀锋般的“双足”，跑出了比人类快的速度。

“马拉松的机器人，都是在腿上做文章。硬件在中国从来都是没壁垒的，我们做的，本质是基础模型的事，壁垒要高得多。”自变量CEO王潜在包括凤凰网科技在内的媒体沟通环节中谈到。

4月21日，刚宣布完成B轮融资的自变量，打出了一个看起来更为“激进”的口号：35天后，新一代机器人入驻真实家庭。

发布会上，一台白色轮式双臂机器人缓缓滑上台，一只机械臂夹着垃圾桶，一只机械臂夹起了王潜演讲途中随手扔下的纸团。

在他的设想里，区别于提前编好程序、遥控操作的“命令式机器人”，这种自主行动的机器人将成为新的“家庭成员”。

“机器人进入家庭，是我们这个时代最难的技术问题之一。”当前机器人的核心瓶颈不在本体，而在智能。在家庭这个环境复杂的“考场”里，没有预设剧本，猫随时跳上桌子，拖鞋永远不在原地，随机的碎片事件机器人无法自主处理。

“现在的机器人硬件已经到位了，双足、灵巧手、力控关节都很好。但大脑没有跟上，只是空有一身漂亮的肌肉而已。”

在王潜看来，当前业内主流的VLA架构是“三个模块（视觉、语言、动作）在传话”，每传一次就丢一次信息，VLA模型只能模仿训练数据中的轨迹，无法真正理解物理世界的规律。

自变量的答案是彻底重写架构：用世界统一模型（WUM）从零训练一个原生大脑，让它真正理解重力、摩擦力和惯性。

自变量宣布，一个月后的“进家”的机器人，将搭载新一代自研具身智能基础模型 WALL-B——自变量将它定义为全球首个基于世界统一模型架构（World Unified Model，WUM）的具身智能基础模型。

应用方面，自变量与 58 同城合作，将搭载 WALL-AS 模型的机器人送入真实家庭，与保洁阿姨协同作业，实现全球首次机器人进入家庭，并服务人类复杂的家居生活——这可能也是首次机器人在 C 端复杂环境的大规模落地。

“5月份进家时，理论上它应该能处理所有我们让它做的事情。所有在物理上可触及范围内的事情，它都能做。当然，这不代表100%自主完成，必要时还是需要人进行远程兜底监管，以保证安全。”在被问到进家具体能力时，王潜对凤凰网科技回答道。

“OpenAI领先Google约两年，在机器人领域这个时间窗口会长很多，大概还有三年以上的时间。”王潜判断，即便大厂下场，创业公司仍有机会。

发布会后，从进家落地、技术架构到行业竞争，自变量CEO王潜与CTO王昊接受了凤凰网科技等媒体的采访，以下是实录精编，经过不更改原意的删改：

谈机器人进家落地：“这是一个20%GDP规模大的市场”

Q：新一代机器人进入家庭后，是否有设立阶段性目标？比如通过几个月的训练，期望它在哪方面能力有新提升？

王潜： 我们是希望机器人在进入家庭的第一天就能帮我们做大部分家务。当然一开始可能不够完美，但我们希望它能通过更多地操作系统、提升AI能力，尽快变成一个完全独立自主的家庭助手。

Q：有行业人士认为，机器人必须足够通用才有进家的必要性和市场接受度。您判断现阶段的通用性是否足够？一个能完成家庭大部分活动的机器人的预期时间表是怎样的？

王潜： 是的，5月份进家时，理论上它应该能处理所有我们让它做的事情。所有它在物理上可触及范围内的事情，它都能做。当然，这不代表它100%靠AI自主完成，必要时还是需要人进行远程兜底监管，以保证安全。

王昊： 在家庭场景的探索中，我们发现家庭里没有特别高频的单一需求，但有很多零碎的长尾需求，这些需求组合起来构成了日常生活。

过去，机器人进家找不到用处，是因为从来没有一个机器人能干多件事。当机器人能处理这些琐碎需求，比如摆鞋、叠衣、铲猫砂，它们集合起来就是一个巨大的需求。我们的目标是覆盖好这些长尾任务，让它成为一个全方位的家庭助手。

Q： 5月份进家，是确定机器人能完成预期中超过几件以上的家务能力，这已是一个确定的商业服务，而非实验？

王潜：是的。我们在58到家平台上提供的将是一个付费服务，大家可以在APP上自由下单。它不是预设好的演示，是所有人都可以申请的正式服务。

Q：公司未来几年有哪些应用落地的目标？比如某个时间点进入多少家庭？

王潜：我们暂时没有特别明确的数量目标，比如三年或五年进入多少家庭。更多是以技术追问的方式来思考。我们希望在2-3年内，实现物理世界的“ChatGPT时刻”，希望物理世界的“Aha moment”是我们第一个做出来的。

Q：和58同城的合作进家，如果用户下单机器人清扫服务，是否需要公司员工全程陪同或后台操作？

王潜：目前现场不太需要员工实时支持了，就是一个保姆和一个机器人进家。机器人在物理可达范围内做得不错，人在现场主要是处理它物理上无法触及的情况，比如过道太窄。但这不代表环路里完全没人，会有远程接管。当机器人发现事情做不了时，会发信号给远程人员进行接管，类似百度萝卜快跑的模式，解决难点后再交还给AI。

Q：家庭机器人瞄准的市场规模有多大？

王潜：通用机器人面对的市场不能用单纯的经济数字衡量。如果只看家庭场景，历史上经济学测算显示，家务劳动约占GDP的20%。人们每天花在家务上的时间大约是工作时间的1/4到1/5。所以这是一个非常巨大的市场。

Q：未来机器人进入家庭，预期价格是怎样的？能否让普通家庭都用得上？

王潜：当机器人广泛进入家庭时，我们一定希望所有家庭都能用得起。价格上会有区隔，就像汽车一样，有基础款也有高端款。但机器人跟端侧设备不一样的是，不是单纯消费品，它是一个生产力设备。就像马斯克说的，机器人和火星是绝配，因为你可以把机器人发射到火星上去。长远看，当机器人推动生产力爆发后，也能把自己的价格压低，能让每个普通家庭都负担得起。

Q：进入家庭的机器人，哪些场景是需求最多的，有没有一些量化的数据？

王昊： 家庭场景的特点是，在进门之前你无法预设具体任务。进家那一刻起，机器人就要开始自主规划和拆解任务，这与实验室预设任务完全不同。家庭环境的自然复杂性是最高质量的数据来源，这种交互式采集方式，是唯一能获取这种高价值数据的途径。

王潜： 我们不希望机器人是受限的。你可以从功能上分类，比如清洁、做饭、照顾老人宠物，但本质上我们希望机器人能平等地对待所有任务，是一个没有限制的通用智能体。这正是我们追求AGI的核心逻辑。

Q：你们提到机器人进家后是”边干边学”，那它自我迭代的周期是怎样的？

王潜： 我们的模式是，机器人在执行任务的同时就在进行数据回流和在线学习，因此没有一个固定的迭代周期概念，你可以理解为它一直在持续进化。

谈原生模型：“目前业界主流做法都有问题，我们走的是第三条路”

Q：自变量在数据路线上，包括仿真、真机、UMI等多种方式，整体的规划是怎样的？

王昊： 我们的核心是强调数据要来自现实环境。获取途径不止一种，过去主要靠机器人本体操作采集，现在有了可穿戴设备，甚至可以简化为用相机采集纯视频数据。这些数据的信息密度和容量不同。

我们将现实数据分为几层：最底层是纯视频数据，中间层是手持或穿戴设备采集的数据，上一层是机器人本体数据，再往上是交互式数据，即让机器人自主探索并通过人机协作获得数据。从下到上，数据采集难度依次增加，但训练难度不同，数据价值也不同。越容易获取的数据，训练难度可能越大。本质上，要形成一个好的大模型，你需要找到好方法对数据进行有效压缩。这离不开模型和数据闭环的整体策略。

Q：行业认为1万条数据是实现零样本泛化的一个节点，目前发布时已收集了多少数据？是否已达到泛化状态？进入家庭后数据收集的核心目标是什么？

王昊：在一个家庭里任务是多样的，我们不应为机器人预设采集多少次才能学会。我们的做法是，先让搭载了前期训练的模型去尝试，它肯定能做一部分，我们把那些做不好的地方通过人机协作补上。

在家庭中采集数据，我们不以“条数”衡量，而是以任务丰富度和任务的平均长度、复杂性来衡量其价值。我们的数据回流方式不是离线式的“先采集-再训练-再部署”，而是通过大规模预训练让模型具备零样本泛化基础后，直接进家进行在线学习。机器人先自己做，做不了的通过人机协作解决，数据实时回流，模型即时进化。

Q：全国成立了很多具身智能数据联盟。自变量似乎有自己的数据体系，如何看待这种联盟趋势？

王潜： 我们对任何合作都持非常开放的态度。但行业尚处早期，数据采集厂对各公司的意义可能不同。我们对数据质量要求较高，在数据闭环里的哲学和运营方式可能与别人不完全一样，所以倾向于建设自己的数据体系。

Q：之前开源的模型解决灾难性遗忘问题，今天你们也强调了减少数据损耗和丢失。这些做法的初心是什么？

王潜：最关键的方法论是“减少人为干预”。人为干预越少，模型表现越好。历史上所有模型都走向了减少人为手工设计，从分层次模型到端到端，从分离式动捕到远程动捕，核心是走向一个完全统一的大模型架构。

目前业界主流做法是继承已有的VLM或视频生成模型，但我们认为这两种方式都有问题，因为它们并非为物理交互任务而生。我们走的是第三条技术路线：从头开始训练一个世界统一模型，让它能理解并解决物理世界的所有问题。这是我们方法论上最重要的一点。

王昊： 从资源维度看，23年做端到端模型时缺数据，所以需要继承预训练模型。现在我们的数据规模已达到可以从头训练原生模型的程度，不再受限于以前的模型结构。

Q：今天提到的机器人能进家做很多活、泛化性强，这在技术上非常突破。达成这种泛化能力，技术架构上有什么更新？

王昊：最核心的还是数据。数据规模和质量到了量级，自然会推动模型架构向更优方向发展。零样本泛化是数据规模突破某个临界点后自然出现的结果。我们在当前阶段，数据是核心驱动力。所以我们把它推到家庭里去，不管是基于公众需求，也是我们在商业上探索的一些需要。

Q：解决机器人泛化能力，除了数据还有哪些难点需要突破？

王潜： 模型架构本身很重要。我们必须做原生模型，从头训练，以捕捉物理世界的复杂规律。继承已有模型，会在语义理解、物理规律理解上存在问题。

物理世界是高度复杂的，这跟做自动驾驶、语言模型或者是多模态时没遇到的情况。为什么跑马拉松的机器人没有这个挑战，因为它主要抵抗的是一个恒定的重力场，它脚底下踩的那个地方踩歪了没有什么太大的影响，但是我们手上做这个操作，比如说歪了0.1毫米可能整个就失败掉了。

王昊：物理世界模型的挑战是独特的。我们需要处理动态视觉、2D到3D的推理，以及物理交互中的复杂随机性，这些在数字世界模型中从未遇到过。

Q：如何看待行业当前在泛化性方面的发展水平，后面在样本泛化方面有何规划？

王昊：当前阶段，如果期望不高，机器人会带来惊喜；但如果以人的标准衡量，则会失望。我们的泛化性体现在，同一类任务在不同家庭环境中都能应对，尽管物理难度各异。行业整体都能观察到零样本泛化的现象，只是程度不同。希望大家给行业一些耐心，我们的发展速度可能超出直觉。

王潜： 真正意义上的大泛化突破，可能就在非常近的未来。

Q：自变量自有数据采集工厂的建设进度和资本开支情况如何？

王潜： 我们自建的数据工厂是国内最早的，从2024年初开始，完全是用自有资金建设。它现在是全国乃至世界规模最大的工厂之一，这确实是资本开支的重要部分。

Q：自有工厂采集的数据和外部购买的数据配比如何？不同类型数据在提升泛化能力时的作用有何不同？

王潜：我们平等对待所有来源的数据，不会预先设定一个固定配比来区分对待。

王昊： 当你开始精细调配比时，说明数据已经相对充裕。不同类型数据的价值取决于其包含的物理信息密度。纯视频数据采集容易，但信息密度低，有物理极限。高信息密度的本体数据采集难、比例小。混合数据时，我们的大原则是减少人为干预，让模型自己去挖掘不同数据源的信息。

谈行业竞争：“比起跑马拉松的硬件，我们技术壁垒够高，领先窗口期还有三年”

Q：机器人马拉松显示了硬件门槛在降低，大厂系统性能力很强，领先窗口期可能只有几个月。在“大脑”能力没有外显评测标准的情况下，如何保证大脑能力的领先性，领先窗口会有多久？

王潜：首先，我认为马拉松和我们完全是两个领域，我们与做语言模型的公司距离更近。领先性上，数据和软硬一体能力是关键。建立一个从数据收集、清洗、训练到评测的完整配套工程体系是最难的部分，这构成了长久竞争力。例如OpenAI当年领先Google约两年，我认为在机器人领域这个时间窗口会更长，可能超过三年。

Q：具身智能赛道的壁垒是什么，哪些是真正的门槛，哪些只是阶段性领先？

王潜：跑马拉松更多是硬件的事，硬件在中国从来都是没有壁垒的，今天做出来一个特别好的硬件，明天供应链全都被整出来了，后天所有人都可以做。我们做的本质是技术模型，壁垒要高得多。因为机器人是集成了硬件、软件、智能、产品和生活方式的完整链路，技术本身的壁垒可能就有三年甚至更长时间。它是一个系统性壁垒，不只在单一维度。

Q：如何看待大厂全面进入具身智能领域带来的竞争？

王潜：我们身后站着几乎所有在AI领域有布局的大厂（小米、阿里等）。他们投资我们，也恰恰说明了创业公司的独特优势。市场足够大，创业公司在软硬一体的能力、技术本身的壁垒上具有优势。资源不构成壁垒，技术才是。大模型历史上，大厂投入巨量资源但追赶OpenAI依然用了近两年时间。

为什么大家会认为在大模型的时代技术门槛变低了，因为有蒸馏。蒸馏做得太多了，以至于忘了什么是真正的技术差距了，但机器人没法蒸馏，技术壁垒会更高。

Q：自变量拿到了四家大厂的投资，打动投资人的核心是什么？

王潜：现在我们看到的所有物体没有办法依靠机器生产出来。机器制造机器，永远需要人参与，于是指数发展变成了线性发展。等到具身成熟时，理论上生产力也会是指数级发展。那现在对整个行业来说，资本热度是欠缺，甚至可以说是过冷的。我们的股东是中国乃至全球做AI模型最好的公司，技术判断力是毋庸置疑的，看中的也是我们的技术领先性，对我们也没有短期回报要求。

发表回复 取消回复

发表回复取消回复