当下,人工智能技术正从“感知智能”迈向“行动智能”,如何科学、公正地评估机器人在真实物理世界中的真实能力,成为制约行业发展的核心命题。在 Dexmal 原力灵机与 Hugging Face 共同发起 RoboChallenge 之后,迅速在行业内引发强烈共鸣并吸引广泛参与。智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学、GOSIM 国际国内合作伙伴进一步携手,共同推动生态建设,并于 2025 年 11 月 20 日正式成立 RoboChallenge 组委会。这标志着具身智能真机测评的开源协作不仅迈入了标准化的新阶段,更以“开放共同体”的行业共创模式,为具身智能技术的落地与迭代注入新动能。
日前,在不久前深圳举行的一场国际人工智能展览会上,一台名为“小量”的机器人娴熟地进行着果味冰沙制作的全部流程。取杯、接冰、添加小料,整个动作连贯且精准,两分钟内就完成了一份饮品。这个看似简单的场景背后,是深圳一家成立仅一年多的初创公司——自变量机器人。
自变量机器人是国内最早实现端到端具身智能大模型商业化的公司之一。其自主研发的「WALL-A」系列视觉-语言-行动(VLA)操作大模型,构建了统一的认知与行动框架,让机器人不仅能“看懂”,还能自主“动手”完成。

更具行业意义的是,自变量机器人近期开源了端到端具身智能基础模型「WALL-OSS」。与行业内常见的部分开源不同,该公司提供了一整套完整可复现的开源方案,包括模型权重、训练代码、数据集接口及详细部署文档。
“我们希望真正把成果交到行业手中,让大家能够用起来,而不仅仅是停留在展示层面。”创始人兼CEO王潜表示。这一举措有望降低行业技术门槛,推动具身智能生态的快速发展。
01 信仰:从理论到实践的“关键变量”
王潜身上烙印着清华人的典型特质:理性、执着、目光长远。本硕毕业于清华大学,他是全球最早在神经网络中引入注意力机制的学者之一,其工作与Google在该领域的开创性论文同期发表。这些研究,后来成为Transformer架构的基石,奠定了当今大模型的技术根基。
远赴美国南加州大学攻读博士时,他选择了挚爱的机器人方向,在顶级实验室深耕机器人学习与人机交互。这段经历让他深刻认识到传统机器人技术的局限。博士毕业后,王潜曾在美国创办量化基金,然而,“晚上经常睡不着,想做机器人”的念头始终缠绕着他。2023年,随着大语言模型等领域迎来突破,他敏锐察觉机器人行业的新机,毅然解散基金,回国创业。
回国并非一时冲动。王潜看中的是中国无与伦比的硬件制造与供应链优势。“美国的硬件人才多被‘金手铐’锁在大公司,”他指出,“而中国的供应链优势可能领先美国一个数量级。”他特别提到,数据收集成本在中国大约仅为美国的十分之一。
2023年12月18日,王潜初次踏足深圳,自变量机器人就此诞生。深圳的产业生态让他惊叹:“当时我们实验室用的机器人硬件和零配件,很多都产自深圳。”“在这里,配齐所有零件有时只需半天。”
02 坚守:“大小脑统一”的孤傲之路
自变量创立之初,就选择了一条与众不同的技术路线——“大小脑统一的端到端大模型”。这在当时显得颇为孤傲,甚至遭受质疑。数年前,当王潜阐述端到端思路时,一位知名机器人教授曾当面否定:“这很有趣,但可能永远只是个玩具,无法落地。”
何为端到端模型?与传统的分层架构不同,端到端模型试图在统一架构中解决从感知、规划到控制的全流程问题。传统分层架构将任务分解为感知、规划、控制等多个模块,每个模块有独立模型,而端到端模型则是单一的、整合的模型。
王潜解释道,“分层模型每多一步拆解,就会引入额外误差和不可控的噪声,难以实现真正可靠的执行;而端到端统一模型,能够在‘感知—决策—执行’的全流程中保持连续性,从根本上解决这一问题。”
自变量机器人的技术理念可以概括为“纵向统一”和“横向统一”。纵向统一指从视频、传感器等原始输入到机器人运动输出,全部由同一模型处理;横向统一则是不同任务共用同一个模型,训练和推理都在同一架构下完成。
这一技术路线的优势在WALL-A模型上得到了充分体现。该模型使机器人仅用二指夹爪就能完成拉拉链、叠衣服、浇花等复杂操作,数分钟级别的任务成功率达到了95%以上。
03 进化:WALL-A模型释放泛化之力
自变量的产品演进清晰印证了其技术路线的生命力。成立仅两个月,公司便训练出第一版具身智能操作模型,实现了切菜、倒水等复杂任务。2024年10月,自变量推出具身智能通用操作大模型Great Wall系列(GW)的WALL-A模型。可以实现机器人自主感知、决策与高精度操作,解决从感知到最后动作生成之间的巨大鸿沟。
它的核心突破,主要体现在三个方面。
第一,强大的泛化能力。模型在部分未见过的物理场景中,无需针对新场景进行额外训练,已经能部分实现零样本泛化。
其二,具身思维链(CoT,Chain of Thought)。模型通过多步逻辑推理,将抽象任务拆解为可执行的子步骤,并能够根据实时变化调整行动策略。
其三,统一架构。将视觉、语言、动作等所有模态信息,转换为统一的token序列,再送入一个Transformer核心,从而实现端到端统一学习。这能让系统在面对新任务时,可以像人类一样思考和工作,不再依赖模块化的信息传递。

04 选择:真机数据,筑牢模型迭代的根基
在数据策略上,自变量坚持“高质量真机数据”,与依赖仿真或网络视频数据的同行形成鲜明对比。王潜明确表示:“所有涉及复杂物理交互(如丰富的手部操作)不应完全用仿真数据。我们探索了十几年,基本结论是:手部复杂操作无法通过仿真数据进化。”
数据主要来自三个渠道:集中式采集场地、分布式现实环境收集,以及机器人部署后的回流数据。自变量将泛化能力分为四个层次:基础条件(光照、位置变化)、跨环境、跨对象(处理未见过的同类物体)、跨任务(解决全新任务)。目前自变量的模型在前三个层次已展现出优秀的通用性与泛化能力。
05 野心:资本重注下的赛道卡位
自变量在资本市场的表现堪称耀眼。成立不到两年,完成8轮融资,累计金额超20亿元。2025年9月,公司完成近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国、渶策资本跟投,老股东美团、联想之星、君联资本持续加码。这是阿里云首次投资具身智能公司,也是美团第二次参投。
06 清晰的商业化路径
面对商业化这一行业核心质疑,王潜思路清晰。他认为:“家庭是机器人最大市场,预计3-4年会出现早期产品。”有经济学测算指出,未被计入GDP的家务劳动价值约占总量四分之一,这意味着家庭机器人市场潜力巨大,甚至可能超越工业及其他所有场景。
自变量的商业化将先从To B场景切入,逐步延伸至To C。王潜表示,公司今年将在多个功能场景推动落地,让机器人在开放、随机环境中自主完成复杂操作。对于当前部分企业将人形机器人送入工厂从事简单重复劳动,他直言“那更像是一种PR行为”。真正有价值的商业化,必须依赖具身智能模型泛化能力的提升。
价格方面,王潜预测,消费者可接受且产业链能支撑的价格区间可能在1-2万美元(约人民币10万元上下),但这仍需产业链进一步优化成本。他预计,类GPT-3水平的具身智能大模型可能在一年左右出现,而人形机器人的“ChatGPT时刻”则需要3-5年。
07 未来挑战与生态构建
尽管进展显著,王潜清醒认识到,通往通用机器人的道路仍布满挑战。他认为,当前限制产业化的主要是机器人的“大脑”,而非硬件。“展会上很多机器人运动能力不错,但提供的‘实用价值’有限,更多是‘形式价值’。”
为此,自变量正积极构建生态。2025年9月,公司在合肥发布《具身智能生态建设计划》,旨在通过自研基础模型,打造全球具身智能创新与产业枢纽。此前,公司开源了自研端到端具身智能基础模型WALL-OSS,这是目前唯一面向物理世界交互、具备真实落地能力的开源模型。
对于长远商业模式,王潜认为机器人将走向软硬一体。“机器人相对特殊,难以形成像Windows或Android那样的纯软件模式。它需要软硬件高度耦合,一体化的模式最为合理。”
2025年世界机器人大会上,搭载自变量WALL-A模型的机器人娴熟地制作香囊、整理客厅,引来无数驻足。那个让通用机器人步入千家万户的梦想,正以“深圳速度”,一步步照进现实。
A5创业网 版权所有