具身智能蓬勃生长,正从实验室走向生产生活。
作为“十五五”规划重点布局的未来产业,具身智能产业化的技术瓶颈如何突破?商业逻辑怎样实现闭环?答案藏在具身智能企业的实践中。
瞭望财经持续关注、记录并研究具身智能产业,推出“瞭望寻新记·对话未来企业”系列访谈,深入走访具身智能领域的创新主体。
我们记录技术进展,观察商业迭代,传递一线观点。希望这些来自市场的鲜活样本,能帮助各方更真切地理解并投身这个快速演进的产业。
文|瞭望财经 刘宝丹
智平方成立于2023年,是全球最早提出用端到端大模型技术做机器人智能化的创业公司之一。作为公司创始人兼CEO,郭彦东在很多人的质疑声中,选择VLA(视觉、感知、语言等多种模态融合的大模型)路线。
在当时,这是一个大胆到有些激进的选择,除了谷歌和特斯拉,全球创业公司只有智平方这么干。几个月后,硅谷的Physical Intelligence才发布相同的技术路线,近一年后,初创具身智能公司FigureAI官宣采用相同技术路线。
这种行事风格和郭彦东的履历有些不太搭。创立智平方之前,他先后在微软、小鹏汽车和OPPO任职,做过软硬件,从研究员一路做到首席科学家,被评价为“最正儿八经的机器人创业者”。
但具身智能并无成熟先例可循,很多时候,路走着走着才看清楚。两年后,接受媒体采访时,郭彦东说,智平方已经是VLA路线的领先者。智平方的轮式人形机器人,也已经获得汽车、半导体显示、生物制造等多个高端制造业的商业订单。
今年以来,世界模型、物理模型概念广受关注,其核心是理解现实世界的动态,让具身智能拥有类人的认知、预测能力。有声音认为,VLA已经是上一代技术,世界模型将取代VLA。
4月下旬在深圳的一场论坛上,郭彦东回应了这个观点。他说,“VLA不会消失,VLA会被不断加持,变得越来越聪明,它是通往物理世界智能的最强主航道。”
我们的对话约在这场定调演讲之前,郭彦东详细讲了自己的看法:世界模型和VLA各有所长,一点都不冲突。世界模型做的更多是相对短程预测。如果想做更加长程的推理任务,就需要世界模型+VLA,或者把世界模型与VLA合并。
图为智平方通用智能机器人爱宝在操作咖啡机和冰淇淋机 受访企业供图
世界模型不会替代VLA
瞭望财经:最近世界模型走热,被认为是下一个10年具身智能的重要风口,你怎么看?
郭彦东:我的观点不一样。目前所说的世界模型并不是物理规律模型驱动的,也是靠海量数据喂到多参数的模型里。数据足够多,模型就会知道,水杯越过桌面就会下落,手机屏幕使劲敲可能会碎,这并不是物理规律的总结,是靠大数据学习出来的。我们把VLA定义为多种模态融合的大数据驱动的端到端模型架构的总称,这个定义下,世界模型跟VLA没有本质区别。
我经常说,世界模型和VLA一点都不冲突,本来就是一套技术路线的一个分支,或者一个技术路线的进步,它不是一个根本上的技术变革。
世界模型解决的是对物理环境进行稠密、包含时间维度的4D预测,它是一个非常好的空间基础模型,是VLA空间感知的一部分,能帮助机器人大脑越来越好,是机器人大脑的一个组成部分。
瞭望财经:有观点说,世界模型会代替VLA,你们是做VLA的,你觉得会被替代吗?
郭彦东:如果不把世界模型合并在VLA里面,很多任务完全做不了,尤其是需要推理性的任务。有些推理有了语言模型的加持会更加容易学习。比如,泡茶时应该先拿茶包再倒水,做咖啡时应该先拿杯子再接水,这些推理认知逻辑由语言模型更容易完成。
世界模型做的更多是相对短程预测,比如,水杯靠桌边就可能掉下去,把世界模型与VLA合并,可以让机器人做更加长程的思考,比如下棋,下棋的这部分智能来自语言模型。如果想做长程任务,甚至多个长程任务之间切换,比如下完象棋还能有条理去收拾衣服,这些事情想要达到类人效果,就需要世界模型+VLA,或者把世界模型与VLA合并。
瞭望财经:目前具身智能四种主流模型——LLM(大语言模型)、VLM(视觉语言模型)、VLA、世界模型,后续会演变成什么样?
郭彦东:当前技术路线的收敛趋势已十分明显,行业正快速向世界模型+VLA的方向靠拢。
开源推动行业和企业往前走
瞭望财经:你们最近推出了具身智能模型开源社区AlphaBrain Platform,这是个什么社区?
郭彦东:我们2023年就提出用大模型技术来做机器人的智能化,行业叫端到端VLA,那时候反 共识非常严重。很多人说不应该这么做。
2024年6月,我们发表全球机器人创业公司首篇VLA研究成果,过了4-8个月,美国的两家公司,一家叫Physical Intelligence,一家叫Figure AI,公开了技术路线,跟我们的技术路线高度一致。
所以我们在原创技术上跑在美国创业公司前面,这个挺难得,我们先做出来,美国的创业公司比我们晚了大概半年。
2025年初,DeepSeek开源,影响力很大。同一时间,我们也把模型试探性地开源,但我觉得还不够,物理世界模型用起来没那么容易,需要很多适配的工作。
AlphaBrain Platform是行业第一个全家桶式的开源平台,首先我们在这个平台开源了很多模型;另外,许多用户很苦恼想知道哪个模型效果好,在这个平台上可以公平地测试,很方便。因为我们还提供一整套工具链,方便用户在专有场景使用。
瞭望财经:让你决定开源的主要原因是什么?
郭彦东:有两个触动,一是DeepSeek开源,让行业看到了开源模型的力量。二是特斯拉Optimus前段时间开源了很多硬件专利,这个挺了不起。10年前,特斯拉开源电动汽车的专利,带动了全世界电动汽车蓬勃发展。
王兴兴(宇树科技创始人)说,谁能把机器人用的大模型做出来,完全足够拿诺贝尔奖。我大致认同他的意思,诺贝尔奖可能稍微有点夸张,但图灵奖可能会得。
从根本上解决机器人大脑的问题,要让更多企业参与到这个赛道。虽然我们投入了很多研发资源,但这不是一个企业能完全搞定的。我们持续把想法贡献出来,推动行业加快发展。
整个大模型赛道是一个生态,现在芯片都是围绕大语言模型优化的,能不能围绕机器人模型来进行优化?我们通过开源把生态做好,把标准做好,生态的进步反过来会推动企业往前走。
下一代机器人大脑是类脑VLA
瞭望财经:机器人大脑要突破,当下的障碍是什么?
郭彦东:我们去年重点投入的世界模型,也是现在最火的VLA与世界模型的结合。未来一年如何让具身智能机器人大脑更像人?我们今年提出来叫类脑VLA。
我做了十几年大模型,一直在用大数据驱动AI,还是希望大模型的技术不再是超高能耗的方向,我在想怎样把大模型对资源的消耗降下来,让它在减少资源投入的情况下把效果做好。
人脑有很多地方可以借鉴,我们想从生物学中去寻找一些答案。人脑功耗其实很低,远低于任何一台计算机,能不能从里面找到一些启发,类脑是未来最重要的方向和课题。
瞭望财经:类脑VLA和原有技术路线是什么关系?
郭彦东:VLA+世界模型是现在这一代,类脑VLA属于全新的下一代VLA。
瞭望财经:这是个很新奇的想法。
郭彦东:大家做人形机器人,天天想着如何长得像人,比如,手要有5个指头,脊柱、腿都要像人,但没有人想如何让脑子更像人。
瞭望财经:这种像指什么?
郭彦东:具身智能机器人大脑的整个结构,不只是传统意义上堆砌参数,会根据人脑的一些构造来进行精巧的设计,这是我们提出来的一个创新点。比如对皮层模块(cortical module)、小脑模块(cerebellar module)、脉冲脊髓模块(spiking spinal module)的模拟,对感知的模拟等。
瞭望财经:你们打算怎么做?
郭彦东:我们现在做的一个事情,就是单一客户多场景和单一场景多客户。未来就是要用最多样的真实场景数据,让具身智能大脑完成一个全新的迭代和升级。
这个挺关键,是一个自洽和闭环的逻辑。在升级过程当中,我们也会持续地提升硬件的量产质量,包括硬件性能会持续做提升。
图为爱宝在汽车制造厂搬物料箱 受访企业供图
机器人成本要降到2万美元以内
瞭望财经:你们的硬件产品是轮式机器人,你之前说要发力双足机器人,对于工业场景和公共服务来说,双足机器人是必须的吗?
郭彦东:我把机器人服务能力抽象出三要素:聪明大脑、协同双臂和自主灵巧移动。双足在很多场景不是必须的,自主灵活移动是必须的,但移动方式有很多种,腿、履带或者轮式,不同的场景适合不同的移动方式。
瞭望财经:还有别的指标吗?
郭彦东:稳定工作时长很重要,不能一会儿摔了,一会儿又过热了。我们大街上制作咖啡或者冰淇淋的机器人(智平方推出的“智魔方”),你随时去了就能看到机器人在不停地工作,持续泛化,一天10小时以上,这个稳定度已经不再是一个实验室的指标。
瞭望财经:“智魔方”收益怎么样,一天能有多少订单?
郭彦东:“智魔方”也就10平方米左右,好的时候每天能有几百杯的销量、大几千的流水,有的店面一个月最高能到20多万元,能盈利。
瞭望财经:你说智平方今年要把机器人整机成本优化控制在2万美元以内,怎么实现?
郭彦东:全行业都在努力。供应商降价,产量变大,自研比例提高,我们整合能力也在提升。我分享几个数据,我做机器人公司之前,英国Shadow Robot Company的灵巧手每只100多万元;我创业的时候,每只6万多元,现在只要6000多元,(降价速度)非常夸张。
瞭望财经:实现这个目标,难度高吗?
郭彦东:对于供应链整合还是有要求的。我以前做汽车和手机,所以会借用很多手机和汽车的供应链和技术诀窍。很多供应商既给汽车做,也给我们做,对制造成本、量产质量的把控都有优势。
机器人3到5年进家庭
瞭望财经:和笔记本电脑、手机和智能汽车的普及过程相比,机器人有什么不同?
郭彦东:机器人是第四代智能终端,它有两个共性:一个是多任务,能干好多事儿;一个是易交互,交互方式的革新是技术产品普及的关键驱动力。
个人电脑的普及是因为GUI(图形用户界面)的出现,手机普及的关键是触摸屏,自动驾驶对于新能源汽车也是一个核心的交互方式,机器人的交互方式也会从传统的遥控器变成语音控制,更自然的人机交互就是对话,如果没有大语言模型,世界模型没有办法让机器人跟人对话。
我想说的是世界模型加Action(动作)这种方式虽然能让机器人做一些简单的动作,但如果希望机器人变成一个家庭管家,VLA+世界模型是一个必要的技术路线选择。
瞭望财经:你曾说过,未来机器人会像智能手机一样普及,价格和一台10万元的A级车相当,这样的情景能实现吗?
郭彦东:我觉得能。
瞭望财经:什么时候?
郭彦东:如果进到家庭的话,我觉得要3到5年的时间。前3年,可能有一些极客家庭,能力可能比不上保姆,但尝鲜者愿意去用,到5年的时候,我觉得会跨过这样一个鸿沟,具有更大规模的释放。(10万元)机器人很有市场竞争力,它产生的价值也对得起这个价格。
瞭望财经:具身智能公司都需要进家庭场景吗?
郭彦东:这是大家的共同愿景,但进入家庭市场的壁垒非常高。真正能做家庭管家式通用机器人的,可能只会有一小批头部企业。而另一些机器人会慢慢走向更专用化的方向——比如有的就专门擅长洗地清洁,有的则会演变成某种半自动化的专用设备。
图为爱宝在面板制造厂抓取PCB板 受访企业供图
2026年是从1到10的关键年
瞭望财经:你们的产品策略是经由工业场景和公共服务场景,最终走向家庭场景,能描述一下实现路径吗?
郭彦东:技术落地的必然路径是从半结构化再到非结构化的过程,L2.5阶段的模型强行去做家庭不现实,通过中间状态能使得机器人一边干一边进步,从而达到更加优异的状态。
通俗地讲,就是找“难度刚刚好”的场景让机器人去学习、去上手。这个跟我们搞教育是一个底层逻辑。
不管是机器人还是汽车,都是这个路线。自动驾驶刚出来时,先限定在园区,再到半封闭场景,然后到高速结构化场景,再到城市人车混流,机器人大概也是这个路数。
瞭望财经:有些工业场景可能偏垂直,会不会出现垂类场景和通用智能冲突?
郭彦东:我们强调单一品类多场景领先,如果只卖了1000台打螺丝机器人,想让机器人大脑越做越好,可能不太现实,那样只会让打螺丝的模型越来越专业。
但如果覆盖更多场景,像打螺丝、抓取试管、处理PCB(印刷电路板)、货物拣选等等,把这些场景的数据叠加在一起,才能帮大脑变得越来越好。
瞭望财经:增加一个场景,具身大脑的智能涌现会更明显吗?
郭彦东:非常明显。机器人跨场景学习,会越来越快,越来越聪明,已经出现了这样的涌现。2026年对具身智能来说是一个了不起的拐点,是行业从1到10(规模化窗口期)的关键年,我们自己都感到非常兴奋。
瞭望财经:为了实现这些场景落地,你们产品做了哪些提升?
郭彦东:三个维度进步很明显:速度、泛化、稳定性。2024年WAIC(世界人工智能大会)上,我们展示了PCB的抓取和放置,当时媒体觉得不够炫酷,但那次展会帮我们签了很多客户。2024年我们跑通了第一代技术的POC(概念验证),2025年重点就是打磨稳定性,为规模化交付做准备。
瞭望财经:你们计划2028年交付万台。有些公司累计已经交付万台,怎么看这个差距?
郭彦东:我们都是跟自己赛跑,交付的是生产力型通用智能机器人,和其他家的机器人品类不完全一样,跟有些量产较高的公司算不上竞争关系。
市场还没进入淘汰阶段
瞭望财经:小鹏、小米、荣耀、vivo这样的汽车、手机大厂,也在做机器人,你怎么看它们的入局?
郭彦东:目前,机器人赛道没有绝对意义的大厂,对创业公司很友好,而且赛道足够宽。跟汽车行业相比,机器人创业公司存活率要高得多。
大厂很容易启动一些探索项目,它们对机器人有一些投入,但都是偏探索性的,跟下场做机器人是两回事。一般来说,市场要验证创业公司真的赚钱,大厂才会真的下场。
这挺有意思的,我们做不大,大厂也不会下场,所以我们在这一波创业公司里跑得足够快就可以了。
瞭望财经:有观点认为,具身智能行业差距正在迅速扩大,首轮行业洗牌即将到来。你认同这个判断吗?
郭彦东:这个洗牌可能不是一轮一轮的,可能一直在洗牌。我们不瞎折腾,还没有到淘汰的阶段,现在还是排位赛阶段。
传统汽车产业是从薄弱基础逐步积累而成,新能源汽车由于依托了成熟的传统汽车产业链基础,进入淘汰赛的时间被大幅压缩。当前的机器人行业,虽然开始万台交付,但与汽车产业经历的大规模制造相比,仍属小试牛刀,尚未进入真正意义上的产能与供应链决胜阶段。
瞭望财经:特斯拉马上也要投产人形机器人,这会让你更有紧迫感吗?会影响你们的产品战略吗?
郭彦东:不会,完全不紧张。特斯拉不推出人形机器人,大家也不会这么关注这个赛道。马斯克(特斯拉创始人)常常会有正确的方向预测,但在时间点上不停地跳票,节奏上没必要被他带着跑。
扎堆IPO不是因为资本退出压力
瞭望财经:你们公司创业三年了,但在市场上有点低调?
郭彦东:我们在花钱的风格上不像一个账上趴着几十亿现金的公司,因为我们始终处于一种创业状态,一分钱掰成两半花。我们没有搞一些讲排场的市场活动,或者高调地发布什么,公司内部一个工位恨不得大家都挤在一块儿,也热闹有氛围。我们想把所有资源投在研发上,尤其是对顶尖人才的吸引。
瞭望财经:你们的机器人上了2026年央视跨年晚会和北京卫视春晚,这是出于什么考虑?花了多少钱?
郭彦东:这个没有花钱。央视和北京台邀请我们去表演,我们就去了。
瞭望财经:为什么不花钱去做市场?
郭彦东:不同企业有不同的想法和路数,最后还是产品说话。有意思的是,很多人前一天晚上看了春晚,觉得机器人好酷炫,转头就在我们的机器人咖啡店消费。
瞭望财经:半年多以前,你说你们账上的钱够花10年,为什么今年2月又进行B轮融资?
郭彦东:对于做好机器人大脑这件事来说,还是需要很多的研发(资金)。
瞭望财经:上一笔融资的钱重点用在全域全身VLA模型上,你们现阶段最重要的战略还是技术投入?
郭彦东:技术是我们最大的投入,能占到公司支出一半以上,尤其是对人才的投入。我们跟清华、北大、香港科技大学广州校区有三个正式的联合实验室,学校里的很多博士生和优秀人才长期在我们这儿工作,我们的科学家人才密度在全球创业公司中应该都是领先的。
瞭望财经:宇树和智元等具身智能公司都在排队上市,你怎么看?是投资人比较着急,还是公司真的有融资需求?
郭彦东:我觉得一二级联动的融资是更大的动力。智元成立的时间跟我们差不多,都是2023年上半年,很多创业公司才刚满3年,在资本退出上都没压力。机器人公司在3年的时候就IPO,更多是需要一二级市场联动进行募资。
机器人创业需要“六边形战士”
瞭望财经:机器人赛道的创业门槛高吗?
郭彦东:机器人赛道是非常典型的技术定义产品形态,是通过产品形态探索全新落地场景的模式,要求创始人必须是“六边形战士”。
机器人赛道要求端到端,一个人脑子里必须同时装着技术、商业化、产品,因为这是一个不太完美的技术,要做出完美的产品,完美的产品上带着不完美的技术,还要带来良好的用户体验,要求非常高。
瞭望财经:你创业的理念是什么?
郭彦东:2023年公司刚成立时,我跟投资人讲,产业发展应该循序渐进,遵循“大脑先行、委外验证、自建产线、自研部件、最终量产”的路径,但有些年轻投资人不理解,觉得别的公司一上来就有工厂。我们选择用长期主义的节奏来做,有这个自信,最后还是产品说话。
瞭望财经:你之前在大厂做得挺好,放弃那些去搞创业,值得吗?
郭彦东:我放弃了大企业高管的身份与高薪,但从做的事来看,这个选择非常值得,带领智平方向前迈进,本身就是在推动整个产业向前。
瞭望财经:你的视角是推动整个产业发展,对吗?
郭彦东:投身这样一个产业,没有成熟的产品可参考,没有现成的技术可照搬,没有验证过的应用可借鉴,我们先把它做出来,有很多人在沿着我们的路走。能带动不同企业和我们一起往前跑,这很有社会价值。
瞭望财经:每一代创业者都有自己的时代主题,赶上人工智能加速发展的时代,你有什么感受?
郭彦东:整个AI行业正在加速发展,我们有幸成为其中一员。预测未来最好的方式,就是亲手创造未来。在此,我们也呼吁更多人投身到中国具身智能的发展浪潮中来。世界的下一场变革在于具身智能,而具身智能的下一场变革,将发生在中国。
A5创业网 版权所有