“机器人跑步、跳舞、搏击等更倾向于炫技,给大家展示的是机器人的硬件、运动控制和算法等。从技术角度看,这都是泛运动控制类的技术,而产业落地属于具身操作领域,要创造生产力价值。”智元机器人合伙人、具身业务部总裁、
2023年2月,智元机器人刚成立就成了资本最炙手可热的追逐对象。今年3月,智元完成了腾讯领投的B轮融资,估值飙升至超150亿人民币。近期智元又完成新一轮融资,投资方包括京东及上海具身智能基金。
资本青睐智元机器人的原因主要有二。一是其创始团队自带光环,CTO彭志辉(稚晖君)是前华为“天才少年”和科技达人,有技术创新能力和行业影响力;CEO邓泰华曾任华为公司副总裁、计算产品线总裁,有着深厚的产业背景。二是智元是为数不多在本体、小脑和大脑全栈布局、且偏重产业落地的人形机器人公司。
2024年被智元定义为量产元年,实现了1000台的人形机器人的量产。2025年则将是智元人形机器人商用元年。
在姚卯青看来,要实现具身智能的产业化落地,关键在于解决操控难题。而操控目前最大的瓶颈不是算法,而是获取真实用户场景下的泛化数据。他指出:“真机数据采集存在‘鸡生蛋’的问题——没有足够的数据难以优化模型,而缺乏优化的模型又难以激励客户提供数据。”
以下为姚卯青对具身智能产业落地难点、数据采集困境、灵巧手量产挑战、人形机器人“进家”与“进厂”瓶颈等问题的观点,在不改变原意的基础上有所删减:
姚卯青:具身智能产业化落地更多的是指能创造生产力,或者在为替代人力服务。人形机器人跑步、跳舞等是为给大家展示机器人的硬件、运动控制和算法等。但从技术角度看,这都是泛运动控制类的技术,而产业落地属于具身操作领域。
从技术来看,在2020年,机器人的运动控制已经被解决,具身操作目前还在探索过程中,两者难度至少差了两个数量级。
姚卯青:运动控制通常在有限的速度和空间范围内进行,不涉及到与其他物体的直接互动,例如走路时并不会改变周围物体的状态。此外,这类动作(如走路、跑步)因为具有较高的规律性和可预测性,所以比较容易通过技术手段实现精确控制和优化。
必一运动官网
具身操作就不一样了,要和物理世界去交互,而且物理世界有各种材质和物理特性,具身都要先理解。而且操作本身有千种技能,不仅是抓、拿、放、撕东西。跑步、跳舞、搏击等倾向于炫技,和创造生产力价值不是一个概念。
智元比较看重操作这一块,今年已经在做一些POC(概念验证)的项目,在可控的环境里做重复性劳动。
姚卯青:智元机器人个别任务已经具备了端到端的操作能力,但还没有覆盖全部技能。从智力水平来看,目前的系统大概相当于大语言模型从GPT-1到GPT-2之间的阶段,类似“咿呀学语”的状态,能表达一些简单的指令和反应,但理解和执行的准确性还有待提升。
问:在智力水平方面,能把智元推出的通用具身基座模型(GO-1)理解为机器人的大脑吗?
姚卯青:在G3这个阶段,GO-1一部分是大脑,一部分是小脑。现在具身智能的这些VLA模型(视觉-语言-动作),属于小脑的部分,来执行某一个明确的动作。我们定义的大脑,是给它一个指令,它能规划出来,然后拆解成小脑可以做的一个个动作。
问:在小脑方面,行业普遍在丰富步态库,比如用强化的学习去做一些自适应的控制,智元在小脑方面有哪些突破?
姚卯青:具身智能的小脑方面,已经很成熟了,主要做工程的落地,比如调杂耍的动作、编排一些舞蹈。我们更多的研发聚焦在操作类的大小脑,比如端到端具身VR操作模型、大脑推理规划模型,关键点还是真实场景的数据。
姚卯青:颈部的复杂度其实没有那么高,真正难的是手。因为未来通用型机器人要像人一样完成各种任务,手的灵活性至关重要。目前整个行业在灵巧手方面还没有实现真正意义上的量产,技术成熟度和规模化生产仍在推进当中。
姚卯青:手虽然体积很小,却占据了全身大部分的自由度。一条手臂大约有7个自由度,腰部大约3个自由度,每条腿约6个自由度。然而,仅仅一只手就可能拥有20多个自由度,所以,灵巧手在实现精细动作方面所需的灵活性和复杂性远高于身体其他部位。人类区别于动物的核心价值,在于有一双灵巧的双手。
姚卯青:在个别的场景下,我们通过模仿学习、强化学习等已经能做到操控。比如在制造工业,其本身对泛化性要求不高,比如把一个零部件从一个位置搬到另一个位置。但如果要智能泛化到更多动作,比如机器人要在商店里完成上货、扫码等操控就需要海量数据来驱动。目前算法不是最大的瓶颈,最大的瓶颈是,获取真实用户场景下的泛化数据。
姚卯青:为了在实际作业环境和流程中收集数以千万甚至上亿条的数据,需要将这些场景开放出来,但这存在一定难度。由于商业逻辑的限制,客户既没有义务也没有动力去开放其使用场景供数据采集。因此,这里存在一种“鸡生蛋”的问题:没有足够的数据难以优化模型,而缺乏优化的模型又难以激励客户提供数据。
但在国外,这种机会比较多,因为国外用人难且贵,他们愿意尝试用机器人替代人这件事。
姚卯青:我们现在走的路线是一条技术上被论证过的路线。要实现Scaling Law(规模扩展规律),必须依赖海量且多样化的数据进行预训练,从而获得强大的表征学习能力。在此基础上,再结合具体行业和场景的数据进一步训练,才能构建出真正有泛化能力的模型。
举个例子,做大语言模型不能只靠单一场景的数据就想实现通用人工智能。比如在客服领域,如果我们先用整个互联网的多样化数据训练一个通用模型,然后再针对客服任务做微调,效果会远远优于直接使用少量客服数据训练出来的小模型。
姚卯青:国内采集真实数据的成本比海外低一些,但要采集上亿数据,还是一笔很大的投入。
姚卯青:智元在上海张江有自己的数据采集工厂,在外地也有一些合作的数据生成中心。今年有几百台机器人可以采集数据。每条数据的成本涉及商业秘密,不方便说。我们一台机器人一天(白班)能采集约500多条数据。
姚卯青:我们在行业里已经算比较高效了,做个对比,我们采集百万数据集花了两个月,谷歌采集了10万条数据,花了两年。
姚卯青:我们的整个数据采集体系运营效率高,机器人全天候满负荷运行采数据;其次我们整个数据有效性高,我们采集的数据百分之八九十都是有效的。
姚卯青:很难简单的换算,仿线亿条也达不到线万条的效果,因为仿真数据存在明显局限,没有真实的物理环境支撑。仿真数据是利用一些生成式的技术,把视觉部分,比如在传感器这个层面做的拟真。
但现有仿真技术的物理建模有局限性,特别是涉及复杂力学行为(如柔性物体、液体、摩擦力)的行为很难模仿。比如,摩擦力是一种弱相互作用力,柔性物体本来就是一个混沌系统,没有解析解,不可能去用一种有限元方法去逼近。
姚卯青:不是特别难的任务,大约10条数据就能泛化性的理解一个动作的本质。
问:轮式机器人在工业场景,比如巡检和搬运中已经开始落地应用。在家庭场景,你曾预判机器人线年,为什么?
姚卯青:在算法层面,行业需要找到一条清晰的具身智能技术路径,包括稳定的算法框架和基于大量多样化数据的Scaling Law(规模扩展规律);在硬件方面,则要实现量产的稳定性,探索出最适合家庭场景的形态与自由度组合,并开发出可靠的末端执行器。比如灵巧手,无论是三指还是五指,都是软硬件协同演进的过程。
之所以判断5年后具身智能可以进入家庭场景,是基于对大语言模型发展走势的判断。2020年,GPT2.0时代,没人会想到GPT-3.5和GPT-4会发展这么快就到来了。我个人判5年后具身智能的模型能达到现在大语言模型的高度。
姚卯青:是的,因为具身智能的数据量远远不足。大语言模型有整个互联网现成的10万亿token放在那里。此外,很多大模型公司开始挖互联网以外的数据,将各种文档、PDF、图书和习题集等电子化。比如,通义千问的token数约40万亿了,OpenAI的token数在50万亿至60万亿之间。现在具身智能的条数仅有可怜的100万左右,差了好几个量级。
姚卯青:具身智能和物理世界的交互多,对真机数据要求更高。同时,物理世界本身比语言世界更加复杂和多样,这也增加了数据采集和处理的难度。
姚卯青:家庭场景对具身智能的智能泛化要求更高,因为每个家庭的环境和布局各不相同,而工业场景则相对固定,可以针对特定车间进行定向优化。在家庭环境中落地具身智能,不仅要适应各种不同的环境和物体,还需要能够理解并执行多样化的指令。比如,针对让机器人去倒水这个动作,有些人说我口渴了,但有些人会说给我倒一杯水,指令层面都要泛化。
此外,当要求机器人倒水时,它需要准确理解这一指令并在不同家庭环境中找到并使用正确的工具完成任务。比如,有些家庭的水杯带有杯盖,有些则没有,这就要求具身智能具备更高的灵活性和泛化能力。
问:现在互联网大厂、新能源汽车公司、手机公司等都在入局具身智能。入局的门槛有多高?
姚卯青:具身智能入局门槛很高,不是家电、3C等厂商能全栈做的事情。他们内部开展对具身智能的研究,更多的是预研团队跟踪这个新技术,要场景落地就比较难了。
问:何小鹏说,人形机器人研发难度远超AI汽车,500亿仅是入场券,你怎么看?
姚卯青:智元聚焦商用场景落地,但会采取“沿途下蛋”推出中间态的产品,满足一些商用场景,逐步向智能和场景泛化进化。整个行业实现盈亏平衡至少需要3年的时间,但在细分领域形成收入,今年已经可以做到了。
问:你在2024年加入智元机器人之前,在Waymo和蔚来做智能驾驶,什么契机让你加入智元?
姚卯青:智能驾驶和具身智能有很多共通的地方,硬件等工程方面有很多可以复用的地方,比如底层都依赖多模态传感器融合(如激光雷达/摄像头)、实时决策系统(如ROS框架)、高精度运动控制(如电机伺服系统)等,但二者在算法和应用场景有很大的差异。
我加入智元机器人主要基于两点。首先,无论是L2还是L4级别的智能驾驶,目前在感知技术领域,如视觉处理、激光雷达应用、融合算法以及静态和动态环境下的算法创新等方面,行业已经相当成熟。在这些方面,我们已经有实际的项目落地并成功交付。
其次,从行业看,现在新能源企业领域已经相对红海,且同质化;而具身智能处于蓝海赛道,在智元机器人入局之前没有太多玩家,行业场景空间广阔。
从公司角度看,从2024年开始,具身智能已经很火了,我此前也接触了不少机器人团队和创业公司,还处于野蛮生长状态。从公司愿景、规划、人才团队、融资能力,智元都比较成熟了。
姚卯青:我更看重创始团队核心成员经验互补。邓泰华曾是华为无线产品线和计算产品线的执掌者;彭志辉是科技达人,有技术创新能力和行业影响力,此外,公司供应链、商业甚至是职能部门的负责人过往都有成功经验。
姚卯青:远征系列主做全尺寸机器人,高度一米七,有50多个自由度,可以进行一些简单作业和交互;灵犀系列主要做半尺寸的人形机器人,高度一米三,具有自动运控、多模交互和具身操作的能力;精灵主要做轮式、有双臂机器人产品。
姚卯青:目前看,大尺寸系列卖的更好,单价高,收入更多。今年以来,轮式双臂机器人在科研场景已经卖了大几百台了。
问:智元机器人发布首款具身智能一站式开发平台Genie Studio,为什么?
姚卯青:Genie Studio是针对具身开发的大模型开发和部署的软件开发平台,这个平台早期是为了赋能我们的生态合作伙伴去用我们的机器人训练一些场景能力,后期希望越来越多的普通开发者也来做开发和设计,我们作为一家机器人本体公司,不可能去开发和交付所有客户项目,方便客户和开发者把智元的硬件用起来的一个生态工具,相当于英伟达的CUDA。
姚卯青:人形未必是具身智能的终极形态。在当前阶段,由于我们还不清楚最终的理想形态是什么,人形机器人被认为是比较安全和实用的选择。这是因为人形机器人在外形上与人类相似,能够适应大多数为人类设计的环境和任务,从而可以执行许多人类能做的工作和活动。然而,这并不意味着人形就是最终的方向,它只是目前一个较为合适的选择。
但在工厂等具体操作场景中,轮式底盘相比双足形态更有优势:一是稳定性更强,不存在摔倒的风险;二是定位精度更高,可实现厘米级精准移动;三是运动速度更快,能够更高效地完成任务;四是续航能力更强,底盘结构便于安装大容量电池,从而支持长时间运行。因此,在特定应用场景中,轮式底盘比双足设计更具实用性和适应性。
这最终都是市场决定的,找到合适的场景,才能去做极致的成本优化和功能优化,去做减掉那些不必要和不需要的一些东西。