智元彭志辉参加HEIS年会,2026具身智能进入“部署态”元年

来源: 极新
    作者: 极新        
2月28日,2026人形机器人与具身智能标准化(HEIS)年会在北京举行。
2月28日,2026人形机器人与具身智能标准化(HEIS)年会在北京举行。工业和信息化部人形机器人与具身智能标准化技术委员会副主任委员、智元机器人联合创始人、总裁兼CTO彭志辉(稚晖君)出席并发表演讲,分享了智元从“实验室炫技”到“部署态落地”的工程化实践与思考。

 

行业进入下半场:人形机器人迎来“部署态”元年

“整个具身智能行业目前还在共同探索,没有任何一家企业能独自给出正确答案。”彭志辉开篇直言,“我们需要协力攻破瓶颈,在正确的时间做正确的事。”

谈及产业现状,他援引工信部数据称:“国内人形机器人整机企业已超140家,发布产品达330款,行业已从实验室炫技、Demo展示,进入工程化、场景化竞争的下半场。”他回忆,2024年到2025年初,行业焦点还在比拼机器人走路是否自然,如今已能完成“飞檐走壁”般的高难度动作。“本体灵活性已达到实用化阶段,接下来要比的,是谁的干活能力更强。不仅在国内比,更要与海外头部企业比,看谁能在‘部署态’真正落地。”

面对物理世界的复杂约束,智元总结出一套可落地的工程范式——“一体三智”。关于“一体”,即机器人本体。彭志辉表示,“在数字世界,代码跑错了可以重启;但在物理世界,有物理成本、失效成本。”因此,本体设计绝非简单的硬件堆叠,而是可靠性工程、供应链工程和安全工程的综合体。

针对核心零部件,彭志辉介绍:“关节和灵巧手决定了机器人的运动和操作能力上限,也占据整机成本的绝大部分。如何科学做好关节系列化规划,是一个标准化流程,也是非常考验系统设计能力的一点。”目前公司将所有产品线——五大系列、近10款产品——全部规整到8款系列化关节设计上。“这8款关节用在我们所有产品上,能够满足所有部位的关节需求。这就是系列化、标准化带来的收益。”

灵巧手也是一个复杂度非常高的核心零件,它的难点一方面是需要把10~20个自由度的运动部件结构,塞进比人手手掌还小的空间;另一方面是对灵巧手的高维感知能力要求非常高,最典型的就是触觉。“工业场景中接近80%人类做得很好、但自动化做不好的工序,都和触觉强相关。装配工人通过手感把零件拼起来,‘咔嚓一声’觉得装好了——这种信号如何用数字描述?这是行业面临的瓶颈之一,我们正投入大量研发精力,期待未来能够收效。”

“如果说硬件本体是机器人的躯体,AI就是它的灵魂。”在智能层面,彭志辉将其划分为运动、交互和作业三个维度。为降低应用门槛,智元推出了“灵创平台”。“我们把动作训练流程简化到像发抖音一样,用户只需上传一段视频,平台就能自动完成关键点检测、训练和部署。”他介绍,这一工具链旨在推动行业从科研人员的“开发态”走向大众的“创作态”,最终实现低成本的“部署态”。

此外,智元正致力于构建开放共享的生态。他透露,公司不仅开源了被称为“具身智能安卓”的操作系统灵渠OS,还发布了业界最大的真机数据集,“生态的力量远远大于单点突破,我们希望形成‘能力复用、数据回流、模型进化’的正向循环。”

 

“沿途下蛋” 策略:在简单场景突破复杂任务

在场景落地策略上,彭志辉提出了“沿途下蛋”的策略。他将任务维度划分为“场景复杂度”和“任务复杂度”,认为当前人形机器人的最佳切入点是“在简单场景做复杂任务”。“比如在结构化的工厂环境里,执行高自由度、高维感知的复杂操作。”他分析道,虽然自动驾驶是在复杂环境下做简单任务,但人形机器人与自动驾驶的终局是一致的,即在复杂环境下完成复杂任务,“目前我们已在文娱商演、工业制造、物流分拣、安防巡检等八大典型场景展开应用,只有真实场景才是验证可靠性、迭代系统的最有效途径。”

谈及为何坚持“人形”路线的底层逻辑,彭志辉给出了一个形象的比喻:“Computer Use(电脑使用)是数字世界的人形接口,而人形机器人就是物理世界的通用接口。”他解释说,正如现有的软件系统是为鼠标键盘设计的一样,整个物理世界——从门把手高度到工具形态——都是为人类身体设计的。“既然环境是围绕人类构建的,那么AI要实现最大化的通用性和兼容性,其终端形态大概率也要长得像人。它未必是效率最高的,但一定是兼容性最强的。”他预判,未来人形机器人走进家庭时,产业规模将是“手机数量乘以汽车价格”的级别。

作为标委会副主任委员,彭志辉最后呼吁行业共建标准体系。“具身智能的终局是基础设施,而非单点产品。”他表示,“物理AI规模化的关键在于数据闭环、可靠性工程以及可运维能力的标准化。我们既要跑得快,也要跑得稳。智元愿将一线实践中的数据治理方法、评测体系和运维经验与行业共享,共同加速物理AI的系统性落地。通用能力的突破肯定来自于全行业的产业迁移与生态共建,而标准化正是这一过程的加速器。”

彭志辉在2026人形机器人与具身智能标准化(HEIS)年会上的演讲速记

2月28日,在人形机器人与具身智能标准化(HEIS)年会上,工业和信息化部人形机器人与具身智能标准化技术委员会副主任委员彭志辉(稚晖君)上台分享,内容如下:

我们整个行业目前还在共同探索,目前没有任何一家企业可以说自己独自给出正确答案。我们要大家一起协力攻破这些瓶颈。今天我个人经过三年的阶段性探索,想以实践者的身份汇报我们智元对于行业发展的一些思考。首先一个实际问题,具身智能可能是下一次工业革命的重要引擎,革命成功的关键是要在正确的时间做正确的事情。很多人会问为什么是现在,为什么人形机器人这两年突然成为风口。

根本原因是AI技术的发展带来的突破。从2015年可以看到,以深度学习为代表的分析式AI带来了感知智能;到2022年开始,以超级大模型为代表的生成式AI引领了认知智能;到今天我们正处在下一个重大转折点,就是由AI加机器人驱动的物理智慧世界正在加速到来。

我们定义的具身智能,是能在真实世界里面完成感知、决策、行动、学习一个完整闭环的通用智能体,也就是所谓的通用智能体。回顾过去几年,我们人类完成了数字AI的规模化。过去这几年AI进化速度呈爆炸式发展,DPC马上也要发新模型了,大家可能觉得DPC已经是很久以前的事情,其实才一年。整个大语言模型开始,大家的视野慢慢打开,也才3年时间。

最近,从Agent到MCP到Q,再到Open Cloud,几乎每个月都有颠覆性进展。大模型集群、海量数据、开发者生态,这一切都在让AI在屏幕里、在云端变得无所不能。这也让大家自然而然地会往它的延长线上去看,什么时候AI能够在物理世界发挥巨大价值,能够帮我们干活。这就是我们未来十年要挑战的更难命题,完成物理AI的规模化,从数字AI走向物理AI。正如我们从功能手机走向智能手机的转变,通用机器人区别于之前的专用机器人,不再局限于单一任务,而是能够灵活适应多种不同工作场景,进行广泛应用。通用机器人代表着具身技术的一种更为先进的通用形态,能够通过AI赋能,实现自主学习、多任务切换、长程任务的环境适应等。这种从专用到通用的跨越,为未来各行各业的应用带来了巨大可能性。

今天是标委会的年会,我也想回应一些政策背景。计算行业的蓬勃发展,离不开国家政策的支持。第一个是国家的战略窗口目前已经完全打开,人形机器人被纳入推动未来产业创新发展的重点方向。工信部规划清晰,到2025年实现批量生产,2027年完成具有国际竞争力的生态格局,这就是我们所依托的作战地图。第二点是产业侧信号非常强烈。

今年1月21日,工信部在国信办发布会上披露的数据显示,国内人形机器人整机企业已经超过140家,发布的产品达330款。这意味着整个行业已经从实验室里的炫技、做Demo,正式进入工程化竞争、场景化竞争的下半场。2024年到2025年初,大家还在比拼谁家的机器人走路更直、更自然,到现在我们已经能实现机器人飞檐走壁,人能做的工作机器人能做,人做不了的工作机器人也能做。本体的灵活性已经达到一定的实用性阶段,接下来我们要比谁的干活能力更强,不仅在国内比,还要跟海外具身智能头部企业比,看谁能在部署态真正落地。具体到企业实践,我们智元总结出一套可落地的工程范式——一体三智。

首先是一体,一体指的是本体。在数字世界,代码跑错了可以重新跑、可以重启,但在物理世界有物理成本,有失效成本。本体是AI在真实世界的约束接口,真实的物理世界非常复杂,充满了各种随机的摩擦、碰撞、形变、误差、老化、噪声等。所以本体的设计,不只是简单的硬件堆叠,更是可靠性工程、供应链工程和安全工程的综合体。

当前本体最核心、最重要的两个零部件,一个是关节,决定了本体的运动能力上限;一个是灵巧手,决定了它的操作能力上限,这两个部件也占据了整机成本的绝大部分。
行业早期,机器人的执行器有很多不同的探索路径,比如基于液压驱动、基于高速比高刚度的斜波驱动、类似四缸的直线驱动等。但从2023年开始,整个执行器的方案都收敛到了新型关节。人形机器人的硬件技术和新能源车非常类似,这也是很多车企布局机器人领域的原因。

其中最核心的就是所谓的三电系统,三电系统里面的电机和电控,在机器人系统中体现为一体化的关节。

区别于汽车的点在于,一方面功放不一样。机器人的自由度和任务空间远比汽车复杂,汽车的电机工况相对简单,基本是单向输出,而机器人需要进行高动态、高频的正反转,所以功放不同。另一方面,汽车自由度相对低,只有方向盘、油门等,而机器人全身一般少则数十个、多则上百个运动自由度,如果算上手的话,自由度会更多。

更关键的是,机器人不同关节部位的各种规格指标差距非常大,动态范围非常广。比如手指的扭矩和大腿的扭矩,需求完全不在一个量级。但机器人自由度高,不可能为每个关节单独设计一款对应规格的产品,这会是量产的灾难。所以如何科学做好关节系列化规划,是一个标准化流程,也是非常考验系统设计能力的一点。比如我们在实践中,把所有产品线将近10款产品、五大系列,全部规整到8款系列化关节设计上,这8款关节用在我们所有产品上,能够满足所有部位的关节需求。

这就是系列化、标准化带来的收益。灵巧手也是一个复杂度非常高的核心零件,它的难点一方面是需要把10~20个自由度的运动部件结构,塞进比人手手掌还小的空间;另一方面是对灵巧手的高维感知能力要求非常高,最典型的就是触觉。
触觉在工业干活领域落地起核心作用。我们分析过大量工业作业场景,也实地走访客户、去工厂看每个工人的操作,得出的结论是,接近80%人类做得好、传统自动化做得不好的工序,都和触觉有强相关。比如装配,很多流水线上的工人会通过手感,也就是触觉把两个东西拼起来,听到咔嚓一声就知道装配好了。这种咔嚓一声怎么用数字描述,怎么和传感器信号对应起来,就是触觉能体现价值的地方。但这里的瓶颈在于,触觉传感器的技术路径还没有收敛,没有标准化。我们对比视觉,视觉是先有标准的传感器技术,比如CCD、CMOS,再有标准的数据格式,比如JPG等,然后有标准的数据集,比如非常有名的ImageNet,之后才催生了各种深度学习模型的百花齐放,最终在各个场景广泛应用,这就是标准的价值。当前触觉在传感器层面还没有形成标准,硬件也没有收敛,比如有基于电容的、基于电感的、基于压电效应的,还有基于其他技术的。

这是目前的一个瓶颈,我们也在这方面投入了大量研发精力,希望未来能看到好的收效。如果说硬件是躯体,那AI就是机器人的灵魂。我们现在把机器人的灵魂主要分为三个领域,就是运动智能、交互智能、作业智能。这里视频展示的是我们刚刚发布、马上要上市的一款全尺寸机器人,它的动态性能非常强,这体现了我们运动智能的目标,最简单的就是站得稳、走得稳、能蹦能跳,多态性足够强。2024年以来,整个行业包括学术界、工业界,在运控领域的进步肉眼可见。这主要得益于三个方面:一是整体算法范式的转变,从传统的模型驱动,也就是所谓的NPC,到后来强化学习RL的范式转变;二是类似于SSA这种仿真框架的普及,使得大规模并行仿真和训练成为可能;三是前面提到的关节技术收敛,新型关节带来的低难度控制模式。这些综合收益,使得我们整体的运动智能得到突破性提升。

运动智能是交互智能和作业智能的基座,为人形机器人提供自主自由移动和全身动作的基础能力。在运动智能基础上,交互智能和作业智能分别提供情绪价值和生产力价值。

同时,各种复杂动作的实现,对模型训练要求非常高,需要非常专业的AI背景和实操训练技巧,才能实现一些复杂动作。我们为了进一步降低模型训练难度、降低开发门槛,以此丰富创作内容,提出从最早的科研教育实验室的开发态,走向创作态,最终到部署态。针对创作态,我们开发了一些好用的工具链,比如去年发布的灵创平台,它把整个基础动作训练的流程简化到只需上传一个视频。就像抖音一样,拍一段人类跳舞或者做各种任务的视频,上传到我们平台,它会自动完成动作关键点检测、动作迁移、IL训练、推理部署等所有流程,实现全自动化,这是一个非常好的降低应用门槛的工具。

第二个智能是交互智能。未来的机器人不能只听懂语音指令,目前语音指令的实现还不够完善,它需要从语音指令转向多模态的感知和协作。比如它看到你的时候,能感受到你的情绪、听懂你的语气,甚至能提前预判你的意图。交互智能的意义在于,我们希望打造出真正可沟通、可信赖的机器人伙伴。这种情绪价值的意义比很多人想象的要大得多,大家看春晚的机器人表演,就是在为大家提供情绪价值。

这一点不仅对用户有价值,很多用户也愿意为它买单、付费。对于交互智能而言,它可以提供可交互的情绪价值。这一块很大程度可以复用现在大语言模型的成果,目前国内外的大模型,智商和情商都已经非常高,还能形成多模态情感识别,我们在机器人上可以直接复用这部分能力。但也有区别,比如模态的升级,现在我们使用的各种AI助手,缺失机器人所需要的一些模态,比如肢体动作、表情等。

我们各自提供技术模型和标准化的接口,来灵活组合部署到不同形态的机器人上。因为我们的产品线非常多,希望通过这一套标准化流程,形成能力复用、数据回流、模型进化、产品升级的正向循环。同时我们也相信,技术的终极应该是开放的,生态的力量肯定远大于单点突破,我们一家的突破远远不够。所以我们也在构建一个开放共享、持续进化的生态,比如我们有很多开源的动作。

包括具身智能领域的安卓系统,我们叫灵渠OS,这个操作系统也是我们开源的;还有业界最大的真机数据集,也是我们在2023年底开源的,英伟达很多模型也用了我们这个数据集。

有了技术之后,我们也希望匹配到合理、合适的场景里面去落地。不同阶段的技术成熟度,会匹配到不同的落地场景,这就是所谓的沿途下蛋的思路。我们选择场景会遵循一些原则,比如把任务维度分为两个维度,一个是场景的复杂度,一个是任务本身的操作复杂度。场景复杂度实际上是一种约束,不体现价值,是一种障碍;任务的复杂度能够体现价值。

一个典型的例子,比如自动驾驶,就是在复杂的环境下做简单的任务。它的任务非常简单,就是从A点到B点,中间只有方向盘和油门,自由度非常低,但环境是非常复杂、开放的。

我们机器人现在正在做的事情,其实是在简单场景做复杂任务。比如在工厂里面的约束化、结构化环境中,做的任务非常复杂,自由度非常高,还要涉及高维感知和一些长程任务。

这正好是两个方向,但最终自动驾驶和现在的具身智能,都会走向最终的目标,就是在复杂环境下做复杂任务,真正替代人类的大部分工作。这是我们长期选择的一个原则。

基于这个原则,我们现在已经在8大典型场景里面,开展了非常多的应用,比如文娱商业、导购、工业制造、物流、安防、科研、素材、商演等。这里需要强调的是,我们不认为自己找到的场景是绝对正确、唯一的选择,而是确信真实的场景才是训练系统、验证可靠性的最有效市场。所以机器人一定要在真实场景里面去跑,收集数据、循环迭代,才有可能实现技术和应用的突破。

最后我再总结一下,也回到主题,想聊一下中局,就是为什么我们会这么执着于人形形态。这里的关键逻辑在于,整个物理世界就是为人类设计的,就是为人类设计的一个接口。

人形机器人之所以有望成为未来的智能基础设施,不是因为它长得像人,而是因为它是第一次把情绪价值和劳动生产力,统一到同一个可规模化、可进化的物理终端载体中。我们可以举一个最近的例子,大家都知道“问界到小龙虾”非常火。2025年底大家还在讨论哪个模型更聪明、哪个模型编程能力更强,但到了2026年初,这个话题几乎迅速收敛到一个关键词,就是Computer Use,也就是电脑的使用。简单说就是让机器人能够自己操作电脑,比如下载文件,它能自己操作电脑、自动化完成任务。

最早掀起这股趋势的是Open Cloud,它推出的所谓CoCo模式。随着“小龙虾”项目的开源,这个项目进一步点燃了整个社区的热度。其实模型能力的比拼也开始转向,从最早的智力指标,现在开始转向执行能力。

单纯分析这个事情,从纯技术效率的角度来看,让AI通过模拟鼠标和键盘的方式操作电脑,显然不是最优解。因为理论上最优的方式,应该是让AI直接生成目标的二进制代码,直接生成代码在电脑上跑,绕开图形界面和人为交互。但现实的问题在于,现在所有的软件系统、操作系统,整个数字生态都是为人类设计的,都是为鼠标和键盘这样的交互模式设计的。

正因如此,操作电脑反而成为一种高度通用的接口层,它不是最优效率的路径,但却是覆盖最广的执行通路。
回到人形机器人的事情上,逻辑是一样的。我们的物理世界,各种建筑、工具、设备、交通系统,都是为人类的身体设计和实现的。比如门把手的高度、楼梯的尺寸、工具的把握形态、工具流的组织方式等,本质上都假设了一个人类形态的操作者。所以从数字AI到物理AI,应该也存在一条清晰的进化路径。既然整个环境是围绕人类构建的,那么AI如果要实现最大化的通用性和兼容性,最终的终端形态,大概率也要长得像人类。

换句话说,Computer Use是数字世界里的人形接口,人形机器人就是物理世界里的通用接口。它们可能未必是最高效的平台,但肯定是全世界最具兼容性的载体。回顾历史上的几个重要交互终端,PC和手机,它们连接的都是人和数字世界,未来的人形机器人,连接的是人与物理世界本身。

这也是为什么说我们在参与时代级的基础设施革命。我觉得未来机器人真正走进家庭的时候,整个人形机器人的产业规模一定非常巨大,我们认为它是一个手机数量乘以汽车价格的产业空间。前景非常广阔,但挑战也非常大。
同时再回到标准上,这不仅仅是技术问题,物理AI的社会接受度也取决于它的安全、隐私、网络、数据、伦理治理等,这些都要形成标准。

所以我们既要跑得快,也要跑得稳;既要采用一些新技术,也要守住产业底线,这就是我们建立标准的意义。

最后我想用三句话结束今天的分享:第一,具身智能的中局是基础设施,而非单点产品;第二,物理AI规模化的关键在于数据闭环、可靠性工程、可运维能力等形成标准;第三,人形机器人通用能力的突破,肯定来自于全行业的产业迁移和生态共建。标准化不仅是技术规范,更是产业落地的加速器。未来我们智元非常愿意把一线实践中的一些数据处理方法、评测体系、运维经验,和整个行业一起沉淀为可复用的方法论,共同加速把AI系统系统性地引入物理世界。

我的分享结束,谢谢大家。

责任编辑: 星月

相关资讯
写评论