APC 2026 | 从感知世界到赋能产业,智元推动具身智能迎来生产力拐点
过去三年,AI的进化几乎都发生在屏幕之内。从对话生成到图像创作,再到代码辅助,大模型不断刷新人类对“理解世界”的能力想象。但一个更根本的问题始终悬而未决:当AI已经能够理解、表达甚至推理,它何时才能真正参与现实世界的生产?
在2026年,这个问题开始出现一个清晰的答案。
在智元合作伙伴大会上,彭志辉提出了一个值得被反复讨论的判断:具身智能正在从技术突破阶段,迈入生产力部署阶段。这一变化的意义,并不在于又一代机器人或模型的发布,而在于AI正在发生一次更深层的迁移:从“理解世界”,走向“创造价值”。

智元联合创始人、总裁、CTO彭志辉
在 APC 2026 演讲
01/
AI的主战场从内容生成
走向物理世界
这种迁移的底层逻辑,可以从一个看似抽象但极具解释力的概念切入。彭志辉在演讲中提到,Token是AI时代的“货币”,每一次推理、生成和决策,本质上都是Token的流动。但如果把视角从数字世界转向物理世界,就会发现一个关键差异:聊天模型是被调用的,而机器人是持续运行的。

彭志辉在 APC 2026
分享对 AI 演进方向的判断
它并不是在某个请求触发时才消耗算力,而是在真实环境中持续感知、持续决策、持续行动。每一次路径规划、每一次动作执行,甚至每一次与人的互动,本质上都在消耗Token。这种持续性,使得具身智能体成为一种完全不同的AI形态。
这也带来一个更深层的判断:AI的需求模型,正在从“一次次被调用”转向“持续运转”。如果说过去的AI更多服务于信息处理,那么具身智能则直接嵌入到物理世界的运行之中。它不再是一个被使用的工具,而是一个持续运转的系统。
正是在这个意义上,具身智能开始呈现出基础设施的特征。它不只是AI的一个应用方向,而更像是承载AI能力的新载体。当AI进入物理世界,其影响的也不再只是效率,而是生产方式本身。
02/
行业叙事从“炫技”
转向“交付结果”
如果说技术进步决定了AI的可能性,那么行业叙事的变化,则决定了它的现实路径。过去很长一段时间,机器人行业最具代表性的画面,是翻跟头、跳舞或者跑酷,这些展示的核心意义在于证明“技术可以做到”。
但过去一年,这种叙事正在迅速退场。NVIDIA 强调AI系统走向真实世界的系统性机会,Tesla 将人形机器人纳入量产路径,核心目标不再是能力展示,而是规模化制造;Boston Dynamics 则持续强调商业场景中的价值创造,而非实验室中的技术极限。
这些变化并不是孤立的,而是在共同指向一个趋势:行业关注的核心问题,已经从“能不能做出来”,转向“能不能稳定地干活”。彭志辉在演讲中给出了一个更直接的判断:具身智能的分水岭,不只是AI进入物理世界,而是进一步进入真实工作流。
这句话的意义在于,它重新定义了评价标准。当机器人真正进入产线、物流、服务等场景时,客户关心的不再是技术指标本身,而是是否能够完成任务、是否稳定可靠、是否具备规模复制能力。机器人不再是一个展示对象,而成为工作流程中的一个环节。
由此带来的变化,是商业模式的根本转型。企业不再单纯“销售机器人”,而是开始“交付结果”。谁能够在真实环境中持续运行、稳定输出,就拥有了新的竞争优势。这也是为什么“部署能力”在这一阶段变得比“演示能力”更重要。
03/
端到端闭环
让AI第一次“既能理解,也能执行”
如果行业正在进入规模化落地阶段,那么真正的约束条件也开始变得更加清晰。长期以来,限制机器人规模化应用的,并不是某一项单点技术的缺失,而是系统层面的割裂与不协同。针对这一核心问题,智元提出的“一体三智”具身智能落地范式,正是对这一系统性瓶颈的直接回应。
首先是交互层的脱节。传统AI系统可以完成语言的理解与生成,但现实世界中的沟通天然是多模态的。语言、视觉、动作、时序与环境语境共同构成完整的交互体验,而过去这些能力往往分散在不同模块之中,缺乏统一表达框架。这也是为什么很多机器人“可以对话,却难以形成真正的互动”。
基于此,智元构建了以WITA Omni为核心的交互智能,通过端到端多模态架构,将视觉、语言与动作统一在同一系统中。机器人输出的不再是单一模态,而是完整的行为表达。例如在迎宾场景中,“欢迎光临”不再只是语音,而是伴随着转身、抬手、目光对齐以及自然手势的协同行为。这一变化的本质,是AI从“语言交互”迈向“行为交互”,开始具备在零售、酒店及日常服务等场景中与人类自然协同的能力。
其次是执行层的脱节。大模型已经具备复杂任务的规划能力,但长期停留在认知层,难以稳定映射到物理执行。这带来了一个典型问题:AI“知道该做什么”,但机器人“做不出来”。围绕这一问题,智元通过作业智能实现了从理解到执行的系统级打通。
其中,GO-2(ViLLA)模型将推理能力延伸至动作空间,通过“动作思维链”将高层决策直接转化为可执行行为。同时,在GE-2世界行动模型、Genie Sim 3.0仿真平台以及SOP在线学习系统的支撑下,机器人能够在仿真与现实之间持续训练与优化,实现长时序任务的稳定执行与真实环境中的持续进化。执行不再是瓶颈,而成为可以规模化复制与持续提升的能力。
第三个关键约束在于数据。传统AI依赖互联网规模的数据训练,而物理世界数据具有更强的时序性、噪声性与反馈性,使得模型在现实环境中的泛化能力长期受限。具身智能的关键突破,在于“部署本身”开始成为数据来源。
在这一体系中,一方面,AGIBOT WORLD 2026提供高质量的真实世界训练数据;另一方面,由BFM与GCFM驱动的运动智能为机器人提供稳定、类人的运动能力,使其能够在复杂环境中持续运行并产生高质量数据反馈。每一次真实任务的执行,都会反哺模型训练,逐步形成“部署—学习—再部署”的数据飞轮,实现系统能力的持续演化。

彭志辉携灵犀X2展示交互智能
当交互智能、作业智能与运动智能这三大智能实现协同,一个更关键的判断随之成立:具身智能的拐点,并非来自某一项单点技术的突破,而是多项关键条件在同一时间窗口内的同步成熟。大模型显著提升了对世界的理解能力,机器人本体跨越了可靠执行的门槛,而真实世界部署正在持续生成高质量数据反馈。这三者的叠加,使AI首次具备进入真实生产系统的能力。
回到更宏观的层面,这种变化正在重新定义机器人在产业中的角色。它不再只是一个设备,而开始成为生产系统的一部分;不再只是技术展示,而成为价值创造的载体。产品形态从单一硬件走向系统化解决方案,商业模式从设备销售转向结果交付,竞争也从单点能力转向模型、数据与生态的综合能力。
AI的发展,正在经历一次从“认知智能”向“行动智能”的迁移。从屏幕中的理解与生成,走向现实世界中的执行与创造。在这个过程中,真正的分水岭,不再是模型是否更强,而是AI是否能够进入真实工作流,并持续创造价值。
具身智能因此不再只是一个技术方向,而更接近一种新的生产力基础设施。而2026年,很可能会被回看为这一转折真正开始发生的时间点。
责任编辑: 小羊
