APC 2026 | 从感知世界到赋能产业，智元推动具身智能迎来生产力拐点

来源：智元AGIBOT

作者：智元AGIBOT 2026-04-18

在智元合作伙伴大会上，彭志辉提出了一个值得被反复讨论的判断：具身智能正在从技术突破阶段，迈入生产力部署阶段。这一变化的意义，并不在于又一代机器人或模型的发布，而在于AI正在发生一次更深层的迁移：从“理解世界”，走向“创造价值”。

过去三年，AI的进化几乎都发生在屏幕之内。从对话生成到图像创作，再到代码辅助，大模型不断刷新人类对“理解世界”的能力想象。但一个更根本的问题始终悬而未决：当AI已经能够理解、表达甚至推理，它何时才能真正参与现实世界的生产？

在2026年，这个问题开始出现一个清晰的答案。

智元联合创始人、总裁、CTO彭志辉

在 APC 2026 演讲

01/

AI的主战场从内容生成

走向物理世界

这种迁移的底层逻辑，可以从一个看似抽象但极具解释力的概念切入。彭志辉在演讲中提到，Token是AI时代的“货币”，每一次推理、生成和决策，本质上都是Token的流动。但如果把视角从数字世界转向物理世界，就会发现一个关键差异：聊天模型是被调用的，而机器人是持续运行的。

彭志辉在 APC 2026

分享对 AI 演进方向的判断

它并不是在某个请求触发时才消耗算力，而是在真实环境中持续感知、持续决策、持续行动。每一次路径规划、每一次动作执行，甚至每一次与人的互动，本质上都在消耗Token。这种持续性，使得具身智能体成为一种完全不同的AI形态。

这也带来一个更深层的判断：AI的需求模型，正在从“一次次被调用”转向“持续运转”。如果说过去的AI更多服务于信息处理，那么具身智能则直接嵌入到物理世界的运行之中。它不再是一个被使用的工具，而是一个持续运转的系统。

正是在这个意义上，具身智能开始呈现出基础设施的特征。它不只是AI的一个应用方向，而更像是承载AI能力的新载体。当AI进入物理世界，其影响的也不再只是效率，而是生产方式本身。

02/

行业叙事从“炫技”

转向“交付结果”

如果说技术进步决定了AI的可能性，那么行业叙事的变化，则决定了它的现实路径。过去很长一段时间，机器人行业最具代表性的画面，是翻跟头、跳舞或者跑酷，这些展示的核心意义在于证明“技术可以做到”。

但过去一年，这种叙事正在迅速退场。NVIDIA 强调AI系统走向真实世界的系统性机会，Tesla 将人形机器人纳入量产路径，核心目标不再是能力展示，而是规模化制造；Boston Dynamics 则持续强调商业场景中的价值创造，而非实验室中的技术极限。

这些变化并不是孤立的，而是在共同指向一个趋势：行业关注的核心问题，已经从“能不能做出来”，转向“能不能稳定地干活”。彭志辉在演讲中给出了一个更直接的判断：具身智能的分水岭，不只是AI进入物理世界，而是进一步进入真实工作流。

这句话的意义在于，它重新定义了评价标准。当机器人真正进入产线、物流、服务等场景时，客户关心的不再是技术指标本身，而是是否能够完成任务、是否稳定可靠、是否具备规模复制能力。机器人不再是一个展示对象，而成为工作流程中的一个环节。

由此带来的变化，是商业模式的根本转型。企业不再单纯“销售机器人”，而是开始“交付结果”。谁能够在真实环境中持续运行、稳定输出，就拥有了新的竞争优势。这也是为什么“部署能力”在这一阶段变得比“演示能力”更重要。

03/

端到端闭环

让AI第一次“既能理解，也能执行”

如果行业正在进入规模化落地阶段，那么真正的约束条件也开始变得更加清晰。长期以来，限制机器人规模化应用的，并不是某一项单点技术的缺失，而是系统层面的割裂与不协同。针对这一核心问题，智元提出的“一体三智”具身智能落地范式，正是对这一系统性瓶颈的直接回应。

首先是交互层的脱节。传统AI系统可以完成语言的理解与生成，但现实世界中的沟通天然是多模态的。语言、视觉、动作、时序与环境语境共同构成完整的交互体验，而过去这些能力往往分散在不同模块之中，缺乏统一表达框架。这也是为什么很多机器人“可以对话，却难以形成真正的互动”。

基于此，智元构建了以WITA Omni为核心的交互智能，通过端到端多模态架构，将视觉、语言与动作统一在同一系统中。机器人输出的不再是单一模态，而是完整的行为表达。例如在迎宾场景中，“欢迎光临”不再只是语音，而是伴随着转身、抬手、目光对齐以及自然手势的协同行为。这一变化的本质，是AI从“语言交互”迈向“行为交互”，开始具备在零售、酒店及日常服务等场景中与人类自然协同的能力。

其次是执行层的脱节。大模型已经具备复杂任务的规划能力，但长期停留在认知层，难以稳定映射到物理执行。这带来了一个典型问题：AI“知道该做什么”，但机器人“做不出来”。围绕这一问题，智元通过作业智能实现了从理解到执行的系统级打通。

其中，GO-2（ViLLA）模型将推理能力延伸至动作空间，通过“动作思维链”将高层决策直接转化为可执行行为。同时，在GE-2世界行动模型、Genie Sim 3.0仿真平台以及SOP在线学习系统的支撑下，机器人能够在仿真与现实之间持续训练与优化，实现长时序任务的稳定执行与真实环境中的持续进化。执行不再是瓶颈，而成为可以规模化复制与持续提升的能力。

第三个关键约束在于数据。传统AI依赖互联网规模的数据训练，而物理世界数据具有更强的时序性、噪声性与反馈性，使得模型在现实环境中的泛化能力长期受限。具身智能的关键突破，在于“部署本身”开始成为数据来源。

在这一体系中，一方面，AGIBOT WORLD 2026提供高质量的真实世界训练数据；另一方面，由BFM与GCFM驱动的运动智能为机器人提供稳定、类人的运动能力，使其能够在复杂环境中持续运行并产生高质量数据反馈。每一次真实任务的执行，都会反哺模型训练，逐步形成“部署—学习—再部署”的数据飞轮，实现系统能力的持续演化。

彭志辉携灵犀X2展示交互智能

当交互智能、作业智能与运动智能这三大智能实现协同，一个更关键的判断随之成立：具身智能的拐点，并非来自某一项单点技术的突破，而是多项关键条件在同一时间窗口内的同步成熟。大模型显著提升了对世界的理解能力，机器人本体跨越了可靠执行的门槛，而真实世界部署正在持续生成高质量数据反馈。这三者的叠加，使AI首次具备进入真实生产系统的能力。

回到更宏观的层面，这种变化正在重新定义机器人在产业中的角色。它不再只是一个设备，而开始成为生产系统的一部分；不再只是技术展示，而成为价值创造的载体。产品形态从单一硬件走向系统化解决方案，商业模式从设备销售转向结果交付，竞争也从单点能力转向模型、数据与生态的综合能力。

AI的发展，正在经历一次从“认知智能”向“行动智能”的迁移。从屏幕中的理解与生成，走向现实世界中的执行与创造。在这个过程中，真正的分水岭，不再是模型是否更强，而是AI是否能够进入真实工作流，并持续创造价值。

具身智能因此不再只是一个技术方向，而更接近一种新的生产力基础设施。而2026年，很可能会被回看为这一转折真正开始发生的时间点。

责任编辑：小羊