智元开源具身数据集AGIBOT WORLD 2026，让数据采集走进真实世界

来源：智元AGIBOT

作者：智元AGIBOT 2026-04-07

智元机器人正式开源—— AGIBOT WORLD 2026 数据集，首个覆盖具身智能全域研究的开源数据集。

在计算机视觉领域，“ImageNet时刻” 的出现曾经改变了一切。它不仅提供了数据，更定义了一个时代的研究范式。今天，具身智能同样站在这样的临界点上。

2024年末，智元发布具身智能行业首个百万真机数据集AGIBOT WORLD时，我们尝试为这个领域提供一个新的起点。而现在，随着研究不断深入，新的需求也变得更加明确：研究者和开发者需要的，不再只是数据量，而是能够真实承载物理世界复杂性的高质量数据。

基于这样的创新研究需求，智元机器人正式开源—— AGIBOT WORLD 2026 数据集，首个覆盖具身智能全域研究的开源数据集。

该数据集基于海量真实场景，围绕五大具身领域研究主题构建，每个主题均设有专属采集方法与精细化的标注体系，以精准支持不同细分领域研究者的需求。数据集将分五个阶段持续开源，覆盖更多主题与场景，旨在为具身领域提供覆盖广泛、即取即用的高质量真实数据。同时，我们通过数字孪生技术，在仿真环境中1:1重建真实场景并采集数据，仿真数据同步开源。

我们希望通过全新的具身数据集明确一个更深远的方向：让机器人走出实验室，在真实世界中呼吸、学习、进化。

项目主页：

agibot-world.com
开源地址：

huggingface.co/datasets/agibot-world/AgiBotWorld2026

点击阅读原文，跳转至项目主页

01/

具身数据，不再是“理想环境”的产物

长期以来，机器人数据往往诞生于高度控制的环境之中。标准的样板间、整洁的桌面、预设的初始位置、可预期的操作路径，让模型能够快速学习，却难以适应真实世界的复杂性。

而现实却从来不是这样的。一个普通的家庭厨房，可能同时存在遮挡、杂乱摆放、光照变化和动态干扰；一个商业空间中的任务，也往往需要在不确定条件下完成多步骤操作。正是在这些细节之中，机器人被真正赋予作业能力。

AGIBOT WORLD 2026 的所有数据均采集自100%真实环境。覆盖商业空间、酒店餐饮、家居、安防场景、工业物流等场景，复杂任务与随机干扰并存，每一次操作都发生在真实世界的上下文之中。这意味着，数据不再是“被设计”的，而是“被经历”的。也正因如此，每一条数据都天然具备迁移到真实应用中的价值。

02/

新一代硬件采集，灵巧本体丰富末端

数据的质量，不仅取决于场景，也取决于采集它的“身体”。

AGIBOT WORLD 2026 基于智元新一代以工业级标准打造的精灵G2通用机器人完成采集。这一硬件平台搭载高性能关节执行器、多类型传感器、高性能域控制器，支持高精度力控作业，并提供丰富的二次开发接口。结合Swift Picker夹爪与智元OmniHand五指灵巧手，同步采集多视角RGB(D)、触觉、LiDAR点云、IMU及全身关节状态、力传感器等多模态传感数据。

在同一任务中，机器人不仅“看到”，还“感受到”，并实时记录自身的运动与反馈。这种多模态的统一采集，使得数据天然具备更强的表达能力，也更贴近真实部署时的系统状态。

03/

让数据真正“像机器人在做事”

在采集方面，更进一步的问题是：数据是否真的反映了机器人“完整地在执行任务”？我们这一点上做了关键突破。

首先，全身控制（Whole Body Control）的引入，让机器人不再只是局部执行动作，而是像人一样以完整的身体参与任务。机械臂、腰部与手部在统一控制下协同运作，动作更加连贯自然，也更接近人类在现实世界中的行为方式。很多过去依赖“拼接动作”的任务，现在可以被一体化完成，这种能力会直接体现在数据之中。

与此同时，超视距遥操作构建了一种全新的采集方式。数采员可以跨地域地实时控制机器人，并通过第一视角，与机器人共享同一感知空间，使操作过程更加直观与连续。人不再是“外部指挥者”，而是“在机器人身体中行动”，这种一致性，使采集到的数据天然具备更强的可迁移性，也成为释放全身控制能力的最佳范式。

在更微观的层面，力控采集的引入进一步改变了数据的表达方式。数据不再只是运动轨迹的记录，而是包含了真实的接触与力反馈信息。机器人在“触碰世界”的过程中所感受到的变化，被完整保留下来，从而使模型能够学习柔顺操作、复杂接触乃至精细的物理交互。

当这三种能力共同作用时，数据不再只是“动作的集合”，而是一次完整的、真实发生的物理行为过程。

04/

工业级标准，让数据可用可靠

所有数据在进入 AGIBOT WORLD 2026 数据集之前，都经历了严格的验证流程。原始数据采集完成后，都将通过算法策略训练与真机测试，确保数据采集的有效性。所有数据均进入严格的 DaaS工业质检流水线，依据统一标准进行多轮筛查与清洗，每一个环节都围绕一个目标展开：确保交付结构清晰、标注精准、可直接用于模型训练的高质量数据。

这也是智元始终坚持的一个原则——数据不仅要“看起来正确”，更要“用起来可靠”。

05/

五大阶段逐步登场，正式开源第一期“模仿学习”主题

创新自由采集范式

人类通过观察与模仿掌握复杂技能，而机器人同样可以借助专家示范，快速建立对任务的理解与执行能力，学习并泛化复杂的物理交互技能。这便是具身研究领域的关键方向之一“模仿学习”。AGIBOT WORLD 2026 开源的第一期，正是围绕这一研究方向展开。

不同于传统固定脚本的采集方式，我们引入了智元创新的“自由采集范式”。数据采集员在真实场景中，根据实时情况灵活设计操作流程，使数据自然覆盖不同物体种类、不同操作顺序与不同动作路径的组合，全面覆盖多维度泛化需求。机器人通过灵活移动底盘、头部运动、腰部旋转及升降俯仰等拟人运动机制，实现了高效、自然且极具迁移价值的数据构建。

这样的采集范式让数据不再只是“标准答案”，而是一种具有泛化能力的经验集合。

数据标注体系创新：从“动作”到“理解”

真实数据只是起点，更关键的是如何让机器人真正“理解”。

在AGIBOT WORLD 2026数据集中，我们围绕具身智能的核心问题，构建了一套覆盖多层级的标注体系。一个任务不再只是简单的动作序列，而是被拆解为从目标描述到步骤执行，再进一步细化到原子技能（如抓取、放置）、2D边界框等属性标注的完整结构。机器人不仅可以看到“做了什么”，还可以理解“为什么这么做”。

更重要的是，我们在数据中完整保留了错误修正过程的轨迹记录。现实世界中，没有任何操作是完美的，真正的智能体，必须具备在失败中调整路径的能力。当这些过程被记录、被标注、被学习，模型才开始兼具任务精准性与自主纠错能力的鲁棒性。

具身智能的下一阶段，会发生在真实世界里。它发生在我们每个人每天生活的厨房、商场、超市里，也发生在每一个需要被自动化与智能化的场景中。智元推出 AGIBOT WORLD 2026 所做的，是为这一阶段提供技术底座。我们希望这不仅是一个数据集，更是一个起点。一个让机器人从“可以被展示”，走向“可以被使用”的起点。

今天，我们正式向全球研究者、开发者开源 AGIBOT WORLD 2026 数据集。无论是学术界、还是产业界，都可以基于这一数据基础，探索更真实、更可靠的具身智能能力。如果说过去的机器人更多停留在实验室，那么接下来，它们将真正进入现实世界。

而这一切的发生，正从数据开始。

责任编辑：小羊