共筑具身智能数据生态|觅蜂发布会圆桌论坛精华实录
本次圆桌论坛以 “共筑具身智能数据生态,驱动 AGI 未来” 为核心主题,汇聚数据平台、模型厂商、真机与仿真企业、学术界专家同台对话,围绕数据质量、规模、生态卡点、产业趋势、AGI 发展路径等关键议题展开深度思想碰撞。

主持人:吕鑫燚(具身研习社主编)
PART
01
嘉宾自我介绍与研究方向
姚卯青|觅蜂科技 董事长兼CEO

大家好,我是觅蜂科技姚卯青。我们围绕使命 “让全世界的数据为 AI 所用,加速智能体时代的到来” 展开工作,今天非常高兴能和行业各位专家一起交流,期待思想碰撞。
谢晨| 光轮智能 创始人兼CEO

大家好,我是光轮智能谢晨。我们是具身的数据与仿真基础设施,也是全球首个数据独角兽。非常感谢姚院的邀请,和觅蜂、智元一直保持深度合作,今天很荣幸和各位优秀嘉宾交流学习。
朱政|极佳视界 联合创始人兼首席科学家

大家好,我是极佳朱政。我们定位是通用具身机器人公司,目前主要做两件事:一是世界模型,聚焦具身与自动驾驶场景;二是具身基础模型。这两类模型都极度依赖高质量数据,今天听到觅蜂要采集上亿、上百亿小时数据,我们非常振奋。
范浩强|原力灵机 联合创始人

大家好,我是原力灵机范浩强。我们以具身智能算法为核心,今年初推出开源 VLA 基模 DM0,希望用数据与算法推动机器人产品与行业方案落地。
姚国才|北京智源研究院 具身 Infra & 数据负责人

大家好,我是智源研究院姚国才。智源被称为中国大模型的黄埔军校,我目前负责具身 Infra 与具身数据,持续探索多模态数据与训练范式。
张民英|阿里云 高级算法专家

大家好,我来自阿里云智能团队,主要服务汽车、手机、具身智能厂商,围绕云平台提供训练、解决方案与基础设施支持。
PART
02
快问快答:
角色・高质量数据・数据规模
01
用一个关键词形容你在生态中的角色
觅蜂科技姚卯青:铺路者、造桥者
光轮智能谢晨:数据与仿真基础设施
极佳视界朱政:数据的创造者 + 使用者
原力灵机范浩强:价值转化者
北京智源研究院姚国才:谦卑的探索者
阿里云张民英:催化剂
02
到底什么是高质量物理AI数据
姚卯青(觅蜂科技):我认为高质量数据很简单:以终为始,能让模型真正形成可用能力,就是高质量数据。拆开来看,必须包含:硬件层面的同步与标定、语义标注规范、采集规范、数据分布合理、场景多样性、任务多样性,这些共同构成高质量数据。
谢晨(光轮智能):我越来越认为,数据对具身智能不是燃料,而是 “人的教育”。好数据必须满足:真实开放场景、言传身教式长程示范、可规模化、可终身学习。不可规模化的数据,再精致也不是高质量数据。
朱政(极佳视界):我们现在用的数据主要有两个问题:第一,大多在实验室或人工场景采集,不够真实,我们需要泛服务、工业、家庭等真实场景;第二,标注太简略。多模态时代一张图能有几千字标注,描述背景、前景、意图,但现在视频数据只有简单动作标注,环境和任务描述严重不足。补齐这两点,数据质量才会真正提升。
范浩强(原力灵机):训模型的人都懂:能让模型涨点,就是好数据。我们关注多样性、准确度、覆盖度。对具身来说,未来还会出现更多质量维度。最好的数据,是加进去就一直涨点、永不饱和。
姚国才(北京智源研究院):最好的数据,是能表征人类行为、让模型和人类行为对齐的数据。核心是两点:高保真、多样性。要把人类无意识、隐蔽的行为都记录下来,机器人才能真正走进生活。
张民英(阿里云):我补充一点数据要包含动作背后的思维链条。推理模型现在都在使用中间思考过程来决定最终动作,这部分信息非常关键。
03
AGI时代到底需要多少小时物理AI数据?
张民英(阿里云):我认为是 100 亿小时 这个量级。
姚国才(北京智源研究院):一个人每天交互 10 小时,连续 10 年也才约 3.6 万小时。现在机器人的学习效率远低于人类。我们应该双向奔赴:一方面提升数据规模,一方面提升模型利用效率,最终找到平衡点。
范浩强(原力灵机):2030 年觅蜂目标 100 亿小时,刚好能填满贵州的存储。但放眼未来,走向星辰大海,数据可能需要几千亿、万亿小时。
朱政(极佳视界):我更现实,第一,现在采一小时数据成本约 200 元,几百亿小时根本负担不起;第二,数据利用效率太低,训几十万个小时就要几千万 GPU 成本。我们必须一边扩数据,一边提升模型效率。
谢晨(光轮智能):不要看存量,要看增量。特斯拉 FSD 有 100 万个数据生成器。具身智能难度是 FSD 的 1000 倍,未来需要 10 亿个数据生成器:人类、真机、仿真,三者共同持续产生数据。
姚卯青(觅蜂科技):物理世界是三维开放世界,模态更多、复杂度更高。人类 5–10 岁就具备完整智能,是因为 DNA 里刻着进化亿年的先验知识。我认为百亿小时是通用智能的基础门槛。
PART
03
深度探讨
议题 1:1 亿小时数据,能否带来智能涌现?
姚卯青(觅蜂科技):一定会涌现,而且涌现时刻和数据规模、数据组成强相关。今天具身智能还停留在类似 Bert 时代,还没到 GPT 级。我相信,沿着文本模型从 Bert 到 ChatGPT 的路径,3–4 年左右,具身智能会达到 GPT3 的智能雏形。
谢晨(光轮智能):我把具身智能比作孩子成长——现在大概是2 岁小孩的水平。第一个涌现阶段,大概是初中毕业:具备通用能力,能做家务、能干活,但不精通。过了临界点,会进入指数级爆发,泛化到千行百业。这之后才是专精化教育,最终成为超越人类的专业机器人。这是一个 30–50 年的长期赛道。
朱政(极佳视界):我相对谨慎。视频信息密度远低于文本,现阶段机器人的核心需求只有两个:一是提供情绪价值,二是可靠替代人工。我们对机器人还没到 “创造性解决问题” 的要求,所以短期涌现会比较有限。
范浩强(原力灵机):模型会多次涌现——第一次涌现:能模仿复杂灵巧操作;第二次涌现:解决泛化性,没见过的物品也能鲁棒执行;第三次涌现:具备干预能力、应对变化;最终涌现:创造性解决训练集没教过的新问题。每一次涌现,需要的数据类型都不一样。
姚国才(北京智源研究院):关键不在 1 亿还是 10 亿,而在于:第一,数据能否表征人类行为(触觉、声音、视觉缺一不可);第二,有没有更好的吸收范式与模型架构。我期待机器人涌现后能做到三件事:
1.知道别人喝过的水不递人;
2.找不到卫生间会主动问人;
3.按完电梯会看灯、主动等门。这些隐蔽行为,现在模型都不懂。
张民英(阿里云):我更关注近期里程碑——第一,跨电器泛化,学会 10–20 种就能自动会新的;第二,跨机型迁移,本体迭代后技能能延续。这是更现实的涌现。
议题 2:当前数据生态“最大卡点”是什么?
张民英(阿里云):MEgo 这样的设备能让每个人、每个家庭都成为采集端。但随之而来的是:上云、标注、训练成本天价。我们需要像特斯拉 Shadow Mode 一样,智能筛选高价值 / 长尾数据,只把最有用的数据拿来训练。
姚国才(北京智源研究院):最大卡点是标准缺失。格式不同、坐标系不同、模态定义不同,我们大量时间都在做数据转换。未来模态会越来越多(视觉、触觉、声音、肌电、脑电),标准不统一会卡死行业。觅蜂今天发布的治理平台与工具链,对行业是巨大贡献。
范浩强(原力灵机):卡点是——数据价值无法衡量。我们不知道缺什么、该补什么。需要 Benchmark 牵引,形成 测评→数据→模型 的闭环。就像 ImageNet 同时是数据集也是测评标准,才推动了上一波视觉革命。
朱政(极佳视界):世界模型需要的不是 “干净数据”,而是:失败轨迹、反事实数据、因果推理数据。现在的数据全是成功轨迹,根本撑不起强化学习与闭环仿真。数据太干净,就是最大卡点。
谢晨(光轮智能):真机、仿真、人类数据 三位一体,缺一不可。行业现在缺的是:可规模化、真实场景对齐、能落地的评价体系。没有评价,就不知道什么样的数据能让模型变好。
姚卯青(觅蜂科技):未来每个行业都需要具身智能,就像今天都需要 IT 系统。最大卡点是:没有数据 “国家电网”。餐饮、检修、工厂、家庭…… 各行业需要数据时,没有平台可调用、没有供给可匹配、没有标准可互通。数据流通平台,是行业必须补上的基础设施。
议题3:未来1–2 年,具身智能三大关键趋势生态
张民英(阿里云)
1.数据量指数级增长
2.世界模型重新定义数据需求
3.仿真与真机采集深度融合
姚国才(北京智源研究院)
1.能表征人类行为的多模态 / 泛模态数据成为主流
2.脑启发、高效能的具身训练范式出现
3.数据标准与工具链逐步统一
范浩强(原力灵机)
1.模型能力真正破圈,行业外也认可
2.机器人规模化走向真实应用
3.数据、算力、基础设施成倍增长
朱政(极佳视界)
1.训练范式升级:从单任务 → 多任务通用模型
2.Few-shot 小样本学习成为标配
3.数据从 “成功导向” → 成功 + 失败 + 因果导向
谢晨(光轮智能)
1.本体无关数据爆发(人采、仿真)
2.从 “数据工厂生产” → 评价驱动数据
3.数据全面下沉到真实场景:工厂、农业、家庭、医疗
姚卯青(觅蜂科技)
1. 物理 AI 数据规模快速超越互联网数据
2.出现具身原生模型架构,不再依附语言模型
3.决策智能出现,机器人部署后形成数据回流飞轮,加速自我进化
具身智能的竞争,已经从算法竞赛,转向数据生态竞赛。高质量、多模态、时空精准、场景真实、标准统一、可规模化的数据,将是 AGI 时代最核心的生产资料。
觅蜂科技将以一站式物理 AI 数据服务平台为底座,以蜂巢数据共创行动为生态纽带,与全行业伙伴一道,让数据成为新质生产力,让具身智能走进千行百业,加速智能体时代到来。
责任编辑: 小羊
