具身智能,这个曾经停留在实验室里的未来图景,正以出乎所有人预期的速度撞进现实。
Morgan Stanle预测,到2050年,全球具身智能市场规模将达5万亿美元。中国市场更被国务院发展研究中心估算,2035年将突破万亿元人民币。
但在这条万亿赛道上,有一个问题正在成为最大的隐患:数据荒漠。
物理AI领域的真机交互数据,目前仅为大语言模型训练数据的十万分之一,不是没有需求,而是供给极度稀缺:格式不统一、质量参差不齐、采集成本高到离谱,大量具身智能团队卡在同一道门槛前:没有足够高质量的数据,模型训练就是空谈。
这是行业公认的核心卡点,却迟迟没有人从基础设施层面系统性地去解。
直到觅蜂科技出现。
2026年4月16日,上海张江科学会堂。
以“蜂行天下,数驱智能”为主题,觅蜂科技正式公开亮相。这是一家将定位为“全球领先的一站式物理AI数据服务平台”的公司,不只是数据供应商,而是要做具身智能数据的基础设施。
区别,在这里就已经出现了。
传统数据公司卖的是数据集,是一次性的交付物。觅蜂想做的,是让高质量物理AI数据“像水电一样即取即用”,一套覆盖真机遥操、无本体采集、仿真数据全范式的供给体系,打通硬件、软件、平台、运营全链路,实现数据的体系化、标准化、规模化供给。
这背后是对行业三大痛点的精准回应:
数据荒:真机交互数据极度稀缺,现有数据量无法支撑规模化模型训练;
标准乱:格式、标注协议不统一,“脏数据”大量充斥,复用率极低;
供需错:需求方拿不到高质量数据,供给方有资源却难以变现,市场严重割裂。
觅蜂科技董事长兼CEO姚卯青在发布会上给出了一个关键判断:2026年是具身智能数据元年。行业已经过了技术验证阶段,接下来的核心竞争,是数据采集与转化效率的竞争。
这个判断,是有数字支撑的。
觅蜂科技此前开源的AgiBot World数据集,Hugging Face累计下载量超过110万次,GitHub Star达2.9万,被MIT、清华、伯克利、哈佛等全球顶尖机构采用。更值得关注的是:觅蜂已成为NVIDIA GR00T系列模型的核心数据来源,为其提供了80%的预训练真机数据,是目前全球最大的具身真机数据供给方。
这不是一家刚刚起步的初创公司,而是已经在产业核心位置站稳脚跟的团队,正在做一件更大的事。
发布会最受关注的,是MEgo系列无本体数据采集硬件的全球首发。
过去,物理AI数据采集严重依赖实体机器人本体:需要定制化机械臂、专用传感器、固定工位,设备成本高昂,部署周期漫长,且受限于本体形态,根本无法覆盖真实世界中复杂、动态、非结构化的全场景交互需求。
结果就是:数据采集效率低、场景窄、复用性差。
MEgo系列的逻辑有点意思:让数据跟随人类。MEgo的命名本身就是一个宣言:ME代表“以人为核心”,go代表“随行、轻量、无界”,M(觅蜂)与Ego(第一视角)的融合则代表了全链路的数据治理能力。
走到哪,采到哪。
MEgo Gripper是这套体系的核心采集终端。480克的极致轻量化设计,搭载毫米级轨迹重建技术,操作轨迹还原精度达1mm,亚毫秒级全局时间同步实现视觉、触觉、姿态等多模态数据的精准对齐。
200°鱼眼镜头配合三维触觉阵列,输出包含视觉、深度、IMU、运动轨迹、多维触觉、夹爪状态在内的全维度交互数据。Wi-Fi 6高速传输,保障高效与精准并行。
MEgo View是行业首创的全场景、全视角、多模态空间感知采集终端。核心设计是“超300°全景感知+腕部交互特写”双视角采集方案:头部相机覆盖300°超广域环境,腕部相机精准捕捉手部操作细节,全通道支持1080P 60fps高清视频流。
亚毫秒级无线时间同步与硬件级精准触发技术,实现多传感器数据在时间与空间维度的完全对齐,彻底解决了物理世界多视角数据时空统一这一长期悬而未决的行业顽疾。
更有价值的一点是,MEgo系列与智元精灵G2 Air的原生同构设计。基于MEgo同构型传感器和夹爪的一致性数据训练出的模型,可以无缝对接部署到G2 Air,快速实现机器人自主作业能力。
采集数据即训练数据,训练数据即部署数据。三步之间不再有信息损耗。
另一款MEgo Engine则是打通“最后一公里”的数据治理引擎。覆盖原始数据到训练数据的全流程自动化处理:多源时间对齐与智能筛选、6D轨迹重建与空间感知重建、多本体回放与智能评分的质量校验,以及将传统人工标注效率提升10倍以上的自动化标注能力。采集数据一键上传,输出即可直接用于模型训练的标准化数据集。
采集、治理、训练、部署。这个链路,觅蜂第一次把它完整地打通了。
技术和产品只是故事的一半。另一半,是生态。
发布会上,觅蜂科技联合上海电气科技集团、国家数据标委会、工信部赛迪研究院,共同发起了“蜂巢数据共创行动”的全球启动。北京人形机器人创新中心、上海国地中心、灵初智能、帕西尼感知科技、大晓机器人、无界智航、清智嘉创、艾欧智能、流澜数智等数十家海内外机构成为首批响应单位。
行动目标就是打破数据孤岛,统一数据标准,链接全球供需,打造开放高效的物理AI数据流通网络。
从发起方的构成来看,国家数据标委会与工信部赛迪研究院的加入,意味着这场行动具有标准制定层面的话语权,未来物理AI数据的格式协议、质量基准、交付标准,很可能从这里开始被系统性地确立。
同日,觅蜂与京东云、百度云、阿里云、猎聘、贵州大数据集团、张江集团完成战略签约,覆盖数据生态、场景协同、算力支撑、人才建设等多个维度。
这些合作方的加入,意味着觅蜂的数据服务能力正在与国内最主要的云计算基础设施形成互补,数据在哪里,算力就在哪里,模型训练的闭环就在哪里。
贵州省大数据发展管理局局长朱宗尧在发布会上专程发表演讲,肯定觅蜂在数据标准化、生态化建设中的标杆意义。这一细节值得注意:贵州是中国大数据产业最重要的政策高地之一,政府层面对觅蜂模式的认可,意味着这套物理AI数据基础设施建设路径,有可能获得更多政策资源的支持。
觅蜂给自己设立了一个2030年的目标:百亿小时级数据产能,共建全球最大物理AI数据生态。
这个数字今天听起来很大,但结合行业背景来看,具身智能从实验室到规模化落地,需要的正是这个量级的数据基础:2026年千万小时级年产能,2030年达到百亿小时级。
在当天的圆桌论坛上,极佳视界联合创始人兼首席科学家朱政、光轮智能CEO谢晨、原力灵机联合创始人范浩强、智源研究院具身数据负责人姚国才、阿里云高级算法专家张民英共同给出了一个判断:具身智能的核心竞争,是数据采集与转化效率的竞争。预计2026年底,全产业有效数据量级将突破千万小时,为具身智能规模化落地筑牢基础。
这是这个行业,第一次开始讨论“数据基础设施”这个层面的话题。
在AI发展史上,每一次从实验室走向产业的跃迁,都需要一个关键的基础设施层被建立起来。
大语言模型时代,这个基础设施是互联网文本数据的大规模爬取与清洗体系。具身智能时代,这个基础设施,是物理世界真机交互数据的采集、治理与流通体系。
觅蜂科技正在做的事,是试图在这个层面建立一个行业级的解决方案。
MEgo系列把采集门槛拉到了地板,蜂巢共创行动把生态边界推向了全球,一站式平台把从原始数据到训练数据的全流程打通。
这不仅是觅蜂科技的故事,也是一个产业基础设施被系统性建立起来的开始。而基础设施一旦建成,护城河往往深不可测。