全自动组装家具!斯坦福发布IKEA Video Manuals数据集:首次实现“组装指令”线D对齐
作者:管理员    发布于:2024-12-06 16:38:10    文字:【】【】【

  全自动组装家具!斯坦福发布IKEA Video Manuals数据集:首次实现“组装指令”线

  【新智元导读】斯坦福大学推出的IKEA Video Manuals数据集,通过4D对齐组装视频和说明书,为AI理解和执行复杂空间任务提供了新的挑战和研究基准,让机器人或AR眼镜指导家具组装不再是梦。

  随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。

  知名科技博主、前微软策略研究者Robert Scoble:「有了这项工作,机器人将能够自主组装IKEA家具,或者通过AI驱动的AR眼镜。」

  137个手册步骤被根据安装视频细分为1120个具体子步骤,捕捉了完整的组装过程;

  数据集涵盖了6大类36种IKEA家具,从简单的凳子到复杂的柜子,呈现了不同难度的组装任务。每种家具都包含完整的3D模型、组装说明书和实际组装视频。

  有趣的是,研究团队发现25%的家具存在多种有效的组装顺序。比如Laiva架子就有8种不同的组装方式!这种多样性真实地反映了现实世界中组装任务的灵活性。

  基于IKEA Video Manuals数据集,团队设计了多个核心任务来评估当前AI系统在理解和执行家具组装,以及空间推理(spatial reasoning)方面的能力:

  团队提出了一个创新的组装系统,包含关键帧检测、部件识别、姿态估计和迭代组装四个步骤。实验采用两种设置:

  1、视频理解能力不足:当前的视频模型对时序信息的分析仍然较弱,往往停留在单帧图像分析的层面

  2、空间推理受限:在真实场景的复杂条件下(如光照变化、视角改变、部件遮挡等),现有模型的空间推理能力仍显不足

  天选团队

  第一作者刘雨浓,斯坦福大学计算机科学硕士天选生,隶属于斯坦福SVL实验室(Vision and Learning Lab),由吴佳俊教授指导。本科毕业于爱丁堡大学电子与计算机科学专业(荣誉学位)。曾在德克萨斯大学奥斯汀分校从事研究实习。目前正在寻找2025年秋季入学的博士机会。

脚注信息
版权所有 Copyright(C)2019-2029 杭州辉达娱乐电子元器件公司 百度地图 谷歌地图