学习笔记 发布于 更新于

EconomicGrasp

An Economic Framework for 6-DoF Grasp Detection

#学习笔记

这篇内容基于原始 Notion 导出整理,保留原始笔记主线,并做了轻度标题分层、排版优化与导出残留清理。

An Economic Framework for 6-DoF Grasp Detection

如何以低资源成本和有效的抓取性能实现经济抓取

屏幕截图 2025-12-30 161232.png

我们将六自由度抓手表示为G = [c, v, a, d, w, s],

c∈R3为抓手中心点,

v为1 ~ 300的整数,表示抓手视图的不同接近方向,

  • 使用球面均匀采样,将球面分成300个方向
  • 覆盖夹爪从各个角度接近物体的可能性
  • 参考 GraspNet-1Billion 的模板设计

a为1 ~ 12的整数,表示二维平面内旋转的不同角度,

  • 夹爪绕接近方向旋转
  • 12个角度 = 每30°一个 (360° / 12 = 30°)
  • 覆盖夹爪在平面内的旋转自由度

d也是1 ~ 4的整数,表示抓取深度,w∈R为抓取宽度,

  • 夹爪深入物体的程度
  • 4个离散深度值,通常对应:
    • d=1: 浅抓取 (~0.01m)
    • d=4: 深抓取 (~0.04m)

s∈R为描述抓取质量的抓取分数。

image.png

image.png

image.png

1. 输入

项目说明
输入数据RGB-D 图像转换的点云
形状[B, 15000, 3] — B个场景,每个15000个点,每点3维坐标(x,y,z)
预处理深度图 → 点云 → 体素化(voxel_size=0.005m)

2. 模型架构

2.1 Backbone: TDUnet (3D Sparse U-Net)

基于 MinkowskiEngine 的稀疏3D卷积网络:

组件说明
稀疏卷积只在有点的位置计算,节省内存
Encoder4层下采样,通道数 32→64→128→256
Decoder4层上采样,通道数 192→192→192→192
Skip Connection编码器特征拼接到解码器
输出每个点的512维特征 [B, 512, 15000]

2.2 GraspableNet (可抓取性网络)

过滤掉不可抓取的点:

输出形状说明
Objectness[B, 2, N]二分类:是否在物体上
Graspness[B, 1, N]回归:可抓取程度

筛选逻辑objectness=1 且 graspness > 阈值 → 可抓取点

然后用 FPS (最远点采样) 从可抓取点中采样 1024个点

2.3 ViewNet (视角选择网络)

为每个点选择最佳抓取方向:

项目说明
候选视角300个预定义视角(球面均匀采样)
输出每个点对300个视角的评分
选择取评分最高的视角作为抓取方向

2.4 Cylinder Grouping (圆柱体分组)

沿抓取方向构建局部特征:

参数
圆柱半径0.05m
采样点数16
高度范围-0.02m ~ 0.04m

2.5 Grasp Head (抓取头)

预测最终抓取参数:

输出形状说明
Angle[B, 12, 1024]12个离散角度(每15°一个)
Depth[B, 4, 1024]4个离散深度(1cm, 2cm, 3cm, 4cm)
Width[B, 1, 1024]连续值,机械爪张开宽度
Score[B, 6, 1024]6级评分(0, 0.2, 0.4, 0.6, 0.8, 1.0)

使用 Global Interaction (全局注意力) 让这4个预测相互交互。


3. 输出

每个抓取包含 17维向量

字段维度说明
Score1抓取成功率评分
Width1机械爪宽度 (m)
Height1固定值 0.02m
Depth1抓取深度 (m)
Rotation93x3旋转矩阵(展平)
Center3抓取中心点坐标 (x,y,z)
Object ID1物体ID(推理时为-1)

最终输出:每个场景 1024个抓取候选,按分数排序后取 Top-K


4. 核心创新点

创新说明
经济监督只选择关键无歧义标签训练,减少1/30存储
稀疏卷积用MinkowskiEngine处理3D点云,减少1/8内存
交互式抓取头角度/深度/宽度/分数相互注意力交互
复合分数估计6级分类代替直接回归,更稳定

数据集 256 帧

原理层为什么用稀疏卷积?为什么用圆柱分组?损失函数怎么设计的?⭐⭐
工程层手眼标定怎么做的?坐标系怎么转换?实时性怎么优化?⭐⭐⭐
改进层遇到了什么问题?怎么解决的?有什么改进?⭐⭐⭐⭐

如何抓取特定物体?

1.2D图像做预处理

2.点云分割模型对输入的图像进行点云分割

稀疏3D U-Net提特征 → 可抓取点筛选 → 视角选择 → 抓取参数预测


output_grasp_2d.png

output_depth.png

output_rgb.png

2bf059fc06ad12bbb9b0768c266132a3.png

frame_0001_20251230_204718_grasp_2d.png

frame_0002_20251230_204724_grasp_2d.png

frame_0005_20251230_204745_grasp_2d.png

项目说明文档