EconomicGrasp
An Economic Framework for 6-DoF Grasp Detection
这篇内容基于原始 Notion 导出整理,保留原始笔记主线,并做了轻度标题分层、排版优化与导出残留清理。
An Economic Framework for 6-DoF Grasp Detection
如何以低资源成本和有效的抓取性能实现经济抓取

我们将六自由度抓手表示为G = [c, v, a, d, w, s],
c∈R3为抓手中心点,
v为1 ~ 300的整数,表示抓手视图的不同接近方向,
- 使用球面均匀采样,将球面分成300个方向
- 覆盖夹爪从各个角度接近物体的可能性
- 参考 GraspNet-1Billion 的模板设计
a为1 ~ 12的整数,表示二维平面内旋转的不同角度,
- 夹爪绕接近方向旋转
- 12个角度 = 每30°一个 (360° / 12 = 30°)
- 覆盖夹爪在平面内的旋转自由度
d也是1 ~ 4的整数,表示抓取深度,w∈R为抓取宽度,
- 夹爪深入物体的程度
- 4个离散深度值,通常对应:
- d=1: 浅抓取 (~0.01m)
- d=4: 深抓取 (~0.04m)
s∈R为描述抓取质量的抓取分数。



1. 输入
| 项目 | 说明 |
|---|---|
| 输入数据 | RGB-D 图像转换的点云 |
| 形状 | [B, 15000, 3] — B个场景,每个15000个点,每点3维坐标(x,y,z) |
| 预处理 | 深度图 → 点云 → 体素化(voxel_size=0.005m) |
2. 模型架构
2.1 Backbone: TDUnet (3D Sparse U-Net)
基于 MinkowskiEngine 的稀疏3D卷积网络:
| 组件 | 说明 |
|---|---|
| 稀疏卷积 | 只在有点的位置计算,节省内存 |
| Encoder | 4层下采样,通道数 32→64→128→256 |
| Decoder | 4层上采样,通道数 192→192→192→192 |
| Skip Connection | 编码器特征拼接到解码器 |
| 输出 | 每个点的512维特征 [B, 512, 15000] |
2.2 GraspableNet (可抓取性网络)
过滤掉不可抓取的点:
| 输出 | 形状 | 说明 |
|---|---|---|
| Objectness | [B, 2, N] | 二分类:是否在物体上 |
| Graspness | [B, 1, N] | 回归:可抓取程度 |
筛选逻辑:objectness=1 且 graspness > 阈值 → 可抓取点
然后用 FPS (最远点采样) 从可抓取点中采样 1024个点
2.3 ViewNet (视角选择网络)
为每个点选择最佳抓取方向:
| 项目 | 说明 |
|---|---|
| 候选视角 | 300个预定义视角(球面均匀采样) |
| 输出 | 每个点对300个视角的评分 |
| 选择 | 取评分最高的视角作为抓取方向 |
2.4 Cylinder Grouping (圆柱体分组)
沿抓取方向构建局部特征:
| 参数 | 值 |
|---|---|
| 圆柱半径 | 0.05m |
| 采样点数 | 16 |
| 高度范围 | -0.02m ~ 0.04m |
2.5 Grasp Head (抓取头)
预测最终抓取参数:
| 输出 | 形状 | 说明 |
|---|---|---|
| Angle | [B, 12, 1024] | 12个离散角度(每15°一个) |
| Depth | [B, 4, 1024] | 4个离散深度(1cm, 2cm, 3cm, 4cm) |
| Width | [B, 1, 1024] | 连续值,机械爪张开宽度 |
| Score | [B, 6, 1024] | 6级评分(0, 0.2, 0.4, 0.6, 0.8, 1.0) |
使用 Global Interaction (全局注意力) 让这4个预测相互交互。
3. 输出
每个抓取包含 17维向量:
| 字段 | 维度 | 说明 |
|---|---|---|
| Score | 1 | 抓取成功率评分 |
| Width | 1 | 机械爪宽度 (m) |
| Height | 1 | 固定值 0.02m |
| Depth | 1 | 抓取深度 (m) |
| Rotation | 9 | 3x3旋转矩阵(展平) |
| Center | 3 | 抓取中心点坐标 (x,y,z) |
| Object ID | 1 | 物体ID(推理时为-1) |
最终输出:每个场景 1024个抓取候选,按分数排序后取 Top-K
4. 核心创新点
| 创新 | 说明 |
|---|---|
| 经济监督 | 只选择关键无歧义标签训练,减少1/30存储 |
| 稀疏卷积 | 用MinkowskiEngine处理3D点云,减少1/8内存 |
| 交互式抓取头 | 角度/深度/宽度/分数相互注意力交互 |
| 复合分数估计 | 6级分类代替直接回归,更稳定 |
数据集 256 帧
| 原理层 | 为什么用稀疏卷积?为什么用圆柱分组?损失函数怎么设计的? | ⭐⭐ |
|---|---|---|
| 工程层 | 手眼标定怎么做的?坐标系怎么转换?实时性怎么优化? | ⭐⭐⭐ |
| 改进层 | 遇到了什么问题?怎么解决的?有什么改进? | ⭐⭐⭐⭐ |
如何抓取特定物体?
1.2D图像做预处理
2.点云分割模型对输入的图像进行点云分割
稀疏3D U-Net提特征 → 可抓取点筛选 → 视角选择 → 抓取参数预测






