EconomicGrasp

这篇内容基于原始 Notion 导出整理，保留原始笔记主线，并做了轻度标题分层、排版优化与导出残留清理。

An Economic Framework for 6-DoF Grasp Detection

如何以低资源成本和有效的抓取性能实现经济抓取

屏幕截图 2025-12-30 161232.png

我们将六自由度抓手表示为G = [c, v, a, d, w, s]，

c∈R3为抓手中心点，

v为1 ~ 300的整数，表示抓手视图的不同接近方向，

a为1 ~ 12的整数，表示二维平面内旋转的不同角度，

d也是1 ~ 4的整数，表示抓取深度，w∈R为抓取宽度，

s∈R为描述抓取质量的抓取分数。

基于 MinkowskiEngine 的稀疏3D卷积网络：

过滤掉不可抓取的点：

输出	形状	说明
Objectness	`[B, 2, N]`	二分类：是否在物体上
Graspness	`[B, 1, N]`	回归：可抓取程度

筛选逻辑：objectness=1 且 graspness > 阈值 → 可抓取点

然后用 FPS (最远点采样) 从可抓取点中采样 1024个点

为每个点选择最佳抓取方向：

沿抓取方向构建局部特征：

预测最终抓取参数：

使用 Global Interaction (全局注意力) 让这4个预测相互交互。

每个抓取包含 17维向量：

最终输出：每个场景 1024个抓取候选，按分数排序后取 Top-K

创新	说明
经济监督	只选择关键无歧义标签训练，减少1/30存储
稀疏卷积	用MinkowskiEngine处理3D点云，减少1/8内存
交互式抓取头	角度/深度/宽度/分数相互注意力交互
复合分数估计	6级分类代替直接回归，更稳定

数据集 256 帧

原理层	为什么用稀疏卷积？为什么用圆柱分组？损失函数怎么设计的？	⭐⭐
工程层	手眼标定怎么做的？坐标系怎么转换？实时性怎么优化？	⭐⭐⭐
改进层	遇到了什么问题？怎么解决的？有什么改进？	⭐⭐⭐⭐

如何抓取特定物体？

1.2D图像做预处理

2.点云分割模型对输入的图像进行点云分割

稀疏3D U-Net提特征 → 可抓取点筛选 → 视角选择 → 抓取参数预测