論文リンク
https://arxiv.org/abs/2010.14406
https://github.com/google-research/ravens/blob/master/ravens/agents/transporter.py
概要
一切のオブジェクトの仮定をしない、空間構造を保持したend-to-endのvision-based manipulationモデル
まず(1)どこからピックするかのlocal regionを決定し、(2)local regionと全体のdeep visual featureのマッチングでplaceする場所を探す。

https://transporternets.github.io/
の映像がわかりやすい。
・pick側

観測の中で最もpick確率の高い位置を取得
・place側

ピックした位置を中心とするクロップと画像全体のそれぞれの特徴マップ
で最もマッチする部分をplaceの位置とする