CLIPORT: What and Where Pathways for Robotic Manipulation

## 論文リンク
https://arxiv.org/abs/2109.12098

## 日本語スライド
https://www.slideshare.net/DeepLearningJP2016/dlcliport-what-and-where-pathways-for-robotic-manipulation-corl-2021

## コード
https://github.com/cliport/cliport/tree/2b93a0f87ba24ce5c26f41e8a4e0a22b4ff34f9d

## 概要
言語条件付きvision-based manipulation手法、CLIPORTを提案。

従来のmanipulation手法は新しいタスクへの汎化やタスク間で転移できる概念をうまく活用できていない
一方で近年CVとNLPでは表現学習が盛んだが空間的理解に欠ける
-> 両者を組み合わせ、semantic（イメージキャプションデータで画像と文を近づけるような学習を行ってある事前学習モデルCLIP）とspatial（Transporter）のpathwayを持つvision-based manipulatinモデルを作成

![Screen Shot 2022-01-04 at 11 39 12](https://user-images.githubusercontent.com/44390274/148002375-c2d01233-09df-4c73-a54f-cbae25c6a7b8.png)

上図のようにCLIPのResNetとSentence encoder機構でTransporterを拡張し、入力データとして言語指令文も受け付けるようにする。


- Transporterのみ、CLIPのみなどと比較して効果あり
- マルチタスク学習でより効果あり（共通の概念を効率的に利用できてる）
- 特に見ていない色や形にもCLIP singleは汎化できる
- CLIP (multi)はunseenデータも含めて学習するとunseenで良い評価？？
- 言語条件付きタスクを公開

## 思ったこと

- 他のdisentanglementなモデルと比較するとどのくらいすごいの？
- semantic pathwayにBERTのみor CLIP resnetのみを利用すると？
- 何のGPUかはわからんが 2daysとあるが・・・


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

CLIPORT: What and Where Pathways for Robotic Manipulation #53

論文リンク

日本語スライド

コード

概要

思ったこと

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

CLIPORT: What and Where Pathways for Robotic Manipulation #53

Description

論文リンク

日本語スライド

コード

概要

思ったこと

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions