SlideShare a Scribd company logo
2
Most read
8
Most read
11
Most read
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Spatial Attention Point Network for Deep-learning-based
Robust Autonomous Robot Motion Generation”
KokiYamane, University ofTsukuba
書誌情報
• タイトル
– Spatial Attention Point Network for Deep-learning-based Robust Autonomous
Robot Motion Generation
• 著者
– Hideyuki Ichiwara, Hiroshi Ito, Kenjiro Yamamoto, Hiroki Mori, Tetsuya Ogata
• 所属
– 早稲田大学 尾形研究室
• https://arxiv.org/abs/2103.01598
2
概要
• オブジェクトを限定しない汎用的なpick-and-place
• 画像を使った模倣学習
• end-to-end learning
– タスクに必要な状態表現とタスク自体を同時に学習
• 画像を特徴点で表すことで必要な情報のみを抽出
– 画像特有の環境変化の影響を抑制してロバストな動作を実現
3
背景
• ロボットのタスクの大半はpick-and-place
• 現状はオブジェクトごとに個別のアルゴリズムを設計して使用
– オブジェクトごとに物体検出の学習をしたり掴み方や運び方をプログラミングするの
は大変
• 模倣学習
– 人間の操作したデータを教師データとして学習
– 明示的にプログラミングする必要がない
– 比較的サンプル効率が高い
– データを集めるのは大変
• 限られたデータで汎化性能を実現する必要がある
4
既存研究
• Deep Spatial Auto Encoder (DSAE) [Abbeel+, 2016]
– CNNの最後に2D Softmaxを入れて注目すべき位置を抽出
– ヒューリスティックな後処理
• カルマンフィルタで値が飛ぶのを抑制
• 学習時の分布から離れた特徴点は削除
5
既存研究
• Deep Spatial Auto Encoder (DSAE) [Abbeel+, 2016]
– 画像なしで強化学習を行い,集めた画像で表現学習してから画像あり強化学習
– 特徴点の位置と速度を状態とする
– 4つのタスクで実験
6
提案手法
• Spatial Attention Point Network
– 現在の画像と関節角を入力し,次ステップの画像と関節角を予測
– 2D Softmaxで特徴点抽出
– 通常の画像特徴量を別で抽出し,画像予測のみに利用
• 明るさや背景などの動作に関わらない情報はLSTMを通さないようにする
7
提案手法
• Loss関数
– 画像のMSE
– 関節角のMSE
– 前ステップの画像特徴点と現在の画像特徴点のMSE
• 特徴点がなるべく動かないようにする正則化項
• 現実世界の物体は瞬間移動しないという事前知識を与える
8
補足
• 提案手法ではゼロパディングを積極的に用いている
• ゼロパディングの有効性
– How much position information do convolutional neural networks encode?[Islam+,
2020]
– CNNが暗黙的に各ピクセルの位置情報を保持しているという仮説を検証
– 画像から各ピクセルの位置を表す値を予測するタスク
– パディングが全くないモデルはパディングを入れたモデルと比べて非常に精度が悪
かった
– パディングが位置を表すのに大きな役割を果たしていることを示唆
9
実験
• 7自由度ロボットアーム
• 2つのタスク
– Picking task
• 物体位置ごとに各4回のデータ
– Pick-and-place task
• 組み合わせごとに各3回のデータ
• ベースライン
– 2D Softmax + LSTM[Abbeel+, 2015]
– DSAE+LSTM[Abbeel+, 2016]
– MRAE[Ogata+, 2020]
10
実験
• 環境設定
– 学習時と同じ環境
– 明るさを変えた環境
– 背景を変えた環境
– 障害物を配置した環境
11
結果
• Picking task
– 100%の成功率を達成
• Pick-and-place task
– 90%近い成功率を達成
• 環境変化しても成功率はほぼ変わらず
12
結果
• LSTMの内部状態を主成分分析で可視化
– 提案手法は既存手法と比べて,物体の位置に応
じて内部状態が均等に分布している
– Placeでは内部状態が一点に収束
– Pickでは物体の位置に応じて内部状態が変化
– 物体の位置を内部状態に適切に反映している
• 位置に対してロバスト
• 内挿性能が高い
13
まとめ
• 画像内の物体の位置を抽象的に学習
• 次ステップの画像を予測して学習に利用
• pickで100%,pick-and-placeで90%近くの成功率を達成
• 明るさや背景などの状況の変化に対して汎化性能を持つ
14
今後の課題
• タスクによって特徴点では必要な情報を表しきれない可能性がある
– 物体の向きや種類,画像内のロボットの姿勢を解釈できない
– 布や紐など,非剛体を扱うことはできるか
• 画像のEncoder-Decoderは同時に学習するべきか?
– 同時に学習することでより最適な表現を学習できる
– 並列処理できないLSTMが学習のボトルネックになる
– 画像と動作という複数のLossを足すことで学習がやや不安定になる
15

More Related Content

PDF
Transformerを多層にする際の勾配消失問題と解決法について
PDF
SSII2019企画: 点群深層学習の研究動向
PPTX
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
PDF
三次元点群を取り扱うニューラルネットワークのサーベイ
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
PDF
3D CNNによる人物行動認識の動向
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
PPTX
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Transformerを多層にする際の勾配消失問題と解決法について
SSII2019企画: 点群深層学習の研究動向
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
三次元点群を取り扱うニューラルネットワークのサーベイ
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
3D CNNによる人物行動認識の動向
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation

What's hot (20)

PDF
強化学習と逆強化学習を組み合わせた模倣学習
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
[DL輪読会]Pay Attention to MLPs (gMLP)
PPTX
近年のHierarchical Vision Transformer
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PDF
Action Recognitionの歴史と最新動向
PDF
画像生成・生成モデル メタサーベイ
PDF
三次元表現まとめ(深層学習を中心に)
PDF
動作認識の最前線:手法,タスク,データセット
PDF
【チュートリアル】コンピュータビジョンによる動画認識
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
ドメイン適応の原理と応用
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PPTX
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
PDF
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
PPTX
[DL輪読会]Objects as Points
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
強化学習アルゴリズムPPOの解説と実験
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
強化学習と逆強化学習を組み合わせた模倣学習
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
[DL輪読会]Pay Attention to MLPs (gMLP)
近年のHierarchical Vision Transformer
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Action Recognitionの歴史と最新動向
画像生成・生成モデル メタサーベイ
三次元表現まとめ(深層学習を中心に)
動作認識の最前線:手法,タスク,データセット
【チュートリアル】コンピュータビジョンによる動画認識
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
ドメイン適応の原理と応用
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
[DL輪読会]Objects as Points
Curriculum Learning (関東CV勉強会)
強化学習アルゴリズムPPOの解説と実験
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Ad

Similar to [DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autonomous Robot Motion Generation” (20)

PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PPT
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
PDF
Point net
PDF
GTC 2016 ディープラーニング最新情報
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
PDF
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PDF
IROS2020 survey
PDF
3DFeat-Net
PDF
20150930
PDF
[DL輪読会]Unsupervised Learning of 3D Structure from Images
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PDF
Ibis2016okanohara
PDF
第126回 ロボット工学セミナー 三次元点群と深層学習
PPTX
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
PPTX
Deep learning survey(途中)
PPTX
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
PDF
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PDF
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
Deep Auto-Encoder Neural Networks in Reiforcement Learnning (第 9 回 Deep Learn...
Point net
GTC 2016 ディープラーニング最新情報
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
IROS2020 survey
3DFeat-Net
20150930
[DL輪読会]Unsupervised Learning of 3D Structure from Images
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Ibis2016okanohara
第126回 ロボット工学セミナー 三次元点群と深層学習
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
Deep learning survey(途中)
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
論文輪読: Deep neural networks are easily fooled: High confidence predictions for...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]“Spatial Attention Point Network for Deep-learning-based Robust Autonomous Robot Motion Generation”