スケーラブルなロボット学習システムに向けて
2022.6.10 11:00-12:30 (メイン会場)
東京大学大学院 工学系研究科 松尾研究室 博士課程
松嶋 達也
matsushima@weblab.t.u-tokyo.ac.jp @__tmats__
SSII2022 OS3 深層学習のための効率的なデータ収集と活用
DNNを用いたロボット学習アルゴリズムを用いて、動画のような高次元の入力からロボットの制御方策を学習することが可能に
なった。これらの手法はサービスロボット領域での応用が期待されているが、タスクや環境の多様性への対処が課題となってい
る。本講演では、強化学習のようなロボットの制御方策を直接学習する手法において、ロボットシステムから収集し蓄積した「オ
フライン」のデータを活用する方法について紹介するほか、実際に家庭内のサービスロボットシステム構築の事例紹介を通じ
て、実世界のロボットシステムの特徴やデータドリブンな手法を取り入れて汎化性・柔軟性を高めるための方法に関して解説す
る。
自己紹介
松嶋 達也 (Tatsuya Matsushima)
技術経営戦略学専攻 松尾豊研究室 博士課程3年
● ロボット学習・サービスロボティクス
● 深層学習を利用した模倣学習・強化学習手法の開発
● 人間と共生できるような適応的なロボットの開発と,
そのようなロボットを作ることによる生命性や知能の
構成的な理解に興味があります
とくに現在は,多様な環境・タスクに適応できるサービス
ロボットの実現に向け,ロボットが実世界で行動して収集・
蓄積したログデータ(オフラインデータ)を利用して制御の
改善に役立てる枠組みの研究をしています 2
研究活動の概観
サービスロボットへの利用を意識したロボット学習手法の開発・実システム構築を通じた
実証(データ)・研究を促進するエコシステム構築の3方向に取り組む
3
コアな手法の開発
研究を加速させる
エコシステムの構築
実証
(データ・実応用)
・メタ模倣学習 2020/10:英文誌Frontiers in Robotics & AI採録
・オフライン強化学習 2021/1:国際会議ICLR2021採録
・家庭内ロボットシステムの構築・検証
 2020/12:RCJ2020テクニカルチャレンジ優勝・総合準優勝
 2021/9 :WRS2020 Partner Robot Challenge準優勝
・サービスロボットの共同研究
・教育活動を通じた人材育成(仲間を増やす)
 2020年度:強化学習に関する自主講義を夏冬2回開始(約300名/年)
 2021年度:工学部・工学系でロボット学習系のPBLを開講
・ロボット学習分野コミュニティ形成 2020/8:TRAILとして組織化
研究活動の目的・背景
サービスロボットの活用により,インクルーシブな社会を創る
● ロボットを使ってできることが増えると,社会との関わり方が変化
サービスロボット
● 人々の生活に密接に関わる領域での自動化を目的としたロボット
● 例)医療・福祉・介護領域,家庭内,小売店舗
…での利用
● 少子化・労働力不足への懸念を背景に活用が期待される
● しかし,産業用ロボットに比べて実社会での導入が進んでいない
➡汎用性・安全性の観点から要求が大きく異なるため
4
図出典: http://rtc.nagoya.riken.jp/RIBA/, https://www.toyota.co.jp/jpn/tech/partner_robot/robot/#link02, https://orylab.com/product/orihime-d/
サービスロボットシステムの課題
環境・タスクが構造化されていない(unstructured)
● 常に変化する環境内で非常に多くのタスクを達成する必要がある
例)家庭内ロボット(生活支援ロボット)による家事
● 片付けタスク一つをとっても,家庭ごとに間取りや家具が違う
● 同じ家庭でも,日によって家の中にある物体も変わってくる
● さらに,洗濯物たたみもやってほしい・・・etc
● 個別の環境やタスクそれぞれを網羅するように,
ありうる全ての制御を(がんばって)設計するのは非現実的
5
サービスロボットシステムの課題
環境・タスクが構造化されていない(unstructured)
● 常に変化する環境内で非常に多くのタスクを達成する必要がある
例)家庭内ロボット(生活支援ロボット)による家事
● 片付けタスク一つをとっても,家庭ごとに間取りや家具が違う
● 同じ家庭でも,日によって家の中にある物体も変わってくる
● さらに,洗濯物たたみもやってほしい・・・etc
● 個別の環境やタスクそれぞれを網羅するように,
ありうる全ての制御を(がんばって)設計するのは非現実的
その逆に,何らかの方法でロボットが動いてしまえば
データを使って制御を学習できるのでは? 6
ロボット学習でのオフラインデータの活用
ロボットが実世界で行動して収集・蓄積したログデータ
(オフラインデータ)を利用して制御の改善に役立てる
● ロボットがなんらかの形で動けば,データが蓄積され
ロボットのソフトウェアが改善される世界観
● 近年のスマホアプリのようなイメージ
7
研究の全体像
ロボットが動作することで蓄積されるオフラインデータから,
多様な環境・タスクに適応できる制御方策の学習手法を開発し,
スケール可能なサービスロボットシステムを構築する方法の体系化を目指す
8
VR機器を使ってロボットの遠隔操作
遠隔操作によるデータ収集
9
Robot arm (xArm7) HSR (beta-version)
本日の発表内容
1. “Deployment-efficiency” in learning controls (algorithm view)
● Show model-learning can benefit in reinforcement learning from offline
data
● Propose an algorithm interleaving model/policy learning and batched data
collection
2. Development of real service robot systems (system view)
● Building baseline systems of service robots in the house
● Study how learning modules can be integrated into robot systems
10
Deployment-Efficient Reinforcement Learning
via Model-Based Offline Optimization
Tatsuya Matsushima1
*, Hiroki Furuta1
*, Yutaka Matsuo1
,
Ofir Nachum2
, Shixiang Shane Gu2
1
The University of Tokyo, 2
Google Brain (*Contributed Equally)
Contact: matsushima@weblab.t.u-tokyo.ac.jp
ICLR2021
概要:オフラインデータからの方策改善
● これまでに何らかの方法で集められたデータセット(オフラインデータ)
からデータセット以上の性能を達成する方策を求めることを目指す
● 実応用上のコストとリスクを意識して,方策がデプロイされた回数に
関するRLの性能指標(デプロイ効率)を提案
● 高デプロイ効率を達成するための手法として,オフラインRLの設定で
ダイナミクスモデルを学習しながら方策改善するBREMENを提案
● 物理シミュレーション(locomotion/manipulation)を用いた
多様なベンチマークで高サンプル効率と高デプロイ効率を確認
12
研究の位置付け
ある環境・タスクに関する動作のデータ(オフラインデータ)を蓄積することで
その環境・タスクに関する制御方策を(実応用を想定した形で)効率よく
改善する方法に関する研究
13
背景: 強化学習の実応用時のコストとリスクの削減
連続的な意思決定問題において(深層)強化学習(RL)の有効性が示されてきた
● 超高頻度なデータ収集と方策の改善に依存
しかし,新たな探索的な方策のデプロイには潜在的なリスクとコストがあり,
(ある種の)実応用では好ましくない
● e.g. ロボット制御,医療,教育
14
関連する枠組み: オフラインRL
オフラインRLでは固定のデータセットから方策を学習する
● 何らかのsuboptimalな性能のデータセットがすでに入手できている仮定
● 通常は1から学習を行わない
15
貢献①:RLアルゴリズムの新しい指標を提案
方策がデプロイされた回数に関する指標(デプロイ効率,deployment-efficiency)
を提案
● サンプル効率(何個のデータを使うか)が高いアルゴリズムでも,
deployment-efficiencyは非常に低くなりうる e.g. SAC
● オンラインRL・オフラインRLの手法が直接比較可能になった
16
デプロイ効率を高めるための課題と解決策
課題:既存のオフラインRL手法のサンプル効率が低いため,デプロイ効率も低い
● オフラインRL手法を単純に繰り返し適用するだけではうまく学習が進まない
解決策:モデルベースのオフラインRL手法を開発して,繰り返し最適化する
● モデルベースRL手法はオンラインRLではサンプル効率が高いことが知られている
17
貢献②:デプロイ効率の高い手法BREMENを提案
BREMEN(Behaviour-Regularized Model Ensemble)を提案
● モデルベースのオフラインRL手法
● 高いサンプル効率・デプロイ効率を達成
効率的で安定的な方策学習(改善)のための工夫を組み込む
1. ダイナミクスモデルのアンサンブルを利用した方策の学習
2. デモデータから推定した挙動方策によるconservativeな方策改善
18
工夫1. ダイナミクスモデルのアンサンブル
アンサンブルされたダイナミクスモデルから仮想的な状態遷移データを生成して方策の
学習に利用
● 方策がダイナミクスモデルの推定誤差(モデルバイアス)をexploitするのを防ぐ(特
定のダイナミクスモデルへの過剰適合を防ぐ)
● 具体的には,初期化の異なるK個のダイナミクスモデルをデータセットとのMSEを指
標として学習
● 方策の学習中は,アンサンブルからランダムに1つのダイナミクスモデルをピック
アップして,次のステップの状態を予測
19
工夫2. 方策の制約によるconservativeな改善
データセットから挙動方策を推定(BC)
推定したBC方策との信頼領域(KL trust-region)の制約をかけた方策の更新
20
提案手法BREMENの全体像
デプロイ数が制約された条件下では,
オフラインのBREMENの最適化手順を繰り返し適用
21
Trick 1. Rollout from ensembles
Trick 2. Initialization w/ BC policy
オフラインRL手法としての比較
1Mステップの固定データセットから方策の学習
● 既存手法と同じ実験プロトコルを採用[Wu+19]
シミュレータのlocomotionタスクで既存の優れたモデルフリー手法と同等の性能
22
オフラインRL手法としての比較 (D4RL)
より最新のオフラインRLベンチマークD4RL[Fu+20]でも
既存のモデルフリー・モデルベース手法と同等の性能を確認
● 注:スコアは各データセットのエキスパートのスコアで正規化済
23
オフラインRL手法としてのサンプル効率の検証
既存のデータセットを10-20倍小さいデータセットにしても方策を改善可能
● 既存手法は不安定で,データセットのスコアより悪化するさえある
BREMENはオフラインRLの設定で安定していてサンプル効率が高いことを確認
24
デプロイ効率の検証(locomotion)
オフラインRL手法を繰り返し適用して検証
● デプロイ回数を制約した上でランダムなデータセットからオンラインの学習
BREMEN (purple)はデプロイ回数の制約下で顕著な性能向上を示した
25
デプロイ効率の検証(manipulation)
より難しいmanipulationタスクでもBREMENは安定して方策改善可能
● サンプル効率・デプロイ効率の両方で,
ロボットの学習された制御方策の実応用上の必要要件を満たす
26
シミュレーションでの定性的な結果
Locomotion (HalfCheetah)
27
Initial policy 3rd deployment 5th
Manipulation (FetchReach)
Initial policy 6th deployment 10th
Follow-up paper
DE-RLのサンプル効率やリスク解析をlinear MDPの設定で分析した論文がICLR2022に
投稿された
● Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality
○ https://openreview.net/forum?id=ccWaPGl9Hq
● Nan Jiangのチーム
● 8,8,8,8 -> accept (spotlight)
28
まとめ
BREMENを提案
● 高いサンプル効率を達成するモデルベースオフラインRL手法を提案
● 高いデプロイ効率も達成
将来の展望
● 方策の安全性の検証・効率的なデータ収集
● 実ロボットへの適用
29
Code & pretrained-model
Development of Partner Robot System
Using Toyota HSR
Team Weblab
Team Leader: Tatsuya Matsushima
Advisor: Yusuke Iwasawa & Yutaka Matsuo
Team Contact: robocup@weblab.t.u-tokyo.ac.jp
概要
ロボット学習を用いた家庭内サービスロボットシステム構築の
可能性と課題を洗い出すため,実システムを構築し検証(約2年間)
● トヨタ自動車社製HSR (Human Support Robot)を利用
○ モバイルマニピュレータ(自律移動台車+ロボットアーム)
● 家庭内での「お片付け」と「取ってきて」タスクを行う
● 世界大会World Robot Summit (WRS) 2020競技会出場を目指す
○ 2021/9/6-12に開催
31
9/6-12@中部国際空港 部屋の片付けタスク 指定された物体を棚から取ってくる
松尾研ロボットチームの歴史
● 2018/7 HSRが松尾研に到着
○ 初めての実機&メンバーが3人しかおらず開発が進まない時代が続く
● 2019/6 立命館大谷口研訪問・SDEを利用開始
● 2019/8 WRS2020にエントリ
○ 松尾研のロボティクスでの技術力向上を目指す
○ 学部生などを募集してサークル的に開発を開始(
8名規模)
● 2020秋 システムV1が完成
● 2020/12 RCJ2020に参加
○ 総合準優勝.テクニカルチャレンジ優勝
● 2020冬 システムV2の開発開始
○ V1の反省を生かし高速化を目指す.開発体制の改善
● 2021/4 東大の正規のプロジェクト演習型講義として導入
○ 工学部・工学系研究科「人工知能応用プロジェクト」(
15名規模)
● 2021/6 松尾研下ロボットサブグループ「TRAIL」を組織
● 2021/9 WRS2020参加・準優勝 32
松尾研ロボットチームの活動体制
TRAILのウェブサイトを参照
● https://trail.t.u-tokyo.ac.jp/ja/
33
WRS2020に参加したチームメンバー
研究室内外から10名(博士課程から学部生・社会人)のチームを構成
34
https://trail.t.u-tokyo.ac.jp/ja/people/
博士課程 修士課程 学部生 社会人
情理稲見研 シス創PSI3年 シス創PSI3年 航空宇宙3年 明治大→TMC
(自動運転)
情理システム5研
松尾研M2
松尾研D2 松尾研D1
WRS2020パートナーロボットチャレンジのタスク
35
Task1: 部屋のお片付け
● 15分間で30個の物体を正しい場所に
片付ける
○ 25個の既知の物体(YCB)と
5個の未知物体が出現
● 物体のカテゴリに応じて片付ける先
の場所が決まる
○ e.g. 食品はトレーの上
● 出現する物体とその配置は
毎回ランダムに変化
Task2: 障害物回避・棚から指示されたも
のをとってくる
● 通路にある小さい物体に衝突せずに
自律移動
● 指示された物体をocclusionが
激しい棚から取り出して,
家具や物体に衝突せずに持って指示
した人に手渡す
● 物体の配置や指示は毎回ランダム
WRS2020の結果
WRS2020パートナーロボットチャレンジ準優勝
● 予選総当たりで
1位の九工大チームに僅差
(652points vs 630 points)
● 動画は準決勝(vs 玉川大)
○ 我々のチームは左側
36
https://youtu.be/H96I4mRltbg?t=16905
8倍速
プロジェクトで注力した点
我々の狙い
深層学習を用いたモジュールを使い,できるだけシステム内のヒューリスティク
スやハードコーディングを削減し,エッジケースに汎化させる
● 深層学習を用いた物体検出
● 最新のアーキテクチャを用いた物体認識
○ 強力な事前学習済みモデルの利用と現場での軽量な再学習
● シミュレータを用いた家具や把持姿勢予測の学習
○ シミュレータを用いて大量のデータを生成させ実世界での汎化を目指す
● データを用いて把持判定する柔らかい触覚センサを開発
37
System Overview
38
開発体制の工夫
● Dockerを利用した開発環境の仮想化
○ HostのUbuntuやCUDAのバージョンに依存しない
○ 簡単に新しいマシンを導入できる(環境構築が非常に楽)
■ WRS大会1ヶ月前に背中PC2台を調達,余裕で間に合う
● Github actionsを用いたCI/CD
○ pushするとDocker imageが自動でビルドされ利用可能に
○ シミュレータを使ったCI/CDもやりかけたが間に合わなかった
● データセットや重みのバージョニング
○ DVCを利用,データはAWS s3で保管
○ 会場でも集めたデータをpush/pullして
複数のマシンの間の同期をとっていた
● (割と)アジャイルに開発
毎週土曜日に集まってRCJのルール・設定で
結合テスト・スコアのトラック・開発内容の評価
39
Object Detection
RGBカメラ・深度カメラを用いる複
数のDNNベースの物体検出器を
利用
※本番は計算量削減のために
 一部を利用してない
見落としを防ぐ

Object Detection
検出結果を以下の6つの条件でフィルタリング
● 画素面積が小さすぎる・大きすぎる

● (UOIS結果の場合) PSPNetが家具・背景だと認識している

● 予測ラベルがvalid listに入っていない

● 他の検出結果とかぶっている(Mask RCNNの場合大きい検出を優先,UOISは逆)

● search areaに入っていない

● 画像の枠に近い

最新のDLアーキテクチャを用いた物体認識
事前学習済みのCLIP (vision transformer, ViT)を用いて特徴量抽出
● 下流の全結合層のみを再学習
○ 現場で軽量に再学習可能
● Prompt-engineering(言語補助情報のチューニング)も有効
42
認識のSimulator-to-Real(sim2real)転移
43
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量のデータセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習
認識のSimulator-to-Real(sim2real)転移
44
家具位置推定モジュールをシミュレータを用いて学習し実機転移
● ランダムな物体をシミュレータに配置し大量のデータセットを生成
● 深度画像を入力としてFully Convolutional Network (FCN)を用いた
セグメンテーションモデルを学習
● 実世界での家具の形状・配置にロバスト
Simulator-to-Real (Sim2Real) Transfer in Recognition
45
Sim2Real of grasp pose prediction
● Generated dataset with simulator (PyBullet) with randomized objects
○ Using ShapeNet Objects (7000+) instead of YCB objects (70+)
● Learn FCN model with depth image (grasp pose regression)
自作触覚センサによる高速で正確な把持判定
高速(かつ非常に安価)な把持判定のための触覚センサを自作
● 小さく軽量な物体を把持できたかを判定する目的
○ HSRの手首のトルクセンサやグリッパの幅では判定できない物体が存在していた
○ 把持判定に失敗すると時間を大きくロスしてしまう
● 最初はレジン硬化させて作っていたが,
最終的に,100均の地震対策のジェル+手袋+鉛玉&180度広角webcam(数千円)
● 把持できた・できてない画像を集めてパターンマッチさせる
46
得られた考察①
開発した深層学習モジュールによって認識のロバスト性が担保され,ハード
コードや正確な家庭環境のモデルへの依存が激減した
● e.g. 各チームの準備日の活動
○ 我々のチームは大体の地図をSLAMで作れば良いので
3分程度で準備が終了した
○ 我々のチームは毎回姿勢を推定していたため
位置が固定されてなくても動いた
■ 極端には競技中に動かされても大丈夫なシステムだった
■ 競技の再現性のためにさまざまな家具やコンテナが固定されていたため
わざわざ毎回位置推定しなくても物体操作が可能ではあった
(おそらく九工大や他のほとんどのチームはそうしていたのでは?)
■ ただし,毎回位置推定することで,自己位置推定のノイズにロバストになった
■ 計算待ちを減らすための実装上の工夫はたくさんしている(最後の 1ヶ月の開発)
47
得られた考察②
認識についてはSim2Real転移が成功しロバスト性が得られた
● しかし,まだ制御方策自体のsim2realはそこまで高い性能が得られていない
○ そのため,競技会ではsim2realの認識と事前に決めたモーションプランを
組み合わせて制御していた
柔軟なモーションプランニング(の学習)は課題として残っている
● 部分的なセンサ情報(不十分な3次元モデル)から衝突のないPick&place制御方策
を学習したい
○ ほとんどのbin picking手法は周囲の制約を考慮していないため不十分
48
得られた考察③
システム設計が実世界の性能には大きな影響を及ぼす(最適化可能)
● 実応用ではより高速なタスク実行が必要
○ どのチームも15分で30個を達成できていない(が人間と比較すると遅すぎる)
● 機械学習コミュニティでは実時間での性能がそこまで重視されていない
○ 一般的なロボット学習ベンチマークは学習・推論と実行が同期的
■ シミュレータはモデルの出力を待ってくれるが,実世界は待ってくれない
● システムの実行速度には多くの要因が関わる
○ 制御と認識の非同期実行
■ ノイジーなセンサから正確な制御が必要
○ ハードウェアのスループットも影響
■ 計算力 e.g. GPU accelerationが可能か?
■ ネットワークスピード e.g. Wifi6(e)・5Gの利用
49
得られた考察④
vision(のみ)に基づくmanipulation手法の限界の可能性
● ほとんどの深層学習ベースのmanipulationの研究はvision(もしくは物体やロボット
の明示的な状態)の入力のみを対象にしている
● しかし,visual情報は不十分なことが多い
○ 画像特徴量からは挙動が大きく変わりうる「接触」が検知できない
■ e.g. WRSタスクで小さいマーカや鍵が拾えてるかの検知が難しい
● 人間はmanipulationにもっと多様なセンサやアクチュエータを利用
○ e.g. 触覚, 手首の柔らかさ
● 多様なセンサや柔らかい構成要素がより高速・正確・複雑なmanipulationに必要な
可能性
○ これらのセンサ・アクチュエータは明示的なモデル化が難しくロボット学習の
研究対象として扱われることが少なかった
50
残る課題
機械学習領域のexponential growthをロボティクスに持っていく
explicitな状態推定なしに高速な動作のコントローラを学習する
● ほとんど認識と行動を同時に行えていない
○ 仮説:ロボットシステムが,ほとんどの動作計画が正しい状態推定を前提
にしている.正確な状態推定(自己位置推定など)を目指しノイズを減らす
ために動作を停止させているから
● 完全な状態推定を前提とせずに,内部で学習により構築した予測モデルを利用し
て,自分で誤差を修正し行動に繋げられるシステムを作るのが必要そう
○ 世界モデルに関連
51
ルールに関して
「再現性」が意識されたルール設計は非常に好ましかった
● ロボコンでありがちな「運」要素(タイミングによる不確実性)が軽減でき
複数のチームの技術レベルを直接比較できた
● レイアウト・評価プロトコルなども公開されると,
サービスロボティクスでの標準ベンチマークになる可能性
一方,より「汎化性」を意識したルールになってほしい
● 実応用では想定しずらいハードコードで対応できる要素を少しずつ減らす
○ 今回は,家具やコンテナの形状や姿勢が全く変わらなかったが,
応用上はそんなことはありえない
● (短期的には)物体やその配置と同様に,
家具・コンテナの位置・形状・姿勢も変化するようなルールに発展したい
52
競技会場に関して
WRS2020の競技会場ではリソースの制約が大きかった
● Wifiが遅かった(max 30Mbps)
○ 自己位置推定のさえdelayが発生
■ 自律移動中のズレが大きくなり,右往左往する動作が発生
実用に耐えなかったため,背中PCのみでの運用に切り替えた
○ ほぼ外部計算機の利用が不可能だった
● 一般的に,特に家庭内では通信環境が劇的によくなる方向にあるので,
もう少し緩和したルールや,通信が使える工夫をしても良かったのでは?
○ Wifi 6(e)の利用や,5G通信を前提にするなど
■ HSR本体の通信・計算機のアップデートも検討していくべき
(USB3/wifiカード/Jetson)
○ 松尾研内では,背中PC<->外部計算機間をWifi6で通信
■ ロボットが動作ごとに停止する時間が短くなり,非常に早い
○ 競技会場の設計の工夫が必要になりそう 53
議論・まとめ
54
研究の全体像
ロボットが動作することで蓄積されるオフラインデータから,
多様な環境・タスクに適応できる制御方策の学習手法を開発し,
スケール可能なサービスロボットシステムを構築する方法の体系化を目指す
55
これまでの研究を踏まえた考察
オフラインに蓄積されたデモは,深層強化学習を使って
制御方策の学習する際の強い教師信号(事前知識)になりうる
● 多様なタスク・環境に適応するためには多様なデータが必要
そのためには
①実応用を考慮したサンプル効率の高い
 オフライン方策学習アルゴリズムの開発
②データ収集と方策の学習の
 スケールアップのためのシステム設計
              の両方が必要
56
遠隔操作を用いたスケールアップ
遠隔操作のデータは方策学習において(near-)optimalなデータセットになる
● 遠隔操作を用いることで,学習した方策が失敗した場合にも,
人間による介入によってサービスを継続して提供可能
○ 実世界でのビジネスに適している
● より多くのデータを集めれば,
学習された自動の方策の質が向上
○ 実世界での制約は人間の作業量
● 並列のデプロイ(サービス提供)が可能
○ ウェブサービスに似ている
57
※「2020年度キオクシア奨励研究」として VRによる実機遠隔操作システムを構築(博士課程 1年次)
ここ2年ぐらいで(超)高速・リアルなレンダリング・物理計算をサポートし
ロボットシステムと簡単に統合できるシミュレータ技術が出てきている
● 例)NVIDIA Omniverse (+Isaac Sim)
● シミュレータで多様なデータを生成し,ベースとなる認識や制御の学習することでロ
バスト性を担保→実世界にデプロイして得られるデータからfine-tune
● 逆に,リアルから得られるデータでシミュレータの設定をチューニング
○ Real2sim2real2sim2real...ができると良い
● 松尾研では現在WRSお片付けタスクを
Omniverse上に移行する作業中
ゲーム・シミュレータ技術が重要
Realisticなシミュレータとsim2real転移
58
まとめ
● オフラインデータセットは効率的な制御方策の学習に役立ちうる
○ サービスロボティクスに適した性質
● オフラインのデータを活用する研究の実世界での検証が必要
○ MLの研究では見逃されている点がたくさんある
● サービスロボティクスの実用化のためには,データ収集とモデルの学習の
スケールアップが鍵になる
○ 例:シミュレーション技術とHuman-in-the-loop (遠隔操作)
連絡先: matsushima@weblab.t.u-tokyo.ac.jp
59

More Related Content

PDF
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
【メタサーベイ】Video Transformer
PDF
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
【メタサーベイ】Video Transformer
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜

What's hot (20)

PDF
Transformer メタサーベイ
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
PDF
画像生成・生成モデル メタサーベイ
PDF
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
PDF
生成モデルの Deep Learning
PPTX
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
PPTX
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
PPTX
強化学習 DQNからPPOまで
PDF
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
PDF
Deep Learningによる超解像の進歩
PPTX
3次元計測とフィルタリング
PPTX
猫でも分かるVariational AutoEncoder
PDF
【DL輪読会】A Path Towards Autonomous Machine Intelligence
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
PPTX
モデルアーキテクチャ観点からの高速化2019
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PDF
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
Transformer メタサーベイ
SSII2022 [OS3-02] Federated Learningの基礎と応用
畳み込みニューラルネットワークの高精度化と高速化
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
画像生成・生成モデル メタサーベイ
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
生成モデルの Deep Learning
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
強化学習 DQNからPPOまで
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Deep Learningによる超解像の進歩
3次元計測とフィルタリング
猫でも分かるVariational AutoEncoder
【DL輪読会】A Path Towards Autonomous Machine Intelligence
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
【DL輪読会】Scaling Laws for Neural Language Models
モデルアーキテクチャ観点からの高速化2019
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
Ad

Similar to SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて (20)

PDF
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
PDF
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
PDF
松尾研のご紹介
PDF
IROS2020 survey
PPTX
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
PDF
Robotpaper.Challenge 2019-08
PPTX
[DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics
PDF
NEDO特別講座_画像処理・AI技術活用コース_後編
PPTX
ISS2018 seminar
PDF
Learning to Navigate in Complex Environments 輪読
PDF
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
PPTX
A Generalist Agent
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
PDF
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
PDF
RobotPaperChallenge 2019-07
PDF
効率的学習 / Efficient Training(メタサーベイ)
PPTX
[DL輪読会]Neural Ordinary Differential Equations
PPTX
CCSE2019 TIS - 自律移動サービスロボットの地図とデータモデルの共通化への取り組み
PDF
実社会・実環境におけるロボットの機械学習
PPTX
全脳関西編(松尾)
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
松尾研のご紹介
IROS2020 survey
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
Robotpaper.Challenge 2019-08
[DL輪読会]TossingBot: Learning to Throw Arbitrary Objects with Residual Physics
NEDO特別講座_画像処理・AI技術活用コース_後編
ISS2018 seminar
Learning to Navigate in Complex Environments 輪読
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
A Generalist Agent
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
RobotPaperChallenge 2019-07
効率的学習 / Efficient Training(メタサーベイ)
[DL輪読会]Neural Ordinary Differential Equations
CCSE2019 TIS - 自律移動サービスロボットの地図とデータモデルの共通化への取り組み
実社会・実環境におけるロボットの機械学習
全脳関西編(松尾)
Ad

More from SSII (20)

PDF
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
PDF
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PDF
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
PDF
SSII2022 [OS2-01] イメージング最前線
PDF
SSII2022 [OS1-01] AI時代のチームビルディング
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
PDF
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
PDF
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
PDF
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
PDF
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
PDF
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
PDF
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
PDF
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
PDF
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-02] まち全体のインフラや人流をサステナブルに計測する
SSII2021 [OS1-01] 水産養殖 x IoT・AI ~持続可能な水産養殖を実現するセンシング/解析技術~

SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて