SlideShare a Scribd company logo
©2020 SenseTime. All Rights Reserved.
TPNet:
Trajectory Proposal Network for Motion Prediction
第三回 全日本コンピュータビジョン勉強会(後編)
2020年7月18日
@yumash3
©2020 SenseTime. All Rights Reserved. 1
自己紹介
名前: 篠原 祐真 (Twitter: yumash3)
所属: SenseTime Japan @東京
興味: CV全般, NLP勉強中
©2020 SenseTime. All Rights Reserved. 2
論文情報
©2020 SenseTime. All Rights Reserved. 3
概要
 自動運転向けの歩行者と四輪の行動予測をする2ステージ手法を提案
o ステージ1: 候補軌跡の生成
o ステージ2: 候補軌跡の絞り込みと補正
 交通ルール等の事前知識を柔軟に導入できるところがポイント
Argoverse での予測結果
©2020 SenseTime. All Rights Reserved. 4
先行研究は大きく2種類
 古典的手法
o キネマティクスを用いたモデルやカルマンフィルタベースのモデルなど
o 入力ノイズに弱く、頑健にしようとすると反応性能が悪くなる
 End-to-End DNN
o End-to-end で直接将来位置を予測
o ヒートマップを出力する場合が多い
• ヒートマップの分布が広がる場合、適切な軌跡を決めづらい(直進、右折で分布が広がる時など)
o 道路情報を入力しても、交通ルールや物理的制約をモデルに保障させるのは難しい
Image from [1] N. Djuric, et al., Uncertainty-aware Short-term Motion Prediction of Traffic Actors for Autonomous Driving, WACV, 2020.
©2020 SenseTime. All Rights Reserved. 5
先行研究を踏まえて
 古典的手法
o キネマティクスを用いたモデルやカルマンフィルタベースのモデルが多い
o 入力ノイズに弱く、頑健にしようとすると反応性能が悪くなる
 End-to-End DNN
o End-to-end で直接将来位置を予測
o ヒートマップを出力する場合が多い
• ヒートマップの分布が広がる場合、適切な軌跡を決めづらい(直進、右折で分布が広がる時など)
o 道路情報を入力しても、交通ルールや物理的制約をモデルに保障させるのは難しい
Image from [1] N. Djuric, et al., Uncertainty-aware Short-term Motion Prediction of Traffic Actors for Autonomous Driving, WACV, 2020.
学習ベースモデルでノイズ
に頑健&反応性能高い
モデル作れないか
ヒートマップではなく軌跡
の線を出力する
制約を明示的に扱えるような
枠組みにする。
制約の変更に柔軟な枠組み
にもしたい。
©2020 SenseTime. All Rights Reserved. 6
提案手法: 全体像
𝑝 𝑜𝑏𝑠: 対象物体の過去位置
𝑟𝑇 𝑜𝑏𝑠
: (option) 対象物体周辺の道路情報(車線や歩道)を含む鳥瞰図
©2020 SenseTime. All Rights Reserved. 7
提案手法: 全体像
𝑝 𝑜𝑏𝑠: 対象物体の過去位置
𝑟𝑇 𝑜𝑏𝑠
: (option) 対象物体周辺の道路情報(車線や歩道)を含む鳥瞰図
終点位置を推定
終点位置から
候補軌跡を生成
候補軌跡を絞り込み
/補正して予測軌跡
を決定
©2020 SenseTime. All Rights Reserved. 8
First Stage: 終点位置の推定(地図情報がない場合)
1. すべての入力情報はCNNで特徴抽出
o ApolloScape[1]: 過去3秒間、0.5秒間隔で入力
• 対象クラス: vehicle, pedestrian, cyclist
o Argoparse[2]: 過去2秒間、0.1秒間隔で入力
• 対象クラス: vehicle
o 様々な入力に対応できるようCNNを使用
o マップ情報は任意
2. 全結合ネットで終点位置推定(右図の×)
1. ApolloScape: 将来3秒後の位置を推定
2. Argoparse: 将来3秒後の位置を推定
[1] M F. Chang , et al., Argoverse: 3d tracking and forecasting with rich maps, CVPR, 2019.
[2] Y. Ma, et al., Trafficpredict: Trajectory prediction for heterogeneous traffic-agents, AAAI, 2019.
©2020 SenseTime. All Rights Reserved. 9
First Stage: 終点位置の推定(地図情報がある場合)
 地図情報、正確には基準線 (reference line) がある
場合は基準線上に終点があるとして推定
o 多くの車は基準線に沿った動きをするため
 Argoverse[1] では基準線の提供あり
[1] M F. Chang , et al., Argoverse: 3d tracking and forecasting with rich maps, CVPR, 2019.
[2] Y. Ma, et al., Trafficpredict: Trajectory prediction for heterogeneous traffic-agents, AAAI, 2019.
©2020 SenseTime. All Rights Reserved. 10
First Stage: 候補軌跡の生成
 過去位置と推定した終点に対してカーブフィッティング
o シンプルかつ少ないパラメータで軌跡表現が可能
o 実際には2次元のカーブフィッティング
 多様な候補軌跡を生成するためのハイパラ
o Grid size: 6x6 [m]
o Interval: 1 [m]
o 距離変数 𝛾: [-2, -1, 0, 1, 2] [m]
©2020 SenseTime. All Rights Reserved. 11
Second Stage: 候補軌跡の絞り込みと補正
 候補軌跡達の絞り込み
o ネットワークで各軌跡をクラス分類
• 図中の “classification” 部分
• 予測軌跡が good/bad かの2値分類
• GTと予測軌跡が近ければ good
 候補軌跡の補正
o ネットワークで軌跡の移動量を推定
• 図中の “regression” 部分
• 終点位置 (x, y) と 距離変数 𝛾 の移動量を推定
 どちらのネットワークも教師ありで学習
o (右図内のネットワークは一度に学習)
©2020 SenseTime. All Rights Reserved. 12
Second Stage: 事前知識による候補軌跡の再スコアリング
 地図がある場合の処理
 各候補軌跡について、非移動可能領域にある点の
割合でクラス分類のスコアを減衰
非移動可能領域
移動可能領域
非移動可能領域に線
がまたがっている場合は
スコアが減衰される
𝑛𝑒𝑤 𝑠𝑐𝑜𝑟𝑒 = 𝑠𝑐𝑜𝑟𝑒 ∗ 𝑒
−𝑟2
𝜎2
𝑟: 非移動領域にある点の数の割合
𝜎: 減衰率(ハイパラ)
 候補軌跡を削除するのではなく、スコアだけ減衰させること
がポイント
o 削除してしまうと、稀に起こる危険動作の予測ができなくなる
 再スコア後、トップK個の候補軌跡を最終予測として出力
 事前知識を追加する場合はここを拡張すればOK
©2020 SenseTime. All Rights Reserved. 13
提案手法: 全体像(再掲)
𝑝 𝑜𝑏𝑠: 対象物体の過去位置
𝑟𝑇 𝑜𝑏𝑠
: (option) 対象物体周辺の道路情報(車線や歩道)を含む鳥瞰図
終点位置を推定
終点位置から
候補軌跡を生成
候補軌跡を絞り込み
/補正して予測軌跡
を決定
©2020 SenseTime. All Rights Reserved. 14
定量評価
ADE: Average Displacement Error
FDE: Final Displacement Error
WSADE: Weighted Sum of ADE
WSFDE: Weighted Sum of FDE
Why weighted?
Because the trajectories of cars, bicyclist and
pedestrians have different scales in the dataset
Ped: Pedestrian
Veh: Vehicle
Cyc: Cyclist
ApolloScapeでの結果
→ Good Accuracy
S-LSTM: A. Alahi, et al., Social lstm: Human trajectory prediction in crowded spaces , CVPR, 2016.
S-GAN: A. Gupta, et al., Social gan: Socially acceptable tra- jectories with generative adversarial networks, CVPR, 2018.
StartNet: Y. Zhu, et al., Starnet: Pedestrian trajectory prediction using deep neural network in star topology, arXiv:1906.01797, 2019
©2020 SenseTime. All Rights Reserved. 15
定性評価
Argoverseでの結果
初期終点は間違えたが、
ステージ2でうまく補正
できている
左折/右折/直進をきちんと
表現可能
(斜め前などはなし)
基本的には、
非移動領域には行かない
©2020 SenseTime. All Rights Reserved. 16
デモ動画
Argoverseでの結果
©2020 SenseTime. All Rights Reserved. 17
今後の課題
 ウインカーや信号などの知識導入
 SafetyとDiversityのトレードオフの扱い方の向上
o 安全で一般的な軌跡予測と、(危険な軌跡も含む)多様な軌跡予測は今はトレードオフ
©2020 SenseTime. All Rights Reserved. 18
まとめ
 自動運転向けの歩行者と四輪の行動予測をするTPNetをご紹介
 特徴
o 2ステージ制で、事前知識の導入が容易
• ステージ1: 候補軌跡の生成
• ステージ2: 候補軌跡の絞り込みと補正
o 入力が過去軌跡だけでも推定可能
• 地図など追加入力にも対応
o 右左折など分岐予測も表現可能
 今後の可能性
o ウインカーや信号などの知識導入
o SafetyとDiversityのトレードオフの扱い方の向上
©2020 SenseTime. All Rights Reserved. 19
おわりに
SenseTime Japan ではインターン募集しています
興味ある方はこちらまで: recruit@sensetime.jp

More Related Content

PDF
ナビゲーションサービスにおける交通規制対策の横浜マラソンへの適用(20160809_第36回交通工学研究会)
PDF
工学院大学 オープンカレッジ 鉄道講座 「乗換検索サービスとビッグデータがもたらす公共交通の変革」
PDF
object detection with lidar-camera fusion: survey (updated)
PDF
SIGSPATIAL 2020 参加報告資料
PDF
【つくばチャレンジ2020 LT2大会】KARAKAZE産学隊2020
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
PDF
object detection with lidar-camera fusion: survey
PDF
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
ナビゲーションサービスにおける交通規制対策の横浜マラソンへの適用(20160809_第36回交通工学研究会)
工学院大学 オープンカレッジ 鉄道講座 「乗換検索サービスとビッグデータがもたらす公共交通の変革」
object detection with lidar-camera fusion: survey (updated)
SIGSPATIAL 2020 参加報告資料
【つくばチャレンジ2020 LT2大会】KARAKAZE産学隊2020
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
object detection with lidar-camera fusion: survey
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)

Similar to TPNet: Trajectory Proposal Network for Motion Prediction (20)

PPTX
Pruning filters for efficient conv nets
PDF
Dataset for Semantic Urban Scene Understanding
PDF
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
PDF
20181130 lidar object detection survey
PPTX
Crowd Counting & Detection論文紹介
PPTX
03. artisocレシピブック ダイクストラ法を使って、最短経路を自動的に探索しよう
PPTX
深層強化学習による自動運転車両の経路探索に関する研究
PPTX
監視映像システムのための複数センサを活用したイベントドリブン型適応レート制御の性能評価
PPTX
修士論文
PDF
2016 summercamp SysML講習会
PDF
20170823【GWゼミ #2】コンピュータビジョンの基礎
PDF
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
PDF
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
PDF
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
PPTX
GCNによる取引関係グラフからの企業の特徴量抽出
PDF
つくばチャレンジ2020 第二回LT大会発表資料 : つくばじゃないVTC
PDF
2020年1月25日 AITC AT勉強会 成果発表会(2) aiCATs
PDF
Icra2020 v2
PDF
Contest 02 presentation (RT-Middleware Contest of SI2017)
Pruning filters for efficient conv nets
Dataset for Semantic Urban Scene Understanding
単一の深層学習モデルによる不確実性の定量化の紹介 ~その予測結果正しいですか?~
20181130 lidar object detection survey
Crowd Counting & Detection論文紹介
03. artisocレシピブック ダイクストラ法を使って、最短経路を自動的に探索しよう
深層強化学習による自動運転車両の経路探索に関する研究
監視映像システムのための複数センサを活用したイベントドリブン型適応レート制御の性能評価
修士論文
2016 summercamp SysML講習会
20170823【GWゼミ #2】コンピュータビジョンの基礎
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
GCNによる取引関係グラフからの企業の特徴量抽出
つくばチャレンジ2020 第二回LT大会発表資料 : つくばじゃないVTC
2020年1月25日 AITC AT勉強会 成果発表会(2) aiCATs
Icra2020 v2
Contest 02 presentation (RT-Middleware Contest of SI2017)
Ad

TPNet: Trajectory Proposal Network for Motion Prediction

  • 1. ©2020 SenseTime. All Rights Reserved. TPNet: Trajectory Proposal Network for Motion Prediction 第三回 全日本コンピュータビジョン勉強会(後編) 2020年7月18日 @yumash3
  • 2. ©2020 SenseTime. All Rights Reserved. 1 自己紹介 名前: 篠原 祐真 (Twitter: yumash3) 所属: SenseTime Japan @東京 興味: CV全般, NLP勉強中
  • 3. ©2020 SenseTime. All Rights Reserved. 2 論文情報
  • 4. ©2020 SenseTime. All Rights Reserved. 3 概要  自動運転向けの歩行者と四輪の行動予測をする2ステージ手法を提案 o ステージ1: 候補軌跡の生成 o ステージ2: 候補軌跡の絞り込みと補正  交通ルール等の事前知識を柔軟に導入できるところがポイント Argoverse での予測結果
  • 5. ©2020 SenseTime. All Rights Reserved. 4 先行研究は大きく2種類  古典的手法 o キネマティクスを用いたモデルやカルマンフィルタベースのモデルなど o 入力ノイズに弱く、頑健にしようとすると反応性能が悪くなる  End-to-End DNN o End-to-end で直接将来位置を予測 o ヒートマップを出力する場合が多い • ヒートマップの分布が広がる場合、適切な軌跡を決めづらい(直進、右折で分布が広がる時など) o 道路情報を入力しても、交通ルールや物理的制約をモデルに保障させるのは難しい Image from [1] N. Djuric, et al., Uncertainty-aware Short-term Motion Prediction of Traffic Actors for Autonomous Driving, WACV, 2020.
  • 6. ©2020 SenseTime. All Rights Reserved. 5 先行研究を踏まえて  古典的手法 o キネマティクスを用いたモデルやカルマンフィルタベースのモデルが多い o 入力ノイズに弱く、頑健にしようとすると反応性能が悪くなる  End-to-End DNN o End-to-end で直接将来位置を予測 o ヒートマップを出力する場合が多い • ヒートマップの分布が広がる場合、適切な軌跡を決めづらい(直進、右折で分布が広がる時など) o 道路情報を入力しても、交通ルールや物理的制約をモデルに保障させるのは難しい Image from [1] N. Djuric, et al., Uncertainty-aware Short-term Motion Prediction of Traffic Actors for Autonomous Driving, WACV, 2020. 学習ベースモデルでノイズ に頑健&反応性能高い モデル作れないか ヒートマップではなく軌跡 の線を出力する 制約を明示的に扱えるような 枠組みにする。 制約の変更に柔軟な枠組み にもしたい。
  • 7. ©2020 SenseTime. All Rights Reserved. 6 提案手法: 全体像 𝑝 𝑜𝑏𝑠: 対象物体の過去位置 𝑟𝑇 𝑜𝑏𝑠 : (option) 対象物体周辺の道路情報(車線や歩道)を含む鳥瞰図
  • 8. ©2020 SenseTime. All Rights Reserved. 7 提案手法: 全体像 𝑝 𝑜𝑏𝑠: 対象物体の過去位置 𝑟𝑇 𝑜𝑏𝑠 : (option) 対象物体周辺の道路情報(車線や歩道)を含む鳥瞰図 終点位置を推定 終点位置から 候補軌跡を生成 候補軌跡を絞り込み /補正して予測軌跡 を決定
  • 9. ©2020 SenseTime. All Rights Reserved. 8 First Stage: 終点位置の推定(地図情報がない場合) 1. すべての入力情報はCNNで特徴抽出 o ApolloScape[1]: 過去3秒間、0.5秒間隔で入力 • 対象クラス: vehicle, pedestrian, cyclist o Argoparse[2]: 過去2秒間、0.1秒間隔で入力 • 対象クラス: vehicle o 様々な入力に対応できるようCNNを使用 o マップ情報は任意 2. 全結合ネットで終点位置推定(右図の×) 1. ApolloScape: 将来3秒後の位置を推定 2. Argoparse: 将来3秒後の位置を推定 [1] M F. Chang , et al., Argoverse: 3d tracking and forecasting with rich maps, CVPR, 2019. [2] Y. Ma, et al., Trafficpredict: Trajectory prediction for heterogeneous traffic-agents, AAAI, 2019.
  • 10. ©2020 SenseTime. All Rights Reserved. 9 First Stage: 終点位置の推定(地図情報がある場合)  地図情報、正確には基準線 (reference line) がある 場合は基準線上に終点があるとして推定 o 多くの車は基準線に沿った動きをするため  Argoverse[1] では基準線の提供あり [1] M F. Chang , et al., Argoverse: 3d tracking and forecasting with rich maps, CVPR, 2019. [2] Y. Ma, et al., Trafficpredict: Trajectory prediction for heterogeneous traffic-agents, AAAI, 2019.
  • 11. ©2020 SenseTime. All Rights Reserved. 10 First Stage: 候補軌跡の生成  過去位置と推定した終点に対してカーブフィッティング o シンプルかつ少ないパラメータで軌跡表現が可能 o 実際には2次元のカーブフィッティング  多様な候補軌跡を生成するためのハイパラ o Grid size: 6x6 [m] o Interval: 1 [m] o 距離変数 𝛾: [-2, -1, 0, 1, 2] [m]
  • 12. ©2020 SenseTime. All Rights Reserved. 11 Second Stage: 候補軌跡の絞り込みと補正  候補軌跡達の絞り込み o ネットワークで各軌跡をクラス分類 • 図中の “classification” 部分 • 予測軌跡が good/bad かの2値分類 • GTと予測軌跡が近ければ good  候補軌跡の補正 o ネットワークで軌跡の移動量を推定 • 図中の “regression” 部分 • 終点位置 (x, y) と 距離変数 𝛾 の移動量を推定  どちらのネットワークも教師ありで学習 o (右図内のネットワークは一度に学習)
  • 13. ©2020 SenseTime. All Rights Reserved. 12 Second Stage: 事前知識による候補軌跡の再スコアリング  地図がある場合の処理  各候補軌跡について、非移動可能領域にある点の 割合でクラス分類のスコアを減衰 非移動可能領域 移動可能領域 非移動可能領域に線 がまたがっている場合は スコアが減衰される 𝑛𝑒𝑤 𝑠𝑐𝑜𝑟𝑒 = 𝑠𝑐𝑜𝑟𝑒 ∗ 𝑒 −𝑟2 𝜎2 𝑟: 非移動領域にある点の数の割合 𝜎: 減衰率(ハイパラ)  候補軌跡を削除するのではなく、スコアだけ減衰させること がポイント o 削除してしまうと、稀に起こる危険動作の予測ができなくなる  再スコア後、トップK個の候補軌跡を最終予測として出力  事前知識を追加する場合はここを拡張すればOK
  • 14. ©2020 SenseTime. All Rights Reserved. 13 提案手法: 全体像(再掲) 𝑝 𝑜𝑏𝑠: 対象物体の過去位置 𝑟𝑇 𝑜𝑏𝑠 : (option) 対象物体周辺の道路情報(車線や歩道)を含む鳥瞰図 終点位置を推定 終点位置から 候補軌跡を生成 候補軌跡を絞り込み /補正して予測軌跡 を決定
  • 15. ©2020 SenseTime. All Rights Reserved. 14 定量評価 ADE: Average Displacement Error FDE: Final Displacement Error WSADE: Weighted Sum of ADE WSFDE: Weighted Sum of FDE Why weighted? Because the trajectories of cars, bicyclist and pedestrians have different scales in the dataset Ped: Pedestrian Veh: Vehicle Cyc: Cyclist ApolloScapeでの結果 → Good Accuracy S-LSTM: A. Alahi, et al., Social lstm: Human trajectory prediction in crowded spaces , CVPR, 2016. S-GAN: A. Gupta, et al., Social gan: Socially acceptable tra- jectories with generative adversarial networks, CVPR, 2018. StartNet: Y. Zhu, et al., Starnet: Pedestrian trajectory prediction using deep neural network in star topology, arXiv:1906.01797, 2019
  • 16. ©2020 SenseTime. All Rights Reserved. 15 定性評価 Argoverseでの結果 初期終点は間違えたが、 ステージ2でうまく補正 できている 左折/右折/直進をきちんと 表現可能 (斜め前などはなし) 基本的には、 非移動領域には行かない
  • 17. ©2020 SenseTime. All Rights Reserved. 16 デモ動画 Argoverseでの結果
  • 18. ©2020 SenseTime. All Rights Reserved. 17 今後の課題  ウインカーや信号などの知識導入  SafetyとDiversityのトレードオフの扱い方の向上 o 安全で一般的な軌跡予測と、(危険な軌跡も含む)多様な軌跡予測は今はトレードオフ
  • 19. ©2020 SenseTime. All Rights Reserved. 18 まとめ  自動運転向けの歩行者と四輪の行動予測をするTPNetをご紹介  特徴 o 2ステージ制で、事前知識の導入が容易 • ステージ1: 候補軌跡の生成 • ステージ2: 候補軌跡の絞り込みと補正 o 入力が過去軌跡だけでも推定可能 • 地図など追加入力にも対応 o 右左折など分岐予測も表現可能  今後の可能性 o ウインカーや信号などの知識導入 o SafetyとDiversityのトレードオフの扱い方の向上
  • 20. ©2020 SenseTime. All Rights Reserved. 19 おわりに SenseTime Japan ではインターン募集しています 興味ある方はこちらまで: recruit@sensetime.jp