Ultra96ボードでYOLOを高速化

Ultra96ボードで
YOLOを高速化
奥畑宏之 (@HiroyukiOkuhata)

インターフェース2019年1月号
第3部最強FPGAボードで人工知能カリカリ画像認識
第1章組み込み人工知能にピッタリ!最強Arm FPGAボード「Ultra96」
64ビットCortex-A/GPU/FPGAチップ搭載で3万円
第2章最強ArmコアFPGAボードUltra96の基本的な使い方
開発環境の準備からLinux&My回路生成まで
第3章はじめての行列演算ハードウェア化
画像認識人工知能高速化のために
第4章映像認識人工知能のカリカリ高速化に挑戦
画像処理&行列計算チューンナップ技法の研究
第5章リアルタイム物体検出に挑戦
精度よりリアルタイム性がほしいときのために

発表内容
• Ultra96ボード
• YOLO
• 開発フロー
• PetaLinux
• Vivado HLS
• PSとPL
• PLを用いた高速化
• HLSのクロック周波数設定
• キャッシュコヒーレンシ
• PL以外での高速化
• NEON
• GPU Mali

Ultra96ボードの概要
• XCZU3EG (PS + PL)
• Cortex-A53 1.5GHz
• Cortex-R5 600MHz
• Mali-400 MP2 667MHz
• 16nm UltraScale+ PL
• Mini-Display Port
• Wi-Fi/Bluetooth
• 2GB LPDDR4
• USB 3.0
• 拡張コネクタ
お手頃価格：29,800円(税別)

YOLO v3 によるオブジェクトの識別・検出
入力画像結果画像
位置と種別を正しく
識別・検出
YOLOとは
• リアルタイム物体識別および検出のAIアルゴリズム
• ニューラルネットDarknetを用いる
• バージョン3 (v3) が 2018年4月に公開

YOLO 処理時間比較
213.6
115.9
18.1 9.14
0
50
100
150
200
250
ラズパイ3 Ultra96ボード
(高速化前)
Ultra96ボード
(高速化後)
Core i7 4GHz
YOLOv3で画像1枚(608×608)の推論にかかる時間 (秒)

YOLO 処理時間内訳
• gprofによる推論処理
のプロファイリング
• gemm (行列乗算)が
処理時間の91%を占
める
浮動小数点の行列乗算
をPLでオフロード

Ultra96 開発フロー概略
・Vivado HLS & Vivado で PLの設計
・OSはPetaLinuxを使う

PetaLinux Build Guide for Ultra96
・このWebページの通り進めると、お手軽に動く

PetaLinuxツール
• ビルド時間
• 少し変更してカーネルビルドするのに10分強 (i7-4790K @ 4.00GHz)
• ディスク容量
• ビルド後のプロジェクトフォルダ 44GB
• aptがほしい
• 一応、パッケージ管理システムDNFが使える (パッケージは少ない)
• 記事ではバージョン2018.02を使用
• Ubuntu16.04でないとうまく動かない
• 最新バージョンは2018.03だが
• Ultra96用のBSPがまだない
• 2018.02のBSPを使うとsystem-top.dtb周りでエラー
• 試される忍耐力

Vivado HLS
• gemm (行列乗算) のC記述をVivado HLSで高位合成
• Xilinxアプリケーションノートを流用
• 行列サイズ32×32の単精度浮動小数点(FP32)の乗算
• AXI4-Streamで入出力
• 高位合成の利点 → アーキテクチャの探索
• 行列のサイズ：32×32, 64×64, 128×128
• 演算の種類：C=A×B, C=A×B+C
• データバス幅
• 動作周波数とサイクル数
• 注意点
• 生成回路のサイクル数、回路規模

PSとPLの接続
• AXI4-Stream ⇔ AXIバス
• Xilinx AXI DMA IP を利用
• Linuxメモリの連続領域確保
• udmabuf (@ikwzmさん) を利用
udmabuf AXI DMA IP 行列乗算IP
PS PL
YOLO
(darknet)
• 接続してUltra96でYOLOを実行
処理時間：115.9秒

高速化
1. Vivado HLSのクロック周波数設定
2. キャッシュコヒーレンシ
3. AXIバス幅の拡張
4. ダブルバッファリング

高速化 1. Vivado HLSのクロック周波数設定
• Vivado HLS 設定クロック周波数≠生成回路の動作可能周波数
• 条件厳しめに高位合成される印象
• Uncertainty 12.5%が付加
• 余裕のありすぎる回路
• 逆にMETしない場合もあるらしい
• クロック周波数とサイクル数のトレードオフ
• 自動で探索してほしい (QuartusIIのDSEみたいな)
• 探索結果
• Vivado HLS の設定：150MHz
• Vivadoの設定：299MHz

高速化 2. キャッシュコヒーレンシ
• ハードウェアによるキャッシュ同期
• 以前のZynqではACPを利用
• AR#66643
Zynq UltraScale+ MPSoCのACPインターフェイスでは、次のキャッ
シュライン対応のトランザクションのみが許容されます。
(中略)
ACPの代わりに、コヒーレンシと共に幅広いAXIトランザクションがサ
ポートされるコヒーレンシHPCポートの使用をご検討ください。
• デフォルト設定ではHPCはキャッシュコヒーレンシではない
• AR#69446
• AXIバスのAxCACHE, AxPROTを適切に設定
• ブート時にBroadcasting Inner Shareableとする
• デバイスツリーの設定でdma-coherentのプロパティを追加

高速化 3. AXIバス幅の拡張
• AXI4-Streamのデータバス幅を32bitから128bitに拡張
• サイクル数
• YOLO実行時間
• 22.7秒→21.4秒
• サイクル数は削減できたが、全体の処理時間に占める割合は小
さかった
32bit 128bit
データ転送サイクル数 12,289 5,122
行列乗算サイクル数 4,549 4,549
総サイクル数 16,846 9,679

高速化 4. ダブルバッファリング
• Linuxメモリ内のコピーとDMA転送を同時に行う
行列B
行列C
①コピー
行列乗算IP
①DMA転送
②DMA転送
②コピー
DMAバッファ
(udmabuf)
• YOLO実行時間
• 21.4秒→18.1秒
• スキャッタギャザDMAを用いれば必要ないかも

高速化による時間短縮まとめ
高速化 YOLO実行時間 (秒)
行列サイズ32×32, クロック100MHz 115.9
行列サイズ64×64, クロック299MHz 46.2
キャッシュコヒーレンシ On 22.7
AXIバス幅 32bit → 128bit 21.4
ダブルバッファリング 18.1

リアルタイム
画像認識
• darknetをOpenCV付
きでコンパイル
• Tiny YOLO v3で2fps
• X Window Systemの
表示が遅い

PL以外での高速化
• NEONによる高速化
• GPU Maliによる高速化

NEONによるYOLO高速化
• NEONとは
• ARMアーキテクチャの64ビット, 128ビットのSIMD命令セット
• NEONを用いたDarknet実装
• NNPACK for Darknet (ライブラリ)
• https://github.com/digitalbrain79/NNPACK-darknet
• darknet-nnpack
• https://github.com/digitalbrain79/darknet-nnpack
• Ultra96でビルド
• darknet-nnpackのReadme.mdの通り
• clangは不要だった
• Ultra96で実行
YOLO v3 19.4 秒
YOLO v3 tiny 1.03 秒
速い...

GPU Maliによる高速化(の目論見)
• Mali-400 MP
• OpenCLが使えない
• OpenGL Extentionが使えない
→ OpenGL ES 2.0 で頑張る
• シェーディング言語(GLSL)で記述
バーテックス
シェーダー
フラグメント
シェーダー
画面描画
GLSL GLSL
通常頂点計算テクスチャ計算描画
GPGPU 使わない演算 glReadPixelsで結果取得

Ultra96でMaliの
動作確認
• Xilinx UG1209 チュート
リアルアプリ「tricube」
がそのまま動作する

Ultra96ボードでYOLOを高速化

More Related Content

What's hot (20)

Similar to Ultra96ボードでYOLOを高速化 (20)

Ultra96ボードでYOLOを高速化