[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning

植物生理学会データベース講習会
2021年3月14日(日)10:30～11:15 ：オンライン発表
植物表現型画像解析のための
手作業注釈加速化手法とActive Learning
神沼英里
東京医科歯科大学医療データ科学推進室特任講師
理化学研究所環境資源科学研究センター合成ゲノミクス研究グループ客員研究員

自己紹介：神沼英里(ライフサイエンスAI専門）
研究発表(2010～2021) https://researchmap.jp/kaminuma
(Kaminuma et al., NAR 2010)
1. NGS Sequence
Annotation Pipeline on NIG
Supercomputer
2. Citrus SNP Genotyping
Array Design
3. Machine Learning
Modeling Competition
(Shimizu et al., Acta H.2016)
http://p.ddbj.nig.ac.jp/
(Kaminuma et al., Genes Genet Syst. 2020)
4. BioSample Tag Prediction
Accacactggtactgagacacggacca
gactcctacgggaggcagcagtgagga
atattggacaatggagggaactctgatcc
agccatgccgcgtgcaggaagactgcc
ctatgggttgtaaactgcttttatacaaga
agaataagagatacgtgtatcttgatgac
ggtattgtaagaataagcaccggctaact
ccgtgccagcagccgcggtaatacgga
gggtgcaagcgttatccggaatcattggg
tttaaagggtccgtaggcggattaataag
tcagtggtgaaagtctgcagcttaactgt
agaattgccattgatactgttagtcttgaa
ttattatgaagtagttagaatatgtagtgt
agcggtgaaatgcatagatattaca
sequence
tagging
BioSample
annotations
INSDC FlatFile
Format
①DNA-based
smart tagging tools
DNA sequence
②Image-based smart
tagging tools
Image
image
tagging
Collaborated with Kashima Lab. (Kyoto Univ. )
Collaborated with NARO Institute of
Fruit Tree Science
Ongoing projects.
4. Generating Texts of Gene Definition from Sequence
Inputs using an NLP-based AI technology
BLEU score=0.28 (100 test sequences)
(Kamnuma et al, IIBMP2020)

目次
１. 植物表現型画像注釈AI(深層学習)の研究紹介
２. データアノテーション環境調査結果の紹介
[1]AI開発工程とアノテーションの課題
[2]データアノテーション環境の種類
[3]Active Learningの仕組み
[4]推薦環境のデモ

浙江大学、米アイオワ(PMID:33450839)
■トウモロコシと雑草の検出
背景：植物表現型画像解析（ AI・機械学習）の発表が増えている
■リアルタイムでシロイヌナズナ
葉数カウント
米ジョージア大(PMID:33287100)
2020年12月
2021年1月
■UAVを使ったカボチャの検出
独オスナブリュック大
(PMID:33385474)
2020年12月
[1]植物画像AI研究

問題：ロボット計測装置(RIPPS)による植物表現型画像データの大量生成
＊ロボット計測技術の進歩により、実験研究データや圃場データが大量生成可能に
RIPPS(Fujita et al, 2018;PMID:30010970)
=理研CSRSで開発された植物生長過程を画像計測する
植木鉢搬送ロボット
計測カメラの撮影画像
120個体の時系列Time-Lapse画像が生成される
→ 大量の画像データ生成
→ 深層学習(AI)モデルの適用可能に

■多視点画像計測はRIPPSの特徴の1つ
RIPPS画像計測の優位性
＝複数のカメラでの多視点画像撮影が可能
多視点画像の植物表現型画像注釈AIも構築可能
仰角90度のカメラ
の撮影画像
仰角25度の
カメラの撮影画像
https://jp.mathworks.com/help/
方位角
仰角
3次元カメラ配置（撮影視点）の専門用語
RIPPSでは多視点の植物個体画像も計測可能

仮説：多視点画像計測で植物表現型画像注釈AIの精度が向上する？
多視点画像を用いると植物表現型の画像注釈AIの精度も向上する可能性あり？
The WILDTRACK Multi-Camera Person Dataset
(Chavdarova et al, CVPR2018, arXiv:1707.09299)
■多視点画像の人物データセット
（EPFL:スイス連邦工科大学）
※ResNet18モデルの結果
単視点より多視点画像
でAI注釈精度向上

■ RIPPS計測画像のAIモデル入力3条件（単視点2条件、多視点1条件）
実験デザイン：植物表現型画像注釈における多視点画像での
生長ステージ分類
タスク：Arabidopsis個体の
生長ステージの分類
① ロゼット葉のみ
② ロゼット葉＋花茎
(Boyes et al, Plant Cell, 2001)
例：A Growth Stage of Arabidopsis Col-0
Monocular 2 (EL25°)
Monocular 1(EL90°)
Multi-view
■ 学習条件
＊画像枚数＝Train:392枚、Test:70枚
＊AIモデル(ImageNet学習済ResNet50V2)を転移学習

実験結果：Arabidopsis個体生長ステージの画像分類AIは
単視点よりも多視点が精度高結果
単視点画像多視点画像
EL90° EL25° EL90°+ EL25°
Train 0.61 0.61 0.85 (+0.24)
Test 0.69※ 0.69※ 0.80 (+0.11)
■ 多視点・単視点AIモデルでのナズナ生長ステージ分類結果（評価尺度:Accuracy）
※Test>Trainは学習データ不足を意味する
多視点画像入力でAIモデルの
分類精度が１1％向上した。
（植物個体の多視点画像情報は
単視点画像情報よりInformative？）
→ 今後データを増やして確認

目次
１.植物表現型画像注釈AI(深層学習)の研究紹介
２. データアノテーション環境調査結果の紹介
[1]AI開発工程とアノテーションの課題
[2]データアノテーション環境の種類
[3]Active Learningの仕組み
[4]推薦環境のデモ
今日の本題はこちら！

背景：AI開発工程とアノテーションの課題
■ AI開発工程
データ
収集
データ
意味付け
AIモデル
学習・評価
AIモデル
運用
[2] AI構築環境開発
アノテーション工程
「ロゼット葉
＋花茎」
＊「アノテーション工程」は手作業でコスト高
＊「AIモデル学習工程」は実験研究者には敷居が高い
課題

動機：実験研究者のAI研究加速化
①アノテーション自動化機能（作業時間削減）
②AIモデル学習への容易な接続機能（近年AIのローコード開発、ノーコード開発
の環境が出てきている。AI研究者の全面的
なサポートなしでも作業可になる?）
■AI開発工程の課題
＊データアノテーション環境を調査
＊実験研究者向けのAI開発プロトコルを確立したい

データアノテーション環境の種類
■ データアノテーションの作業環境・作業者・コスト・品質・負荷
種
類
外注・内製作業環境作業者作業管理発注
コスト
データ品質発注
負荷
１完全外注
（請負会社）
請負会社
内
請負会社内
（国内例：ベトナ
ム、フィリピンの
提携会社作業者）
請負会社高高 ※
2 半外注
（請負会社）
クラウド請負会社へ発注請負会社
＋
クラウド
中高～低 ※※※
3 半外注
（ギグワーカ）
クラウドギグワーカへ発注クラウド中～安低 ※※※
4 内製クラウド自チームの
作業者
クラウド安高 ※
5 内製内製自チームの
作業者
管理環境な
し
ーーー高ーーー
世界の潮流はクラウドでのデータアノテーション管理

■ V7Lab （英ロンドンのベンチャー） https://www.v7labs.com/
■ V7の特徴
＊画像アノテーションの自動処理ツール有り。
＊Team Membersでチームとして作業可（アノテータの参加は無料）
■最低金額プラン＝月額１５０＄
＊1カ月に100時間のアノテーション
もしくは 10,000自動アノテーション
＊5万枚の画像を処理可能
＊ビデオの長さは60秒まで
■ Smart Labeling 機能（2頂点）
＊矩形の頂点（左上、右下）をマウスで指定
＊自動でポリゴン（頂点と線）で物体を囲む
＊ラベリング自動化で作業時間を短縮
推薦データアノテーション環境① V7Labs
↑前に花茎が重なるも問題なしに自動輪郭抽出

V7labsのワーカ管理機能
■同一画面でワーカ管理
チームメンバーを追加無料で登録可
①ワーカ＝作業者
②ワークフォースマネジャー＝管理者
■データセット単位で作業管理
＊Annotators、Reviewersを設定可能
＊日付での作業管理画像引用
https://www.
v7labs.com/

V7labsのAI学習への接続機能（外部クラウドへ）
■独自のクラウドAI機能は整備中。現時点はV7LabsへのAPIアクセス機能のみ提供。
＊物体検出モデルはPyTorchのDetectron2モデル等を提供。＊APIキーによりV7Labsのアノテーションにアクセス可能。
無償のGoogle Colab環境
を使い、AIモデルの構築
テストを実施。

■ Amazon SageMaker Ground Truth (GroundTruth) = クラウドAI業界で有名
＊6種類の組み込みラベリングツール
[画像分類]、[物体検出]、[Semantic Segmentation]
[ラベル検証]、[文章分類]、[固有表現抽出]
＊ワーカーの連携・管理機能
＊Smart Labeling機能で最大７０％のコスト削減
＊SageMaker内でのAIモデル構築機能
＊従量課金（利用額を見積りにくい）
推薦データアノテーション環境②
Amazon SageMaker Ground Truth
https://pages.awscloud.com/rs/112-TZM-
766/images/Amazon%20SageMaker%20Ground%20Truth.pdf
https://aws.amazon.com/jp/sagemaker/groundtruth/

Ground TruthとはAI学習データの「正解ラベル」
■アノテーションツール名の意味
Amazon SageMaker Ground Truth
＊SageMakerの機能
https://aws.amazon.com/jp/blogs/news/amazon-sagemaker/
AIモデル
構築機能
Ground Truthとは
教師有り学習用データの
正解ラベルを表す専門用語

GroundTruthの組み込みラベリングツール（画像系）
＊画像系4種類
[1. 画像分類]
[2. 物体検出
(境界ボックス)]
[3. 物体検出
(Semantic Segmentation)]
[４. ラベル検証]

Ground TruthからSageMaker(AIモデル学習機能)に接続
ノートブックインスタンスの
Jupyter Notebookの画面。
Python言語を用いてAI[モデルを開発する。
＊ノートブックインスタンスを起動して、
Jupyter Notebook環境でPythonプログラミングを行う。

SageMakerでのAIモデル学習機能

・ Emi Osada, Emiko Kurihara, Yuko Makita, Minami Matsui
・ Saya Kikuchi, Miki Fujita, Kazuo Shinozaki, Kazuki Saito
謝辞
Listed works were supported by the following members.

[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning

More Related Content

What's hot (20)

More from Eli Kaminuma (7)

[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning