SlideShare a Scribd company logo
植物生理学会 データベース講習会
2021年3月14日(日)10:30~11:15 :オンライン発表
植物表現型画像解析のための
手作業注釈加速化手法とActive Learning
神沼英里
東京医科歯科大学 医療データ科学推進室 特任講師
理化学研究所 環境資源科学研究センター 合成ゲノミクス研究グループ 客員研究員
自己紹介:神沼英里(ライフサイエンスAI専門)
研究発表(2010~2021) https://researchmap.jp/kaminuma
(Kaminuma et al., NAR 2010)
1. NGS Sequence
Annotation Pipeline on NIG
Supercomputer
2. Citrus SNP Genotyping
Array Design
3. Machine Learning
Modeling Competition
(Shimizu et al., Acta H.2016)
http://p.ddbj.nig.ac.jp/
(Kaminuma et al., Genes Genet Syst. 2020)
4. BioSample Tag Prediction
Accacactggtactgagacacggacca
gactcctacgggaggcagcagtgagga
atattggacaatggagggaactctgatcc
agccatgccgcgtgcaggaagactgcc
ctatgggttgtaaactgcttttatacaaga
agaataagagatacgtgtatcttgatgac
ggtattgtaagaataagcaccggctaact
ccgtgccagcagccgcggtaatacgga
gggtgcaagcgttatccggaatcattggg
tttaaagggtccgtaggcggattaataag
tcagtggtgaaagtctgcagcttaactgt
agaattgccattgatactgttagtcttgaa
ttattatgaagtagttagaatatgtagtgt
agcggtgaaatgcatagatattaca
sequence
tagging
BioSample
annotations
INSDC FlatFile
Format
①DNA-based
smart tagging tools
DNA sequence
②Image-based smart
tagging tools
Image
image
tagging
Collaborated with Kashima Lab. (Kyoto Univ. )
Collaborated with NARO Institute of
Fruit Tree Science
Ongoing projects.
4. Generating Texts of Gene Definition from Sequence
Inputs using an NLP-based AI technology
BLEU score=0.28 (100 test sequences)
(Kamnuma et al, IIBMP2020)
目次
1. 植物表現型画像注釈AI(深層学習)の研究紹介
2. データアノテーション環境調査結果の紹介
[1]AI開発工程とアノテーションの課題
[2]データアノテーション環境の種類
[3]Active Learningの仕組み
[4]推薦環境のデモ
浙江大学、米アイオワ(PMID:33450839)
■トウモロコシと雑草の検出
背景:植物表現型画像解析( AI・機械学習)の発表が増えている
■リアルタイムでシロイヌナズナ
葉数カウント
米ジョージア大(PMID:33287100)
2020年12月
2021年1月
■UAVを使ったカボチャの検出
独オスナブリュック大
(PMID:33385474)
2020年12月
[1]植物画像AI研究
問題:ロボット計測装置(RIPPS)による植物表現型画像データの大量生成
*ロボット計測技術の進歩により、実験研究データや圃場データが大量生成可能に
RIPPS(Fujita et al, 2018;PMID:30010970)
=理研CSRSで開発された植物生長過程を画像計測する
植木鉢搬送ロボット
[1]植物画像AI研究
計測カメラの撮影画像
120個体の時系列Time-Lapse画像が生成される
→ 大量の画像データ生成
→ 深層学習(AI)モデルの適用可能に
■多視点画像計測はRIPPSの特徴の1つ
RIPPS画像計測の優位性
=複数のカメラでの多視点画像撮影が可能
多視点画像の植物表現型画像注釈AIも構築可能
仰角90度のカメラ
の撮影画像
仰角25度の
カメラの撮影画像
[1]植物画像AI研究
https://jp.mathworks.com/help/
方位角
仰角
3次元カメラ配置(撮影視点)の専門用語
RIPPSでは多視点の植物個体画像も計測可能
仮説:多視点画像計測で植物表現型画像注釈AIの精度が向上する?
多視点画像を用いると植物表現型の画像注釈AIの精度も向上する可能性あり?
The WILDTRACK Multi-Camera Person Dataset
(Chavdarova et al, CVPR2018, arXiv:1707.09299)
■多視点画像の人物データセット
(EPFL:スイス連邦工科大学)
※ResNet18モデルの結果
[1]植物画像AI研究
単視点より多視点画像
でAI注釈精度向上
■ RIPPS計測画像のAIモデル入力3条件(単視点2条件、多視点1条件)
実験デザイン:植物表現型画像注釈における多視点画像での
生長ステージ分類
タスク:Arabidopsis個体の
生長ステージの分類
① ロゼット葉のみ
② ロゼット葉+花茎
(Boyes et al, Plant Cell, 2001)
例:A Growth Stage of Arabidopsis Col-0
Monocular 2 (EL25°)
Monocular 1(EL90°)
Multi-view
■ 学習条件
*画像枚数=Train:392枚、Test:70枚
*AIモデル(ImageNet学習済ResNet50V2)を転移学習
[1]植物画像AI研究
実験結果:Arabidopsis個体生長ステージの画像分類AIは
単視点よりも多視点が精度高結果
単視点画像 多視点画像
EL90° EL25° EL90°+ EL25°
Train 0.61 0.61 0.85 (+0.24)
Test 0.69※ 0.69※ 0.80 (+0.11)
■ 多視点・単視点AIモデルでのナズナ生長ステージ分類結果(評価尺度:Accuracy)
※Test>Trainは学習データ不足を意味する
多視点画像入力でAIモデルの
分類精度が11%向上した。
(植物個体の多視点画像情報は
単視点画像情報よりInformative?)
[1]植物画像AI研究
→ 今後データを増やして確認
目次
1.植物表現型画像注釈AI(深層学習)の研究紹介
2. データアノテーション環境調査結果の紹介
[1]AI開発工程とアノテーションの課題
[2]データアノテーション環境の種類
[3]Active Learningの仕組み
[4]推薦環境のデモ
今日の本題はこちら!
背景:AI開発工程とアノテーションの課題
■ AI開発工程
データ
収集
データ
意味付け
AIモデル
学習・評価
AIモデル
運用
[2] AI構築環境開発
アノテーション工程
「ロゼット葉
+花茎」
*「アノテーション工程」は手作業でコスト高
*「AIモデル学習工程」は実験研究者には敷居が高い
課題
動機:実験研究者のAI研究加速化
①アノテーション自動化機能(作業時間削減)
②AIモデル学習への容易な接続機能(近年AIのローコード開発、ノーコード開発
の環境が出てきている。AI研究者の全面的
なサポートなしでも作業可になる?)
■AI開発工程の課題
[2] AI構築環境開発
*データアノテーション環境を調査
*実験研究者向けのAI開発プロトコルを確立したい
データアノテーション環境の種類
■ データアノテーションの作業環境・作業者・コスト・品質・負荷
種
類
外注・内製 作業環境 作業者 作業管理 発注
コスト
データ品質 発注
負荷
1 完全外注
(請負会社)
請負会社
内
請負会社内
(国内例:ベトナ
ム、フィリピンの
提携会社作業者)
請負会社 高 高 ※
2 半外注
(請負会社)
クラウド 請負会社へ発注 請負会社
+
クラウド
中 高~低 ※※※
3 半外注
(ギグワーカ)
クラウド ギグワーカへ発注 クラウド 中~安 低 ※※※
4 内製 クラウド 自チームの
作業者
クラウド 安 高 ※
5 内製 内製 自チームの
作業者
管理環境な
し
ーーー 高 ーーー
世界の潮流はクラウドでのデータアノテーション管理
[2] AI構築環境開発
■ V7Lab (英ロンドンのベンチャー) https://www.v7labs.com/
■ V7の特徴
*画像アノテーションの自動処理ツール有り。
*Team Membersでチームとして作業可(アノテータの参加は無料)
■最低金額プラン=月額150$
*1カ月に100時間のアノテーション
もしくは 10,000自動アノテーション
*5万枚の画像を処理可能
*ビデオの長さは60秒まで
■ Smart Labeling 機能(2頂点)
*矩形の頂点(左上、右下)をマウスで指定
*自動でポリゴン(頂点と線)で物体を囲む
*ラベリング自動化で作業時間を短縮
推薦データアノテーション環境① V7Labs
[2] AI構築環境開発
↑前に花茎が重なるも問題なしに自動輪郭抽出
V7labsのワーカ管理機能
[2] AI構築環境開発
■同一画面でワーカ管理
チームメンバーを追加無料で登録可
①ワーカ=作業者
②ワークフォースマネジャー=管理者
■データセット単位で作業管理
*Annotators、Reviewersを設定可能
*日付での作業管理 画像引用
https://www.
v7labs.com/
V7labsのAI学習への接続機能(外部クラウドへ)
[2] AI構築環境開発
■独自のクラウドAI機能は整備中。現時点はV7LabsへのAPIアクセス機能のみ提供。
*物体検出モデルはPyTorchのDetectron2モデル等を提供。 *APIキーによりV7Labsのアノテーションにアクセス可能。
無償のGoogle Colab環境
を使い、AIモデルの構築
テストを実施。
■ Amazon SageMaker Ground Truth (GroundTruth) = クラウドAI業界で有名
*6種類の組み込みラベリングツール
[画像分類]、[物体検出]、[Semantic Segmentation]
[ラベル検証]、[文章分類]、[固有表現抽出]
*ワーカーの連携・管理機能
*Smart Labeling機能で最大70%のコスト削減
*SageMaker内でのAIモデル構築機能
*従量課金(利用額を見積りにくい)
推薦データアノテーション環境②
Amazon SageMaker Ground Truth
https://pages.awscloud.com/rs/112-TZM-
766/images/Amazon%20SageMaker%20Ground%20Truth.pdf
[2] AI構築環境開発
https://aws.amazon.com/jp/sagemaker/groundtruth/
[2] AI構築環境開発
Ground TruthとはAI学習データの「正解ラベル」
■アノテーションツール名の意味
Amazon SageMaker Ground Truth
*SageMakerの機能
https://aws.amazon.com/jp/blogs/news/amazon-sagemaker/
AIモデル
構築機能
Ground Truthとは
教師有り学習用データの
正解ラベルを表す専門用語
[2] AI構築環境開発
GroundTruthの組み込みラベリングツール(画像系)
*画像系4種類
[1. 画像分類]
[2. 物体検出
(境界ボックス)]
[3. 物体検出
(Semantic Segmentation)]
[4. ラベル検証]
Ground TruthからSageMaker(AIモデル学習機能)に接続
[2] AI構築環境開発
ノートブックインスタンスの
Jupyter Notebookの画面。
Python言語を用いてAI[モデルを開発する。
*ノートブックインスタンスを起動して、
Jupyter Notebook環境でPythonプログラミングを行う。
SageMakerでのAIモデル学習機能
[2] AI構築環境開発
・ Emi Osada, Emiko Kurihara, Yuko Makita, Minami Matsui
・ Saya Kikuchi, Miki Fujita, Kazuo Shinozaki, Kazuki Saito
謝辞
Listed works were supported by the following members.

More Related Content

PDF
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
PDF
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
PDF
[2016-07-06] DDBJデータ解析チャレンジ概要
PDF
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
PDF
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
PDF
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
PDF
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
PDF
Brief introduction of aLeaves (mainly in Japanese)
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
[2016-07-06] DDBJデータ解析チャレンジ概要
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2020-12-15] 実験研究者のための深層学習入門 [第2回] Google Colab 環境で自動機械学習と深層画像生成(AutoML, GAN編) 
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2019-09-02] AI・IoT活用情報とGoogle Colab植物画像注釈
Brief introduction of aLeaves (mainly in Japanese)

What's hot (20)

PPTX
【2015年度関西支部大会】照明装置の順点灯制御と照度‐距離モデルに基づく屋内位置推定手法をとその評価(守谷)
PDF
生物多様性情報をとりまくデータベースの現状
PPTX
Playing Atari with Six Neurons
PDF
Top-K Off-Policy Correction for a REINFORCE Recommender System
PDF
NGSを用いた研究解析のためのオンラインリソースの現状
PDF
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
PDF
生命科学・農学研究のための情報検索の基礎
PPTX
研究室説明@オリエンテーション2015
PDF
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
PPTX
Can increasing input dimensionality improve deep reinforcement learning?
PPTX
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
PDF
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
PPTX
Ai勉強会20170127
PDF
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
PDF
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
PPTX
PredCNN: Predictive Learning with Cascade Convolutions
PDF
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
PPTX
2020 08 05_dl_DETR
PDF
(2020.9) 機械学習による化学反応の予測と設計
PDF
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
【2015年度関西支部大会】照明装置の順点灯制御と照度‐距離モデルに基づく屋内位置推定手法をとその評価(守谷)
生物多様性情報をとりまくデータベースの現状
Playing Atari with Six Neurons
Top-K Off-Policy Correction for a REINFORCE Recommender System
NGSを用いた研究解析のためのオンラインリソースの現状
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
生命科学・農学研究のための情報検索の基礎
研究室説明@オリエンテーション2015
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Can increasing input dimensionality improve deep reinforcement learning?
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption o...
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
Ai勉強会20170127
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
PredCNN: Predictive Learning with Cascade Convolutions
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
2020 08 05_dl_DETR
(2020.9) 機械学習による化学反応の予測と設計
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
Ad

More from Eli Kaminuma (7)

PDF
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
PDF
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
PDF
[2017-05-29] DNASmartTagger
PDF
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
PDF
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
PDF
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
PDF
[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索
[2017-05-29] DNASmartTagger
[2016-12-01] DDBJデータ解析チャレンジ報告:機械学習コンペティションのタスク設計とルール設定
[2013-12-05] NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
[2015-06-10] オンライン・クラウドサイエンス(市民科学)の潮流
[2015-11-11][DDBJing33] DDBJとNIG Supercomputerの紹介、大量配列情報解析 (第33回 DDBJing 講習会 ...
Ad

[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning