SlideShare a Scribd company logo
7
Most read
9
Most read
23
Most read
NLP2022 Workshop
NLPにおける再現性
東北大学 データ駆動科学・AI教育研究センター
鈴木 潤
2022.03.18
1
l 話題
l DNN手法の再現が難しい問題
l SOTAとの比較問題
l モデル選択
• Testset-tuning
l Random Seed
2
[注意事項]
1. 現時点でわかっている範囲での解釈なので,今
後の研究成果によっては,ここで話したやり方
がよくない可能性があると思います.
2. 個人的な意見を含むので,異論は普通にありえ
ます.あくまで一つの観点からの参考意見とい
う位置づけで聞いてほしいと思います.
3. 与えられた状況の中で最善を目指して試行錯誤
している途中の現時点のやり方になります.
3
l DNN手法の再現が難しい問題
4
DNNの学習の再現性
l 比較:SVM
l 制約付き凸関数
l 大域的最適解
l 使うツールが違っても
えられる解は大体同じ
l ハイパラは基本一つ
l DNN
l 複雑な非凸関数
l 局所解がたくさんある
l ツールが違うと結果が変
わる可能性
l ハイパラたくさん
5
多くの理由で再現しない
l Random Seed
l GPU
l Library version
l Driver version
l 並列処理
l ...
6
多くの理由で再現しない
l Random Seed
https://arxiv.org/abs/2109.08203
https://arxiv.org/abs/2002.06305
7
多くの理由で再現しない
l GPU
https://arxiv.org/abs/2106.11872
8
多くの理由で再現しない
l 並列処理
l GPUは非同期で並列処理をしている (場合が多い) の
で計算結果が毎回変わる可能性がある
l そもそも学習したモデルが局所解まで到達して
ないのでは疑惑?
l => (学習問題としては) 何を学習したのだろう?
9
DNNの学習の再現性
l 無理でしょ...
l 再現しないものに対して再現を求められても
ねぇ...
l 自分ではどうにもできないことは一旦諦める
10
どうすればよい?
l 「ちゃんとやっているよ感」が大事 (多分)
l なるべく条件をしっかり書く
• AppendixでOK
• 可読な設定ファイルをsupplementary materialとしてつけ
てくれてもOK
l Rebuttal 時の根拠
• 査読者が言っていることが正しそうか
vs 著者が言っていることが正しそうか
• Meta-reviewer を味方につけたい
=> でも reviewer 見てないし...
=> でも meta-reviewer も見てないし...fin.
11
従来法が再現しない場合
l 重要な比較手法は手元の実験設定で追実験をす
る (方が良いとおもっている...)
l 様々な理由で基本論文の値は再現しないことを前提
• 公平な比較をするために同じ環境で比較したい
l 論文の報告値と再現実験の値を両方載せる
• Appendixでもよい
l 再現しない理由をかく
12
l SOTAとの比較問題
13
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
14
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l ? みんなSOTA手法が大好きだから!
l ? NLPは応用よりの分野だから結果が全て!
l ? SOTA手法に勝たないと論文通らないから!
現在のACL系の査読規定で
は,「SOTAと比べてない
から落とすわ!」という
reviewはダメレビュー扱い
https://aclrollingreview.org/reviewertutorial#6-check-for-lazy-thinking
15
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l 性能が向上する理由は排他的ではない
l => 提案する方法論が解決したい問題は実は既に解決
されている可能性がある
俺様の手法がSOTA!
提案法が主張する効果がこれまでにまだ
得られていないことを示す (ために「いま一
番イケていると思われる方法」と比べて効果があるこ
とを示す)
Þ たまたま比較手法 (○○法) がいま一番良
い結果をだしていたから一番よい結果に
なった,ぐらいの気持ち
16
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l => しなくてもいいよね
• 言い方 (書き方) 問題
提案法により
△△ベンチマークデータ
の性能が向上した
比較手法である従来法 (○○法)
では xx の課題があるが,提案
法によりその課題を解決(軽
減)することで△△ベンチマー
クデータの性能が向上した
めちゃくちゃ強い主張ではないかもしれないが
これで十分論文は採録されるチャンスはある
17
l モデル選択
18
モデル選択
l 開発データを使う l 一定回数まわす
このモデルを取る?
このモデルを取る?
学習のロス
開発データの性能
19
モデル選択
l 開発データによるモデル選択(early stopping)
このモデルを取る? l 本当に大丈夫?
l 開発データによるモデル選
択自体が悪いわけではない
20
モデル選択
l 開発データによるモデル選択(early stopping)
l どうしたら良い?
• 開発データによる選択
(Early stopping) しなくて
も良い設定にする
– そもそもlossの設計 (または
学習の設定)が悪い可能性
• あきらめる
– 開発が下がってもそれはそ
れと思う
l なるべく多く回して学習
Lossがあまり変わらない
ところまで回す
21
[余談] Testset tuning
l DNNになって比較的簡単に恣意的な結果をだせ
るようになった
ÞTestset-tuning疑惑の論文が散見されるように
なった??? (この値本当に出る?)
Þとはいえ,難しい問題が...
これは絶対にやってはいけない
22
Random seedで複数回評価
l 5回(できれば10回)Random Seedを変えて
実験
l 平均を報告
l (検定をするなら)Non-parametric な検定
• かなり厳しい設定の検定
=> これで有意差がでるならよいと考える
1 2 3 4 5 Ave
21.5 20.9 21.4 20.9 21.8 21.30
21.1 20.8 21.7 21.1 21.0 21.14
23
まとめ
l 実験結果が同じにならない様々な要因
l 自分にどうにもできないことは一旦あきらめる...
l 重要な比較手法は可能な限り再実験
l 比較手法は適切に(なるべく業界標準の良い方法)
l Lossの設計または学習の設定を確認
l 開発データで性能が下がらない設定をみつける?
l 乱数初期値を変えて複数回実験
l 検定もしておく?
他にもまだある気がするけど今日はこの辺で...

More Related Content

PPTX
G社のNMT論文を読んでみた
PDF
最適輸送の計算アルゴリズムの研究動向
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
PPTX
深層学習の数理
PDF
機械学習モデルの判断根拠の説明
PPTX
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
PDF
Graph Attention Network
PDF
ReAct: Synergizing Reasoning and Acting in Language Models
G社のNMT論文を読んでみた
最適輸送の計算アルゴリズムの研究動向
モデルアーキテクチャ観点からのDeep Neural Network高速化
深層学習の数理
機械学習モデルの判断根拠の説明
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
Graph Attention Network
ReAct: Synergizing Reasoning and Acting in Language Models

What's hot (20)

PPTX
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
PPTX
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
PPTX
密度比推定による時系列データの異常検知
PDF
方策勾配型強化学習の基礎と応用
PPTX
Triplet Loss 徹底解説
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
PDF
Transformer メタサーベイ
PPTX
【DL輪読会】Replacing Labeled Real-Image Datasets With Auto-Generated Contours
PDF
Attentionの基礎からTransformerの入門まで
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
PPTX
[DL輪読会]Objects as Points
PDF
組合せ最適化入門:線形計画から整数計画まで
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
PDF
POMDP下での強化学習の基礎と応用
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
Optimizer入門&最新動向
PDF
[DL輪読会]ICLR2020の分布外検知速報
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
密度比推定による時系列データの異常検知
方策勾配型強化学習の基礎と応用
Triplet Loss 徹底解説
[DL輪読会]相互情報量最大化による表現学習
機械学習チュートリアル@Jubatus Casual Talks
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Transformer メタサーベイ
【DL輪読会】Replacing Labeled Real-Image Datasets With Auto-Generated Contours
Attentionの基礎からTransformerの入門まで
0から理解するニューラルネットアーキテクチャサーチ(NAS)
[DL輪読会]Objects as Points
組合せ最適化入門:線形計画から整数計画まで
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
POMDP下での強化学習の基礎と応用
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Optimizer入門&最新動向
[DL輪読会]ICLR2020の分布外検知速報
Ad

Similar to NLPにおける再現性 (8)

PDF
現在のDNNにおける未解決問題
PDF
NeurIPS'21参加報告 tanimoto_public
PDF
Non-autoregressive text generation
PDF
Deep Learningの基礎と応用
PPTX
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PDF
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
PDF
Learning to forget continual prediction with lstm
現在のDNNにおける未解決問題
NeurIPS'21参加報告 tanimoto_public
Non-autoregressive text generation
Deep Learningの基礎と応用
[PaperReading]Unsupervised Discrete Sentence Representation Learning for Inte...
【DL輪読会】Can Neural Network Memorization Be Localized?
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
Learning to forget continual prediction with lstm
Ad

NLPにおける再現性