NLPにおける再現性

NLP2022 Workshop
NLPにおける再現性
東北大学データ駆動科学・AI教育研究センター
鈴木潤
2022.03.18

1
l 話題
l DNN手法の再現が難しい問題
l SOTAとの比較問題
l モデル選択
• Testset-tuning
l Random Seed

2
[注意事項]
1. 現時点でわかっている範囲での解釈なので，今
後の研究成果によっては，ここで話したやり方
がよくない可能性があると思います．
2. 個人的な意見を含むので，異論は普通にありえ
ます．あくまで一つの観点からの参考意見とい
う位置づけで聞いてほしいと思います．
3. 与えられた状況の中で最善を目指して試行錯誤
している途中の現時点のやり方になります．

3
l DNN手法の再現が難しい問題

4
DNNの学習の再現性
l 比較：SVM
l 制約付き凸関数
l 大域的最適解
l 使うツールが違っても
えられる解は大体同じ
l ハイパラは基本一つ
l DNN
l 複雑な非凸関数
l 局所解がたくさんある
l ツールが違うと結果が変
わる可能性
l ハイパラたくさん

5
多くの理由で再現しない
l Random Seed
l GPU
l Library version
l Driver version
l 並列処理
l ．．．

6
l Random Seed
https://arxiv.org/abs/2109.08203

7
l GPU

8
l 並列処理
l GPUは非同期で並列処理をしている (場合が多い) の
で計算結果が毎回変わる可能性がある
l そもそも学習したモデルが局所解まで到達して
ないのでは疑惑？
l => (学習問題としては) 何を学習したのだろう？

9
DNNの学習の再現性
l 無理でしょ．．．
l 再現しないものに対して再現を求められても
ねぇ．．.
l 自分ではどうにもできないことは一旦諦める

10
どうすればよい？
l 「ちゃんとやっているよ感」が大事 (多分)
l なるべく条件をしっかり書く
• AppendixでOK
• 可読な設定ファイルをsupplementary materialとしてつけ
てくれてもOK
l Rebuttal 時の根拠
• 査読者が言っていることが正しそうか
vs 著者が言っていることが正しそうか
• Meta-reviewer を味方につけたい
=> でも reviewer 見てないし．．．
=> でも meta-reviewer も見てないし．．．fin.

11
従来法が再現しない場合
l 重要な比較手法は手元の実験設定で追実験をす
る (方が良いとおもっている．．．)
l 様々な理由で基本論文の値は再現しないことを前提
• 公平な比較をするために同じ環境で比較したい
l 論文の報告値と再現実験の値を両方載せる
• Appendixでもよい
l 再現しない理由をかく

13
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか？

14
l ？みんなSOTA手法が大好きだから！
l ？ NLPは応用よりの分野だから結果が全て！
l ？ SOTA手法に勝たないと論文通らないから！
現在のACL系の査読規定で
は，「SOTAと比べてない
から落とすわ！」という
reviewはダメレビュー扱い
https://aclrollingreview.org/reviewertutorial#6-check-for-lazy-thinking

15
l 性能が向上する理由は排他的ではない
l => 提案する方法論が解決したい問題は実は既に解決
されている可能性がある
俺様の手法がSOTA！
提案法が主張する効果がこれまでにまだ
得られていないことを示す (ために「いま一
番イケていると思われる方法」と比べて効果があるこ
とを示す)
Þ たまたま比較手法 (○○法) がいま一番良
い結果をだしていたから一番よい結果に
なった，ぐらいの気持ち

16
l => しなくてもいいよね
• 言い方 (書き方) 問題
提案法により
△△ベンチマークデータ
の性能が向上した
比較手法である従来法 (○○法)
では xx の課題があるが，提案
法によりその課題を解決（軽
減）することで△△ベンチマー
クデータの性能が向上した
めちゃくちゃ強い主張ではないかもしれないが
これで十分論文は採録されるチャンスはある

18
モデル選択
l 開発データを使う l 一定回数まわす
このモデルを取る？
このモデルを取る？
学習のロス
開発データの性能

19
モデル選択
l 開発データによるモデル選択（early stopping）
このモデルを取る？ l 本当に大丈夫？
l 開発データによるモデル選
択自体が悪いわけではない

20
モデル選択
l 開発データによるモデル選択（early stopping）
l どうしたら良い？
• 開発データによる選択
(Early stopping) しなくて
も良い設定にする
– そもそもlossの設計 (または
学習の設定)が悪い可能性
• あきらめる
– 開発が下がってもそれはそ
れと思う
l なるべく多く回して学習
Lossがあまり変わらない
ところまで回す

21
[余談] Testset tuning
l DNNになって比較的簡単に恣意的な結果をだせ
るようになった
ÞTestset-tuning疑惑の論文が散見されるように
なった？？？ (この値本当に出る？)
Þとはいえ，難しい問題が．．．
これは絶対にやってはいけない

22
Random seedで複数回評価
l 5回（できれば10回）Random Seedを変えて
実験
l 平均を報告
l （検定をするなら）Non-parametric な検定
• かなり厳しい設定の検定
=> これで有意差がでるならよいと考える
1 2 3 4 5 Ave
21.5 20.9 21.4 20.9 21.8 21.30
21.1 20.8 21.7 21.1 21.0 21.14

23
まとめ
l 実験結果が同じにならない様々な要因
l 自分にどうにもできないことは一旦あきらめる．．.
l 重要な比較手法は可能な限り再実験
l 比較手法は適切に（なるべく業界標準の良い方法）
l Lossの設計または学習の設定を確認
l 開発データで性能が下がらない設定をみつける?
l 乱数初期値を変えて複数回実験
l 検定もしておく？
他にもまだある気がするけど今日はこの辺で．．．

NLPにおける再現性

More Related Content

What's hot (20)

Similar to NLPにおける再現性 (8)

NLPにおける再現性