SlideShare a Scribd company logo
인라이플배 한국어 AI 언어모델
튜닝대회 참여기
T3Q NLP Team
01
02
04
05
참여동기및기대효과
최종모델선정
실행계획
대회를마치며
03
Contents
실행과정
참여 동기 및 기대효과01
사내 토이프로젝트로
BERT fine-tuning
최적화를 수행하고 있었음
튜닝 결과의
객관적 지표 필요
파인튜닝 대회 참여하여
다양한 튜닝 및 실험 수행
튜닝 결과의 객관성 확보하고
참여를 통한 새로운 기술 습득
배경 동기
실행 기대효과
실행 계획02
• 데이터 전처리 : vocab 외래어 및 불용어 치환, 정제
• 데이터 증식
✓ SQuad 2.0 데이터를 활용 하여 데이터 증식
✓ BackTranslate 증식
• 단순 linear 레이어 추가부터 LSTM, GRU 네트워크
추가 등을 통해 최적화 실험
• 다양한 조합의 하이퍼 파라미터 미세조정 실험
데이터 증식 및
전처리를 통한 튜닝
하이퍼 파라미터
미세조정을 통한 튜닝
네트워크 변경 및
추가를 통한 튜닝
실행 과정03
데이터 증식 및 전처리
데이터 전처리03
독해 방해 요소 제거
- Vocab내 일본어, 중국어, 한자 등은 한국어 학습에 방해
- 기존 Vocab 내 한국어, 영어, 숫자, 조판 특수문자 외 기타 문자를 z로 치환 후 학습
Model name exact_match F1 score
Baseline 78.48 88.29
Changed_vocab_model 78.68 88.35
< Baseline과 Vocab 변경 모델 학습결과 비교 >
결과
- Vocab 변경 모델이 Baseline에 비해 소폭 증가
데이터 증식03
No-Answer Augmentation 수행
• 질의에 대한 정답이 아닌 데이터를 추가하여 학습
• 정답이 아닐 경우 맞출 확률 증가
• 모든 데이터에 증식이 되므로 데이터의 양 대폭 증가(약 260MB)
이슈
• 기계적 증식으로 정제가 까다롭고 공수가 많이 들어 양질의 데이터셋 구축 어려움
• 학습 시간이 많이 소요
데이터 증식03
Back Translate Augmentation
• Train Data Set 중 question 데이터만을 증식
• 해당 증식 방법은 한글 데이터를 영어로 번역 후 다시 한글 데이터로 번역하는 방법
• 번역시 데이터의 의미는 같으나 문체와 어휘가 달라지는 것을 이용
원본데이터 번역데이터
햄릿의 배경이 되는 왕가는? 햄릿의 배경 왕실은 무엇입니까?
햄릿의 등장하는 인물들은 르네상스 시대의 어느 나라 사람들인가? 르네상스 시대 햄릿의 등장인물들은 어느 나라에서 왔나요?
햄릿의 배경은 몇 세기의 덴마크 왕가인가? 햄릿의 덴마크 왕실의 배경은 몇 세기입니까?
시사점
• Open API 번역기는 번역의 정확성이 떨어져 의미를 희석 시킴
• 사전모델 학습 시 학습데이터의 영향을 많이 받을 뿐만 아니라 수작업한
KorQuAD 데이터의 품질을 따라가기 힘듦.
실행 과정03
하이퍼 파라미터 미세 조정
하이퍼 파라미터 미세 조정03
Batch
size
Learning
rate
Max_seq_le
ngth
Epoch Seed
Max_query
length
F1 score
Baseline 16 5.00e-05 512 4 42 96 88.29
Model 1 16 5.00e-05 512 4 42 64 88.11
Model 2 16 5.00e-05 512 4 1000 96 87.84
Model 3 16 5.00e-05 512 8 1000 96 87.64
Model 4 8 3.00e-05 384 3 42 96 87.53
Model 5 32 2.00e-05 512 10 42 96 87.45
하위 표의 7개 항목을 중심으로 약 30개 조합의 학습을 수행
<미세조정 학습 결과 최상위 모델 5개>
시사점
• 언제나 가장 좋은 성능은 최적화된 Baseline
• 모든 조합을 수행하기에 많은 자원과 시간 비용이 필요
실행 과정03
파인튜닝 네트워크 추가
Linear 레이어 추가03
추가 layer 수 Epoch F1 score
Baseline 0 4 88.29
Model 1 2 4 87.85
Model 2 2 8 87.85
Model 3 1 4 87.12
Model 4 1 8 86.70
기본적인 구조의 linear 레이어를 추가
레이어 추가 후 하이퍼 파라미터 수정(ex:epoch)
<linear layer 추가 학습 결과 최상위 모델 5개>
결과
• 너무 단순하여 F1 score에 큰 영향을 미치지 않음.
LSTM03
Bidirectional Epoch Layer_dim F1 score
Model 1 False 4 2 88.5
Model 2 True 4 2 88.9
Model 3 True 3 1 88.7
Model 4 True 4 1 89.14
LSTM 적용 모델 생성 결과
• bi directional = True
• layer dimension=1
위 조건에서 가장 성능이 좋았음
GRU03
Bidirectional Epoch Layer_dim F1 score
Model 1 False 4 1 86.33
Model 2 True 4 1 89.36
Model 3 True 4 2 89.54
Model 4 True 3 2 89.66
GRU 적용 모델 생성 결과
• bi directional = True
• layer dimension=2
위 조건에서 가장 성능이 좋았음
최종모델 선정 및 등록04
LSTM과 GRU의 학습 효과
- Linear 레이어보다 자연어처리 성능이 뛰어난 RNN 계열의 네트워크
- 양방향 학습 시 단방향 학습에 비해 문맥 독해 능력 뛰어남
- 사전 모델인 Bert와 같이 양방향 학습이 성능 개선에 도움
BERT 소형모델 + GRU 모델
자체 최고 EM(80.22), f1 score(89.66)를 달성 하였고,
이를 최종 등록 모델로 선정함.
05 대회를 마치며
하이퍼 파라미터 조정 효과 미미
- 사전학습시 하이퍼 파라미터가 최적화 된 상태
기계독해 파인튜닝 기술의 획기적인 발전 계기
- 대회를 통해 획기적인 기술 습득 및 아이디어 공유 기회
- 대회 이후 자체 개선 모델 > f1 score : 89.66 → 90.34
기계적 데이터 증식은 양질의 데이터로 만드는데 한계가 존재
- 자동 증식 데이터는 수작업으로 만들어진 학습 데이터를 따라갈 수 없음
참고 문헌
- Sina J. Semnani, Kaushik Ram Sadagopan, Fatma Tlili, BERT-A: Fine-
tuning BERT with Adapters and Data, 2019
- Vukosi Marivate, Tshephisho Sefara, Improving short text
classification through global augmentation methods, 2019
- Kevin M. Lalande, SQuAD 2.0 with BERT, 2019
- Andrew Ying, Really Paying Attention: A BERT+BiDAF Ensemble
Model for Question-Answering, 2019
- Zhen Qin, Weiquan Mao, Zhining Zhu, Diverse Ensembling with Bert
and its variations for Question Answering on SQuAD 2.0, 2019
- Jesse Dodge, Gabriel Ilharco, Hannaneh Hajishirzi, Fine-Tuning
Pretrained Language Models: Weight Initializations, Data Orders, and
Early Stopping, 2020
- Wei Yang, Yuqing Xie, Luchen Tan, Data Augmentation for BERT Fine-
Tuning in Open-Domain Question Answering, 2019
감사합니다.

More Related Content

PDF
(Nlp)fine tuning 대회_참여기
PPTX
Enliple BERT-Small을 이용한 KorQuAD 모델
PDF
Enliple korquad challenge
PPTX
Ai nlp challenge
PDF
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PDF
Improving Language Understanding by Generative Pre-Training
PDF
"How does batch normalization help optimization" Paper Review
PDF
Create a solution including deep learning models
(Nlp)fine tuning 대회_참여기
Enliple BERT-Small을 이용한 KorQuAD 모델
Enliple korquad challenge
Ai nlp challenge
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
Improving Language Understanding by Generative Pre-Training
"How does batch normalization help optimization" Paper Review
Create a solution including deep learning models

What's hot (20)

PDF
carrier of_tricks_for_image_classification
PDF
Transfer learning usage
PDF
Infra as a model service
PDF
PR-203: Class-Balanced Loss Based on Effective Number of Samples
PDF
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
PDF
Reinforcement learning
PDF
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
PDF
Machine Learning Foundations (a case study approach) 강의 정리
PDF
boosting 기법 이해 (bagging vs boosting)
PDF
PR-218: MFAS: Multimodal Fusion Architecture Search
PDF
Siamese neural networks for one shot image recognition paper explained
PDF
Intriguing properties of contrastive losses
PPTX
Deep neural networks for You-Tube recommendations
PPTX
Face recognition
PDF
PR-339: Maintaining discrimination and fairness in class incremental learning
PDF
"simple does it weakly supervised instance and semantic segmentation" Paper r...
PDF
통신사 고객 이탈분석
PDF
"Google Vizier: A Service for Black-Box Optimization" Paper Review
PDF
악플분류 모델링 프로젝트
PDF
광고 CTR 예측
carrier of_tricks_for_image_classification
Transfer learning usage
Infra as a model service
PR-203: Class-Balanced Loss Based on Effective Number of Samples
FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
Reinforcement learning
"Learning From Noisy Large-Scale Datasets With Minimal Supervision" Paper Review
Machine Learning Foundations (a case study approach) 강의 정리
boosting 기법 이해 (bagging vs boosting)
PR-218: MFAS: Multimodal Fusion Architecture Search
Siamese neural networks for one shot image recognition paper explained
Intriguing properties of contrastive losses
Deep neural networks for You-Tube recommendations
Face recognition
PR-339: Maintaining discrimination and fairness in class incremental learning
"simple does it weakly supervised instance and semantic segmentation" Paper r...
통신사 고객 이탈분석
"Google Vizier: A Service for Black-Box Optimization" Paper Review
악플분류 모델링 프로젝트
광고 CTR 예측
Ad

Similar to Bert3q KorQuAD Finetuning NLP Challenge (20)

PDF
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
PDF
Deep Learning for Chatbot (1/4)
PDF
MultiModal Embedding integrates various data types, like images, text, and au...
PDF
경희대학교_Usay_송효섭_모의면접_플랫폼_연구_최종보고서.pdf
PDF
Vs^3 net for machine reading comprehension question answering
PDF
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
PDF
서울 R&D 캠퍼스 자연어 수업자료
PDF
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
PDF
Rnn keras
PDF
La mda 딥러닝 논문읽기 모임, 2021 google IO
PDF
[2021 Google I/O] LaMDA : Language Models for DialogApplications
PPTX
PyCon2020 NLP beginner's BERT challenge
PPTX
딥러닝을 이용한 자연어처리의 연구동향
PDF
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
PDF
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
PDF
Rnn개념정리
PDF
PDF
REALM
PPTX
From A Neural Probalistic Language Model to Word2vec
PDF
개발자를 위한 공감세미나 tensor-flow
20231130 LLM이 걸어온 길과 앞으로의 활약 분야 - CoT기반 Autonomous Agents를 위한 한국어 Explanation...
Deep Learning for Chatbot (1/4)
MultiModal Embedding integrates various data types, like images, text, and au...
경희대학교_Usay_송효섭_모의면접_플랫폼_연구_최종보고서.pdf
Vs^3 net for machine reading comprehension question answering
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
서울 R&D 캠퍼스 자연어 수업자료
한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례
Rnn keras
La mda 딥러닝 논문읽기 모임, 2021 google IO
[2021 Google I/O] LaMDA : Language Models for DialogApplications
PyCon2020 NLP beginner's BERT challenge
딥러닝을 이용한 자연어처리의 연구동향
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
Rnn개념정리
REALM
From A Neural Probalistic Language Model to Word2vec
개발자를 위한 공감세미나 tensor-flow
Ad

Bert3q KorQuAD Finetuning NLP Challenge

  • 1. 인라이플배 한국어 AI 언어모델 튜닝대회 참여기 T3Q NLP Team
  • 3. 참여 동기 및 기대효과01 사내 토이프로젝트로 BERT fine-tuning 최적화를 수행하고 있었음 튜닝 결과의 객관적 지표 필요 파인튜닝 대회 참여하여 다양한 튜닝 및 실험 수행 튜닝 결과의 객관성 확보하고 참여를 통한 새로운 기술 습득 배경 동기 실행 기대효과
  • 4. 실행 계획02 • 데이터 전처리 : vocab 외래어 및 불용어 치환, 정제 • 데이터 증식 ✓ SQuad 2.0 데이터를 활용 하여 데이터 증식 ✓ BackTranslate 증식 • 단순 linear 레이어 추가부터 LSTM, GRU 네트워크 추가 등을 통해 최적화 실험 • 다양한 조합의 하이퍼 파라미터 미세조정 실험 데이터 증식 및 전처리를 통한 튜닝 하이퍼 파라미터 미세조정을 통한 튜닝 네트워크 변경 및 추가를 통한 튜닝
  • 6. 데이터 전처리03 독해 방해 요소 제거 - Vocab내 일본어, 중국어, 한자 등은 한국어 학습에 방해 - 기존 Vocab 내 한국어, 영어, 숫자, 조판 특수문자 외 기타 문자를 z로 치환 후 학습 Model name exact_match F1 score Baseline 78.48 88.29 Changed_vocab_model 78.68 88.35 < Baseline과 Vocab 변경 모델 학습결과 비교 > 결과 - Vocab 변경 모델이 Baseline에 비해 소폭 증가
  • 7. 데이터 증식03 No-Answer Augmentation 수행 • 질의에 대한 정답이 아닌 데이터를 추가하여 학습 • 정답이 아닐 경우 맞출 확률 증가 • 모든 데이터에 증식이 되므로 데이터의 양 대폭 증가(약 260MB) 이슈 • 기계적 증식으로 정제가 까다롭고 공수가 많이 들어 양질의 데이터셋 구축 어려움 • 학습 시간이 많이 소요
  • 8. 데이터 증식03 Back Translate Augmentation • Train Data Set 중 question 데이터만을 증식 • 해당 증식 방법은 한글 데이터를 영어로 번역 후 다시 한글 데이터로 번역하는 방법 • 번역시 데이터의 의미는 같으나 문체와 어휘가 달라지는 것을 이용 원본데이터 번역데이터 햄릿의 배경이 되는 왕가는? 햄릿의 배경 왕실은 무엇입니까? 햄릿의 등장하는 인물들은 르네상스 시대의 어느 나라 사람들인가? 르네상스 시대 햄릿의 등장인물들은 어느 나라에서 왔나요? 햄릿의 배경은 몇 세기의 덴마크 왕가인가? 햄릿의 덴마크 왕실의 배경은 몇 세기입니까? 시사점 • Open API 번역기는 번역의 정확성이 떨어져 의미를 희석 시킴 • 사전모델 학습 시 학습데이터의 영향을 많이 받을 뿐만 아니라 수작업한 KorQuAD 데이터의 품질을 따라가기 힘듦.
  • 10. 하이퍼 파라미터 미세 조정03 Batch size Learning rate Max_seq_le ngth Epoch Seed Max_query length F1 score Baseline 16 5.00e-05 512 4 42 96 88.29 Model 1 16 5.00e-05 512 4 42 64 88.11 Model 2 16 5.00e-05 512 4 1000 96 87.84 Model 3 16 5.00e-05 512 8 1000 96 87.64 Model 4 8 3.00e-05 384 3 42 96 87.53 Model 5 32 2.00e-05 512 10 42 96 87.45 하위 표의 7개 항목을 중심으로 약 30개 조합의 학습을 수행 <미세조정 학습 결과 최상위 모델 5개> 시사점 • 언제나 가장 좋은 성능은 최적화된 Baseline • 모든 조합을 수행하기에 많은 자원과 시간 비용이 필요
  • 12. Linear 레이어 추가03 추가 layer 수 Epoch F1 score Baseline 0 4 88.29 Model 1 2 4 87.85 Model 2 2 8 87.85 Model 3 1 4 87.12 Model 4 1 8 86.70 기본적인 구조의 linear 레이어를 추가 레이어 추가 후 하이퍼 파라미터 수정(ex:epoch) <linear layer 추가 학습 결과 최상위 모델 5개> 결과 • 너무 단순하여 F1 score에 큰 영향을 미치지 않음.
  • 13. LSTM03 Bidirectional Epoch Layer_dim F1 score Model 1 False 4 2 88.5 Model 2 True 4 2 88.9 Model 3 True 3 1 88.7 Model 4 True 4 1 89.14 LSTM 적용 모델 생성 결과 • bi directional = True • layer dimension=1 위 조건에서 가장 성능이 좋았음
  • 14. GRU03 Bidirectional Epoch Layer_dim F1 score Model 1 False 4 1 86.33 Model 2 True 4 1 89.36 Model 3 True 4 2 89.54 Model 4 True 3 2 89.66 GRU 적용 모델 생성 결과 • bi directional = True • layer dimension=2 위 조건에서 가장 성능이 좋았음
  • 15. 최종모델 선정 및 등록04 LSTM과 GRU의 학습 효과 - Linear 레이어보다 자연어처리 성능이 뛰어난 RNN 계열의 네트워크 - 양방향 학습 시 단방향 학습에 비해 문맥 독해 능력 뛰어남 - 사전 모델인 Bert와 같이 양방향 학습이 성능 개선에 도움 BERT 소형모델 + GRU 모델 자체 최고 EM(80.22), f1 score(89.66)를 달성 하였고, 이를 최종 등록 모델로 선정함.
  • 16. 05 대회를 마치며 하이퍼 파라미터 조정 효과 미미 - 사전학습시 하이퍼 파라미터가 최적화 된 상태 기계독해 파인튜닝 기술의 획기적인 발전 계기 - 대회를 통해 획기적인 기술 습득 및 아이디어 공유 기회 - 대회 이후 자체 개선 모델 > f1 score : 89.66 → 90.34 기계적 데이터 증식은 양질의 데이터로 만드는데 한계가 존재 - 자동 증식 데이터는 수작업으로 만들어진 학습 데이터를 따라갈 수 없음
  • 17. 참고 문헌 - Sina J. Semnani, Kaushik Ram Sadagopan, Fatma Tlili, BERT-A: Fine- tuning BERT with Adapters and Data, 2019 - Vukosi Marivate, Tshephisho Sefara, Improving short text classification through global augmentation methods, 2019 - Kevin M. Lalande, SQuAD 2.0 with BERT, 2019 - Andrew Ying, Really Paying Attention: A BERT+BiDAF Ensemble Model for Question-Answering, 2019 - Zhen Qin, Weiquan Mao, Zhining Zhu, Diverse Ensembling with Bert and its variations for Question Answering on SQuAD 2.0, 2019 - Jesse Dodge, Gabriel Ilharco, Hannaneh Hajishirzi, Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping, 2020 - Wei Yang, Yuqing Xie, Luchen Tan, Data Augmentation for BERT Fine- Tuning in Open-Domain Question Answering, 2019