SlideShare a Scribd company logo
2
Most read
3
Most read
8
Most read
LayoutLM: Pre-training of Text and
Layout for Document Image Understanding
박희수(발표자)
백지윤 진명훈
Motivation
• 스캔 된 문서에서 텍스트 등을 추출하여 이해
하는 기술에 대한 수요가 증가 하고 있음
• 하지만 Label 된 데이터셋이 극도로 부족하고, 수
많은 Unlabel 데이터셋을 활용하지 못하고 있음
Motivation
Pre-trained
CV
Pre-trained
NLP
기존의 모델들은 OCR 같은 사전에 학습된 CV 모델만을 활용 하거나, NLP 모델만을 활용함
CV 와 NLP 를 동시에 사용하고 있는 Pre-trained model 은 없음
Motivation
따라서 이 논문에서는 CV 와 NLP 를 동시에 사용하여 Document 를 이해하는
Pre-trained model 을 제안
Pre-trained
CV
Pre-trained
NLP
LayoutLM
• 문서의 경우에는 document 의 layout 정보로부터 많은 정보
를 얻을 수 있다.
• 문서 레이아웃 정보: 문서 내에서 단어의 상대적인 위치가 중요
한 의미적 정보를 담고 있다.
• 예를 들어 문서의 인덱스 (예를 들어 여권 ID)는 문서의 오
른쪽 하단이나 왼쪽 상단에 위치할 경우가 많다.
• 따라서 논문에선 글자의 2D position 정보를 입력 정보로
사용
• 시각 정보: 문서의 시각 정보는 텍스트의 중요도를 보여준다.
• Document-level feature: 전체 문서의 layout
• Word-level feature: 단어의 스타일(bold, underline,
italic etc)
• 따라서 논문에서는 이미지 feature를 입력 정보로 사용
LayoutLM
1. 먼저 사전에 학습된 OCR 과 pdf parser 를 사용하여 텍스트를 추출한다.
LayoutLM
2. 추출한 텍스트의 앞쪽에 [CLS] 토큰을 붙여 BERT 모델에 입력한다.
LayoutLM
3. 각 token의 왼쪽 상단 x, y 좌표와 오른쪽 하단 x, y 좌표를 입력한다.
LayoutLM
4. OCR 결과를 바탕으로 각 텍스트에 해당하는 이미지 조각을 매칭해서 embedding 벡터를 추
출한다.
LayoutLM
5. BERT의 output vector 에 image embedding 을 추가하여 Down stream task 를 해결.
[CLS] 토큰에는 이미지 전체 벡터를 넣어줌
Pre-training LayoutLM
Masked Visual-Language Model: 랜덤으로 input 토큰을 마스킹 함. 대신 각각 token에 해당하는 position
embedding 은 그대로 둠. 이 과정을 통해서 언어의 문맥을 이해할 뿐만 아니라 시각 정보와 언어 사이의 갭을 연결한다.
Pre-training LayoutLM
Multi-label Document Classification: Pretraining 중에 문서의 종류를 예측하는 Multi-label Document Classification
(MDC) loss 를 추가해줌 (1. Form understanding task 2. Receipt understanding task 3. Document image classification)
Fine-tuning LayoutLM
논문에서는 다음 세가지 Downstream Tasks 에 접목시킴:
1. Form understanding task 2. Receipt understanding task 3. Document image classification
Q & A
Experiments
Pre-training
• 대규모 scanned document image(6M 이상의 문서 + 11M 이상의 문서 이미지)를 포함하는 IIT-CDIP test
collection 1.0에서 pre-training
• Pre-trained BERT로 LayoutLM 모델의 가중치를 초기화시킴. (2차원 positional embedding 제외)
• BASE는 768 hidden dimension + 12 layer + 12 attention heads (113M의 parameter)
• LARGE는 1024 hidden dimension + 24 layer + 16 attention heads (343M의 parameter)
• BERT와 같은 방식으로 15% 의 토큰을 예측하되 그 중 80% 는 input을 masking 하여, 10% 는 랜덤하게 다른
단어로 바꾸어서, 10% 는 원래 input 을 넣어 예측하도록 함 (MVLM)
• IIT-CDIP 데이터에는 문서별로 여러가지 tag 가 존재 한다. 이 [CLS] token 에서 tag 들을 classification 하도록
loss 를 추가한다. (MDC)
Experiments
Fine-tuning on FUNSD Dataset (Form Understanding)
• Semantic Labeling task
• 오른쪽 그림처럼 각 단어당 할당된 semantic label 을 맞추는 task
• Training 149개 + Test 50개 스캔 문서
• Unique identifier, Label (question, answer, header, other), Bounding box, A
list of links with other entities, A list of words
• Word-level F1 score
• Results
• Base 보다 Large 모델이 더 잘 동작
• 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작
• Pre-training data가 많을 수록 더 잘 동작
Experiments
Fine-tuning on SROIE Dataset (Receipt Understanding)
• Entity Recognition
• 오른쪽 영수증의 네가지 Entity 를 인식하도록 학습
• Training 626개 + Testing 347개의 영수증 데이터 스캔 문서
• Company, Date, Address, Total
• Results
• Base 보다 Large 모델이 더 잘 동작
• 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작
• Pre-training data가 많을 수록 더 잘 동작
Experiments
Fine-tuning on RVL-CDIP Dataset (Document Image
Classification)
• Image Classification
• 오른쪽 16가지 Class의 문서를 분류하도록 학습
• 총 400,000개의 gray-scale로 구성 스캔 문서
• Letter, Form, Email, Handwritten, Advertisement, Scientific report,
Scientific publication, Specification, File folder, News article, Budget,
Invoice, Presentations, Questionnaire, Resume, Memo
• Results
• Base 보다 Large 모델이 더 잘 동작
• 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작
• Pre-training data가 많을 수록 더 잘 동작
Experiments
Parameter Initialization on FUNSD Dataset
• Pre-training 이전에 파라미터 초기화에 사용한 모델에
따른 성능 비교
• BASE 의 경우 RoBERTa base > BERT base (2.1 points
better)
• LARGE 의 경우 RoBERTa large > BERT large (1.3 points
better)
Different Data & Epoch on FUNSD Dataset
• Pre-training 에 사용한 데이터 사이즈와 학습 epoch
수에 따른 성능 비교
• Pre-training 에 사용한 데이터 수가 많을 수록 더 잘 동작
Q & A

More Related Content

PDF
[컨설턴트] 기업부설연구소 컨설팅 실무
PDF
LLM 모델 기반 서비스 실전 가이드
PDF
PDF
인공지능 식별추적시스템 성능 검증 평가 사례
PDF
Wasserstein GAN 수학 이해하기 I
PPTX
Diabetes Mellitus
PPTX
Hypertension
PPTX
Republic Act No. 11313 Safe Spaces Act (Bawal Bastos Law).pptx
[컨설턴트] 기업부설연구소 컨설팅 실무
LLM 모델 기반 서비스 실전 가이드
인공지능 식별추적시스템 성능 검증 평가 사례
Wasserstein GAN 수학 이해하기 I
Diabetes Mellitus
Hypertension
Republic Act No. 11313 Safe Spaces Act (Bawal Bastos Law).pptx

What's hot (20)

PDF
Python and MongoDB
PDF
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
PDF
Trends_of_MLOps_tech_in_business
PDF
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
PPTX
Basics of MongoDB
PPTX
KorQuAD v2.0 소개
PDF
An introduction to MongoDB
PPTX
The Basics of MongoDB
PDF
Apply MLOps at Scale
PDF
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
PPTX
AWS big-data-demystified #1.1 | Big Data Architecture Lessons Learned | English
PPT
Introduction to MongoDB
PPTX
An Introduction To NoSQL & MongoDB
PPTX
Apache Spark MLlib
PDF
Apache Spark - Basics of RDD | Big Data Hadoop Spark Tutorial | CloudxLab
PPTX
MongoDB
PDF
ML-Ops how to bring your data science to production
PDF
Linked Data의 RDF 어휘 이해하고 체험하기 - FOAF, SIOC, SKOS를 중심으로 -
PPTX
Mongodb basics and architecture
Python and MongoDB
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
Trends_of_MLOps_tech_in_business
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
Basics of MongoDB
KorQuAD v2.0 소개
An introduction to MongoDB
The Basics of MongoDB
Apply MLOps at Scale
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
AWS big-data-demystified #1.1 | Big Data Architecture Lessons Learned | English
Introduction to MongoDB
An Introduction To NoSQL & MongoDB
Apache Spark MLlib
Apache Spark - Basics of RDD | Big Data Hadoop Spark Tutorial | CloudxLab
MongoDB
ML-Ops how to bring your data science to production
Linked Data의 RDF 어휘 이해하고 체험하기 - FOAF, SIOC, SKOS를 중심으로 -
Mongodb basics and architecture
Ad

Similar to Layout lm paper review (20)

PDF
De text a deep text ranking framework with bert
PPTX
Spark machine learning & deep learning
PDF
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
PDF
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 
PDF
Introduction to mongo db
PDF
Improving Language Understanding by Generative Pre-Training
PDF
Fundamentals of Oracle SQL
PDF
100% Serverless big data scale production Deep Learning System
PDF
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
PPTX
Sqlp 스터디
PDF
Deep learning framework 제작
PDF
경희대학교_Usay_송효섭_모의면접_플랫폼_연구_최종보고서.pdf
PDF
SQL performance and UDF
PDF
하루에 1시간을 벌 수 있는 10가지 방법
PDF
자바 직렬화 (Java serialization)
PDF
딥러닝 세계에 입문하기 위반 분투
PDF
dbt 101
PPTX
Automated program corrector for programming assignments using Deep Learning
PDF
2016년 인문정보학 Sql세미나 1/3
PDF
신입 엔지니어 취준 꿀팁
De text a deep text ranking framework with bert
Spark machine learning & deep learning
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Spark
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 
Introduction to mongo db
Improving Language Understanding by Generative Pre-Training
Fundamentals of Oracle SQL
100% Serverless big data scale production Deep Learning System
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기
Sqlp 스터디
Deep learning framework 제작
경희대학교_Usay_송효섭_모의면접_플랫폼_연구_최종보고서.pdf
SQL performance and UDF
하루에 1시간을 벌 수 있는 10가지 방법
자바 직렬화 (Java serialization)
딥러닝 세계에 입문하기 위반 분투
dbt 101
Automated program corrector for programming assignments using Deep Learning
2016년 인문정보학 Sql세미나 1/3
신입 엔지니어 취준 꿀팁
Ad

More from taeseon ryu (20)

PDF
VoxelNet
PDF
OpineSum Entailment-based self-training for abstractive opinion summarization...
PPTX
3D Gaussian Splatting
PDF
JetsonTX2 Python
PPTX
Hyperbolic Image Embedding.pptx
PDF
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
PDF
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
PDF
YOLO V6
PDF
Dataset Distillation by Matching Training Trajectories
PDF
RL_UpsideDown
PDF
Packed Levitated Marker for Entity and Relation Extraction
PPTX
MOReL: Model-Based Offline Reinforcement Learning
PDF
Scaling Instruction-Finetuned Language Models
PDF
Visual prompt tuning
PDF
PDF
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
PDF
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
PDF
The Forward-Forward Algorithm
PPTX
Towards Robust and Reproducible Active Learning using Neural Networks
PDF
BRIO: Bringing Order to Abstractive Summarization
VoxelNet
OpineSum Entailment-based self-training for abstractive opinion summarization...
3D Gaussian Splatting
JetsonTX2 Python
Hyperbolic Image Embedding.pptx
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
YOLO V6
Dataset Distillation by Matching Training Trajectories
RL_UpsideDown
Packed Levitated Marker for Entity and Relation Extraction
MOReL: Model-Based Offline Reinforcement Learning
Scaling Instruction-Finetuned Language Models
Visual prompt tuning
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
The Forward-Forward Algorithm
Towards Robust and Reproducible Active Learning using Neural Networks
BRIO: Bringing Order to Abstractive Summarization

Layout lm paper review

  • 1. LayoutLM: Pre-training of Text and Layout for Document Image Understanding 박희수(발표자) 백지윤 진명훈
  • 2. Motivation • 스캔 된 문서에서 텍스트 등을 추출하여 이해 하는 기술에 대한 수요가 증가 하고 있음 • 하지만 Label 된 데이터셋이 극도로 부족하고, 수 많은 Unlabel 데이터셋을 활용하지 못하고 있음
  • 3. Motivation Pre-trained CV Pre-trained NLP 기존의 모델들은 OCR 같은 사전에 학습된 CV 모델만을 활용 하거나, NLP 모델만을 활용함 CV 와 NLP 를 동시에 사용하고 있는 Pre-trained model 은 없음
  • 4. Motivation 따라서 이 논문에서는 CV 와 NLP 를 동시에 사용하여 Document 를 이해하는 Pre-trained model 을 제안 Pre-trained CV Pre-trained NLP
  • 5. LayoutLM • 문서의 경우에는 document 의 layout 정보로부터 많은 정보 를 얻을 수 있다. • 문서 레이아웃 정보: 문서 내에서 단어의 상대적인 위치가 중요 한 의미적 정보를 담고 있다. • 예를 들어 문서의 인덱스 (예를 들어 여권 ID)는 문서의 오 른쪽 하단이나 왼쪽 상단에 위치할 경우가 많다. • 따라서 논문에선 글자의 2D position 정보를 입력 정보로 사용 • 시각 정보: 문서의 시각 정보는 텍스트의 중요도를 보여준다. • Document-level feature: 전체 문서의 layout • Word-level feature: 단어의 스타일(bold, underline, italic etc) • 따라서 논문에서는 이미지 feature를 입력 정보로 사용
  • 6. LayoutLM 1. 먼저 사전에 학습된 OCR 과 pdf parser 를 사용하여 텍스트를 추출한다.
  • 7. LayoutLM 2. 추출한 텍스트의 앞쪽에 [CLS] 토큰을 붙여 BERT 모델에 입력한다.
  • 8. LayoutLM 3. 각 token의 왼쪽 상단 x, y 좌표와 오른쪽 하단 x, y 좌표를 입력한다.
  • 9. LayoutLM 4. OCR 결과를 바탕으로 각 텍스트에 해당하는 이미지 조각을 매칭해서 embedding 벡터를 추 출한다.
  • 10. LayoutLM 5. BERT의 output vector 에 image embedding 을 추가하여 Down stream task 를 해결. [CLS] 토큰에는 이미지 전체 벡터를 넣어줌
  • 11. Pre-training LayoutLM Masked Visual-Language Model: 랜덤으로 input 토큰을 마스킹 함. 대신 각각 token에 해당하는 position embedding 은 그대로 둠. 이 과정을 통해서 언어의 문맥을 이해할 뿐만 아니라 시각 정보와 언어 사이의 갭을 연결한다.
  • 12. Pre-training LayoutLM Multi-label Document Classification: Pretraining 중에 문서의 종류를 예측하는 Multi-label Document Classification (MDC) loss 를 추가해줌 (1. Form understanding task 2. Receipt understanding task 3. Document image classification)
  • 13. Fine-tuning LayoutLM 논문에서는 다음 세가지 Downstream Tasks 에 접목시킴: 1. Form understanding task 2. Receipt understanding task 3. Document image classification
  • 14. Q & A
  • 15. Experiments Pre-training • 대규모 scanned document image(6M 이상의 문서 + 11M 이상의 문서 이미지)를 포함하는 IIT-CDIP test collection 1.0에서 pre-training • Pre-trained BERT로 LayoutLM 모델의 가중치를 초기화시킴. (2차원 positional embedding 제외) • BASE는 768 hidden dimension + 12 layer + 12 attention heads (113M의 parameter) • LARGE는 1024 hidden dimension + 24 layer + 16 attention heads (343M의 parameter) • BERT와 같은 방식으로 15% 의 토큰을 예측하되 그 중 80% 는 input을 masking 하여, 10% 는 랜덤하게 다른 단어로 바꾸어서, 10% 는 원래 input 을 넣어 예측하도록 함 (MVLM) • IIT-CDIP 데이터에는 문서별로 여러가지 tag 가 존재 한다. 이 [CLS] token 에서 tag 들을 classification 하도록 loss 를 추가한다. (MDC)
  • 16. Experiments Fine-tuning on FUNSD Dataset (Form Understanding) • Semantic Labeling task • 오른쪽 그림처럼 각 단어당 할당된 semantic label 을 맞추는 task • Training 149개 + Test 50개 스캔 문서 • Unique identifier, Label (question, answer, header, other), Bounding box, A list of links with other entities, A list of words • Word-level F1 score • Results • Base 보다 Large 모델이 더 잘 동작 • 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작 • Pre-training data가 많을 수록 더 잘 동작
  • 17. Experiments Fine-tuning on SROIE Dataset (Receipt Understanding) • Entity Recognition • 오른쪽 영수증의 네가지 Entity 를 인식하도록 학습 • Training 626개 + Testing 347개의 영수증 데이터 스캔 문서 • Company, Date, Address, Total • Results • Base 보다 Large 모델이 더 잘 동작 • 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작 • Pre-training data가 많을 수록 더 잘 동작
  • 18. Experiments Fine-tuning on RVL-CDIP Dataset (Document Image Classification) • Image Classification • 오른쪽 16가지 Class의 문서를 분류하도록 학습 • 총 400,000개의 gray-scale로 구성 스캔 문서 • Letter, Form, Email, Handwritten, Advertisement, Scientific report, Scientific publication, Specification, File folder, News article, Budget, Invoice, Presentations, Questionnaire, Resume, Memo • Results • Base 보다 Large 모델이 더 잘 동작 • 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작 • Pre-training data가 많을 수록 더 잘 동작
  • 19. Experiments Parameter Initialization on FUNSD Dataset • Pre-training 이전에 파라미터 초기화에 사용한 모델에 따른 성능 비교 • BASE 의 경우 RoBERTa base > BERT base (2.1 points better) • LARGE 의 경우 RoBERTa large > BERT large (1.3 points better) Different Data & Epoch on FUNSD Dataset • Pre-training 에 사용한 데이터 사이즈와 학습 epoch 수에 따른 성능 비교 • Pre-training 에 사용한 데이터 수가 많을 수록 더 잘 동작
  • 20. Q & A