Layout lm paper review

LayoutLM: Pre-training of Text and
Layout for Document Image Understanding
박희수(발표자)
백지윤 진명훈

Motivation
• 스캔 된 문서에서 텍스트 등을 추출하여 이해
하는 기술에 대한 수요가 증가 하고 있음
• 하지만 Label 된 데이터셋이 극도로 부족하고, 수
많은 Unlabel 데이터셋을 활용하지 못하고 있음

Motivation
Pre-trained
CV
Pre-trained
NLP
기존의 모델들은 OCR 같은 사전에 학습된 CV 모델만을 활용 하거나, NLP 모델만을 활용함
CV 와 NLP 를 동시에 사용하고 있는 Pre-trained model 은 없음

Motivation
따라서 이 논문에서는 CV 와 NLP 를 동시에 사용하여 Document 를 이해하는
Pre-trained model 을 제안
Pre-trained
CV
Pre-trained
NLP

LayoutLM
• 문서의 경우에는 document 의 layout 정보로부터 많은 정보
를 얻을 수 있다.
• 문서 레이아웃 정보: 문서 내에서 단어의 상대적인 위치가 중요
한 의미적 정보를 담고 있다.
• 예를 들어 문서의 인덱스 (예를 들어 여권 ID)는 문서의 오
른쪽 하단이나 왼쪽 상단에 위치할 경우가 많다.
• 따라서 논문에선 글자의 2D position 정보를 입력 정보로
사용
• 시각 정보: 문서의 시각 정보는 텍스트의 중요도를 보여준다.
• Document-level feature: 전체 문서의 layout
• Word-level feature: 단어의 스타일(bold, underline,
italic etc)
• 따라서 논문에서는 이미지 feature를 입력 정보로 사용

LayoutLM
1. 먼저 사전에 학습된 OCR 과 pdf parser 를 사용하여 텍스트를 추출한다.

LayoutLM
2. 추출한 텍스트의 앞쪽에 [CLS] 토큰을 붙여 BERT 모델에 입력한다.

LayoutLM
3. 각 token의 왼쪽 상단 x, y 좌표와 오른쪽 하단 x, y 좌표를 입력한다.

LayoutLM
4. OCR 결과를 바탕으로 각 텍스트에 해당하는 이미지 조각을 매칭해서 embedding 벡터를 추
출한다.

LayoutLM
5. BERT의 output vector 에 image embedding 을 추가하여 Down stream task 를 해결.
[CLS] 토큰에는 이미지 전체 벡터를 넣어줌

Pre-training LayoutLM
Masked Visual-Language Model: 랜덤으로 input 토큰을 마스킹 함. 대신 각각 token에 해당하는 position
embedding 은 그대로 둠. 이 과정을 통해서 언어의 문맥을 이해할 뿐만 아니라 시각 정보와 언어 사이의 갭을 연결한다.

Pre-training LayoutLM
Multi-label Document Classification: Pretraining 중에 문서의 종류를 예측하는 Multi-label Document Classification
(MDC) loss 를 추가해줌 (1. Form understanding task 2. Receipt understanding task 3. Document image classification)

Fine-tuning LayoutLM
논문에서는 다음 세가지 Downstream Tasks 에 접목시킴:
1. Form understanding task 2. Receipt understanding task 3. Document image classification

Experiments
Pre-training
• 대규모 scanned document image(6M 이상의 문서 + 11M 이상의 문서 이미지)를 포함하는 IIT-CDIP test
collection 1.0에서 pre-training
• Pre-trained BERT로 LayoutLM 모델의 가중치를 초기화시킴. (2차원 positional embedding 제외)
• BASE는 768 hidden dimension + 12 layer + 12 attention heads (113M의 parameter)
• LARGE는 1024 hidden dimension + 24 layer + 16 attention heads (343M의 parameter)
• BERT와 같은 방식으로 15% 의 토큰을 예측하되 그 중 80% 는 input을 masking 하여, 10% 는 랜덤하게 다른
단어로 바꾸어서, 10% 는 원래 input 을 넣어 예측하도록 함 (MVLM)
• IIT-CDIP 데이터에는 문서별로 여러가지 tag 가 존재 한다. 이 [CLS] token 에서 tag 들을 classification 하도록
loss 를 추가한다. (MDC)

Experiments
Fine-tuning on FUNSD Dataset (Form Understanding)
• Semantic Labeling task
• 오른쪽 그림처럼 각 단어당 할당된 semantic label 을 맞추는 task
• Training 149개 + Test 50개 스캔 문서
• Unique identifier, Label (question, answer, header, other), Bounding box, A
list of links with other entities, A list of words
• Word-level F1 score
• Results
• Base 보다 Large 모델이 더 잘 동작
• 같은 epoch 일 때 MDC loss 를 추가한 경우 더 잘 동작
• Pre-training data가 많을 수록 더 잘 동작

Experiments
Fine-tuning on SROIE Dataset (Receipt Understanding)
• Entity Recognition
• 오른쪽 영수증의 네가지 Entity 를 인식하도록 학습
• Training 626개 + Testing 347개의 영수증 데이터 스캔 문서
• Company, Date, Address, Total
• Results

Experiments
Fine-tuning on RVL-CDIP Dataset (Document Image
Classification)
• Image Classification
• 오른쪽 16가지 Class의 문서를 분류하도록 학습
• 총 400,000개의 gray-scale로 구성 스캔 문서
• Letter, Form, Email, Handwritten, Advertisement, Scientific report,
Scientific publication, Specification, File folder, News article, Budget,
Invoice, Presentations, Questionnaire, Resume, Memo
• Results

Experiments
Parameter Initialization on FUNSD Dataset
• Pre-training 이전에 파라미터 초기화에 사용한 모델에
따른 성능 비교
• BASE 의 경우 RoBERTa base > BERT base (2.1 points
better)
• LARGE 의 경우 RoBERTa large > BERT large (1.3 points
better)
Different Data & Epoch on FUNSD Dataset
• Pre-training 에 사용한 데이터 사이즈와 학습 epoch
수에 따른 성능 비교
• Pre-training 에 사용한 데이터 수가 많을 수록 더 잘 동작

Layout lm paper review

More Related Content

What's hot (20)

Similar to Layout lm paper review (20)

More from taeseon ryu (20)

Layout lm paper review