SlideShare a Scribd company logo
서울대학교 산업공학과 손범호
인하대학교 산업공학과 정지원
DeepTitle
한국어 기사 자동 요약
Index
하나,
주제 선정
배경
둘,
선행 연구
셋,
실험 방법
넷,
결과
1. 주제선정 배경
빠른 정보 처리를 위한 자동 텍스트 요약 – Text Summarization
한글에 적용
1. 주제선정 배경
Dataset 선정
 Text Summarization 학습  (text, summary)의 dataset
DeepTitle
‘한글 기사 본문에 대해 한글 제목 달기'
2. 선행 연구
기존의 text summarization
Extractive Summary Abstractive Summary
최근 정부가 공공기관을 중심으로 블라인드 채용을 도입해
이력서 내 사진부착을 금지시키자 사진가들이 이에 반발하
며 방침을 철회할 것을 촉구했다.
사진가들이 정부가 블라인드
채용을 방침을 철회할 것을
촉구했다.
사진가들, 정부의 무분별한
블라인드 채용 방침 철회를
촉구하다.
vs
 딥러닝이 각광받기 이전에도 text summarization에 관한 연구들은 존
재
 Extractive Summary
 텍스트 내 단어 빈도수를 바탕으로 가중치를 두어 요약본을 생성
 본문 내 많이 나온 단어가 중요한 단어일 것이라는 아이디어에 바탕
2. 선행 연구
기존의 text summarization
Microsoft Office Word 2003
2. 선행 연구
기존의 text summarization
 Text Summarization with Tensorflow
2. 선행 연구
최근의 text summarization
 Tensorflow : 기계학습과 딥러닝을 위해 만든 구글의 오픈소스 라이브러리
2. 선행 연구
Seq2Seq
 Encoder : 문장을 input으로 받아 context를 학습
 Decoder : context로부터 output 문장을 생성
2. 선행 연구
Seq2Seq with Attention
 Attention – 문장 중 어떤 부분을 중점적으로 볼 것인가?
3. 실험 방법
자연어처리(NLP)
 기초 데이터 가공
 형태소 분석
알고리즘 적용데이터 전처리
자연어 처리(Natural Language Processing)
데이터 수집
 Word Embedding
 Seq2Seq
3. 실험 방법
데이터 수집
 2016년 1월 ~ 7월까지 네이버 사회면 기사를 수집. 총 38만 개
오늘(1일) 낮 1시 반쯤 경기도 파주시 문산읍의 15층짜리 아파
트 7층에서 불이 났습니다. 아파트 현관에서 난 불로 57살 방
모 씨 등 2명이 연기를 마셔 병원으로 옮겨졌고, 현관 일부와 집
기 등이 타 소방서 추산 4백만 원의 재산피해가 났습니다. 경찰
과 소방당국은 쓰레기봉투에 있던 담뱃재에서 불이 옮겨붙은 것
으로 보고 정확한 원인을 조사하고 있습니다. 최민기
[choimk@ytn.co.kr]▶ "이사 가도 쓰레기봉투 버리지 마세요"▶
수술 뒤 계속 통증…"3년 전 수술 바늘이 몸 안에"[저작권자(c)
YTN & YTN PLUS. 무단 전재-재배포 금지]
아파트에서 담뱃재 추정 불...2명 부상
제목
본문
 특수문자 제거
 본문 길이 조정
 Seq2Seq의 max length = 120
 ~3문장
3. 실험 방법
기초 데이터 가공
오늘(1일) 낮 1시 반쯤 경기도 파주시
문산읍의 15층짜리 아파트 7층에서
불이 났습니다. 아파트 현관에서 난
불로 57살 방 모 씨 등 2명이 연기를
마셔 병원으로 옮겨졌고, 현관 일부와
집기 등이 타 소방서 추산 4백만 원의
재산피해가 났습니다. 경찰과 소방당
국은 쓰레기봉투에 있던 담뱃재에서
불이 옮겨붙은 것으로 보고 정확한 원
인을 조사하고 있습니다. 최민기
[choimk@ytn.co.kr]▶ "이사 가도 쓰
레기봉투 버리지 마세요"▶ 수술 뒤 계
속 통증…"3년 전 수술 바늘이 몸 안에
"[저작권자(c) YTN & YTN PLUS. 무단
전재-재배포 금지]
본문
오늘1일 낮 1시 반쯤 경기도 파주시
문산읍의 15층짜리 아파트 7층에서
불이 났습니다. 아파트 현관에서 난
불로 57살 방 모 씨 등 2명이 연기를
마셔 병원으로 옮겨졌고, 현관 일부와
집기 등이 타 소방서 추산 4백만 원의
재산피해가 났습니다. 경찰과 소방당
국은 쓰레기봉투에 있던 담뱃재에서
불이 옮겨붙은 것으로 보고 정확한 원
인을 조사하고 있습니다.
 한글 그대로의 문장은 seq2seq input에 부적합. Why?
 단어 개수를 줄일 수 있음
 의미가 크게 변화하지 않아야함에 주의
3. 실험 방법
형태소 분석
오늘(1일) 낮 1시 반쯤 경기도 파주시 문산읍의 15층짜리 아파트 7층에서 불이 났습니다.
Alice and Bob took the train to visit the zoo.
오늘 ( 1 일 ) 낮 1 시 반 쯤 경기도 파주시 문산읍 의 15 층 짜다 아파트 7 층 에서 불 이
나다 .
Google Seq2Seq(https://google.github.io/seq2seq/
3. 실험 방법
Seq2Seq
 Tensorflow를 기반으로 한 encoder-decoder 오픈소스 프레임워크
 다양한 형태의 seq2seq 모델을 라이브러리 형태로 편리하게 사용 가능
 Word embedding 포함
 Input data : parallel text format, dictionary
 단어와 단어 사이는 공백, 문서와 문서 사이는 엔터로 구분
3. 실험 방법
Google Seq2Seq
 한글 input은?
오늘 ( 1 일 ) 낮 1 시 반 쯤 경기도 파주시 문산읍 의 15 층 짜다 아파트 7 층 에서 불 이 나다 .
 Google Seq2Seq는 한글을 읽지 못함
 Korean Romanization
3. 실험 방법
Korean Romanization
‘한’  ‘han’
‘천’  ‘chen’
'빙판‘  ‘pingphan’
Krtpy 패키지
 - romanize, hangulize 지원
고속도로 빙판 구간 에 미끄러지다
ko.sokto.lo pingphan kwu.kan ey mi.kku.le.ci.ta
romanize hangulize
3. 실험 방법
Google Seq2Seq
 Seq2Seq with Attention model
 Test set decoding : beam search
 Embedding dimension : 256
 Batch size : 32
 Encoder, decoder cell : 256
 Training step : 40만
 데이터 숫자 : 38만개?  3만개
 Dictionary < 10만
4. 결과
DeepTitle
예측 제목 실제 제목 실제 기사 본문
누리 과정 예산 편
성 진통 예상
‘정치 공세 – 정
부 책임 론‘ 대
립 평행선
일부 교육청 예산 편성 지자체 도 예산 지원 등 나서다 朴
대통령 , 기자회견 서 교육청 비판 교육청 별다르다 해법
제시 없다 반발 누리 과정 ( 만 3 ~ 5 세 공통 무상 보육
교육 ) 예산 을 정부 와 갈등 을 빚어온 일부 시 ㆍ 도 교육
청 이 기존 입장 을 바꾸다 지원 계획 을 밝히다
위안부 합의 파기
하라 촉구
일본군 위안부 합
의 무효 를 외치
며
【 서울 = 뉴시스 】 김진아 기자 = 한일 일본군 ' 위안
부 ' 합의 무효 와 정의 로운 해결 을 위 하다 전국 행동
회원 들 이 14 일 오후 정부 에게 보내다 요구 서 를 들
다 서울 종로구 외교부 로 행진 하고 있다 . 이 들 은 이
날 기자회견 을 통해 일본 정부 의 범죄 사실 인정 , 번
복 하다 수 없다 명확하다
인사 종합
<인사> 충북 영동
군
◇ 5 급 전보 ▲ 경제 과장 이영환 ▲ 주민 복지 과장
성 영근 ▲ 충북도 김현구 ▲ 〃 신영철 ◇ 6 급 전보
▲ 충북도 장철 진 ▲ 충북도 김명식 ▲ 생활 지원 과
태문 걸 ▲ 도시 건축 과 이근 홍 ▲ 학산면 송재희 ( 영
동 = 연합뉴스 )
Good case
4. 결과
DeepTitle
예측 제목 실제 제목 실제 기사 본문
호남 농협 중앙회
장 피의자 파견
‘구제역, 예방
이 최 우선'
( 포항 = 뉴스 1 ) 최창호 기자 = 경북 포항시 방역 공무원
들 이 전북 김제 에서 발생 하다 구제역 이 ' 관심 ' 에서 '
주의 ' 로 격상 되다 14 일 남구 연일읍 자명 리 최종 태
( 54 ) 씨 한우 농장 에서 구제역 백신 접종 및 소독 작업
을 하다 있다 .
광양 저수지 서 돈
만 40 명 숨지다
채 발견
광양 저수지 에서
승용차 안 50대다
남 사체 발견
전남 광양 경찰서 는 오늘 오전 10 시 쯤 광양시 광양읍
의 하다 저수지 에 빠지다 코란도 승용차 를 인양 하다 .
차 운전 석 과 조 수석 사이 에서 소유 주인 56 살 이모
씨 가 숨지다 채 발견 돼다 . 경찰 은 이씨 의 연락 두절
사실 을 신고 받다
여성 나체 사진 유
포 한 셀카 면 처
벌 못 해
워터파크 몰카 범
징역형 … “ 공
공장소 신뢰 무너
뜨다"
[ 앵커 ] 유명 워터파크 와 수영장 여자 샤워실 에서 여
성 들 의 신체 를 몰래 찍다 유포 한 이른바 ' 워터파크
몰카 ' 사건 의 피의자 들 에게 법원 이 중형 을 선고 하
다 . 영리 목적 으로 유포 하고 , 불 특정 다수 에게 피해
를 주다 점 이 반영 돼다 .
Bad case
4. 결과
DeepTitle - 문제점
무엇이 문제인가?
완벽한 문장 구조
 누리 과정 예산 편성 진통 예상
 호남 농협 중앙회 장 피의자 파견
 광양 저수지 서 돈 만 40 명 숨지다 채 발견
Text Generation
얼마나 잘 요약하는가?
문장이 얼마나 말이
되는가?
Overfitting
4. 결과
DeepTitle - 개선방안
Overfitting
 Training step 감소?
 트레이닝 데이터 개수 증가!
데이터 개수 증가
 Dictionary 수가 문제
 Character – based model
나는 학교에 갔다
감사합니다.

More Related Content

PDF
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
PDF
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
PPTX
脱RESTful API設計の提案
PDF
マイクロにしすぎた結果がこれだよ!
PDF
「顧客の声を聞かない」とはどういうことか
PPTX
プログラミング言語の比較表
PDF
MySQL・PostgreSQLだけで作る高速あいまい全文検索システム
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
脱RESTful API設計の提案
マイクロにしすぎた結果がこれだよ!
「顧客の声を聞かない」とはどういうことか
プログラミング言語の比較表
MySQL・PostgreSQLだけで作る高速あいまい全文検索システム
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜

What's hot (20)

PDF
きつねさんでもわかるLlvm読書会 第2回
PPTX
SPAセキュリティ入門~PHP Conference Japan 2021
PPTX
FIWARE Context Information Management
PPTX
分散システムについて語らせてくれ
PDF
데이터는 차트가 아니라 돈이 되어야 한다.
PDF
しょぼいプレゼンをパワポのせいにするな! by @jessedee
PDF
プログラムを高速化する話
PDF
競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
PDF
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
PDF
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
PDF
한국어 띄어쓰기 프로그램 도전기
PDF
Open dronemapハンズオン
PDF
コンセプトから理解するGitコマンド
PDF
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
PDF
それはYAGNIか? それとも思考停止か?
PPTX
自動でバグを見つける!プログラム解析と動的バイナリ計装
PDF
目grep入門 +解説
PPTX
フリーでできるWebセキュリティ(burp編)
PPTX
概念モデリング再入門 + DDD
PDF
例外設計における大罪
きつねさんでもわかるLlvm読書会 第2回
SPAセキュリティ入門~PHP Conference Japan 2021
FIWARE Context Information Management
分散システムについて語らせてくれ
데이터는 차트가 아니라 돈이 되어야 한다.
しょぼいプレゼンをパワポのせいにするな! by @jessedee
プログラムを高速化する話
競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
상상을 현실로 만드는, 이미지 생성 모델을 위한 엔지니어링
한국어 띄어쓰기 프로그램 도전기
Open dronemapハンズオン
コンセプトから理解するGitコマンド
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
それはYAGNIか? それとも思考停止か?
自動でバグを見つける!プログラム解析と動的バイナリ計装
目grep入門 +解説
フリーでできるWebセキュリティ(burp編)
概念モデリング再入門 + DDD
例外設計における大罪
Ad

Viewers also liked (11)

PDF
[분석+시각화] 위기탈출 경전철! - 신설 경전철 노선의 역별 수송수요 예측
PDF
[분석]텔레마틱스를 이용한 자동차 운전자 프로필 생성
PDF
[시각화] 통계로 본 서울시 유기동물 정보 시각화
PDF
[분석] 베이지안 분석방법을 이용한 손상된 이미지 복구
PDF
[시각화] 홈런치기 좋은 날 - 날씨 변화와 야구 경기기록의 관계 시각화
PDF
[분석]서울시 2030 나홀로족을 위한 라이프 가이드북
PDF
[시각화] 소고기와 돼지고기에 대한 정보 시각화 압축
PDF
[분석] ITS와 유동인구 데이터를 활용한 교통 예측 모델
PDF
[시각화]한국 대중가요 감정용언 분석
PDF
[시각화]허브웨이 공공자전거 시각화
PDF
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
[분석+시각화] 위기탈출 경전철! - 신설 경전철 노선의 역별 수송수요 예측
[분석]텔레마틱스를 이용한 자동차 운전자 프로필 생성
[시각화] 통계로 본 서울시 유기동물 정보 시각화
[분석] 베이지안 분석방법을 이용한 손상된 이미지 복구
[시각화] 홈런치기 좋은 날 - 날씨 변화와 야구 경기기록의 관계 시각화
[분석]서울시 2030 나홀로족을 위한 라이프 가이드북
[시각화] 소고기와 돼지고기에 대한 정보 시각화 압축
[분석] ITS와 유동인구 데이터를 활용한 교통 예측 모델
[시각화]한국 대중가요 감정용언 분석
[시각화]허브웨이 공공자전거 시각화
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
Ad

Similar to [분석] DeepTitle : 한국어 기사 자동 요약 (20)

PDF
딥러닝 기반의 자연어처리 최근 연구 동향
PDF
어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?
PDF
판별 모델을 통한 대체어 추출
PDF
Open domain dialogue Chatbot(잡담봇 삽질기)
PDF
Vs^3 net for machine reading comprehension question answering
PDF
메이크챗봇 자연어기초
PDF
딥러닝 기반 자연어 언어모델 BERT
PDF
파이썬을 활용한 자연어분석 기초
PDF
파이썬을 활용한 자연어 분석 - 2차
PDF
왓슨컴퓨터의 인공지능
PDF
제 20회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [B01Z] HAP-PY_음성 인식 기반 AI 면접 솔루...
PDF
Pycon Korea 2020
PDF
Restoring and Mining the Records ofthe Joseon Dynasty via Neural LanguageMode...
PDF
KIPS_C2008A_0034
PDF
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
PPTX
1910 tfkr3 warnikchow
PDF
Deep Learning for Chatbot (1/4)
PPTX
Nlp study1
PPTX
딥러닝을 이용한 자연어처리의 연구동향
PDF
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
딥러닝 기반의 자연어처리 최근 연구 동향
어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?
판별 모델을 통한 대체어 추출
Open domain dialogue Chatbot(잡담봇 삽질기)
Vs^3 net for machine reading comprehension question answering
메이크챗봇 자연어기초
딥러닝 기반 자연어 언어모델 BERT
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어 분석 - 2차
왓슨컴퓨터의 인공지능
제 20회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [B01Z] HAP-PY_음성 인식 기반 AI 면접 솔루...
Pycon Korea 2020
Restoring and Mining the Records ofthe Joseon Dynasty via Neural LanguageMode...
KIPS_C2008A_0034
[싸이그램즈 2018] 텍스트 데이터 전처리로 시작하는 NLP
1910 tfkr3 warnikchow
Deep Learning for Chatbot (1/4)
Nlp study1
딥러닝을 이용한 자연어처리의 연구동향
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기

More from BOAZ Bigdata (20)

PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [토이스토리] : Wispy
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [청진스] : Multi-Label Lung Sound Classification ba...
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [직행복] : 실시간 로그 처리 기반 추천시스템
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [영웅호걸] : Context-Aware Real-time Sentiment based ...
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중증외상센터] : 24시간 심전도 Holter 데이터 기반의 소아 PSVT 예측 모델 개발
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [아라보아즈] : 아라보아의 장기적 성장을 위한 DDDM 환경 구축
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [소크라데이터스] : 웨어러블 기기를 활용한 생체 신호 기반 감정 데이터 수집 및 감정 ...
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [땡큐쏘아마취] : 소마챗 : Agentic RAG 기반 소아마취 업무지원 챗봇
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SNOMED] : LangGraph 기반 OMOP CDM 매핑 파이프라인 구축
PDF
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GO-DIVA] : Fitbnb : 취향에 딱 맞는 에어비앤비 큐레이션 프로젝트
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [2인 3각] : FinSum_Dynamic Few-shot기반의 미국 주식 뉴스 리포트...
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아저스] : 목표 관리앱_챌린지로 보는 유저 행동
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [닭다리] : 쿠챗_RAG를 활용한 건국대학교 맞춤 챗봇
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WishU] : 직원을 위한 기업 경영 KPI 대시보드 및 커뮤니티 서비스 활성화를 위...
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Da.ily] : 상호작용 데이터 기반 와인 추천 시스템
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [LKVK] : 디토다이닝_서버리스 데이터 파이프라인을 곁들인 맛집 추천 서비스
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [OptiMaps] : CE-VRP_Constraint embedding for reco...
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [데조영] : 유저 행동 분석 기반 인터랙티브 대시보드 구축
PDF
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [연말결산] : LOOK-BACK_데이터 기반 3초 자기반성 SaaS 대시보드
PDF
제 20회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스타팅] 플라이북 프로덕트 성장을 위한 이...
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [토이스토리] : Wispy
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [청진스] : Multi-Label Lung Sound Classification ba...
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [직행복] : 실시간 로그 처리 기반 추천시스템
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [영웅호걸] : Context-Aware Real-time Sentiment based ...
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중증외상센터] : 24시간 심전도 Holter 데이터 기반의 소아 PSVT 예측 모델 개발
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [아라보아즈] : 아라보아의 장기적 성장을 위한 DDDM 환경 구축
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [소크라데이터스] : 웨어러블 기기를 활용한 생체 신호 기반 감정 데이터 수집 및 감정 ...
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [땡큐쏘아마취] : 소마챗 : Agentic RAG 기반 소아마취 업무지원 챗봇
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SNOMED] : LangGraph 기반 OMOP CDM 매핑 파이프라인 구축
제 22회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [GO-DIVA] : Fitbnb : 취향에 딱 맞는 에어비앤비 큐레이션 프로젝트
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [2인 3각] : FinSum_Dynamic Few-shot기반의 미국 주식 뉴스 리포트...
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아저스] : 목표 관리앱_챌린지로 보는 유저 행동
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [닭다리] : 쿠챗_RAG를 활용한 건국대학교 맞춤 챗봇
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WishU] : 직원을 위한 기업 경영 KPI 대시보드 및 커뮤니티 서비스 활성화를 위...
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Da.ily] : 상호작용 데이터 기반 와인 추천 시스템
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [LKVK] : 디토다이닝_서버리스 데이터 파이프라인을 곁들인 맛집 추천 서비스
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [OptiMaps] : CE-VRP_Constraint embedding for reco...
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [데조영] : 유저 행동 분석 기반 인터랙티브 대시보드 구축
제 21회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [연말결산] : LOOK-BACK_데이터 기반 3초 자기반성 SaaS 대시보드
제 20회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [스타팅] 플라이북 프로덕트 성장을 위한 이...

[분석] DeepTitle : 한국어 기사 자동 요약

  • 1. 서울대학교 산업공학과 손범호 인하대학교 산업공학과 정지원 DeepTitle 한국어 기사 자동 요약
  • 3. 1. 주제선정 배경 빠른 정보 처리를 위한 자동 텍스트 요약 – Text Summarization 한글에 적용
  • 4. 1. 주제선정 배경 Dataset 선정  Text Summarization 학습  (text, summary)의 dataset DeepTitle ‘한글 기사 본문에 대해 한글 제목 달기'
  • 5. 2. 선행 연구 기존의 text summarization Extractive Summary Abstractive Summary 최근 정부가 공공기관을 중심으로 블라인드 채용을 도입해 이력서 내 사진부착을 금지시키자 사진가들이 이에 반발하 며 방침을 철회할 것을 촉구했다. 사진가들이 정부가 블라인드 채용을 방침을 철회할 것을 촉구했다. 사진가들, 정부의 무분별한 블라인드 채용 방침 철회를 촉구하다. vs
  • 6.  딥러닝이 각광받기 이전에도 text summarization에 관한 연구들은 존 재  Extractive Summary  텍스트 내 단어 빈도수를 바탕으로 가중치를 두어 요약본을 생성  본문 내 많이 나온 단어가 중요한 단어일 것이라는 아이디어에 바탕 2. 선행 연구 기존의 text summarization
  • 7. Microsoft Office Word 2003 2. 선행 연구 기존의 text summarization
  • 8.  Text Summarization with Tensorflow 2. 선행 연구 최근의 text summarization  Tensorflow : 기계학습과 딥러닝을 위해 만든 구글의 오픈소스 라이브러리
  • 9. 2. 선행 연구 Seq2Seq  Encoder : 문장을 input으로 받아 context를 학습  Decoder : context로부터 output 문장을 생성
  • 10. 2. 선행 연구 Seq2Seq with Attention  Attention – 문장 중 어떤 부분을 중점적으로 볼 것인가?
  • 11. 3. 실험 방법 자연어처리(NLP)  기초 데이터 가공  형태소 분석 알고리즘 적용데이터 전처리 자연어 처리(Natural Language Processing) 데이터 수집  Word Embedding  Seq2Seq
  • 12. 3. 실험 방법 데이터 수집  2016년 1월 ~ 7월까지 네이버 사회면 기사를 수집. 총 38만 개 오늘(1일) 낮 1시 반쯤 경기도 파주시 문산읍의 15층짜리 아파 트 7층에서 불이 났습니다. 아파트 현관에서 난 불로 57살 방 모 씨 등 2명이 연기를 마셔 병원으로 옮겨졌고, 현관 일부와 집 기 등이 타 소방서 추산 4백만 원의 재산피해가 났습니다. 경찰 과 소방당국은 쓰레기봉투에 있던 담뱃재에서 불이 옮겨붙은 것 으로 보고 정확한 원인을 조사하고 있습니다. 최민기 [choimk@ytn.co.kr]▶ "이사 가도 쓰레기봉투 버리지 마세요"▶ 수술 뒤 계속 통증…"3년 전 수술 바늘이 몸 안에"[저작권자(c) YTN & YTN PLUS. 무단 전재-재배포 금지] 아파트에서 담뱃재 추정 불...2명 부상 제목 본문
  • 13.  특수문자 제거  본문 길이 조정  Seq2Seq의 max length = 120  ~3문장 3. 실험 방법 기초 데이터 가공 오늘(1일) 낮 1시 반쯤 경기도 파주시 문산읍의 15층짜리 아파트 7층에서 불이 났습니다. 아파트 현관에서 난 불로 57살 방 모 씨 등 2명이 연기를 마셔 병원으로 옮겨졌고, 현관 일부와 집기 등이 타 소방서 추산 4백만 원의 재산피해가 났습니다. 경찰과 소방당 국은 쓰레기봉투에 있던 담뱃재에서 불이 옮겨붙은 것으로 보고 정확한 원 인을 조사하고 있습니다. 최민기 [choimk@ytn.co.kr]▶ "이사 가도 쓰 레기봉투 버리지 마세요"▶ 수술 뒤 계 속 통증…"3년 전 수술 바늘이 몸 안에 "[저작권자(c) YTN & YTN PLUS. 무단 전재-재배포 금지] 본문 오늘1일 낮 1시 반쯤 경기도 파주시 문산읍의 15층짜리 아파트 7층에서 불이 났습니다. 아파트 현관에서 난 불로 57살 방 모 씨 등 2명이 연기를 마셔 병원으로 옮겨졌고, 현관 일부와 집기 등이 타 소방서 추산 4백만 원의 재산피해가 났습니다. 경찰과 소방당 국은 쓰레기봉투에 있던 담뱃재에서 불이 옮겨붙은 것으로 보고 정확한 원 인을 조사하고 있습니다.
  • 14.  한글 그대로의 문장은 seq2seq input에 부적합. Why?  단어 개수를 줄일 수 있음  의미가 크게 변화하지 않아야함에 주의 3. 실험 방법 형태소 분석 오늘(1일) 낮 1시 반쯤 경기도 파주시 문산읍의 15층짜리 아파트 7층에서 불이 났습니다. Alice and Bob took the train to visit the zoo. 오늘 ( 1 일 ) 낮 1 시 반 쯤 경기도 파주시 문산읍 의 15 층 짜다 아파트 7 층 에서 불 이 나다 .
  • 15. Google Seq2Seq(https://google.github.io/seq2seq/ 3. 실험 방법 Seq2Seq  Tensorflow를 기반으로 한 encoder-decoder 오픈소스 프레임워크  다양한 형태의 seq2seq 모델을 라이브러리 형태로 편리하게 사용 가능  Word embedding 포함
  • 16.  Input data : parallel text format, dictionary  단어와 단어 사이는 공백, 문서와 문서 사이는 엔터로 구분 3. 실험 방법 Google Seq2Seq  한글 input은? 오늘 ( 1 일 ) 낮 1 시 반 쯤 경기도 파주시 문산읍 의 15 층 짜다 아파트 7 층 에서 불 이 나다 .  Google Seq2Seq는 한글을 읽지 못함  Korean Romanization
  • 17. 3. 실험 방법 Korean Romanization ‘한’  ‘han’ ‘천’  ‘chen’ '빙판‘  ‘pingphan’ Krtpy 패키지  - romanize, hangulize 지원 고속도로 빙판 구간 에 미끄러지다 ko.sokto.lo pingphan kwu.kan ey mi.kku.le.ci.ta romanize hangulize
  • 18. 3. 실험 방법 Google Seq2Seq  Seq2Seq with Attention model  Test set decoding : beam search  Embedding dimension : 256  Batch size : 32  Encoder, decoder cell : 256  Training step : 40만  데이터 숫자 : 38만개?  3만개  Dictionary < 10만
  • 19. 4. 결과 DeepTitle 예측 제목 실제 제목 실제 기사 본문 누리 과정 예산 편 성 진통 예상 ‘정치 공세 – 정 부 책임 론‘ 대 립 평행선 일부 교육청 예산 편성 지자체 도 예산 지원 등 나서다 朴 대통령 , 기자회견 서 교육청 비판 교육청 별다르다 해법 제시 없다 반발 누리 과정 ( 만 3 ~ 5 세 공통 무상 보육 교육 ) 예산 을 정부 와 갈등 을 빚어온 일부 시 ㆍ 도 교육 청 이 기존 입장 을 바꾸다 지원 계획 을 밝히다 위안부 합의 파기 하라 촉구 일본군 위안부 합 의 무효 를 외치 며 【 서울 = 뉴시스 】 김진아 기자 = 한일 일본군 ' 위안 부 ' 합의 무효 와 정의 로운 해결 을 위 하다 전국 행동 회원 들 이 14 일 오후 정부 에게 보내다 요구 서 를 들 다 서울 종로구 외교부 로 행진 하고 있다 . 이 들 은 이 날 기자회견 을 통해 일본 정부 의 범죄 사실 인정 , 번 복 하다 수 없다 명확하다 인사 종합 <인사> 충북 영동 군 ◇ 5 급 전보 ▲ 경제 과장 이영환 ▲ 주민 복지 과장 성 영근 ▲ 충북도 김현구 ▲ 〃 신영철 ◇ 6 급 전보 ▲ 충북도 장철 진 ▲ 충북도 김명식 ▲ 생활 지원 과 태문 걸 ▲ 도시 건축 과 이근 홍 ▲ 학산면 송재희 ( 영 동 = 연합뉴스 ) Good case
  • 20. 4. 결과 DeepTitle 예측 제목 실제 제목 실제 기사 본문 호남 농협 중앙회 장 피의자 파견 ‘구제역, 예방 이 최 우선' ( 포항 = 뉴스 1 ) 최창호 기자 = 경북 포항시 방역 공무원 들 이 전북 김제 에서 발생 하다 구제역 이 ' 관심 ' 에서 ' 주의 ' 로 격상 되다 14 일 남구 연일읍 자명 리 최종 태 ( 54 ) 씨 한우 농장 에서 구제역 백신 접종 및 소독 작업 을 하다 있다 . 광양 저수지 서 돈 만 40 명 숨지다 채 발견 광양 저수지 에서 승용차 안 50대다 남 사체 발견 전남 광양 경찰서 는 오늘 오전 10 시 쯤 광양시 광양읍 의 하다 저수지 에 빠지다 코란도 승용차 를 인양 하다 . 차 운전 석 과 조 수석 사이 에서 소유 주인 56 살 이모 씨 가 숨지다 채 발견 돼다 . 경찰 은 이씨 의 연락 두절 사실 을 신고 받다 여성 나체 사진 유 포 한 셀카 면 처 벌 못 해 워터파크 몰카 범 징역형 … “ 공 공장소 신뢰 무너 뜨다" [ 앵커 ] 유명 워터파크 와 수영장 여자 샤워실 에서 여 성 들 의 신체 를 몰래 찍다 유포 한 이른바 ' 워터파크 몰카 ' 사건 의 피의자 들 에게 법원 이 중형 을 선고 하 다 . 영리 목적 으로 유포 하고 , 불 특정 다수 에게 피해 를 주다 점 이 반영 돼다 . Bad case
  • 21. 4. 결과 DeepTitle - 문제점 무엇이 문제인가? 완벽한 문장 구조  누리 과정 예산 편성 진통 예상  호남 농협 중앙회 장 피의자 파견  광양 저수지 서 돈 만 40 명 숨지다 채 발견 Text Generation 얼마나 잘 요약하는가? 문장이 얼마나 말이 되는가? Overfitting
  • 22. 4. 결과 DeepTitle - 개선방안 Overfitting  Training step 감소?  트레이닝 데이터 개수 증가! 데이터 개수 증가  Dictionary 수가 문제  Character – based model 나는 학교에 갔다