SlideShare a Scribd company logo
오픈 데이터와 인공지능
이명진
LiST, Linked Data and Semantic Web Technology
오픈 데이터와 공공데이터
• 오픈 데이터(open data)
• 저작권이나 특허 등과 같은 제약사항 없이 모든 사람이
자유롭게 사용할 수 있는 데이터
• 공공데이터(open government data)
• 데이터베이스, 전자화된 파일 등 공공기관이 법령
등에서 정하는 목적을 위하여 생성 또는 취득하여
관리하고 있는 광(光) 또는 전자적 방식으로 처리된
자료 또는 정보
• “기계 판독이 가능한 형태”로 “제공”
오픈 데이터의 중요성
HTML 스크랩핑 경기도 서버에서 앱 차단
오픈 API로 개방광고 게재
공공데이터의 상업적 이용 제한
카카오 인수
네이버 지원
인공지능(Artificial Intelligence)
• 기계로부터 만들어진 인공적인 지능
• 학습과 문제해결과 같은 인간의 인지 기능을 모방하여 만들어진 기계의 지능
Symbolic Sub-symbolic
• 인간의 지식을 기호로 표시하고 이를 바
탕으로 논리, 검색, 문제 표현 등을 처리
• 1950년대 중반부터 1980년대 후반까
지 AI 연구의 지배적 패러다임
• 지식의 표현 없이 기계학습과 같은 방법
을 이용하여 학습, 패턴 인식과 같은 분
야에 활용
• 1980년대부터 본격적인 연구가 시작
지식베이스를 활용한 인공지능
• 지식을 수집하고
• 이를 컴퓨터가 처리 및 이해할 수 있는 형태로 구축 및 저장한 후
• 추론, 검색 등과 같은 처리를 통해
• 사용자의 의사결정, 질의응답과 같은 지능형 처리를 지원
지식공학자 사용자
온톨로지 추론
아무개
개똥이 이순이
엄마
남매
아무개
이순이
삼촌
삼촌은 누구?
• 자연어 형식으로 된 질문들에 응답할 수 있는 질의응답 인공지능 컴퓨터 시스템
• 2011년에 Jeopardy! 퀴즈쇼에서 우승
Ken Jennings,
74번 Jeopardy! 챔피언으로
$3,422,700 번 남자
Brad Rutter,
Jeopardy!에서
가장 돈 많이 번 남자
($4,455,102)
WAR MOVIES: A 1902 Joseph Conrad work set in Africa inspired this
director to create a controversial 1979 war film.
answer: “Francis Ford Coppola”
IBM Watson을 위한 데이터
• 소프트웨어
• Watson uses IBM's DeepQA software and the Apache UIMA (Unstructured Information
Management Architecture) framework. The system was written in various languages, including
Java, C++, and Prolog, and runs on the SUSE Linux Enterprise Server 11 operating system using
Apache Hadoop framework to provide distributed computing.
• 데이터
• The sources of information for Watson include encyclopedias, dictionaries, thesauri, newswire
articles, and literary works. Watson also used databases, taxonomies, and ontologies. Specifically,
DBPedia, WordNet, and Yago were used. The IBM team provided Watson with millions of
documents, including dictionaries, encyclopedias, and other reference material that it could use
to build its knowledge. Although Watson was not connected to the Internet during the game, it
contained 200 million pages of structured and unstructured content consuming four terabytes of
disk storage, including the full text of Wikipedia.
오픈 데이터와 인공지능
기계학습을 활용한 인공지능
• 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
• 컴퓨터에 명시적으로 프로그래밍을 하지 않고 통계 기술을 사용하여 학습을 수행하는 인공지능
• 알고리즘
• Artificial neural networks
• Support vector machines
• Clustering
• Bayesian networks
• Genetic algorithms
• etc.
• 구글 딥마인드(Google DeepMind)가 개발한 인공지능(AI, Artificial Intelligence) 바둑 프로그램
• 핸디캡 없이 사람이 이긴 최초의 컴퓨터 바둑 프로그램
Versions Hardware Elo rating Matches
AlphaGo Fan 176 GPUs, distributed 3,144 5:0 against Fan Hui
AlphaGo Lee 48 TPUs, distributed 3,739 4:1 against Lee Sedol
AlphaGo Master 4 TPUs, single machine 4,858
60:0 against professional players;
Future of Go Summit
AlphaGo Zero 4 TPUs, single machine 5,185
100:0 against AlphaGo Lee
89:11 against AlphaGo Master
AlphaZero 4 TPUs, single machine N/A 60:40 against AlphaGo Zero
구글 딥마인드의 알파고
• 알고리즘
• 훈련된 심층신경망(DNN, Deep Neural Network)이
몬테카를로 트리 탐색(MCTS, Monte Carlo Tree
Search) 통해 가장 유리한 선택을 하도록 설계
• 반복적인 자가 대국으로 성능을 개선하는 강화학습
수행
• 학습 데이터
• KGS 바둑 서버에 등록된 16만 개의 기보
• 3천 만개 정도의 착점 위치 정보와 패턴
데이터의 중요성
Is Data More Important Than Algorithms In AI?
We don’t have better algorithms
than anyone else;
we just have more data
Google’s Chief Scientist Peter Norvig
- Google’s Zeitgeist 2011
제한된 데이터 환경에서의 문제점
• 인터넷에서 이미 우위를 선점하고 있는 대형 플랫폼에 의해 지배될 위험이 존재
• 경쟁과 혁신의 감소
• 신생 기업이나 중소 기업이 새로운 아이디어를 통해 문제를 해결할 수 있는 기회의 제한
• 전체적인 AI 시장 및 AI로 인해 얻을 수 있는 혜택의 감소
• 위키피디아 문서에서 참여자들에 의해 만들어진 질의응답 관련 데이터 셋
• 500개 이상의 문서로부터 100,000개 이상의 질문-답변으로 구성
{ "data": [ {
"title": "University_of_Notre_Dame",
"paragraphs": [ {
"context": "Architecturally, the school has a Catholic character. Atop the Main Building's gold dome is a golden statue of the Virgin
Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend "Venite Ad Me Omnes".
Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a
replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive (and
in a direct line that connects through 3 statues and the Gold Dome), is a simple, modern stone statue of Mary.",
"qas": [ {
"answers": [ {
"answer_start": 515,
"text": "Saint Bernadette Soubirous"
}
],
"question": "To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?",
"id": "5733be284776f41900661182"
},
오픈 데이터와 인공지능
• ImageNet
• 시각적 개체 인식 소프트웨어 연구를 위한 대규모 이미지
데이터베이스
• 2천개 이상의 분류로 1400만 개 이상의 이미지를 포함
• ILSVRC (ImageNet Large Scale Visual Recognition
Challenge)
• 2010년 정확도 71.8%
• 2017년 정확도 97.3%
인공지능을 위한 데이터 개방의 중요성
• 인공지능을 위한 데이터의 접근성을 높임으로써,
• 중소기업의 경쟁력을 올리고
• 공정한 AI 시장에서의 경쟁 체계 구축
일자 데이터 셋
2018-04-30 1,184
2017-08-22 1,163
2017-02-20 1,139
2017-01-26 1,146
2014-08-30 570
2011-09-19 295
2010-09-22 203
2009-07-14 95
2009-03-27 93
2009-03-05 89
2008-09-18 45
2008-03-31 34
2008-02-28 32
2007-11-10 28
2007-11-07 28
2007-10-08 25
2007-05-01 12
기계학습을 위한 개방 데이터 셋
• List of datasets for machine learning research
• https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research
• Open Data for Deep Learning & Machine Learning
• https://deeplearning4j.org/opendata
• Fueling the Gold Rush: The Greatest Public Datasets for AI
• https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
• UCI Machine Learning Repository
• http://archive.ics.uci.edu/ml/datasets.html
기계학습을 위한 개방 데이터 셋
• OpenML - https://www.openml.org/
우리의 경험 #1
• KEF (Knowledge Extraction Framework)
• 지식베이스 구축을 위해 비정형 데이터로부터 지식을 추출하기 위한 기계학습 기반의 플랫폼
Support Vector Machine
Wikipages
문서 분류 학습
Maximum Entropy
문장 분류 학습
Conditional Random Fields
속성-값 추출 학습
학습 대상 선택
①
②
오픈 데이터와 인공지능
오픈 데이터와 인공지능
우리의 경험 #1
• 학습 데이터
• Wikipedia의 Infobox를 이용하여 학습 수행
• 120,000 개의 Wikipedia 문서를 학습하여 200개 이상의 분류와 3,000개 이상 다양한 유형의 지식추출
Document
Classification Learning
(SVM)
Training Data
Construction
Document Classification
Sentence Classification
Learning
(ME)
Sentence Classification
Good or Bad Sentence
Tagging
Attr-Value Extractor
(CRF)
Attr-Value Extraction
Attribute Value
Tagging
Training Data Filtering
Filtering
(K-Means)
우리의 경험 #1
• 학습 데이터 생성
문장 구분
문재인(文在寅, 1953년 1월 24일 ~ )은 대한민국의 제19대
대통령이다.
좋은 문장
본관은 남평(南平)이다. 나쁜 문장
경희대학교 재학 시절 학생운동을 이끌며 박정희 유신독재에
항거하다가 1975년 서대문구치소에 투옥됐고 대학에서 제적
당했다.
나쁜 문장
출소 후에는 바로 군에 강제징집 됐다. 나쁜 문장
원문데이터
학습 대상
문장 태깅
문재인 / 은 / 대한민국 / 의 / 제19대 / 대통령 / 이다.
V Post Post N NPrePre
단어 태깅
이것이 문제!!!
우리의 경험 #1
• 경험을 통한 교훈
• 좋은 데이터를 확보하는 것이 쉽지 않다.
• 좋은 데이터가 있다면 더 좋은 성능을 발휘할 수 있다.
• 일반 문서를 위한 데이터는 어떻게?
우리의 경험 #2
• ALVIS
• 지식베이스를 기반으로 한 지능형 질의응답 플랫폼
• 지식베이스를 기반으로 사용자의 자연어 질의를 해석하고 그에 적합한 응답을 지식베이스로부터 찾아
반환하는 질의응답 플랫폼
이순신 관련 조직의 설립자는?
자연어 질의 OWL 형식(DL) 지식
SPARQL
이순
신
조직
설립
자
관련
이순신 조직 설립자
관
련
개념 그래프(Conceptual Graph)
질의 그래프(Query Graph)
related founder
Person
Organi
zation
Found
er
<이순
신>
type
Query Generation
SPARQL Answer
우리의 경험 #2
• 한국사 관련 질의응답 플랫폼 구현을 위한 한국사 지식베이스
• 어디서 데이터를 얻을 것인가?
• 국사편찬위원회의 한국사 LOD
• 한국학중앙연구원의 한국민족문화대백과사전
• 이뮤지엄
• 지식베이스 구축 시 어려웠던 점
• 간단한 수집 방법의 부재(LOD, Open API 등)
• 정규화 되어 있지 않은 값들
• 통일되어 있지 않은 데이터 형식
• 동일 개체에 대한 서로 다른 아이디
• 의미 없이 구성된 데이터 구조
• 등등
우리의 경험 #2
• 경험을 통한 교훈
• 좋은 데이터 구축은 인간의 노동을 요한다.
• 웹 페이지 등과 같이 가공된 데이터보다는 날 것 그대로의 데이터(raw data)가 중요하다.
• 데이터 잘 만들면 부족할지 언정 공유 해야겠다.
더 나은 인공지능 시대를 위하여
• Better data is always better.
• 인공지능에서 알고리즘의 성능을 높이기 위해 대량의 고품질 데이터가 중요
• 가능한 데이터를 공개적으로 사용할 수 있고 기계가 읽을 수 있는 형식의 데이터를 만드는 것이 중요
• 정부의 역할
• 정부가 보유 및 생산(직접적이든 간접적이든)한 데이터는 엄청난 자산임을 인식
• 인공지능을 위해 데이터를 원천 데이터 형식으로 수집 및 제공
• 사용자가 보다 쉽게 데이터를 발견하고 이용할 수 있도록 다양한 형태의 노력이 필요
• 데이터의 유통이 일어날 수록 개인정보에 대한 철저한 관리와 규제 필요
References
• https://www.quora.com/In-machine-learning-is-more-data-always-better-than-better-algorithms
• https://rajpurkar.github.io/SQuAD-explorer/
• https://www.techuk.org/insights/opinions/item/10708-guest-blog-peter-wells-odi-access-to-data-is-key-to-a-
competitive-ai-market
• https://www.forbes.com/sites/quora/2017/01/26/is-data-more-important-than-algorithms-in-ai/#353c87f842c1
• https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
• https://www.forbes.com/sites/scottcleland/2011/10/03/googles-infringenovation-secrets/#67b70b9b30a6
• https://theodi.org/article/using-artificial-intelligence-and-open-data-for-innovation-and-accountability/
• https://www.squiz.net/learn/blog/why-data-is-so-important-when-it-comes-to-ai
• https://www.govloop.com/refining-value-government-data-machine-learning/
• https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
• https://searchenterpriseai.techtarget.com/definition/Turing-test
• http://heidloff.net/article/understanding-natural-language-text
• https://en.wikipedia.org/wiki/Open_science
• http://cckorea.org/xe/news/632741
Myungjin Lee
LiST, Linked Data and Semantic Web Technology
Ph.D. / CTO
e-Mail : mjlee@LiSTInc.kr
Twitter : http://twitter.com/MyungjinLee
Facebook : http://www.facebook.com/mjinlee
SlideShare : http://www.slideshare.net/onlyjiny/

More Related Content

PDF
빅데이터 솔루션 소개서(2013년 05월)
PDF
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
PDF
빅데이터 기술 및 시장동향
PPTX
빅데이터의 이해
PDF
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
PDF
[코세나, kosena] 빅데이터 구축 및 제안 가이드
PDF
빅데이터_ISP수업
PDF
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터 솔루션 소개서(2013년 05월)
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
빅데이터 기술 및 시장동향
빅데이터의 이해
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
[코세나, kosena] 빅데이터 구축 및 제안 가이드
빅데이터_ISP수업
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410

What's hot (20)

PPTX
Process for Big Data Analysis
PPTX
빅데이터 시대 새로운 신기술과 활용방향
PPTX
빅데이터
PPTX
PDF
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
PDF
Big Data 대충 알아보기
PDF
지능정보시대를 위한 빅데이터, 이대로 좋은가
PDF
빅데이터 개요
PDF
BigData, Hadoop과 Node.js
PPTX
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
PPT
Pag 빅데이터-한국에도필요한가
PDF
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
PDF
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
PPTX
빅데이터의 활용
PPTX
빅데이터와 로봇 (Big Data in Robotics)
PDF
빅데이터란?
PDF
UNUS BEANs 소개서 20141015
PDF
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
PPTX
빅데이터 이용 사례 분석
PDF
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
Process for Big Data Analysis
빅데이터 시대 새로운 신기술과 활용방향
빅데이터
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
Big Data 대충 알아보기
지능정보시대를 위한 빅데이터, 이대로 좋은가
빅데이터 개요
BigData, Hadoop과 Node.js
[코세나, kosena] 빅데이터 기반의 End-to-End APM과 비정형 데이터 분석 자료입니다.
Pag 빅데이터-한국에도필요한가
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
빅데이터의 활용
빅데이터와 로봇 (Big Data in Robotics)
빅데이터란?
UNUS BEANs 소개서 20141015
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
빅데이터 이용 사례 분석
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
Ad

Similar to 오픈 데이터와 인공지능 (20)

PDF
진화형 지식처리 인공지능 기술의 동향과 산업전망
PDF
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
PPTX
빅데이터전문가교육 2학기
PPTX
2017 주요 기술 흐름 및 개요
PDF
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
PPTX
2017 BoB 3rd BISC conference
PDF
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
PPTX
모바일 개발 트랜드
PDF
Introduction to ankus(data mining and machine learning open source)
PDF
학습분석(Learning Analytics) 활용 가능성 및 전망
PPTX
웹보메트릭스와 계량정보학14 2
PDF
빅 데이터, 새로운 통찰력
PPTX
빅 데이터 개요 및 활용
PDF
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
PDF
Meetup history
PPTX
2012 3 qp_hybrid algorithm optimization with artificial intelligence
PPTX
빅데이터와 타겟 마케팅 Ver 1 0
PDF
[PyCon KR 2018] 진실은 언제나 하나! : Python으로 만나보는 Digital Forensic
PDF
정보보호통합플랫폼 기술 트렌드
PDF
빅데이터와 저널리즘
진화형 지식처리 인공지능 기술의 동향과 산업전망
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
빅데이터전문가교육 2학기
2017 주요 기술 흐름 및 개요
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
2017 BoB 3rd BISC conference
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
모바일 개발 트랜드
Introduction to ankus(data mining and machine learning open source)
학습분석(Learning Analytics) 활용 가능성 및 전망
웹보메트릭스와 계량정보학14 2
빅 데이터, 새로운 통찰력
빅 데이터 개요 및 활용
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
Meetup history
2012 3 qp_hybrid algorithm optimization with artificial intelligence
빅데이터와 타겟 마케팅 Ver 1 0
[PyCon KR 2018] 진실은 언제나 하나! : Python으로 만나보는 Digital Forensic
정보보호통합플랫폼 기술 트렌드
빅데이터와 저널리즘
Ad

More from Myungjin Lee (20)

PDF
JSP 프로그래밍 #05 HTML과 JSP
PDF
JSP 프로그래밍 #04 JSP 의 기본
PDF
JSP 프로그래밍 #03 서블릿
PDF
JSP 프로그래밍 #02 서블릿과 JSP 시작하기
PDF
JSP 프로그래밍 #01 웹 프로그래밍
PDF
관광 지식베이스와 스마트 관광 서비스 (Knowledge base and Smart Tourism)
PDF
법령 온톨로지의 구축 및 검색
PDF
도서관과 Linked Data
PDF
공공데이터, 현재 우리는?
PDF
LODAC 2017 Linked Open Data Workshop
PDF
Introduction of Deep Learning
PDF
쉽게 이해하는 LOD
PDF
서울시 열린데이터 광장 문화관광 분야 LOD 서비스
PDF
LOD(Linked Open Data) Recommendations
PDF
Interlinking for Linked Data
PDF
Linked Open Data Tutorial
PPTX
Linked Data Usecases
PDF
공공데이터와 Linked open data
PDF
공공데이터와 Linked open data
PPTX
Linked Data Modeling for Beginner
JSP 프로그래밍 #05 HTML과 JSP
JSP 프로그래밍 #04 JSP 의 기본
JSP 프로그래밍 #03 서블릿
JSP 프로그래밍 #02 서블릿과 JSP 시작하기
JSP 프로그래밍 #01 웹 프로그래밍
관광 지식베이스와 스마트 관광 서비스 (Knowledge base and Smart Tourism)
법령 온톨로지의 구축 및 검색
도서관과 Linked Data
공공데이터, 현재 우리는?
LODAC 2017 Linked Open Data Workshop
Introduction of Deep Learning
쉽게 이해하는 LOD
서울시 열린데이터 광장 문화관광 분야 LOD 서비스
LOD(Linked Open Data) Recommendations
Interlinking for Linked Data
Linked Open Data Tutorial
Linked Data Usecases
공공데이터와 Linked open data
공공데이터와 Linked open data
Linked Data Modeling for Beginner

오픈 데이터와 인공지능

  • 1. 오픈 데이터와 인공지능 이명진 LiST, Linked Data and Semantic Web Technology
  • 2. 오픈 데이터와 공공데이터 • 오픈 데이터(open data) • 저작권이나 특허 등과 같은 제약사항 없이 모든 사람이 자유롭게 사용할 수 있는 데이터 • 공공데이터(open government data) • 데이터베이스, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 광(光) 또는 전자적 방식으로 처리된 자료 또는 정보 • “기계 판독이 가능한 형태”로 “제공”
  • 3. 오픈 데이터의 중요성 HTML 스크랩핑 경기도 서버에서 앱 차단 오픈 API로 개방광고 게재 공공데이터의 상업적 이용 제한 카카오 인수 네이버 지원
  • 4. 인공지능(Artificial Intelligence) • 기계로부터 만들어진 인공적인 지능 • 학습과 문제해결과 같은 인간의 인지 기능을 모방하여 만들어진 기계의 지능
  • 5. Symbolic Sub-symbolic • 인간의 지식을 기호로 표시하고 이를 바 탕으로 논리, 검색, 문제 표현 등을 처리 • 1950년대 중반부터 1980년대 후반까 지 AI 연구의 지배적 패러다임 • 지식의 표현 없이 기계학습과 같은 방법 을 이용하여 학습, 패턴 인식과 같은 분 야에 활용 • 1980년대부터 본격적인 연구가 시작
  • 6. 지식베이스를 활용한 인공지능 • 지식을 수집하고 • 이를 컴퓨터가 처리 및 이해할 수 있는 형태로 구축 및 저장한 후 • 추론, 검색 등과 같은 처리를 통해 • 사용자의 의사결정, 질의응답과 같은 지능형 처리를 지원 지식공학자 사용자 온톨로지 추론 아무개 개똥이 이순이 엄마 남매 아무개 이순이 삼촌 삼촌은 누구?
  • 7. • 자연어 형식으로 된 질문들에 응답할 수 있는 질의응답 인공지능 컴퓨터 시스템 • 2011년에 Jeopardy! 퀴즈쇼에서 우승 Ken Jennings, 74번 Jeopardy! 챔피언으로 $3,422,700 번 남자 Brad Rutter, Jeopardy!에서 가장 돈 많이 번 남자 ($4,455,102)
  • 8. WAR MOVIES: A 1902 Joseph Conrad work set in Africa inspired this director to create a controversial 1979 war film. answer: “Francis Ford Coppola”
  • 9. IBM Watson을 위한 데이터 • 소프트웨어 • Watson uses IBM's DeepQA software and the Apache UIMA (Unstructured Information Management Architecture) framework. The system was written in various languages, including Java, C++, and Prolog, and runs on the SUSE Linux Enterprise Server 11 operating system using Apache Hadoop framework to provide distributed computing. • 데이터 • The sources of information for Watson include encyclopedias, dictionaries, thesauri, newswire articles, and literary works. Watson also used databases, taxonomies, and ontologies. Specifically, DBPedia, WordNet, and Yago were used. The IBM team provided Watson with millions of documents, including dictionaries, encyclopedias, and other reference material that it could use to build its knowledge. Although Watson was not connected to the Internet during the game, it contained 200 million pages of structured and unstructured content consuming four terabytes of disk storage, including the full text of Wikipedia.
  • 11. 기계학습을 활용한 인공지능 • 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 • 컴퓨터에 명시적으로 프로그래밍을 하지 않고 통계 기술을 사용하여 학습을 수행하는 인공지능 • 알고리즘 • Artificial neural networks • Support vector machines • Clustering • Bayesian networks • Genetic algorithms • etc.
  • 12. • 구글 딥마인드(Google DeepMind)가 개발한 인공지능(AI, Artificial Intelligence) 바둑 프로그램 • 핸디캡 없이 사람이 이긴 최초의 컴퓨터 바둑 프로그램 Versions Hardware Elo rating Matches AlphaGo Fan 176 GPUs, distributed 3,144 5:0 against Fan Hui AlphaGo Lee 48 TPUs, distributed 3,739 4:1 against Lee Sedol AlphaGo Master 4 TPUs, single machine 4,858 60:0 against professional players; Future of Go Summit AlphaGo Zero 4 TPUs, single machine 5,185 100:0 against AlphaGo Lee 89:11 against AlphaGo Master AlphaZero 4 TPUs, single machine N/A 60:40 against AlphaGo Zero
  • 13. 구글 딥마인드의 알파고 • 알고리즘 • 훈련된 심층신경망(DNN, Deep Neural Network)이 몬테카를로 트리 탐색(MCTS, Monte Carlo Tree Search) 통해 가장 유리한 선택을 하도록 설계 • 반복적인 자가 대국으로 성능을 개선하는 강화학습 수행 • 학습 데이터 • KGS 바둑 서버에 등록된 16만 개의 기보 • 3천 만개 정도의 착점 위치 정보와 패턴
  • 14. 데이터의 중요성 Is Data More Important Than Algorithms In AI?
  • 15. We don’t have better algorithms than anyone else; we just have more data Google’s Chief Scientist Peter Norvig - Google’s Zeitgeist 2011
  • 16. 제한된 데이터 환경에서의 문제점 • 인터넷에서 이미 우위를 선점하고 있는 대형 플랫폼에 의해 지배될 위험이 존재 • 경쟁과 혁신의 감소 • 신생 기업이나 중소 기업이 새로운 아이디어를 통해 문제를 해결할 수 있는 기회의 제한 • 전체적인 AI 시장 및 AI로 인해 얻을 수 있는 혜택의 감소
  • 17. • 위키피디아 문서에서 참여자들에 의해 만들어진 질의응답 관련 데이터 셋 • 500개 이상의 문서로부터 100,000개 이상의 질문-답변으로 구성 { "data": [ { "title": "University_of_Notre_Dame", "paragraphs": [ { "context": "Architecturally, the school has a Catholic character. Atop the Main Building's gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend "Venite Ad Me Omnes". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive (and in a direct line that connects through 3 statues and the Gold Dome), is a simple, modern stone statue of Mary.", "qas": [ { "answers": [ { "answer_start": 515, "text": "Saint Bernadette Soubirous" } ], "question": "To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?", "id": "5733be284776f41900661182" },
  • 19. • ImageNet • 시각적 개체 인식 소프트웨어 연구를 위한 대규모 이미지 데이터베이스 • 2천개 이상의 분류로 1400만 개 이상의 이미지를 포함 • ILSVRC (ImageNet Large Scale Visual Recognition Challenge) • 2010년 정확도 71.8% • 2017년 정확도 97.3%
  • 20. 인공지능을 위한 데이터 개방의 중요성 • 인공지능을 위한 데이터의 접근성을 높임으로써, • 중소기업의 경쟁력을 올리고 • 공정한 AI 시장에서의 경쟁 체계 구축
  • 21. 일자 데이터 셋 2018-04-30 1,184 2017-08-22 1,163 2017-02-20 1,139 2017-01-26 1,146 2014-08-30 570 2011-09-19 295 2010-09-22 203 2009-07-14 95 2009-03-27 93 2009-03-05 89 2008-09-18 45 2008-03-31 34 2008-02-28 32 2007-11-10 28 2007-11-07 28 2007-10-08 25 2007-05-01 12
  • 22. 기계학습을 위한 개방 데이터 셋 • List of datasets for machine learning research • https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research • Open Data for Deep Learning & Machine Learning • https://deeplearning4j.org/opendata • Fueling the Gold Rush: The Greatest Public Datasets for AI • https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2 • UCI Machine Learning Repository • http://archive.ics.uci.edu/ml/datasets.html
  • 23. 기계학습을 위한 개방 데이터 셋 • OpenML - https://www.openml.org/
  • 24. 우리의 경험 #1 • KEF (Knowledge Extraction Framework) • 지식베이스 구축을 위해 비정형 데이터로부터 지식을 추출하기 위한 기계학습 기반의 플랫폼 Support Vector Machine Wikipages 문서 분류 학습 Maximum Entropy 문장 분류 학습 Conditional Random Fields 속성-값 추출 학습 학습 대상 선택 ① ②
  • 27. 우리의 경험 #1 • 학습 데이터 • Wikipedia의 Infobox를 이용하여 학습 수행 • 120,000 개의 Wikipedia 문서를 학습하여 200개 이상의 분류와 3,000개 이상 다양한 유형의 지식추출 Document Classification Learning (SVM) Training Data Construction Document Classification Sentence Classification Learning (ME) Sentence Classification Good or Bad Sentence Tagging Attr-Value Extractor (CRF) Attr-Value Extraction Attribute Value Tagging Training Data Filtering Filtering (K-Means)
  • 28. 우리의 경험 #1 • 학습 데이터 생성 문장 구분 문재인(文在寅, 1953년 1월 24일 ~ )은 대한민국의 제19대 대통령이다. 좋은 문장 본관은 남평(南平)이다. 나쁜 문장 경희대학교 재학 시절 학생운동을 이끌며 박정희 유신독재에 항거하다가 1975년 서대문구치소에 투옥됐고 대학에서 제적 당했다. 나쁜 문장 출소 후에는 바로 군에 강제징집 됐다. 나쁜 문장 원문데이터 학습 대상 문장 태깅 문재인 / 은 / 대한민국 / 의 / 제19대 / 대통령 / 이다. V Post Post N NPrePre 단어 태깅 이것이 문제!!!
  • 29. 우리의 경험 #1 • 경험을 통한 교훈 • 좋은 데이터를 확보하는 것이 쉽지 않다. • 좋은 데이터가 있다면 더 좋은 성능을 발휘할 수 있다. • 일반 문서를 위한 데이터는 어떻게?
  • 30. 우리의 경험 #2 • ALVIS • 지식베이스를 기반으로 한 지능형 질의응답 플랫폼 • 지식베이스를 기반으로 사용자의 자연어 질의를 해석하고 그에 적합한 응답을 지식베이스로부터 찾아 반환하는 질의응답 플랫폼 이순신 관련 조직의 설립자는? 자연어 질의 OWL 형식(DL) 지식 SPARQL 이순 신 조직 설립 자 관련 이순신 조직 설립자 관 련 개념 그래프(Conceptual Graph) 질의 그래프(Query Graph) related founder Person Organi zation Found er <이순 신> type Query Generation SPARQL Answer
  • 31. 우리의 경험 #2 • 한국사 관련 질의응답 플랫폼 구현을 위한 한국사 지식베이스 • 어디서 데이터를 얻을 것인가? • 국사편찬위원회의 한국사 LOD • 한국학중앙연구원의 한국민족문화대백과사전 • 이뮤지엄 • 지식베이스 구축 시 어려웠던 점 • 간단한 수집 방법의 부재(LOD, Open API 등) • 정규화 되어 있지 않은 값들 • 통일되어 있지 않은 데이터 형식 • 동일 개체에 대한 서로 다른 아이디 • 의미 없이 구성된 데이터 구조 • 등등
  • 32. 우리의 경험 #2 • 경험을 통한 교훈 • 좋은 데이터 구축은 인간의 노동을 요한다. • 웹 페이지 등과 같이 가공된 데이터보다는 날 것 그대로의 데이터(raw data)가 중요하다. • 데이터 잘 만들면 부족할지 언정 공유 해야겠다.
  • 33. 더 나은 인공지능 시대를 위하여 • Better data is always better. • 인공지능에서 알고리즘의 성능을 높이기 위해 대량의 고품질 데이터가 중요 • 가능한 데이터를 공개적으로 사용할 수 있고 기계가 읽을 수 있는 형식의 데이터를 만드는 것이 중요 • 정부의 역할 • 정부가 보유 및 생산(직접적이든 간접적이든)한 데이터는 엄청난 자산임을 인식 • 인공지능을 위해 데이터를 원천 데이터 형식으로 수집 및 제공 • 사용자가 보다 쉽게 데이터를 발견하고 이용할 수 있도록 다양한 형태의 노력이 필요 • 데이터의 유통이 일어날 수록 개인정보에 대한 철저한 관리와 규제 필요
  • 34. References • https://www.quora.com/In-machine-learning-is-more-data-always-better-than-better-algorithms • https://rajpurkar.github.io/SQuAD-explorer/ • https://www.techuk.org/insights/opinions/item/10708-guest-blog-peter-wells-odi-access-to-data-is-key-to-a- competitive-ai-market • https://www.forbes.com/sites/quora/2017/01/26/is-data-more-important-than-algorithms-in-ai/#353c87f842c1 • https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ • https://www.forbes.com/sites/scottcleland/2011/10/03/googles-infringenovation-secrets/#67b70b9b30a6 • https://theodi.org/article/using-artificial-intelligence-and-open-data-for-innovation-and-accountability/ • https://www.squiz.net/learn/blog/why-data-is-so-important-when-it-comes-to-ai • https://www.govloop.com/refining-value-government-data-machine-learning/ • https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html • https://searchenterpriseai.techtarget.com/definition/Turing-test • http://heidloff.net/article/understanding-natural-language-text • https://en.wikipedia.org/wiki/Open_science • http://cckorea.org/xe/news/632741
  • 35. Myungjin Lee LiST, Linked Data and Semantic Web Technology Ph.D. / CTO e-Mail : mjlee@LiSTInc.kr Twitter : http://twitter.com/MyungjinLee Facebook : http://www.facebook.com/mjinlee SlideShare : http://www.slideshare.net/onlyjiny/