2. 목 차
• 학술데이터의 공유를 둘러싼
Open Paradigm
• 학술데이터의 공유 플랫폼 :
Datanest
2
3. Terms
• 학술데이터 Scholarly Data
• 연구데이터 Research Data
• 과학데이터 Scientific Data
• 연구 과학 데이터 Research Scientific Data
• Data Science
• Open Science
• Open Data
• Open Access
3
8. • 1960년 Peter Naur è ‘computer science’의 대체 용
어로 처음 사용. ‘datalogy’ 개념으로 사용
• 2015년 10월 현재 è 구조적 혹은 비구조적인 다양한
형식의 방대한 데이터로부터 지식과 통찰력(insights)
를 추출하는 분야와 이의 행위를 돕는 시스템과 관련
된 다양한 분야
• 데이터 과학은 규모가 큰 빅 데이터에만 특화된 것이
아님. 빅 데이터를 처리하기 위한 방법론들은 데이터
과학의 특화된 분야 중 하나일 뿐
• 데이터 과학은 비즈니스 환경에서 폭발적으로 사용되
고 있지만 많은 학자와 저널리스트들은 ‘데이터 과학’
과 ‘통계학’의 차이점이 명확하지 않기 때문에 데이터
과학이 부각되는 것을 비판 Data science (출처: https://en.wikipedia.org/wiki/Data_science)
Data Science (1/3)
8
9. 수학, 통계학
계량분석화학
정보 과학, 컴퓨터 과학
신호처리
가능성 모델
기계학습, 통계학습
데이터 마이닝
데이터베이스
데이터 엔지니어링
패턴 인식과 학습
가시화
미래분석
불확실성 모델링
데이터 웨어하우징
데이터 압축
컴퓨터 프로그래밍
인공 지능
고성능 컴퓨팅 …
농업
의료
마케팅 최적화
이상행위 감지
위기관리
마케팅 분석
공공 정책 …
기후 변화나 황사, 해
양 오염 등 범 지구적
문제 해결 노력
다양한 분야에서
문제점을 조사하고
의사결정을 지원하는데 사용
Data Science (2/3)
9
10. Data Science (3/3)
• 기후 데이터의 경우, 과거에는 기후 분야를 연구하는 과학
자들이 주 사용
• 오늘날에는 물과 공공용지(public land), 건강, 해양 분야
등의 자원 관리자들이 그들의 의사결정과 연구를 위해 기
후 데이터 접근 요청
• 정책 수립 분야에서도 기후 변화 대응 전략을 수립하기 위
하여 데이터 접근 필요
• 기하급수적으로 발생하는 기후 데이터에 대한 물리적인
보존과 공유에 대한 이슈가 활발
출처: Overpeck, J. T., Meehl, G. A., Bony, S., and Easterling, D. R., “Climate Data Challenges in the 21st Century”, Science, Vol. 331, 2011.
10
12. Open Data (1/2)
12
일부 데이터에 한해서 저작권이나 특허와 같은
제한 조건 없이 데이터 사용자가 원하는 데로 데
이터의 재사용과 재 출판이 가능하도록 하자는
운동
이 운동의 사상은 그 역사가 오래 됨
해당 용어의 사용은 인터넷과 월드 와이드 웹의
도래와 ‘Data.gov’, ‘Data.gov.uk’와 같
은 정부의 공공데이터 개방과 발맞추어 시작
두 가지 측면에서 의미
- 과학의 활성화 측면
- 국가 데이터 개방과 재활용 측면
‘과학 데이터(scientific data)로의 자유로운 접근’ 개념
67개국 참여 / 1957년 7월 - 1958년 12월 /
IGY(International Geophysical Year) 프로젝트 수행과정에
서 세계 데이터 센터(World Data Center) 시스템을 만드는
과정에서 공식적으로 탄생
Open Data 키워드를 사용하고 있다. 데이터 공개와 재 사용
성을 보장하기 위해서는 데이터의 체계적인 관리 필요
13. Open Data (2/2)
13
오픈 데이터는
오픈 사이언스를 가능케 하는 핵심 원칙 중 하나
데이터 중심 연구를 지원 과학의 활성화를 가능케 하는 운동
오픈 데이터와 오픈 사이언스를 통해
다양한 범 지구적 문제를 해결할 수 있는 협동연구 가능
황사나 기후 변화와 같은 범 지구적 문제
해양 오염이나 생태계 변화 등의 환경 문제는
한 분야의 데이터 뿐 아니라
기상, 해양, 천문, 지리정보, 생태 등 다양한 분야의 데이터를
융합하여 분석함으로써 해결 가능
주요 선진국은
공공자금이 투입된 연구 결과물의 체계적인 관리와 재사용을 보장하기 위해서
연구 데이터(research data) 관리
이러한 저변 노력이 오픈 데이터와 오픈 사이언스 운동을 활성화 시킬 것