(Edit/crop photo to align within this space)
ProQuest TDM Studio
이용안내
Access and analyze
sought-after content
with flexible data
analysis methods
Analyze
Uncover relationships,
patterns, and
connections within and
between datasets
Connect
Gain new insights and
challenge previous
findings
Discover
Utilize data
visualizations to spot
understand data and
the relationships in
new ways
Visualize
What is Text and Data Mining?
ProQuest TDM Studio Benefits
• 최신의 연구 서비스 지원 : 데이터활용 연구지원 서비스
2만종 이상의 정기간행물(학술저널, 주요신문, 매거진, 뉴스)과 해외 학위논문 데이터베이스, 1차문헌 등을 대상으로 데이터(텍스트)마이닝을 위한 서비스
제공.
• 다양한 관점의 연구 Insight 발견
: 인문, 사회, 과학, 공학 등 영역/분야에서 다양한 활용.
(예.1) Wall Street Journal/New York Times 등 주요 신문 아티클 분석 R & Python Jupyter Notebook 활용.
(예.2) 특정 Keyword가 포함된 신문, 정간물을 추출하여 데이터셋 구성 R & Python Jupyter Notebook 활용.
• Data 활용 최신기술의 연구, 수업, 교육 등에 활용
다양한 연구/ 관점에서의 데이터마이닝 서비스를 연구, 학습공간에서 활용.
• 시간, 비용의 획기적 절감 및 저작권 해결
연구에 필요한 데이터수집, 분석 및 콘텐츠의 저작권 해결을 한번에 해결.
3
3
ProQuest 제공 2만종 이상의 출판물(저널, 신문, 매거진, 뉴스 등) & 데이터베이스를 대상으로 텍스트마이닝
( Dataset 생성 ) 및 R & Python 연계, Visualization(Geographical analysis ) 서비스를 제공합니다.
#기관에서 구독/구매 중인 ProQuest콘텐츠에 대한 이용 지원.
• 학술저널 : Nature Communications, Nature 외 주요 학술저널 1만종 이상.
• 매거진 : The Economist, Foreign Affairs, Variety, Adweek 등 매거진 1천종 이상.
• 신문 : Wall Street journal, New York Times, The Washington Post 해외 주요 신문 / 뉴스 정보 2천종 이상.
• 데이터베이스 : PQDT Global(ProQuest Dissertations & Theses Global), International Newsstream, ProQuest Central 등
ProQuest TDM Studio – 이용 콘텐츠
#기관에서 구독/구매 중인 ProQuest콘텐츠에 대한 이용 지원.
[ 콘텐츠 Coverage ]
각 출판물의 텍스트마이닝 가능기간(Coverage)은 ProQuest TDM Studio 플랫폼 “Select Publication Titles“에서
출판물(저널,신문,매거진 등)별 확인 가능합니다.(해당 상세 페이지 참조)
ProQuest TDM Studio
Workbench Visualization
• 이용 대상 콘텐츠(저널,신문,데이터베이스 등 ) 선택/
Keywordk 검색을 통해 Dataset 구성.
• 최대 10개의 Dataset 구성가능.
• Dataset 별 최대 200만건의 레코드 포함가능.
• Dataset의 Jupyter Notebook 전송 지원.
• Local file의 TDM studio 업로드 기능.
• 데이터반출 지원
• 이용 대상 콘텐츠(저널,신문,데이터베이스 등 ) 선택/
Keywordk 검색을 통해 Dataset 구성.
• 최대 10개의 Dataset 구성가능.
• Dataset 별 최대 200만건의 레코드 포함가능.
• Dataset의 Jupyter Notebook 전송 지원.
• Local file의 TDM studio 업로드 기능.
Main Interface
“+Create New Dataset ” 아래 “Select Publication Titles “ or “Select ProQuest Databases” 중 선택하여 데이터셋 검색을 실행.
⚫ Select Publication Titles : 신문, 저널, 매거진, 뉴스 등 제공 타이틀별 선택하여 데이터셋 구성
⚫ Select ProQuest Databases : PQDT Global, ProQuest Central, 다양한 신문/뉴스 데이터베이스 등
Workbench
“Workbench 에는 최대 10개의 Dataset을 생성을 허용합니다. 계속적인 추가 Dataset 생성이 필요할 경우 해당 Dataset을 Juputer Notebook에
전송 후 TDM Stduio Workbench에서 삭제하여도, Juputer Notebook에는 해당 데이터가 계속 존재 합니다.
콘텐츠 선택( 저널,신문,매거진 ) - Choose Publications
• Select Publication Titles : Dataset 생성을 위한 신문, 저널, 매거진, 뉴스정보원 검색 & 선택 1. 타이틀 검색
: 저널.신문, 매거진 검색
2. 검색된 자료 확인 및
선택 (복수 선택 가능)
4.“Refine Content” 를
클릭하여 검색 화면 이동
3. 자료의 콘텐츠 제공
범위 확인
( 콘텐츠 제공범위 밖의
내용은 검색 할 수 없습니다)
1
2
3
4
• Select ProQuest Databases: ProQuest 제공 데이터베이스 선택 후 Dataset을 위한 검색 실행
ProQuest에서 제공하는
데이터베이스를 선택하여
Dataset을 생성할 수 있으며,
학위논문 데이터베이스인 “PQDT
Global”, 다양한 뉴스, 신문
데이터베이스 등을 (복수)선택할 수
있습니다.
“Refine Content” 를 클릭하여 검색
화면 이동
콘텐츠 선택( 데이터베이스 ) – Choose Database
검색 – Refine Content
4. Limit to 메뉴
출판물유형, 레코드(기사)유형,
출판연도에 따라 검색 결과
제한(분류)
⚫ 1개의 Dataset은 최대 2백만 건 이하의 데이터만 처리 할 수 있습니다. 최초 선택한 Documents 수량이 2백만 건을
초과할 경우 keyword 검색 및 분류 기능( Limit to)을 통해 검색결과를 2백만 이하로 선택해 주시기 바랍니다.
Keyword입력
1
2
3
4
1.선택한 타이틀 및 각
Documents 건수 확인
2.선택한 콘텐츠의 전체
Documents 개수.
3. Keywords 입력 검색 실행.
기본검색 - ProQuest 연산자를 이용하여 보다 쉬운 검색 설정
1. AND/OR/NOT 검색 – 검색어 사이에 AND/OR/NOT 입력
예) food AND nutrition → 두 검색어가 모두 포함된 문서 검색
예) food OR nutrition → 두 검색어 중 하나 이상 포함된 문서 검색
예) food NOT nutrition → food는 포함되나 nutrition은 제외된 문서 검색
2. 구문 검색 – 정확한 검색을 위해 “ “ 이용
예) “healthy eating” → 하나의 구문으로 검색
자료검색 – Tips
Best Practices on Searching ProQuest Content
동영상 참고
검색 조건 제한(분류) : 출판연도, 출판물유형, 자료유형
• 선택/검색된 결과는 자료의 출판연도, Source Type, Document Type의 설정 변경
필요한 자료 조건에 따른
Dataset 구성을 위한 추가
기능.
➢ Date Published
➢ Source Type
➢ Document Type
조건(검색결과)확인 후
(우측하단) “Review Dataset”
을 클릭하여 다음단계 이동
검색, 추출하고자 하는 기간을
일단위로 설정 하시면 해당
조건이 검색결과에 반영
선택한 자료 유형에 따라 제공자료 분류
(저널)아티클, 뉴스, 기사, 사설, 광고, 리뷰, 인터뷰,
부고, 연설, 신문1면 등 상세 형식 분류(선택) 가능
Create Dataset
• Dataset Details: Dataset의 Name(영문)과 Description(한글 입력가능) 입력 후 Create Dataset 클릭
Dataset “Name”항목은 영문 입력만 가능
Dataset Status : Queued to Complete
• 생성된 Dataset은 데이터처리 완료까지 최소 수분에서 최대 1시간 이상 소요( 레코드 개수에 따라 상이함 )
• 최초 Dataset의 Status는 “In-Progress” 상태이며, 데이터처리 완료 후 “Ready for jupyter” 자동 변경
Workbench
Open Jupyter Notebook
• Workbench Status Change : Off 를 Running 상태로 전환
• “Open Jupyter Notebook”을 클릭하여 Jupyter Notebook 으로 이동
Jupyter Notebook – Start Here.ipynb
• Start Here 폴더: 생성된 Dataset에 대한 접근 및 자료 이용을 위한 설명
• ProQuest TDM Studio Manual 폴더 : 자료 반출/반입 및 이용자 문의에 대한 안내를 FAQ방식으로 제공
• ProQuest TDM Studio Samples 폴더 : 데이터분석에 활용 가능한 Topic modeling, Covert to dataframe, n-gram viewer, Keyword in context
등 널리 활용되는 스크립트 Sample을 제공
General Information - Video
Introduction to TDM Studio
Provides information on Text and Data mining and how TDM studio fits directly into the
existing workflow of researchers - Duration: 4 Minutes
What Content is available on TDM Studio
Provides information on the databases and publications included in TDM Studio - Duration:
4 Minutes
Best Practices on Searching ProQuest Content
Provides information on how to identify & develop search strategies to refine your dataset
- Duration: 6 Minutes
Creating your Datasets
Provides information on how on how to create & refine a dataset - Duration: 4 Minutes
ProQuest TDM Studio를 통해 dataset을 생성 하였다면, 데이터활용을 위한
Jupyter Notebook으로 해당 데이터를 반출, 생성 하기 위한 절차 입니다.
1. Transfer the dataset to your Jupyter Notebook
: 데이터 이동( TDM Studio to Jupyter Notebook )
2. Exporting Files from TDM Studio
: 데이터 다운로드( Jupyter Notebook to Personal device )
Transfer the dataset to your Jupyter Notebook
ProQuest TDM Studio를 통해 생성한 Dataset을 Jupyter Notebook으로
데이터 전송
1. ProQuest TDM Studio 우측 상단의 “Open Jupyter Notebook” 클릭.
2. 1번 실행 후 아래 화면과 같이 “Jupyter Notebook” 연결.
3. “Files”메뉴 하단의 “Start Here.ipynb” 클릭.
1
2
3
2 . 1번 실행 후 아래 부분에 Dataset 이름을 입력할 수 있는 “Name of dataset” 상자가 생성되며, dataset 이름 입력
[ 필수 ] [1] dataset : 이름(문자) 간에 Space는 “ _ ” (언더바) 로 입력 ]
[2] dataset 이름 입력 후 반드시 “ Enter “ 를 눌러 실행을 하셔야 합니다.]
1번 실행(Run) 후 하단에 dataset 이름을 생성 할 수 있는 입력상자가 생성됩니다.
1. Step1 아래의 Cell 실행 (노락색 상자)
1
2
“Enter” Key를 누루지 않을 경우 실행[Run]이
끝나지 않아 스크립트 실행이 실패 할 수
있습니다.
3
3. 정상 실행이 되면, 컥쇠괄호안에 “ * ” 가 숫자로 변경
4. Step2 를 실행( 노란상자 ) 후 아래 부분에 Dataset 선택 메뉴 생성
5. Dataset 을 선택 할 수 있는 (Dropdown) 메뉴가 제공 되며, 전송하고자 하는 dataset을 선택
4
5
Workbench의 Dataset 리스트 확인
6. Step3의 메뉴를 순서대로 실행
7. 정상적으로 실행이 완료 될 경우 data 폴더 하위 폴더로 Dataset 이름의 데이터를 확인 할 수 있음
6
6
Transferring Datasets
Provides information on how on how to to transfer a dataset from the
TDM Studio dashboard into the Jupyter Notebook - Duration:
4 Minutes
참고 동영상
Exporting Files from TDM Studio
Jupyter Notebook에 생성한 Dataset의 다운로드를 위한
(링크)이메일 전송
1-a. ProQuest TDM Studio 우측 상단의 “Open Jupyter
Notebook” 클릭.
2. 1번 실행 후 아래 ProQuest TDM Studio Manual 폴더 클릭.
3. “Export Instruction.ipynb” 클릭.
1
2
3
3. Jupyter Notebook의 data 폴더에 생성된 코드명(파일명)을 입력 후 각각의 Cell을 실행(Run).
경로 및 파일명 입력 – 다음 페이지 참조
3
4. 데이터 파일, 반출 폴더 지정
상세 내용 동영상 참조
필수 파일명 추가
실행
4
Exporting Derived Data in TDM Studio
An overview of what you can and cannot export from TDM
Studio, and export a file from TDM Studio - Duration: 4
Minutes
ProQuest TDM Studio Successful Export!
데이터반출 명령이 정상적으로 처리 되었을 경우 아래와 같이 tdm.results@proquest.com의 메일을 통해
“ProQuest TDM Studio Successful Export! 제목의 메일을 수신 할 실 수 있습니다.
ProQuest TDM Studio Export Failed
1-e. 데이터반출 실행이 실패 할 경우 아래와 같은 이메일이 발송됩니다. 반출자료 최대 15M의 용량 제한이
있으며, 그 이상 용량의 자료반출이 필요한 경우 “ email.technicalsupport@proquest.com “로 Export
failed 이메일과 함께 반출요청 이메일을 보내시면, 매뉴얼로 다운받을 수 있도록 지원합니다.
Using Jupyter Notebooks in TDM Studio
Provides information on how to find documentation and samples, identify available programming
environment & how to open a terminal in the Notebook - Duration: 5 Minutes
Transferring Datasets
Provides information on how on how to to transfer a dataset from the TDM Studio dashboard into the
Jupyter Notebook - Duration: 4 Minutes
View an XML Document in TDM Studio
Instructions on how to use a terminal session to view an XML document - Duration: 3 Minutes
Uploading Files Into TDM Studio
Instructions on how to upload local files to your Jupyter Notebook in TDM Studio - Duration: 3
Minutes
Exporting Derived Data in TDM Studio
An overview of what you can and cannot export from TDM Studio, and export a file from TDM Studio
- Duration: 4 Minutes
Workbench - Video
TDM Studio Visualizations: For Discoveries Without Coding
전문 코딩지식 없이도 이용 가능한 3가지의 시각화 기능 지원
❑ Topic Modeling
❑ Geographic analysis
❑ Sentiment analysis
Visualizations 기능은 아래 10개 콘텐츠에
대한 이용을 지원합니다.
✓ ProQuest Dissertations and Theses
✓ New York Times
✓ Sydney Morning Herald
✓ South China Morning Post
✓ Los Angeles Times
✓ The Wall Street Journal
✓ The Washington Post
✓ The Globe and Mail
✓ The Guardian
✓ The Times of India
Visualizations Dashboard – 이용 및 계정생성
※ TDM Studio Workbench 이용자 신청 완료 후 별도의 TDM Studio Visualization 계정을 추가 등록 해주시기 바랍니다.
( 상세 내용 계정 생성 참조 바랍니다 )
⚫ 정상적으로 계정이 생성되었으면, 우측 상단에 “ Visualization dashboard
“ 메뉴를 통해 본 기능(인터페이스)로 이동 할 수 있습니다.
활용 예(topics)
⚫ 브랜드/제품, 마케팅, 지역
⚫ 날씨, 재해, 정책
⚫ 사건(자살 등) 뉴스, 국가
⚫ 범죄, 뉴스, 국가, 지역
⚫ 분쟁(독도, 다케시마 )
⚫ 국가 정책, 이슈
⚫ 코로나, 뉴스 외
Visualization dashboard 로 이동 후 “Create New Project” 메뉴의 Project 만들기
Geographic Analysis / Topic Modeling / Sentiment Analysis 이용 선택 [ 동시 선택 가능 ]
검색어 입력
Create Project : 1-Search & Refine content
Create Project : 1-Search & Refine content
검색어 입력
검색 결과 제안/분류
➢ Date Published
➢ Source Type
➢ Document Type
# 각 Project 별 검색결과는
10,000개 이하로 설정 후
Visualizations 기능 활성화 가능
검색 완료 후
클릭! New Project
Create Project – 2
• Project Name 입력 : Project 제목/메모를 입력( 한글 입력가능 )
Create Project – 3
• 새롭게 생성된 Dataset 의 활성화는 데이터개수에 따라 수분 혹은 그 이상 소요
• 작업이 완료 되면, Show actions 기능이 활성화 되어 “geographical analysis / Topic Modeling ” 이용 선택
작업 중 화면
작업 완료 화면
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼
Create Project – Show actions & Open Geographic Visualization
편 의 기 능
1.지도를 확대하여 국가, 지역별 결과 값 확인
2. 검색 기간 조정
3.결과 값을 클릭하면 해당 기사 전문 연결(확인)
1
2
3
검색(입력조건) keyword의 기사와 기사 내용에
언급된 지명(국가)를 데이터화 하여 시각화 하여 제공
Geographic Visualization
Create Project – link to Full-text
⚫ 지역내 제공하는 결과의 기사의 목록을 확인 할 수 있으며, 제목을 선택하여 기사 전문(Ful Text) 확인 가능
토픽모델링
(Topic Modeling)
• LDA(Latent Dirichlet Allocation : 잠재 디리클레 할당) 방식
• 5개의 토픽에서 최대 50개의 토픽으로 확장 가능(선택)
• 링크서비스를 통해 전문(Full-Text) 연결
• Topic별 상위 50개 기사 Score 제공
• Basic Rawdata 반출 지원
토픽모델링(Topic Modeling) – 기본 데이터반출
감성분석
(Sentiment analysis)
보다 자세한 내용은 LibGuides(영문) 참조
https://proquest.libguides.com/tdmstudio

More Related Content

PDF
ProQuest TDM Studio_Workbench
PDF
ProQuest TDM Studio_Visualization
PPT
EBSCOhost 이용자가이드
PDF
RISS 이용 방법 안내
PDF
EDS.pdf
PPTX
Springer link 이용매뉴얼
PDF
학술연구정보서비스 RISS 이용방법
PDF
DBPIA 이용 매뉴얼
ProQuest TDM Studio_Workbench
ProQuest TDM Studio_Visualization
EBSCOhost 이용자가이드
RISS 이용 방법 안내
EDS.pdf
Springer link 이용매뉴얼
학술연구정보서비스 RISS 이용방법
DBPIA 이용 매뉴얼

What's hot (6)

PDF
Patent DB - WIPS ON Guide(201501)
PPTX
Deview RecoPick팀 AWS에서 추쳔 구현하기
PDF
Predatory journal
PPTX
Firestore
PDF
Pqdt global 2015_메뉴얼
Patent DB - WIPS ON Guide(201501)
Deview RecoPick팀 AWS에서 추쳔 구현하기
Predatory journal
Firestore
Pqdt global 2015_메뉴얼
Ad

Similar to ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼 (20)

PDF
TDM(Text Data Mining) Studio manual(2024)
PDF
TDM Studio to Jupyter Notebook
PDF
Jupyter Notebook to Personal device
PDF
dbt 101
PPT
Pro quest central
PDF
PQDT Global manual (2020)
PDF
Pro quest central
PDF
Week1 ot
PPT
ProQuest Central 매뉴얼
PDF
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
PDF
3.unsupervised learing
PDF
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
PDF
Spark_Overview_qna
PDF
구글시트로 개발자 해방시키기
PPTX
1.introduction(epoch#2)
PDF
Scopus 이용 가이드 (2023)
PPTX
Spark machine learning & deep learning
PDF
PQDT Global 메뉴얼 (2015)
PDF
PPTX
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
TDM(Text Data Mining) Studio manual(2024)
TDM Studio to Jupyter Notebook
Jupyter Notebook to Personal device
dbt 101
Pro quest central
PQDT Global manual (2020)
Pro quest central
Week1 ot
ProQuest Central 매뉴얼
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
3.unsupervised learing
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
Spark_Overview_qna
구글시트로 개발자 해방시키기
1.introduction(epoch#2)
Scopus 이용 가이드 (2023)
Spark machine learning & deep learning
PQDT Global 메뉴얼 (2015)
연구데이터 관리와 데이터 관리 계획서 (DMP) - part02
Ad

More from yonseilibrary (20)

PDF
China Doctoral/Masters Dissertations (CDMD)
PDF
Web of Science User Guide
PDF
2025 EBSCO eBooks 이용 가이드
PDF
Professors_researchers_Turnitin Feedback Studio tutorial_20240306.pptx (2).pdf
PDF
Student Turnitin Feedback Studio tutorial_20240306 (1).pdf
PDF
AI Detection manual for instructors at Yonsei
PDF
교원용_Turnitin Feedback Studio 이용 매뉴얼_20240306 .pptx (1).pdf
PDF
학생용_Turnitin Feedback Studio 이용 매뉴얼_20240306 (1).pdf
PDF
Mendeley User Guide(2024)
PDF
iThenticate 이용매뉴얼 2023.pdf
PDF
Mendeley Reference Manager User Guide
PDF
Wiley Essential Online Reference Works User Guide.pdf
PDF
ARTSTOR_User Guide.pdf
PDF
1.Statista Academic_Introduction.pdf
PDF
WSJ_User Guide (Yonsei Univ.).pdf
PDF
Mendeley Reference Manager - User Guide_kor.pdf
PDF
Mendeley Reference Manager - User Guide_eng
PDF
Mendeley Reference Manager - New User Guide_eng.pdf
PDF
Turnitin Manual for Instructors_eng.pdf
PDF
Turnitin Manual for studetns_eng.pdf
China Doctoral/Masters Dissertations (CDMD)
Web of Science User Guide
2025 EBSCO eBooks 이용 가이드
Professors_researchers_Turnitin Feedback Studio tutorial_20240306.pptx (2).pdf
Student Turnitin Feedback Studio tutorial_20240306 (1).pdf
AI Detection manual for instructors at Yonsei
교원용_Turnitin Feedback Studio 이용 매뉴얼_20240306 .pptx (1).pdf
학생용_Turnitin Feedback Studio 이용 매뉴얼_20240306 (1).pdf
Mendeley User Guide(2024)
iThenticate 이용매뉴얼 2023.pdf
Mendeley Reference Manager User Guide
Wiley Essential Online Reference Works User Guide.pdf
ARTSTOR_User Guide.pdf
1.Statista Academic_Introduction.pdf
WSJ_User Guide (Yonsei Univ.).pdf
Mendeley Reference Manager - User Guide_kor.pdf
Mendeley Reference Manager - User Guide_eng
Mendeley Reference Manager - New User Guide_eng.pdf
Turnitin Manual for Instructors_eng.pdf
Turnitin Manual for studetns_eng.pdf

ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼

  • 1. (Edit/crop photo to align within this space) ProQuest TDM Studio 이용안내
  • 2. Access and analyze sought-after content with flexible data analysis methods Analyze Uncover relationships, patterns, and connections within and between datasets Connect Gain new insights and challenge previous findings Discover Utilize data visualizations to spot understand data and the relationships in new ways Visualize What is Text and Data Mining?
  • 3. ProQuest TDM Studio Benefits • 최신의 연구 서비스 지원 : 데이터활용 연구지원 서비스 2만종 이상의 정기간행물(학술저널, 주요신문, 매거진, 뉴스)과 해외 학위논문 데이터베이스, 1차문헌 등을 대상으로 데이터(텍스트)마이닝을 위한 서비스 제공. • 다양한 관점의 연구 Insight 발견 : 인문, 사회, 과학, 공학 등 영역/분야에서 다양한 활용. (예.1) Wall Street Journal/New York Times 등 주요 신문 아티클 분석 R & Python Jupyter Notebook 활용. (예.2) 특정 Keyword가 포함된 신문, 정간물을 추출하여 데이터셋 구성 R & Python Jupyter Notebook 활용. • Data 활용 최신기술의 연구, 수업, 교육 등에 활용 다양한 연구/ 관점에서의 데이터마이닝 서비스를 연구, 학습공간에서 활용. • 시간, 비용의 획기적 절감 및 저작권 해결 연구에 필요한 데이터수집, 분석 및 콘텐츠의 저작권 해결을 한번에 해결. 3 3 ProQuest 제공 2만종 이상의 출판물(저널, 신문, 매거진, 뉴스 등) & 데이터베이스를 대상으로 텍스트마이닝 ( Dataset 생성 ) 및 R & Python 연계, Visualization(Geographical analysis ) 서비스를 제공합니다. #기관에서 구독/구매 중인 ProQuest콘텐츠에 대한 이용 지원.
  • 4. • 학술저널 : Nature Communications, Nature 외 주요 학술저널 1만종 이상. • 매거진 : The Economist, Foreign Affairs, Variety, Adweek 등 매거진 1천종 이상. • 신문 : Wall Street journal, New York Times, The Washington Post 해외 주요 신문 / 뉴스 정보 2천종 이상. • 데이터베이스 : PQDT Global(ProQuest Dissertations & Theses Global), International Newsstream, ProQuest Central 등 ProQuest TDM Studio – 이용 콘텐츠 #기관에서 구독/구매 중인 ProQuest콘텐츠에 대한 이용 지원. [ 콘텐츠 Coverage ] 각 출판물의 텍스트마이닝 가능기간(Coverage)은 ProQuest TDM Studio 플랫폼 “Select Publication Titles“에서 출판물(저널,신문,매거진 등)별 확인 가능합니다.(해당 상세 페이지 참조)
  • 5. ProQuest TDM Studio Workbench Visualization • 이용 대상 콘텐츠(저널,신문,데이터베이스 등 ) 선택/ Keywordk 검색을 통해 Dataset 구성. • 최대 10개의 Dataset 구성가능. • Dataset 별 최대 200만건의 레코드 포함가능. • Dataset의 Jupyter Notebook 전송 지원. • Local file의 TDM studio 업로드 기능. • 데이터반출 지원 • 이용 대상 콘텐츠(저널,신문,데이터베이스 등 ) 선택/ Keywordk 검색을 통해 Dataset 구성. • 최대 10개의 Dataset 구성가능. • Dataset 별 최대 200만건의 레코드 포함가능. • Dataset의 Jupyter Notebook 전송 지원. • Local file의 TDM studio 업로드 기능.
  • 6. Main Interface “+Create New Dataset ” 아래 “Select Publication Titles “ or “Select ProQuest Databases” 중 선택하여 데이터셋 검색을 실행. ⚫ Select Publication Titles : 신문, 저널, 매거진, 뉴스 등 제공 타이틀별 선택하여 데이터셋 구성 ⚫ Select ProQuest Databases : PQDT Global, ProQuest Central, 다양한 신문/뉴스 데이터베이스 등 Workbench “Workbench 에는 최대 10개의 Dataset을 생성을 허용합니다. 계속적인 추가 Dataset 생성이 필요할 경우 해당 Dataset을 Juputer Notebook에 전송 후 TDM Stduio Workbench에서 삭제하여도, Juputer Notebook에는 해당 데이터가 계속 존재 합니다.
  • 7. 콘텐츠 선택( 저널,신문,매거진 ) - Choose Publications • Select Publication Titles : Dataset 생성을 위한 신문, 저널, 매거진, 뉴스정보원 검색 & 선택 1. 타이틀 검색 : 저널.신문, 매거진 검색 2. 검색된 자료 확인 및 선택 (복수 선택 가능) 4.“Refine Content” 를 클릭하여 검색 화면 이동 3. 자료의 콘텐츠 제공 범위 확인 ( 콘텐츠 제공범위 밖의 내용은 검색 할 수 없습니다) 1 2 3 4
  • 8. • Select ProQuest Databases: ProQuest 제공 데이터베이스 선택 후 Dataset을 위한 검색 실행 ProQuest에서 제공하는 데이터베이스를 선택하여 Dataset을 생성할 수 있으며, 학위논문 데이터베이스인 “PQDT Global”, 다양한 뉴스, 신문 데이터베이스 등을 (복수)선택할 수 있습니다. “Refine Content” 를 클릭하여 검색 화면 이동 콘텐츠 선택( 데이터베이스 ) – Choose Database
  • 9. 검색 – Refine Content 4. Limit to 메뉴 출판물유형, 레코드(기사)유형, 출판연도에 따라 검색 결과 제한(분류) ⚫ 1개의 Dataset은 최대 2백만 건 이하의 데이터만 처리 할 수 있습니다. 최초 선택한 Documents 수량이 2백만 건을 초과할 경우 keyword 검색 및 분류 기능( Limit to)을 통해 검색결과를 2백만 이하로 선택해 주시기 바랍니다. Keyword입력 1 2 3 4 1.선택한 타이틀 및 각 Documents 건수 확인 2.선택한 콘텐츠의 전체 Documents 개수. 3. Keywords 입력 검색 실행.
  • 10. 기본검색 - ProQuest 연산자를 이용하여 보다 쉬운 검색 설정 1. AND/OR/NOT 검색 – 검색어 사이에 AND/OR/NOT 입력 예) food AND nutrition → 두 검색어가 모두 포함된 문서 검색 예) food OR nutrition → 두 검색어 중 하나 이상 포함된 문서 검색 예) food NOT nutrition → food는 포함되나 nutrition은 제외된 문서 검색 2. 구문 검색 – 정확한 검색을 위해 “ “ 이용 예) “healthy eating” → 하나의 구문으로 검색 자료검색 – Tips Best Practices on Searching ProQuest Content 동영상 참고
  • 11. 검색 조건 제한(분류) : 출판연도, 출판물유형, 자료유형 • 선택/검색된 결과는 자료의 출판연도, Source Type, Document Type의 설정 변경 필요한 자료 조건에 따른 Dataset 구성을 위한 추가 기능. ➢ Date Published ➢ Source Type ➢ Document Type 조건(검색결과)확인 후 (우측하단) “Review Dataset” 을 클릭하여 다음단계 이동 검색, 추출하고자 하는 기간을 일단위로 설정 하시면 해당 조건이 검색결과에 반영 선택한 자료 유형에 따라 제공자료 분류 (저널)아티클, 뉴스, 기사, 사설, 광고, 리뷰, 인터뷰, 부고, 연설, 신문1면 등 상세 형식 분류(선택) 가능
  • 12. Create Dataset • Dataset Details: Dataset의 Name(영문)과 Description(한글 입력가능) 입력 후 Create Dataset 클릭 Dataset “Name”항목은 영문 입력만 가능
  • 13. Dataset Status : Queued to Complete • 생성된 Dataset은 데이터처리 완료까지 최소 수분에서 최대 1시간 이상 소요( 레코드 개수에 따라 상이함 ) • 최초 Dataset의 Status는 “In-Progress” 상태이며, 데이터처리 완료 후 “Ready for jupyter” 자동 변경 Workbench
  • 14. Open Jupyter Notebook • Workbench Status Change : Off 를 Running 상태로 전환 • “Open Jupyter Notebook”을 클릭하여 Jupyter Notebook 으로 이동
  • 15. Jupyter Notebook – Start Here.ipynb • Start Here 폴더: 생성된 Dataset에 대한 접근 및 자료 이용을 위한 설명 • ProQuest TDM Studio Manual 폴더 : 자료 반출/반입 및 이용자 문의에 대한 안내를 FAQ방식으로 제공 • ProQuest TDM Studio Samples 폴더 : 데이터분석에 활용 가능한 Topic modeling, Covert to dataframe, n-gram viewer, Keyword in context 등 널리 활용되는 스크립트 Sample을 제공
  • 16. General Information - Video Introduction to TDM Studio Provides information on Text and Data mining and how TDM studio fits directly into the existing workflow of researchers - Duration: 4 Minutes What Content is available on TDM Studio Provides information on the databases and publications included in TDM Studio - Duration: 4 Minutes Best Practices on Searching ProQuest Content Provides information on how to identify & develop search strategies to refine your dataset - Duration: 6 Minutes Creating your Datasets Provides information on how on how to create & refine a dataset - Duration: 4 Minutes
  • 17. ProQuest TDM Studio를 통해 dataset을 생성 하였다면, 데이터활용을 위한 Jupyter Notebook으로 해당 데이터를 반출, 생성 하기 위한 절차 입니다. 1. Transfer the dataset to your Jupyter Notebook : 데이터 이동( TDM Studio to Jupyter Notebook ) 2. Exporting Files from TDM Studio : 데이터 다운로드( Jupyter Notebook to Personal device )
  • 18. Transfer the dataset to your Jupyter Notebook ProQuest TDM Studio를 통해 생성한 Dataset을 Jupyter Notebook으로 데이터 전송
  • 19. 1. ProQuest TDM Studio 우측 상단의 “Open Jupyter Notebook” 클릭. 2. 1번 실행 후 아래 화면과 같이 “Jupyter Notebook” 연결. 3. “Files”메뉴 하단의 “Start Here.ipynb” 클릭. 1 2 3
  • 20. 2 . 1번 실행 후 아래 부분에 Dataset 이름을 입력할 수 있는 “Name of dataset” 상자가 생성되며, dataset 이름 입력 [ 필수 ] [1] dataset : 이름(문자) 간에 Space는 “ _ ” (언더바) 로 입력 ] [2] dataset 이름 입력 후 반드시 “ Enter “ 를 눌러 실행을 하셔야 합니다.] 1번 실행(Run) 후 하단에 dataset 이름을 생성 할 수 있는 입력상자가 생성됩니다. 1. Step1 아래의 Cell 실행 (노락색 상자) 1 2 “Enter” Key를 누루지 않을 경우 실행[Run]이 끝나지 않아 스크립트 실행이 실패 할 수 있습니다. 3 3. 정상 실행이 되면, 컥쇠괄호안에 “ * ” 가 숫자로 변경
  • 21. 4. Step2 를 실행( 노란상자 ) 후 아래 부분에 Dataset 선택 메뉴 생성 5. Dataset 을 선택 할 수 있는 (Dropdown) 메뉴가 제공 되며, 전송하고자 하는 dataset을 선택 4 5 Workbench의 Dataset 리스트 확인
  • 22. 6. Step3의 메뉴를 순서대로 실행 7. 정상적으로 실행이 완료 될 경우 data 폴더 하위 폴더로 Dataset 이름의 데이터를 확인 할 수 있음 6 6 Transferring Datasets Provides information on how on how to to transfer a dataset from the TDM Studio dashboard into the Jupyter Notebook - Duration: 4 Minutes 참고 동영상
  • 23. Exporting Files from TDM Studio Jupyter Notebook에 생성한 Dataset의 다운로드를 위한 (링크)이메일 전송
  • 24. 1-a. ProQuest TDM Studio 우측 상단의 “Open Jupyter Notebook” 클릭. 2. 1번 실행 후 아래 ProQuest TDM Studio Manual 폴더 클릭. 3. “Export Instruction.ipynb” 클릭. 1 2 3
  • 25. 3. Jupyter Notebook의 data 폴더에 생성된 코드명(파일명)을 입력 후 각각의 Cell을 실행(Run). 경로 및 파일명 입력 – 다음 페이지 참조 3
  • 26. 4. 데이터 파일, 반출 폴더 지정 상세 내용 동영상 참조 필수 파일명 추가 실행 4 Exporting Derived Data in TDM Studio An overview of what you can and cannot export from TDM Studio, and export a file from TDM Studio - Duration: 4 Minutes
  • 27. ProQuest TDM Studio Successful Export! 데이터반출 명령이 정상적으로 처리 되었을 경우 아래와 같이 tdm.results@proquest.com의 메일을 통해 “ProQuest TDM Studio Successful Export! 제목의 메일을 수신 할 실 수 있습니다.
  • 28. ProQuest TDM Studio Export Failed 1-e. 데이터반출 실행이 실패 할 경우 아래와 같은 이메일이 발송됩니다. 반출자료 최대 15M의 용량 제한이 있으며, 그 이상 용량의 자료반출이 필요한 경우 “ email.technicalsupport@proquest.com “로 Export failed 이메일과 함께 반출요청 이메일을 보내시면, 매뉴얼로 다운받을 수 있도록 지원합니다.
  • 29. Using Jupyter Notebooks in TDM Studio Provides information on how to find documentation and samples, identify available programming environment & how to open a terminal in the Notebook - Duration: 5 Minutes Transferring Datasets Provides information on how on how to to transfer a dataset from the TDM Studio dashboard into the Jupyter Notebook - Duration: 4 Minutes View an XML Document in TDM Studio Instructions on how to use a terminal session to view an XML document - Duration: 3 Minutes Uploading Files Into TDM Studio Instructions on how to upload local files to your Jupyter Notebook in TDM Studio - Duration: 3 Minutes Exporting Derived Data in TDM Studio An overview of what you can and cannot export from TDM Studio, and export a file from TDM Studio - Duration: 4 Minutes Workbench - Video
  • 30. TDM Studio Visualizations: For Discoveries Without Coding 전문 코딩지식 없이도 이용 가능한 3가지의 시각화 기능 지원 ❑ Topic Modeling ❑ Geographic analysis ❑ Sentiment analysis Visualizations 기능은 아래 10개 콘텐츠에 대한 이용을 지원합니다. ✓ ProQuest Dissertations and Theses ✓ New York Times ✓ Sydney Morning Herald ✓ South China Morning Post ✓ Los Angeles Times ✓ The Wall Street Journal ✓ The Washington Post ✓ The Globe and Mail ✓ The Guardian ✓ The Times of India
  • 31. Visualizations Dashboard – 이용 및 계정생성 ※ TDM Studio Workbench 이용자 신청 완료 후 별도의 TDM Studio Visualization 계정을 추가 등록 해주시기 바랍니다. ( 상세 내용 계정 생성 참조 바랍니다 ) ⚫ 정상적으로 계정이 생성되었으면, 우측 상단에 “ Visualization dashboard “ 메뉴를 통해 본 기능(인터페이스)로 이동 할 수 있습니다. 활용 예(topics) ⚫ 브랜드/제품, 마케팅, 지역 ⚫ 날씨, 재해, 정책 ⚫ 사건(자살 등) 뉴스, 국가 ⚫ 범죄, 뉴스, 국가, 지역 ⚫ 분쟁(독도, 다케시마 ) ⚫ 국가 정책, 이슈 ⚫ 코로나, 뉴스 외
  • 32. Visualization dashboard 로 이동 후 “Create New Project” 메뉴의 Project 만들기
  • 33. Geographic Analysis / Topic Modeling / Sentiment Analysis 이용 선택 [ 동시 선택 가능 ]
  • 34. 검색어 입력 Create Project : 1-Search & Refine content
  • 35. Create Project : 1-Search & Refine content 검색어 입력 검색 결과 제안/분류 ➢ Date Published ➢ Source Type ➢ Document Type # 각 Project 별 검색결과는 10,000개 이하로 설정 후 Visualizations 기능 활성화 가능 검색 완료 후 클릭! New Project
  • 36. Create Project – 2 • Project Name 입력 : Project 제목/메모를 입력( 한글 입력가능 )
  • 37. Create Project – 3 • 새롭게 생성된 Dataset 의 활성화는 데이터개수에 따라 수분 혹은 그 이상 소요 • 작업이 완료 되면, Show actions 기능이 활성화 되어 “geographical analysis / Topic Modeling ” 이용 선택 작업 중 화면 작업 완료 화면
  • 39. Create Project – Show actions & Open Geographic Visualization 편 의 기 능 1.지도를 확대하여 국가, 지역별 결과 값 확인 2. 검색 기간 조정 3.결과 값을 클릭하면 해당 기사 전문 연결(확인) 1 2 3 검색(입력조건) keyword의 기사와 기사 내용에 언급된 지명(국가)를 데이터화 하여 시각화 하여 제공
  • 41. Create Project – link to Full-text ⚫ 지역내 제공하는 결과의 기사의 목록을 확인 할 수 있으며, 제목을 선택하여 기사 전문(Ful Text) 확인 가능
  • 42. 토픽모델링 (Topic Modeling) • LDA(Latent Dirichlet Allocation : 잠재 디리클레 할당) 방식 • 5개의 토픽에서 최대 50개의 토픽으로 확장 가능(선택) • 링크서비스를 통해 전문(Full-Text) 연결 • Topic별 상위 50개 기사 Score 제공 • Basic Rawdata 반출 지원
  • 43. 토픽모델링(Topic Modeling) – 기본 데이터반출
  • 45. 보다 자세한 내용은 LibGuides(영문) 참조 https://proquest.libguides.com/tdmstudio