O documento discute a coleta de dados, incluindo: 1) um mapa do curso sobre o processo de coleta e análise de dados; 2) os tipos de fontes de dados primárias e secundárias; 3) extensões populares de arquivos de dados como CSV, XLSX, JSON e HTML.
2. • Mapa do Curso
• Tipos de Fontes de Dados
• Extensões Populares de Bases de Dados
• Importação de Dados no Python
• Atividade Prática com Selenium
Agenda
4. 1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
5. 1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
6. 1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
Note: This is NOT a Data Engineering Program
10. Como dados são gerados?
- planilhas, sistemas de gerenciamento (CRM), máquinas,
automações, sensores, publicações,
- imagens, audios, videos
Tipos de Fontes de Dados
11. Tipos de Fontes de Dados
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
12. Tipos de Fontes de Dados
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
• Livros, artigos, etc
14. Extensões populares de base de dados
• Pesquisas, entrevistas, experimentos, medições
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
15. Extensões populares de base de dados
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Dados gerados pela pessoa que usa o serviço - Primários
16. Extensões populares de base de dados
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
17. Extensões populares de base de dados
• Repositórios de dados → CSV, XLSX, TXT, JPG/PNG, etc
• Websites e mídias sociais
• APIs → JSON
• Web scraping (?) → HTML
Dados gerados por outras pessoas - Secundários
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
18. Extensões populares de base de dados
HTML CSV XLS
X
TXT
Permite fórmulas
No Brasil é comum
usar ;