Coleta de Dados –
Parte 1
• Mapa do Curso
• Tipos de Fontes de Dados
• Extensões Populares de Bases de Dados
• Importação de Dados no Python
• Atividade Prática com Selenium
Agenda
Mapa do Curso
1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
1. Understand a
Business
Problem
• Ask questions and
define objectives
2. Data
Acquisition
• Web Scraping
• APIS
• Direct download from
URLs
• Researches and
crowdworkers
(amazon Turk)
3. Data
Preparation
• Cleaning
• Transformation
• Very time consuming
4. Exploratory
Data Analysis
• Visualization
• Statistics
• Distributions
• Feature selection
6. Visualization
and
Communication
• Documentation
• Talk back to business
• Reports and
Dashboards
7. Deploy and
Maintenance
• Production env
• Real time analytics
• Maintenance of
Projects performance
5. Data
Modeling
• Machine Learning
• Train a model that
best fits the business
requirements
• Prediction models
Definição
You are here
Note: This is NOT a Data Engineering Program
Tipos de Fontes de
Dados
O que são dados?
O que são dados?
Como dados são gerados?
- planilhas, sistemas de gerenciamento (CRM), máquinas,
automações, sensores, publicações,
- imagens, audios, videos
Tipos de Fontes de Dados
Tipos de Fontes de Dados
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
Tipos de Fontes de Dados
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições
• ”Crowdworkers”
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
• Livros, artigos, etc
Extensões
Populares de Bases
de Dados
Extensões populares de base de dados
• Pesquisas, entrevistas, experimentos, medições
• Web scraping (?)
• Bancos de Dados Interno
Dados gerados pela pessoa que usa o serviço - Primários
Extensões populares de base de dados
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Dados gerados pela pessoa que usa o serviço - Primários
Extensões populares de base de dados
Dados gerados por outras pessoas - Secundários
• Repositórios de dados
• Websites e mídias sociais
• APIs
• Web scraping (?)
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Extensões populares de base de dados
• Repositórios de dados → CSV, XLSX, TXT, JPG/PNG, etc
• Websites e mídias sociais
• APIs → JSON
• Web scraping (?) → HTML
Dados gerados por outras pessoas - Secundários
Dados gerados pela pessoa que usa o serviço - Primários
• Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV
• Web scraping (?) → HTML
• Bancos de Dados Interno → SQL
Extensões populares de base de dados
HTML CSV XLS
X
TXT
Permite fórmulas
No Brasil é comum
usar ;
Extensões populares de base de dados
SQL (Not really an extension)
JSON
Repositórios de Dados
https://www.kaggle.com/datasets
https://github.com/CSSEGISandData/COVID-19/
Repositórios de Dados
Google Dataset Search
Kaggle
Data.gov
Datahub.io
UCI Machine Learning Repository
Data World
Visual Data
Data is Plural
Importando Dados
no Python
Continuação no Jupyter

Mais conteúdo relacionado

PDF
House of data - TDC Floripa
PDF
Visualização de dados
PDF
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
PPT
Faça suas pesquisas com EnqueteFacil.com
PDF
Webinar: Como obter valor comercial com Big Data
PPTX
OS CINCO Vs DO BIG DATA
PDF
Big data e mineração de dados
PPTX
Carreira do profissional de dados
House of data - TDC Floripa
Visualização de dados
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Faça suas pesquisas com EnqueteFacil.com
Webinar: Como obter valor comercial com Big Data
OS CINCO Vs DO BIG DATA
Big data e mineração de dados
Carreira do profissional de dados

Semelhante a awari-ds-aula4.pptx.pdf (20)

PPTX
Sistemas abertos aplicados à gestão da informação científica: o desenvolvimen...
PDF
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
PDF
Virtualização de dados para Advanced Analytics e Machine Learning
PPT
Apresentacao Google Search Appliance - Just Digital - Nov2013
PDF
Palestra garimpando com pentaho data mining latinoware
PPTX
ILM com PostgreSQL
PPTX
AWS Initiate - Construindo Data Lakes e Analytics com AWS
PPTX
Big Data
PDF
House of data - ciência de dados para desenvolvedores
PDF
GUBI: Agile Analytics [pt-br]
PDF
Qual é o futuro da estratégia de dados?
PPTX
Bancos de dados NoSQL na AWS
PDF
Aula 1 - Interaction Design From Ethnography, Mental Models to IA
PDF
Desenvolvimento de Projetos Interativos: Especificação e Implementação
PDF
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
PDF
Como Implementar a Análise de Dados em Tempo Real
PDF
Sistemas de recomendação
PDF
Introducão à Ciência de Dados
PPTX
Seminario Web30 Universidade Fernando Pessoa
Sistemas abertos aplicados à gestão da informação científica: o desenvolvimen...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Virtualização de dados para Advanced Analytics e Machine Learning
Apresentacao Google Search Appliance - Just Digital - Nov2013
Palestra garimpando com pentaho data mining latinoware
ILM com PostgreSQL
AWS Initiate - Construindo Data Lakes e Analytics com AWS
Big Data
House of data - ciência de dados para desenvolvedores
GUBI: Agile Analytics [pt-br]
Qual é o futuro da estratégia de dados?
Bancos de dados NoSQL na AWS
Aula 1 - Interaction Design From Ethnography, Mental Models to IA
Desenvolvimento de Projetos Interativos: Especificação e Implementação
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
Como Implementar a Análise de Dados em Tempo Real
Sistemas de recomendação
Introducão à Ciência de Dados
Seminario Web30 Universidade Fernando Pessoa

Último (11)

PPT
Aula 5 - Percepção e Tomada de Decisão Individual.ppt
PDF
Planejamento de pesquisa - ANALISE DE DADOS
PDF
POP-28-Administracao-de-medicacao-intramuscular.pdf
PDF
Aula top demais para ser olhada por todos
PDF
BIOESTATÍSTICA_20250817_143657APRESENTAÇÃO
PDF
Introdução à ciência de dados Aula 01.pdf
PDF
Inicialização com as bibliotecas pandas e NumpyAula 02.pdf
PDF
Óptica geométrica - Vidal.pdfhuuuhhuui
PPTX
Obsesidade_e_atividade_fisica em pessoas
PDF
DIAGNOSTICO DE AVARIAS EM AUTOMATISMOS INDUSTRIAIS.pdf
PPTX
BASES DE DADOS CIENTÍFICAS , metodos e metodologias cientificas .pptx
Aula 5 - Percepção e Tomada de Decisão Individual.ppt
Planejamento de pesquisa - ANALISE DE DADOS
POP-28-Administracao-de-medicacao-intramuscular.pdf
Aula top demais para ser olhada por todos
BIOESTATÍSTICA_20250817_143657APRESENTAÇÃO
Introdução à ciência de dados Aula 01.pdf
Inicialização com as bibliotecas pandas e NumpyAula 02.pdf
Óptica geométrica - Vidal.pdfhuuuhhuui
Obsesidade_e_atividade_fisica em pessoas
DIAGNOSTICO DE AVARIAS EM AUTOMATISMOS INDUSTRIAIS.pdf
BASES DE DADOS CIENTÍFICAS , metodos e metodologias cientificas .pptx

awari-ds-aula4.pptx.pdf

  • 1. Coleta de Dados – Parte 1
  • 2. • Mapa do Curso • Tipos de Fontes de Dados • Extensões Populares de Bases de Dados • Importação de Dados no Python • Atividade Prática com Selenium Agenda
  • 4. 1. Understand a Business Problem • Ask questions and define objectives 2. Data Acquisition • Web Scraping • APIS • Direct download from URLs • Researches and crowdworkers (amazon Turk) 3. Data Preparation • Cleaning • Transformation • Very time consuming 4. Exploratory Data Analysis • Visualization • Statistics • Distributions • Feature selection 6. Visualization and Communication • Documentation • Talk back to business • Reports and Dashboards 7. Deploy and Maintenance • Production env • Real time analytics • Maintenance of Projects performance 5. Data Modeling • Machine Learning • Train a model that best fits the business requirements • Prediction models Definição
  • 5. 1. Understand a Business Problem • Ask questions and define objectives 2. Data Acquisition • Web Scraping • APIS • Direct download from URLs • Researches and crowdworkers (amazon Turk) 3. Data Preparation • Cleaning • Transformation • Very time consuming 4. Exploratory Data Analysis • Visualization • Statistics • Distributions • Feature selection 6. Visualization and Communication • Documentation • Talk back to business • Reports and Dashboards 7. Deploy and Maintenance • Production env • Real time analytics • Maintenance of Projects performance 5. Data Modeling • Machine Learning • Train a model that best fits the business requirements • Prediction models Definição You are here
  • 6. 1. Understand a Business Problem • Ask questions and define objectives 2. Data Acquisition • Web Scraping • APIS • Direct download from URLs • Researches and crowdworkers (amazon Turk) 3. Data Preparation • Cleaning • Transformation • Very time consuming 4. Exploratory Data Analysis • Visualization • Statistics • Distributions • Feature selection 6. Visualization and Communication • Documentation • Talk back to business • Reports and Dashboards 7. Deploy and Maintenance • Production env • Real time analytics • Maintenance of Projects performance 5. Data Modeling • Machine Learning • Train a model that best fits the business requirements • Prediction models Definição You are here Note: This is NOT a Data Engineering Program
  • 7. Tipos de Fontes de Dados
  • 8. O que são dados?
  • 9. O que são dados?
  • 10. Como dados são gerados? - planilhas, sistemas de gerenciamento (CRM), máquinas, automações, sensores, publicações, - imagens, audios, videos Tipos de Fontes de Dados
  • 11. Tipos de Fontes de Dados • Pesquisas, entrevistas, experimentos, medições • ”Crowdworkers” • Web scraping (?) • Bancos de Dados Interno Dados gerados pela pessoa que usa o serviço - Primários
  • 12. Tipos de Fontes de Dados Dados gerados pela pessoa que usa o serviço - Primários • Pesquisas, entrevistas, experimentos, medições • ”Crowdworkers” • Web scraping (?) • Bancos de Dados Interno Dados gerados por outras pessoas - Secundários • Repositórios de dados • Websites e mídias sociais • APIs • Web scraping (?) • Livros, artigos, etc
  • 14. Extensões populares de base de dados • Pesquisas, entrevistas, experimentos, medições • Web scraping (?) • Bancos de Dados Interno Dados gerados pela pessoa que usa o serviço - Primários
  • 15. Extensões populares de base de dados • Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV • Web scraping (?) → HTML • Bancos de Dados Interno → SQL Dados gerados pela pessoa que usa o serviço - Primários
  • 16. Extensões populares de base de dados Dados gerados por outras pessoas - Secundários • Repositórios de dados • Websites e mídias sociais • APIs • Web scraping (?) Dados gerados pela pessoa que usa o serviço - Primários • Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV • Web scraping (?) → HTML • Bancos de Dados Interno → SQL
  • 17. Extensões populares de base de dados • Repositórios de dados → CSV, XLSX, TXT, JPG/PNG, etc • Websites e mídias sociais • APIs → JSON • Web scraping (?) → HTML Dados gerados por outras pessoas - Secundários Dados gerados pela pessoa que usa o serviço - Primários • Pesquisas, entrevistas, experimentos, medições → .XLSX ou .CSV • Web scraping (?) → HTML • Bancos de Dados Interno → SQL
  • 18. Extensões populares de base de dados HTML CSV XLS X TXT Permite fórmulas No Brasil é comum usar ;
  • 19. Extensões populares de base de dados SQL (Not really an extension) JSON
  • 21. Repositórios de Dados Google Dataset Search Kaggle Data.gov Datahub.io UCI Machine Learning Repository Data World Visual Data Data is Plural