SlideShare uma empresa Scribd logo
Web ScrapingWeb Scraping: a arte de automatizar a recuperação de: a arte de automatizar a recuperação de
informação nainformação na WebWeb
Prof. Alex Dias Camargo
alexcamargo@ifsul.edu.br
TCHELINUX 2019
UNIVERSIDADE FEDERAL DO PAMPA
CAMPUS BAGÉ
CICLO DE PALESTRAS
2
I. Agenda
Esta palestra está organizada da seguinte maneira:
 Apresentação
 Objetivos
 Ferramentas
 Componentes de uma página web
 O que é Web scraping?
 Scraping na prática: bage.rs.gov.br
 Bônus: web scraping completo em 4 minutos (GUI mode)
 Onde estudar
 Agradecimentos
 Referências
TCHELINUX - 2019
3
II. Apresentação
Formação acadêmica:
 Bacharel em Sistemas de Informação (URCAMP, 2011)
TCC: Web sistema integrado a uma rede social para
academias de ginástica
Orientador: Prof. Abner Guedes
 Especialista em Sistemas Distribuídos com Ênfase em
Banco de Dados (UNIPAMPA, 2013)
TCC: Interligando bases de dados do sistema Controle de
Marcas e Sinais utilizando o MySQL Cluster
Orientador: Prof. Érico Amaral
Coorientador: Prof. Rafael Bastos (IDEAU)
TCHELINUX - 2019
4
II. Apresentação
Formação acadêmica:
 Mestre em Engenharia de Computação (FURG, 2017)
Dissertação: EN-MUTATE: predição do impacto de mutações
pontuais em proteínas utilizando Ensemble Learning
Orientadora: Profa. Karina Machado
Coorientador: Prof. Adriano Werhli
 Doutorado (iniciado) em Ciência da Computação (UFPEL)
Tese: Em definição
Orientador: Aluno especial
TCHELINUX - 2019
5
II. Apresentação
Experiência acadêmica:
 Professor (Ensino Técnico)
Local: Capacitar Escola Técnica
Disciplinas: Banco de Dados e Análise de Sistemas
 Professor (Ensino Superior)
Local: Universidade Federal do Pampa - UNIPAMPA
Disciplinas: Algoritmos e Programação, Laboratório
Programação I e Laboratório de Programação II
 Professor (Ensino Básico, Técnico e Tecnológico)
Local: IFSUL Câmpus Bagé
Disciplinas: Programação para Web II, Arquitetura de
Computadores, Qualidade de Software, Desenvolvimento de
Software, Informática (Eng. Agronômica)
TCHELINUX - 2019
6
II. Apresentação
Projetos acadêmicos:
 Algo+: um portal para o apoio ao ensino de Algoritmos
Universidade: UNIPAMPA
Área: Informática na educação
 Bioinformática Estrutural de Proteínas: modelos,
algoritmos e aplicações biotecnológicas
Universidade: FURG/UFMG/UFPB
Área: Bioinformática
 Unihacker.Club: Programa Universidade Hacker
Universidade: UNIPAMPA
Área: Segurança da informação
TCHELINUX - 2019
7
II. Apresentação
Periódicos acadêmicos:
 Revisor do periódico ICCEEg (ISSN 2236-0093)
Universidade: FURG
Área: Multidisciplinar
 Revisor do periódico CCEI (ISSN 2356-6635)
Universidade: URCAMP
Área: Multidisciplinar
TCHELINUX - 2019
8
II. Apresentação
Histórico Tchelinux:
 Software Livre e Bioinformática: do DNA ao
medicamento (2018)
Local: FURG
Área: Bioinformática
TCHELINUX - 2019
9
III. Objetivos
Dentre os objetivos, podem ser destacados:
 Compreender os conceitos e aplicações do Web Scraping.
 Explorar tecnologias no contexto Python/Linux.
 Motivar novos cientistas de dados (e palestrantes).
TCHELINUX - 2019
10
1. Os componentes de uma página web
TCHELINUX - 2019
11
1. Os componentes de uma página web
Quando uma página na Internet é visitada, o navegador faz
uma solicitação à um servidor web. Essa solicitação é chamada de
GET, pois são recebidos arquivos do servidor.
 HTML: contém o conteúdo principal da página.
 CSS: adiciona estilos para que a página fique customizada.
 JS: arquivos JavaScript adicionam interatividade à página.
 Imagens: formatos de imagem, tais como JPG e PNG.
TCHELINUX - 2019
12
1. Os componentes de uma página web
TCHELINUX - 2019
Figura. Camadas do desenvolvimento web.
13
1. Os componentes de uma página web
TCHELINUX - 2019
Figura. Estrutura básica do HTML5.
14
1. Os componentes de uma página web
TCHELINUX - 2019
Figura. Arquitetura web padrão.
15
2. O que é Web Scraping?
TCHELINUX - 2019
16
2. O que é Web Scraping?
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
TCHELINUX - 2019
17
2. O que é Web Scraping?
TCHELINUX - 2019
Figura. Visão geral de um web scraping.
18
2. Web Scraping
TCHELINUX - 2019
Figura. Visão geral de um web scraping.
19
2. O que é Web Scraping?
TCHELINUX - 2019
Figura. Visão geral de um web scraping.
20
2. Web Scraping
TCHELINUX - 2019
Figura. Web Scraping versus Web Crawling.
21
2. Web Scraping
TCHELINUX - 2019
Figura. Aplicações do web scraping.
22
2. O que é Web Scraping?
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
 Existem empresas especializadas no ramo?
TCHELINUX - 2019
23
2. O que é Web Scraping?
TCHELINUX - 2019
Figura. Empresas de web scraping.
24
2. O que é Web Scraping?
TCHELINUX - 2019
Figura. Empresas de web scraping.
25
2. O que é Web Scraping?
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
 Existem empresas especializadas no ramo?
 Uma alternativa para o web scraping é usar uma API, se
houver alguma disponível. Ex.: Twitter, Instagram, Facebook,
etc.
TCHELINUX - 2019
26
2. O que é Web Scraping?
TCHELINUX - 2019
Figura. APIs para extração de dados.
27
2. O que é Web Scraping?
TCHELINUX - 2019
Figura. APIs para extração de dados.
28
2. O que é Web Scraping?
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
 Existem empresas especializadas no ramo?
 Uma alternativa para o web scraping é usar uma API, se
houver alguma disponível. Ex.: Twitter, Instagram, Facebook,
etc.
 "Be polite" (seja educado): um scraping pode sobrecarregar
um servidor, principalmente, se o script estiver fazendo uma
grande quantidade de solicitações. Respeite o robots.txt!
TCHELINUX - 2019
29
2. Web Scraping
TCHELINUX - 2019
Figura. Muitas requisições "simultâneas".
30
2. Web Scraping
TCHELINUX - 2019
Figura. Exemplo de um robots.txt.
31
3. Ferramentas
TCHELINUX - 2019
32
3. Ferramentas
KIT DO WEB SCRAPER:
 GitHub do projeto:
https://github.com/alexcamargoweb/python-webscraping
 Linux Mint:
https://linuxmint.com/download.php
 Python 3:
https://www.python.org/downloads/
 Requests:
https://pypi.org/project/requests/
 URLlib:
https://pypi.org/project/urllib3/
 BeautifulSoup:
https://pypi.org/project/beautifulsoup4/
TCHELINUX - 2019
33
3. Ferramentas
KIT DO WEB SCRAPER:
 Selenium:
https://pypi.org/project/selenium/
 Firefox geckodriver:
https://github.com/mozilla/geckodriver/releases/
 Selenium IDE (Firefox extension):
https://addons.mozilla.org/pt-BR/firefox/addon/selenium-ide/
TCHELINUX - 2019
34
4. Scraping na prática: bage.rs.gov.br
TCHELINUX - 2019
35
4. Scraping na prática: bage.rs.gov.br
TCHELINUX - 2019
Link. https://www.bage.rs.gov.br
36
5. Bônus: Web scraping completo em 4
minutos (GUI mode)
TCHELINUX - 2019
37
5. Bônus: Web scraping completo em 4
minutos (GUI mode)
Demonstração...
TCHELINUX - 2019
38
IV. Onde estudar
Se interessou pelo assunto? :)
 Learn Web Scraping with Python from Scratch (15.851 alunos)
https://www.udemy.com/course/web-scraping-python-tutorial/
 Anotações e scripts de web scraping, screen scraping, etc
https://github.com/ferreiraapfernanda/web-scraping
 Python Selenium WebDriver
https://www.youtube.com/playlist?list=PLUY1lsOTtPeJNBuSweX
S9pcSKbP4mr32S
 MITCHELL, Ryan. Web Scraping with Python: Collecting
More Data from the Modern Web. "O'Reilly, Inc.", 2018.
https://www.amazon.com/Web-Scraping-Python-Collecting-Mod
ern/dp/1491910291
TCHELINUX - 2019
39
Agradecimentos
Obrigado pela sua participação! :)
 Acadêmicos do curso de Engenharia de Computação
 Grupo de usuários de Software Livre Tchelinux
 Toda honra e glória ao Senhor Jesus!
Abraços, Prof. Alex Dias Camargo
Unipampa – Câmpus Bagé
05 de Outubro de 2019
TCHELINUX - 2019
40
Referências básicas
https://likegeeks.com/python-web-scraping/
https://codeburst.io/web-scraping-101-with-python-beautiful-soup-
bb617be1f486
https://imasters.com.br/back-end/aprendendo-sobre-web-scraping-
em-python-utilizando-beautifulsoup
https://goomore.com/blog/web-scraping-python/
https://github.com/REMitchell/python-scraping
https://medium.com/data-hackers/como-fazer-web-scraping-em-
python-23c9d465a37f
TCHELINUX - 2019

Mais conteúdo relacionado

PDF
SACOMP 2019 - Web Scraping: coletando dados como um artesão
PDF
SACI 2019 - Introdução prática ao Web Scraping com Python
PDF
P566Aula09
PDF
Web Scraping: aplicações nos negócios e na ciência
PDF
Raspagem de Dados com Python
PPTX
Web scraping com python
PDF
Crawling - Coleta de dados na Web com PHP
PPTX
Web Scraping
SACOMP 2019 - Web Scraping: coletando dados como um artesão
SACI 2019 - Introdução prática ao Web Scraping com Python
P566Aula09
Web Scraping: aplicações nos negócios e na ciência
Raspagem de Dados com Python
Web scraping com python
Crawling - Coleta de dados na Web com PHP
Web Scraping

Semelhante a TCHELINUX 2019 - Web Scraping: a arte de automatizar a recuperação de informação na Web (20)

PDF
Scraping for fun and glory
PDF
Scraping for fun and glory annotated
PDF
Capturando a web com Scrapy
PDF
Web crawler
PPTX
Web Crawlers
PDF
Crawleando a web feito gente grande com o scrapy
PDF
Web - Crawlers
ODP
Desenvolvendo web crawler/scraper com Python
PPTX
Como webscraping pode ajudar no Marketing?
PDF
Road Show TI SENAC - Web Semântica - Pessoas e Máquinas Pensando Juntas - SEN...
PDF
“Web Spiders” – Automação para Web Hacking
PDF
Sobre o workshop "Raspagem de dados para mulheres"
PPT
Índices e Rastejamento na Web
PPT
Web Mining
PPTX
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
PDF
OWASP Floripa - Web Spiders: Automação para Web Hacking by Antonio Costa aka ...
PDF
Desbravando o mundo dos webcrawlers
PDF
Planejamento para Serviços Web Semânticos
PDF
iesp_inverno_slides_raspagem.pdf
PPTX
iesp_inverno_slides_raspagem2.pptx
Scraping for fun and glory
Scraping for fun and glory annotated
Capturando a web com Scrapy
Web crawler
Web Crawlers
Crawleando a web feito gente grande com o scrapy
Web - Crawlers
Desenvolvendo web crawler/scraper com Python
Como webscraping pode ajudar no Marketing?
Road Show TI SENAC - Web Semântica - Pessoas e Máquinas Pensando Juntas - SEN...
“Web Spiders” – Automação para Web Hacking
Sobre o workshop "Raspagem de dados para mulheres"
Índices e Rastejamento na Web
Web Mining
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
OWASP Floripa - Web Spiders: Automação para Web Hacking by Antonio Costa aka ...
Desbravando o mundo dos webcrawlers
Planejamento para Serviços Web Semânticos
iesp_inverno_slides_raspagem.pdf
iesp_inverno_slides_raspagem2.pptx
Anúncio

Mais de Alex Camargo (20)

PDF
Experiencia Profissional - Desafios Contemporâneos (TEOLOGIA/UNIASSELVI)
PDF
Experiencia Profissional - Carreira e Sucesso (TEOLOGIA/UNIASSELVI)
PDF
Bíblia-IA Inteligência Abençoada - Pitchdeck (ES)
PDF
Startub Lab - Workshop de Inovação Aberta
PDF
Curso de Inclusão Digital - Instituto Cooperconecta e Urcamp
PDF
SNCT URCAMP - UMA PROPOSTA DE UM SOFTWARE PARA GERENCIAMENTO DE CICLOS DE INO...
PDF
Palestra Rotary - Crimes e Fraudes na Internet
PDF
Curso Método Teologia Fácil - Sociologia (SLIDES)
PDF
Curso Método Teologia Fácil - Hermenêutica (SLIDES)
PDF
Curso Método Teologia Fácil - Pneumatologia (SLIDES)
PDF
Curso Método Teologia Fácil - Eclesiologia (SLIDES)
PDF
Curso Método Teologia Fácil - Demonologia (SLIDES)
PDF
Curso Método Teologia Fácil - Metodologia (SLIDES)
PDF
Ecossistema de Inovação de Bagé (ECOBAH) - Apresentação
PDF
Feira do Livro de Bagé 2023 - Inovação e Startups
PDF
Escola Bíblica - Eclesiologia
PDF
Escola Bíblica - Demonologia
PDF
Python para finanças: explorando dados financeiros
PDF
A practical guide: How to use Bitcoins?
PDF
IA e Bioinformática: modelos computacionais de proteínas
Experiencia Profissional - Desafios Contemporâneos (TEOLOGIA/UNIASSELVI)
Experiencia Profissional - Carreira e Sucesso (TEOLOGIA/UNIASSELVI)
Bíblia-IA Inteligência Abençoada - Pitchdeck (ES)
Startub Lab - Workshop de Inovação Aberta
Curso de Inclusão Digital - Instituto Cooperconecta e Urcamp
SNCT URCAMP - UMA PROPOSTA DE UM SOFTWARE PARA GERENCIAMENTO DE CICLOS DE INO...
Palestra Rotary - Crimes e Fraudes na Internet
Curso Método Teologia Fácil - Sociologia (SLIDES)
Curso Método Teologia Fácil - Hermenêutica (SLIDES)
Curso Método Teologia Fácil - Pneumatologia (SLIDES)
Curso Método Teologia Fácil - Eclesiologia (SLIDES)
Curso Método Teologia Fácil - Demonologia (SLIDES)
Curso Método Teologia Fácil - Metodologia (SLIDES)
Ecossistema de Inovação de Bagé (ECOBAH) - Apresentação
Feira do Livro de Bagé 2023 - Inovação e Startups
Escola Bíblica - Eclesiologia
Escola Bíblica - Demonologia
Python para finanças: explorando dados financeiros
A practical guide: How to use Bitcoins?
IA e Bioinformática: modelos computacionais de proteínas
Anúncio

Último (10)

PDF
POP-28-Administracao-de-medicacao-intramuscular.pdf
PDF
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
PPT
Aula 5 - Percepção e Tomada de Decisão Individual.ppt
PDF
Investigação Operacional história completa
PDF
Previsão de Paradas em Máquinas Industriais
PPTX
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
PDF
DIAGNOSTICO DE AVARIAS EM AUTOMATISMOS INDUSTRIAIS.pdf
PPTX
Slide Gêneros textuais: resenha crítica.ppxt
PDF
712893401-Geografia-em-perspectiva-3.pdf
DOC
Saude Frutal qqqqqqqqqqqqqqqqqqqqqqqqqqq
POP-28-Administracao-de-medicacao-intramuscular.pdf
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
Aula 5 - Percepção e Tomada de Decisão Individual.ppt
Investigação Operacional história completa
Previsão de Paradas em Máquinas Industriais
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
DIAGNOSTICO DE AVARIAS EM AUTOMATISMOS INDUSTRIAIS.pdf
Slide Gêneros textuais: resenha crítica.ppxt
712893401-Geografia-em-perspectiva-3.pdf
Saude Frutal qqqqqqqqqqqqqqqqqqqqqqqqqqq

TCHELINUX 2019 - Web Scraping: a arte de automatizar a recuperação de informação na Web

  • 1. Web ScrapingWeb Scraping: a arte de automatizar a recuperação de: a arte de automatizar a recuperação de informação nainformação na WebWeb Prof. Alex Dias Camargo alexcamargo@ifsul.edu.br TCHELINUX 2019 UNIVERSIDADE FEDERAL DO PAMPA CAMPUS BAGÉ CICLO DE PALESTRAS
  • 2. 2 I. Agenda Esta palestra está organizada da seguinte maneira:  Apresentação  Objetivos  Ferramentas  Componentes de uma página web  O que é Web scraping?  Scraping na prática: bage.rs.gov.br  Bônus: web scraping completo em 4 minutos (GUI mode)  Onde estudar  Agradecimentos  Referências TCHELINUX - 2019
  • 3. 3 II. Apresentação Formação acadêmica:  Bacharel em Sistemas de Informação (URCAMP, 2011) TCC: Web sistema integrado a uma rede social para academias de ginástica Orientador: Prof. Abner Guedes  Especialista em Sistemas Distribuídos com Ênfase em Banco de Dados (UNIPAMPA, 2013) TCC: Interligando bases de dados do sistema Controle de Marcas e Sinais utilizando o MySQL Cluster Orientador: Prof. Érico Amaral Coorientador: Prof. Rafael Bastos (IDEAU) TCHELINUX - 2019
  • 4. 4 II. Apresentação Formação acadêmica:  Mestre em Engenharia de Computação (FURG, 2017) Dissertação: EN-MUTATE: predição do impacto de mutações pontuais em proteínas utilizando Ensemble Learning Orientadora: Profa. Karina Machado Coorientador: Prof. Adriano Werhli  Doutorado (iniciado) em Ciência da Computação (UFPEL) Tese: Em definição Orientador: Aluno especial TCHELINUX - 2019
  • 5. 5 II. Apresentação Experiência acadêmica:  Professor (Ensino Técnico) Local: Capacitar Escola Técnica Disciplinas: Banco de Dados e Análise de Sistemas  Professor (Ensino Superior) Local: Universidade Federal do Pampa - UNIPAMPA Disciplinas: Algoritmos e Programação, Laboratório Programação I e Laboratório de Programação II  Professor (Ensino Básico, Técnico e Tecnológico) Local: IFSUL Câmpus Bagé Disciplinas: Programação para Web II, Arquitetura de Computadores, Qualidade de Software, Desenvolvimento de Software, Informática (Eng. Agronômica) TCHELINUX - 2019
  • 6. 6 II. Apresentação Projetos acadêmicos:  Algo+: um portal para o apoio ao ensino de Algoritmos Universidade: UNIPAMPA Área: Informática na educação  Bioinformática Estrutural de Proteínas: modelos, algoritmos e aplicações biotecnológicas Universidade: FURG/UFMG/UFPB Área: Bioinformática  Unihacker.Club: Programa Universidade Hacker Universidade: UNIPAMPA Área: Segurança da informação TCHELINUX - 2019
  • 7. 7 II. Apresentação Periódicos acadêmicos:  Revisor do periódico ICCEEg (ISSN 2236-0093) Universidade: FURG Área: Multidisciplinar  Revisor do periódico CCEI (ISSN 2356-6635) Universidade: URCAMP Área: Multidisciplinar TCHELINUX - 2019
  • 8. 8 II. Apresentação Histórico Tchelinux:  Software Livre e Bioinformática: do DNA ao medicamento (2018) Local: FURG Área: Bioinformática TCHELINUX - 2019
  • 9. 9 III. Objetivos Dentre os objetivos, podem ser destacados:  Compreender os conceitos e aplicações do Web Scraping.  Explorar tecnologias no contexto Python/Linux.  Motivar novos cientistas de dados (e palestrantes). TCHELINUX - 2019
  • 10. 10 1. Os componentes de uma página web TCHELINUX - 2019
  • 11. 11 1. Os componentes de uma página web Quando uma página na Internet é visitada, o navegador faz uma solicitação à um servidor web. Essa solicitação é chamada de GET, pois são recebidos arquivos do servidor.  HTML: contém o conteúdo principal da página.  CSS: adiciona estilos para que a página fique customizada.  JS: arquivos JavaScript adicionam interatividade à página.  Imagens: formatos de imagem, tais como JPG e PNG. TCHELINUX - 2019
  • 12. 12 1. Os componentes de uma página web TCHELINUX - 2019 Figura. Camadas do desenvolvimento web.
  • 13. 13 1. Os componentes de uma página web TCHELINUX - 2019 Figura. Estrutura básica do HTML5.
  • 14. 14 1. Os componentes de uma página web TCHELINUX - 2019 Figura. Arquitetura web padrão.
  • 15. 15 2. O que é Web Scraping? TCHELINUX - 2019
  • 16. 16 2. O que é Web Scraping? Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc. TCHELINUX - 2019
  • 17. 17 2. O que é Web Scraping? TCHELINUX - 2019 Figura. Visão geral de um web scraping.
  • 18. 18 2. Web Scraping TCHELINUX - 2019 Figura. Visão geral de um web scraping.
  • 19. 19 2. O que é Web Scraping? TCHELINUX - 2019 Figura. Visão geral de um web scraping.
  • 20. 20 2. Web Scraping TCHELINUX - 2019 Figura. Web Scraping versus Web Crawling.
  • 21. 21 2. Web Scraping TCHELINUX - 2019 Figura. Aplicações do web scraping.
  • 22. 22 2. O que é Web Scraping? Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc.  Existem empresas especializadas no ramo? TCHELINUX - 2019
  • 23. 23 2. O que é Web Scraping? TCHELINUX - 2019 Figura. Empresas de web scraping.
  • 24. 24 2. O que é Web Scraping? TCHELINUX - 2019 Figura. Empresas de web scraping.
  • 25. 25 2. O que é Web Scraping? Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc.  Existem empresas especializadas no ramo?  Uma alternativa para o web scraping é usar uma API, se houver alguma disponível. Ex.: Twitter, Instagram, Facebook, etc. TCHELINUX - 2019
  • 26. 26 2. O que é Web Scraping? TCHELINUX - 2019 Figura. APIs para extração de dados.
  • 27. 27 2. O que é Web Scraping? TCHELINUX - 2019 Figura. APIs para extração de dados.
  • 28. 28 2. O que é Web Scraping? Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc.  Existem empresas especializadas no ramo?  Uma alternativa para o web scraping é usar uma API, se houver alguma disponível. Ex.: Twitter, Instagram, Facebook, etc.  "Be polite" (seja educado): um scraping pode sobrecarregar um servidor, principalmente, se o script estiver fazendo uma grande quantidade de solicitações. Respeite o robots.txt! TCHELINUX - 2019
  • 29. 29 2. Web Scraping TCHELINUX - 2019 Figura. Muitas requisições "simultâneas".
  • 30. 30 2. Web Scraping TCHELINUX - 2019 Figura. Exemplo de um robots.txt.
  • 32. 32 3. Ferramentas KIT DO WEB SCRAPER:  GitHub do projeto: https://github.com/alexcamargoweb/python-webscraping  Linux Mint: https://linuxmint.com/download.php  Python 3: https://www.python.org/downloads/  Requests: https://pypi.org/project/requests/  URLlib: https://pypi.org/project/urllib3/  BeautifulSoup: https://pypi.org/project/beautifulsoup4/ TCHELINUX - 2019
  • 33. 33 3. Ferramentas KIT DO WEB SCRAPER:  Selenium: https://pypi.org/project/selenium/  Firefox geckodriver: https://github.com/mozilla/geckodriver/releases/  Selenium IDE (Firefox extension): https://addons.mozilla.org/pt-BR/firefox/addon/selenium-ide/ TCHELINUX - 2019
  • 34. 34 4. Scraping na prática: bage.rs.gov.br TCHELINUX - 2019
  • 35. 35 4. Scraping na prática: bage.rs.gov.br TCHELINUX - 2019 Link. https://www.bage.rs.gov.br
  • 36. 36 5. Bônus: Web scraping completo em 4 minutos (GUI mode) TCHELINUX - 2019
  • 37. 37 5. Bônus: Web scraping completo em 4 minutos (GUI mode) Demonstração... TCHELINUX - 2019
  • 38. 38 IV. Onde estudar Se interessou pelo assunto? :)  Learn Web Scraping with Python from Scratch (15.851 alunos) https://www.udemy.com/course/web-scraping-python-tutorial/  Anotações e scripts de web scraping, screen scraping, etc https://github.com/ferreiraapfernanda/web-scraping  Python Selenium WebDriver https://www.youtube.com/playlist?list=PLUY1lsOTtPeJNBuSweX S9pcSKbP4mr32S  MITCHELL, Ryan. Web Scraping with Python: Collecting More Data from the Modern Web. "O'Reilly, Inc.", 2018. https://www.amazon.com/Web-Scraping-Python-Collecting-Mod ern/dp/1491910291 TCHELINUX - 2019
  • 39. 39 Agradecimentos Obrigado pela sua participação! :)  Acadêmicos do curso de Engenharia de Computação  Grupo de usuários de Software Livre Tchelinux  Toda honra e glória ao Senhor Jesus! Abraços, Prof. Alex Dias Camargo Unipampa – Câmpus Bagé 05 de Outubro de 2019 TCHELINUX - 2019