SlideShare uma empresa Scribd logo
Introdução prática aoIntrodução prática ao web scrapingweb scraping comcom PythonPython
Prof. Alex Dias Camargo
alexcamargo@ifsul.edu.br
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA
SUL-RIO-GRANDENSE
CÂMPUS BAGÉ
SACI - 2019
2
I. Agenda
Esta oficina está organizada da seguinte maneira:
 Apresentação
 Objetivos
 Ferramentas
 Os componentes de uma página web
 Web scraping
 Scraping de uma página da Wikipédia
 Scraping para montar datasets de esportes
 Exercícios
 Onde estudar
 Agradecimentos
 Referências
SACI - 2019
3
II. Apresentação
Formação acadêmica:
 Bacharel em Sistemas de Informação (URCAMP, 2011)
TCC: Web sistema integrado a uma rede social para
academias de ginástica
Orientador: Prof. Abner Guedes
 Especialista em Sistemas Distribuídos com Ênfase em
Banco de Dados (UNIPAMPA, 2013)
TCC: Interligando bases de dados do sistema Controle de
Marcas e Sinais utilizando o MySQL Cluster
Orientador: Prof. Érico Amaral
Coorientador: Prof. Rafael Bastos (IDEAU)
SACI - 2019
4
II. Apresentação
Formação acadêmica:
 Mestre em Engenharia de Computação (FURG, 2017)
Dissertação: EN-MUTATE: predição do impacto de mutações
pontuais em proteínas utilizando Ensemble Learning
Orientadora: Profa. Karina Machado
Coorientador: Prof. Adriano Werhli
 Doutorado (iniciado) em Ciência da Computação (UFPEL)
Tese: Em definição
Orientador: Aluno especial
SACI - 2019
5
II. Apresentação
Experiência acadêmica:
 Professor (Ensino Técnico)
Local: Capacitar Escola Técnica
Disciplinas: Banco de Dados e Análise de Sistemas
 Professor (Ensino Superior)
Local: Universidade Federal do Pampa - UNIPAMPA
Disciplinas: Algoritmos e Programação, Laboratório
Programação I e Laboratório de Programação II
 Professor (Ensino Básico, Técnico e Tecnológico)
Local: IFSUL Câmpus Bagé
Disciplinas: Programação para Web II, Arquitetura de
Computadores, Qualidade de Software, Desenvolvimento de
Software, Informática (Eng. Agronômica)
SACI - 2019
6
II. Apresentação do professor
Projetos acadêmicos:
 Algo+: um portal para o apoio ao ensino de Algoritmos
Universidade: UNIPAMPA
Área: Informática na educação
 Bioinformática Estrutural de Proteínas: modelos,
algoritmos e aplicações biotecnológicas
Universidade: FURG/UFMG/UFPB
Área: Bioinformática
 Unihacker.Club: Programa Universidade Hacker
Universidade: UNIPAMPA
Área: Segurança da informação
SACI - 2019
7
II. Apresentação do professor
Periódicos acadêmicos:
 Revisor do periódico ICCEEg (ISSN 2236-0093)
Universidade: FURG
Área: Multidisciplinar
 Revisor do periódico CCEI (ISSN 2356-6635)
Universidade: URCAMP
Área: Multidisciplinar
SACI - 2019
8
III. Objetivos
Dentre os objetivos, podem ser destacados:
 Compreender os conceitos e aplicações do Web Scraping.
 Explorar tecnologias no contexto Python/Linux.
 Motivar novos cientistas de dados (e palestrantes).
SACI - 2019
9
1. Os componentes de uma página web
SACI - 2019
10
1. Os componentes de uma página web
Quando uma página na Internet é visitada, o navegador faz
uma solicitação à um servidor web. Essa solicitação é chamada de
GET, pois são recebidos arquivos do servidor.
 HTML: contém o conteúdo principal da página.
 CSS: adiciona estilos para que a página fique customizada.
 JS: arquivos JavaScript adicionam interatividade à página.
 Imagens: formatos de imagem, tais como JPG e PNG.
SACI - 2019
11
1. Os componentes de uma página web
SACI - 2019
Figura. Camadas do desenvolvimento web.
12
1. Os componentes de uma página web
SACI - 2019
Figura. Estrutura básica do HTML5.
13
1. Os componentes de uma página web
SACI - 2019
Figura. Arquitetura web padrão.
14
2. Web Scraping
SACI - 2019
15
2. Web Scraping
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
SACI - 2019
16
2. Web Scraping
SACI - 2019
Figura. Aplicações do web scraping.
17
2. Web Scraping
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
 Existem empresas especializadas no ramo?
SACI - 2019
18
2. Web Scraping
SACI - 2019
Figura. Empresas de web scraping.
19
2. Web Scraping
SACI - 2019
Figura. Empresas de web scraping.
20
2. Web Scraping
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
 Existem empresas especializadas no ramo?
 Uma alternativa para o web scraping é usar uma API, se
houver alguma disponível. Ex.: Twitter, Instagram, Facebook,
etc.
SACI - 2019
21
2. Web Scraping
SACI - 2019
Figura. APIs para extração de dados.
22
2. Web Scraping
SACI - 2019
Figura. APIs para extração de dados.
23
2. Web Scraping
SACI - 2019
Figura. APIs para extração de dados.
24
2. Web Scraping
Web Scraping é um método de "raspagem" de dados de sites
que usa scripts para obter as informações necessárias, simulando
um comportamento "humano".
 Um uso popular do scraping na web é procurar ofertas online,
como passagens aéreas, shows, etc.
 Existem empresas especializadas no ramo?
 Uma alternativa para o web scraping é usar uma API, se
houver alguma disponível. Ex.: Twitter, Instagram, Facebook,
etc.
 "Be polite" (seja educado): um scraping pode sobrecarregar
um servidor, principalmente, se o script estiver fazendo uma
grande quantidade de solicitações. Respeite o robots.txt!
SACI - 2019
25
2. Web Scraping
SACI - 2019
Figura. Muitas requisições "simultâneas".
26
2. Web Scraping
SACI - 2019
Figura. Exemplo de um robots.txt.
27
2. Web Scraping
SACI - 2019
Figura. Visão geral de um web scraping.
28
2. Web Scraping
SACI - 2019
Figura. Visão geral de um web scraping.
29
2. Web Scraping
SACI - 2019
Figura. Visão geral de um web scraping.
30
2. Web Scraping
SACI - 2019
Figura. Web Scraping versus Web Crawling.
31
3. Ferramentas
SACI - 2019
32
3. Ferramentas
KIT DO WEB SCRAPER:
 GitHub do projeto:
https://github.com/alexcamargoweb/python-webscraping
 Linux Mint:
https://linuxmint.com/download.php
 Python 3:
https://www.python.org/downloads/
 Requests:
https://pypi.org/project/requests/
 URLlib:
https://pypi.org/project/urllib3/
 BeautifulSoup:
https://pypi.org/project/beautifulsoup4/
SACI - 2019
33
3. Ferramentas
KIT DO WEB SCRAPER:
 Selenium:
https://pypi.org/project/selenium/
 Firefox geckodriver:
https://github.com/mozilla/geckodriver/releases/
SACI - 2019
34
4. Web scraping na prática
SACI - 2019
35
4.1 Scraping de uma página da Wikipédia
SACI - 2019
Link. https://goomore.com/blog/web-scraping-python/
36
4.2 Web Scraping para montar datasets
de esportes
SACI - 2019
Link.
https://medium.com/data-hackers/como-fazer-web-scraping-em-python-23c9d465a37f
37
4. Web scraping na prática
SACI - 2019
38
5. Exercícios
Tendo como ponto de partida o endereço: http://www.ifsul.edu.br/
1. Mostre o trecho que exibe o CMS utilizado no desenvolvimento
do portal.
2. Exiba as últimas notícias mostradas na página inicial (sem as
tags HTML).
3. Faça uma extração da lista de cursos disponíveis no câmpus
Bagé.
4. Armazene o conteúdo anterior no formato "txt" e "csv".
5. Salve uma captura da tela principal do portal com nome de
"ifsul_website.png"
SACI - 2019
39
IV. Onde estudar
Se interessou pelo assunto? :)
 Learn Web Scraping with Python from Scratch (15.851 alunos)
https://www.udemy.com/course/web-scraping-python-tutorial/
 Anotações e scripts de web scraping, screen scraping, etc
https://github.com/ferreiraapfernanda/web-scraping
 Python Selenium WebDriver
https://www.youtube.com/playlist?list=PLUY1lsOTtPeJNBuSweX
S9pcSKbP4mr32S
 MITCHELL, Ryan. Web Scraping with Python: Collecting
More Data from the Modern Web. "O'Reilly, Inc.", 2018.
https://www.amazon.com/Web-Scraping-Python-Collecting-Mod
ern/dp/1491910291
SACI - 2019
40
Agradecimentos
Obrigado pela sua participação! :)
 Acadêmicos do Curso Técnico Integrado em Informática
 Comissão organizadora da Semana Acadêmica (SACI)
 Toda honra e glória ao Senhor Jesus!
Abraços, Prof. Alex Dias Camargo
IFSul – Câmpus Bagé
25 de Setembro de 2019
SACI - 2019
41
Referências básicas
https://likegeeks.com/python-web-scraping/
https://codeburst.io/web-scraping-101-with-python-beautiful-soup-
bb617be1f486
https://imasters.com.br/back-end/aprendendo-sobre-web-scraping-
em-python-utilizando-beautifulsoup
https://goomore.com/blog/web-scraping-python/
https://github.com/REMitchell/python-scraping
https://medium.com/data-hackers/como-fazer-web-scraping-em-
python-23c9d465a37f
SACI - 2019

Mais conteúdo relacionado

PDF
SACOMP 2019 - Web Scraping: coletando dados como um artesão
PDF
TCHELINUX 2019 - Web Scraping: a arte de automatizar a recuperação de informa...
PPT
Democratização da informação: aspectos sociais e políticos da web 2.0 e das r...
PDF
eLua - Lua for Microcontrollers
PDF
TDC2016SP - Trilha Embarcados
PPTX
Deploy Azure ML Connect
PPT
W2py pyconpe
SACOMP 2019 - Web Scraping: coletando dados como um artesão
TCHELINUX 2019 - Web Scraping: a arte de automatizar a recuperação de informa...
Democratização da informação: aspectos sociais e políticos da web 2.0 e das r...
eLua - Lua for Microcontrollers
TDC2016SP - Trilha Embarcados
Deploy Azure ML Connect
W2py pyconpe

Semelhante a SACI 2019 - Introdução prática ao Web Scraping com Python (20)

PDF
"Evolution of Computing, IoT & Cloud Computing"
PDF
Como blindar empresas e executivos contra o vazamento de informacoes
PPTX
Visão Geral De Desenvolvimento Web Sre 2012
PDF
PI III - IMPLEMENTACAO DE PROJETOS DE TI
PPT
Avaliação da usabilidade e organização e representação da informação do novo ...
PPT
Web 2.0: conceito, tendências e desafios
PDF
Web 2.0 - Uma revisão da Internet
PPTX
Questões concursos Funatec Pinheiro-Maranhão
PDF
Resenha _big_data_sentiment_analysis (3)
PDF
Monitoramento de Redes TCP/IP - Monografia
PDF
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
ODP
PPTX
Literacia digital e web social
PDF
20220707_AtoM_in_VINCULUM_RicardoPinho
PDF
workshop Cultura online @ CM Santarém [Versão 2]
PPT
Web 2.0 Recursos TecnolóGicos E FormaçãO Susana Ferreira (20061566) & Raquel ...
PDF
Portal de Mapas Itaipu – Democratizando a informação geográfica espacial com ...
PDF
PDF
Monografia Computação na Névoa
PDF
Projeto de pesquisa sobre web semântica - a web que aprende
"Evolution of Computing, IoT & Cloud Computing"
Como blindar empresas e executivos contra o vazamento de informacoes
Visão Geral De Desenvolvimento Web Sre 2012
PI III - IMPLEMENTACAO DE PROJETOS DE TI
Avaliação da usabilidade e organização e representação da informação do novo ...
Web 2.0: conceito, tendências e desafios
Web 2.0 - Uma revisão da Internet
Questões concursos Funatec Pinheiro-Maranhão
Resenha _big_data_sentiment_analysis (3)
Monitoramento de Redes TCP/IP - Monografia
PROJETO INTEGRADO MULTIDISCIPLINAR IV - PIM IV
Literacia digital e web social
20220707_AtoM_in_VINCULUM_RicardoPinho
workshop Cultura online @ CM Santarém [Versão 2]
Web 2.0 Recursos TecnolóGicos E FormaçãO Susana Ferreira (20061566) & Raquel ...
Portal de Mapas Itaipu – Democratizando a informação geográfica espacial com ...
Monografia Computação na Névoa
Projeto de pesquisa sobre web semântica - a web que aprende
Anúncio

Mais de Alex Camargo (20)

PDF
Experiencia Profissional - Desafios Contemporâneos (TEOLOGIA/UNIASSELVI)
PDF
Experiencia Profissional - Carreira e Sucesso (TEOLOGIA/UNIASSELVI)
PDF
Bíblia-IA Inteligência Abençoada - Pitchdeck (ES)
PDF
Startub Lab - Workshop de Inovação Aberta
PDF
Curso de Inclusão Digital - Instituto Cooperconecta e Urcamp
PDF
SNCT URCAMP - UMA PROPOSTA DE UM SOFTWARE PARA GERENCIAMENTO DE CICLOS DE INO...
PDF
Palestra Rotary - Crimes e Fraudes na Internet
PDF
Curso Método Teologia Fácil - Sociologia (SLIDES)
PDF
Curso Método Teologia Fácil - Hermenêutica (SLIDES)
PDF
Curso Método Teologia Fácil - Pneumatologia (SLIDES)
PDF
Curso Método Teologia Fácil - Eclesiologia (SLIDES)
PDF
Curso Método Teologia Fácil - Demonologia (SLIDES)
PDF
Curso Método Teologia Fácil - Metodologia (SLIDES)
PDF
Ecossistema de Inovação de Bagé (ECOBAH) - Apresentação
PDF
Feira do Livro de Bagé 2023 - Inovação e Startups
PDF
Escola Bíblica - Eclesiologia
PDF
Escola Bíblica - Demonologia
PDF
Python para finanças: explorando dados financeiros
PDF
A practical guide: How to use Bitcoins?
PDF
IA e Bioinformática: modelos computacionais de proteínas
Experiencia Profissional - Desafios Contemporâneos (TEOLOGIA/UNIASSELVI)
Experiencia Profissional - Carreira e Sucesso (TEOLOGIA/UNIASSELVI)
Bíblia-IA Inteligência Abençoada - Pitchdeck (ES)
Startub Lab - Workshop de Inovação Aberta
Curso de Inclusão Digital - Instituto Cooperconecta e Urcamp
SNCT URCAMP - UMA PROPOSTA DE UM SOFTWARE PARA GERENCIAMENTO DE CICLOS DE INO...
Palestra Rotary - Crimes e Fraudes na Internet
Curso Método Teologia Fácil - Sociologia (SLIDES)
Curso Método Teologia Fácil - Hermenêutica (SLIDES)
Curso Método Teologia Fácil - Pneumatologia (SLIDES)
Curso Método Teologia Fácil - Eclesiologia (SLIDES)
Curso Método Teologia Fácil - Demonologia (SLIDES)
Curso Método Teologia Fácil - Metodologia (SLIDES)
Ecossistema de Inovação de Bagé (ECOBAH) - Apresentação
Feira do Livro de Bagé 2023 - Inovação e Startups
Escola Bíblica - Eclesiologia
Escola Bíblica - Demonologia
Python para finanças: explorando dados financeiros
A practical guide: How to use Bitcoins?
IA e Bioinformática: modelos computacionais de proteínas
Anúncio

Último (9)

PDF
Plano de gestão - template.pptx.pdf.pdf
PPTX
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
DOC
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
PPTX
Perguntas e respostas.pptx Informática aplicada
PDF
Medidor de PH de bancada PH140 para uso em laboratório
PPT
AULA COACHING INICIAL *******************
PPTX
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
PDF
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
PDF
Bases de dados - basicos dos basicos. como identificar chaves
Plano de gestão - template.pptx.pdf.pdf
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
Perguntas e respostas.pptx Informática aplicada
Medidor de PH de bancada PH140 para uso em laboratório
AULA COACHING INICIAL *******************
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
Bases de dados - basicos dos basicos. como identificar chaves

SACI 2019 - Introdução prática ao Web Scraping com Python

  • 1. Introdução prática aoIntrodução prática ao web scrapingweb scraping comcom PythonPython Prof. Alex Dias Camargo alexcamargo@ifsul.edu.br INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA SUL-RIO-GRANDENSE CÂMPUS BAGÉ SACI - 2019
  • 2. 2 I. Agenda Esta oficina está organizada da seguinte maneira:  Apresentação  Objetivos  Ferramentas  Os componentes de uma página web  Web scraping  Scraping de uma página da Wikipédia  Scraping para montar datasets de esportes  Exercícios  Onde estudar  Agradecimentos  Referências SACI - 2019
  • 3. 3 II. Apresentação Formação acadêmica:  Bacharel em Sistemas de Informação (URCAMP, 2011) TCC: Web sistema integrado a uma rede social para academias de ginástica Orientador: Prof. Abner Guedes  Especialista em Sistemas Distribuídos com Ênfase em Banco de Dados (UNIPAMPA, 2013) TCC: Interligando bases de dados do sistema Controle de Marcas e Sinais utilizando o MySQL Cluster Orientador: Prof. Érico Amaral Coorientador: Prof. Rafael Bastos (IDEAU) SACI - 2019
  • 4. 4 II. Apresentação Formação acadêmica:  Mestre em Engenharia de Computação (FURG, 2017) Dissertação: EN-MUTATE: predição do impacto de mutações pontuais em proteínas utilizando Ensemble Learning Orientadora: Profa. Karina Machado Coorientador: Prof. Adriano Werhli  Doutorado (iniciado) em Ciência da Computação (UFPEL) Tese: Em definição Orientador: Aluno especial SACI - 2019
  • 5. 5 II. Apresentação Experiência acadêmica:  Professor (Ensino Técnico) Local: Capacitar Escola Técnica Disciplinas: Banco de Dados e Análise de Sistemas  Professor (Ensino Superior) Local: Universidade Federal do Pampa - UNIPAMPA Disciplinas: Algoritmos e Programação, Laboratório Programação I e Laboratório de Programação II  Professor (Ensino Básico, Técnico e Tecnológico) Local: IFSUL Câmpus Bagé Disciplinas: Programação para Web II, Arquitetura de Computadores, Qualidade de Software, Desenvolvimento de Software, Informática (Eng. Agronômica) SACI - 2019
  • 6. 6 II. Apresentação do professor Projetos acadêmicos:  Algo+: um portal para o apoio ao ensino de Algoritmos Universidade: UNIPAMPA Área: Informática na educação  Bioinformática Estrutural de Proteínas: modelos, algoritmos e aplicações biotecnológicas Universidade: FURG/UFMG/UFPB Área: Bioinformática  Unihacker.Club: Programa Universidade Hacker Universidade: UNIPAMPA Área: Segurança da informação SACI - 2019
  • 7. 7 II. Apresentação do professor Periódicos acadêmicos:  Revisor do periódico ICCEEg (ISSN 2236-0093) Universidade: FURG Área: Multidisciplinar  Revisor do periódico CCEI (ISSN 2356-6635) Universidade: URCAMP Área: Multidisciplinar SACI - 2019
  • 8. 8 III. Objetivos Dentre os objetivos, podem ser destacados:  Compreender os conceitos e aplicações do Web Scraping.  Explorar tecnologias no contexto Python/Linux.  Motivar novos cientistas de dados (e palestrantes). SACI - 2019
  • 9. 9 1. Os componentes de uma página web SACI - 2019
  • 10. 10 1. Os componentes de uma página web Quando uma página na Internet é visitada, o navegador faz uma solicitação à um servidor web. Essa solicitação é chamada de GET, pois são recebidos arquivos do servidor.  HTML: contém o conteúdo principal da página.  CSS: adiciona estilos para que a página fique customizada.  JS: arquivos JavaScript adicionam interatividade à página.  Imagens: formatos de imagem, tais como JPG e PNG. SACI - 2019
  • 11. 11 1. Os componentes de uma página web SACI - 2019 Figura. Camadas do desenvolvimento web.
  • 12. 12 1. Os componentes de uma página web SACI - 2019 Figura. Estrutura básica do HTML5.
  • 13. 13 1. Os componentes de uma página web SACI - 2019 Figura. Arquitetura web padrão.
  • 15. 15 2. Web Scraping Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc. SACI - 2019
  • 16. 16 2. Web Scraping SACI - 2019 Figura. Aplicações do web scraping.
  • 17. 17 2. Web Scraping Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc.  Existem empresas especializadas no ramo? SACI - 2019
  • 18. 18 2. Web Scraping SACI - 2019 Figura. Empresas de web scraping.
  • 19. 19 2. Web Scraping SACI - 2019 Figura. Empresas de web scraping.
  • 20. 20 2. Web Scraping Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc.  Existem empresas especializadas no ramo?  Uma alternativa para o web scraping é usar uma API, se houver alguma disponível. Ex.: Twitter, Instagram, Facebook, etc. SACI - 2019
  • 21. 21 2. Web Scraping SACI - 2019 Figura. APIs para extração de dados.
  • 22. 22 2. Web Scraping SACI - 2019 Figura. APIs para extração de dados.
  • 23. 23 2. Web Scraping SACI - 2019 Figura. APIs para extração de dados.
  • 24. 24 2. Web Scraping Web Scraping é um método de "raspagem" de dados de sites que usa scripts para obter as informações necessárias, simulando um comportamento "humano".  Um uso popular do scraping na web é procurar ofertas online, como passagens aéreas, shows, etc.  Existem empresas especializadas no ramo?  Uma alternativa para o web scraping é usar uma API, se houver alguma disponível. Ex.: Twitter, Instagram, Facebook, etc.  "Be polite" (seja educado): um scraping pode sobrecarregar um servidor, principalmente, se o script estiver fazendo uma grande quantidade de solicitações. Respeite o robots.txt! SACI - 2019
  • 25. 25 2. Web Scraping SACI - 2019 Figura. Muitas requisições "simultâneas".
  • 26. 26 2. Web Scraping SACI - 2019 Figura. Exemplo de um robots.txt.
  • 27. 27 2. Web Scraping SACI - 2019 Figura. Visão geral de um web scraping.
  • 28. 28 2. Web Scraping SACI - 2019 Figura. Visão geral de um web scraping.
  • 29. 29 2. Web Scraping SACI - 2019 Figura. Visão geral de um web scraping.
  • 30. 30 2. Web Scraping SACI - 2019 Figura. Web Scraping versus Web Crawling.
  • 32. 32 3. Ferramentas KIT DO WEB SCRAPER:  GitHub do projeto: https://github.com/alexcamargoweb/python-webscraping  Linux Mint: https://linuxmint.com/download.php  Python 3: https://www.python.org/downloads/  Requests: https://pypi.org/project/requests/  URLlib: https://pypi.org/project/urllib3/  BeautifulSoup: https://pypi.org/project/beautifulsoup4/ SACI - 2019
  • 33. 33 3. Ferramentas KIT DO WEB SCRAPER:  Selenium: https://pypi.org/project/selenium/  Firefox geckodriver: https://github.com/mozilla/geckodriver/releases/ SACI - 2019
  • 34. 34 4. Web scraping na prática SACI - 2019
  • 35. 35 4.1 Scraping de uma página da Wikipédia SACI - 2019 Link. https://goomore.com/blog/web-scraping-python/
  • 36. 36 4.2 Web Scraping para montar datasets de esportes SACI - 2019 Link. https://medium.com/data-hackers/como-fazer-web-scraping-em-python-23c9d465a37f
  • 37. 37 4. Web scraping na prática SACI - 2019
  • 38. 38 5. Exercícios Tendo como ponto de partida o endereço: http://www.ifsul.edu.br/ 1. Mostre o trecho que exibe o CMS utilizado no desenvolvimento do portal. 2. Exiba as últimas notícias mostradas na página inicial (sem as tags HTML). 3. Faça uma extração da lista de cursos disponíveis no câmpus Bagé. 4. Armazene o conteúdo anterior no formato "txt" e "csv". 5. Salve uma captura da tela principal do portal com nome de "ifsul_website.png" SACI - 2019
  • 39. 39 IV. Onde estudar Se interessou pelo assunto? :)  Learn Web Scraping with Python from Scratch (15.851 alunos) https://www.udemy.com/course/web-scraping-python-tutorial/  Anotações e scripts de web scraping, screen scraping, etc https://github.com/ferreiraapfernanda/web-scraping  Python Selenium WebDriver https://www.youtube.com/playlist?list=PLUY1lsOTtPeJNBuSweX S9pcSKbP4mr32S  MITCHELL, Ryan. Web Scraping with Python: Collecting More Data from the Modern Web. "O'Reilly, Inc.", 2018. https://www.amazon.com/Web-Scraping-Python-Collecting-Mod ern/dp/1491910291 SACI - 2019
  • 40. 40 Agradecimentos Obrigado pela sua participação! :)  Acadêmicos do Curso Técnico Integrado em Informática  Comissão organizadora da Semana Acadêmica (SACI)  Toda honra e glória ao Senhor Jesus! Abraços, Prof. Alex Dias Camargo IFSul – Câmpus Bagé 25 de Setembro de 2019 SACI - 2019