SlideShare uma empresa Scribd logo
Análise de dados com Python e
JupyterHub
Cronograma
- Instalação e configuração do pyspark + jupyter
- Análise de dados do governo
- Integração do pyspark com Pandas
- Instalação e configuração do JupyterHub
- Customizando Jupyter e JupyterHub (bônus)
Material do curso:
https://github.com/dmvieira/tutorial-jupyter-pyspark
O que é Jupyter?
O que é Jupyter?
O que é Jupyter?
O que é Jupyter?
Jupyter = Julia Python R
Mas…
https://github.com/jupyter/jupyter/wiki/Jupyter-
kernels
PYTHON É O PADRÃO!
O que é Jupyter?
pip3 install jupyter==1.0.0 -i https://pypi.python.org/simple
ou
conda install -c anaconda jupyter=1.0.0
jupyter notebook
Como adiciono um kernel?
Vamos adicionar kernel do PySpark!
http://d3kbcqa49mib13.cloudfront.net/spark-2.1
.0-bin-hadoop2.7.tgz
Mas o que é PySpark?
Como adiciono um kernel?
Vamos adicionar kernel do PySpark!
http://d3kbcqa49mib13.cloudfront.net/spark-2.1
.0-bin-hadoop2.7.tgz
Mas o que é PySpark?
● Ferramenta para processamento de dados em larga
escala
● Até 100x mais rápido que map reduce no hadoop
● Distribui tarefas em paralelo
● Suporte a
– Java(Spark)
– Scala(Spark)
– Python(PySpark)
– R(SparkR)
Vamos descompactar e trabalhar!
● echo "palavra um tres dois tres dois tres">
dataset/teste_de_palavras.txt
● tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz
● cd spark-2.1.0-bin-hadoop2.7/bin
● ./pyspark
text_file = sc.textFile("../../dataset/teste_de_palavras.txt")
counts = text_file.flatMap(lambda line: line.split(" ")) 
.map(lambda word: (word, 1)) 
.reduceByKey(lambda a, b: a + b)
counts.collect()
Agora sim… Voltamos pro Kernel
Vamos adicionar kernel do PySpark!
export SPARK_HOME=/Users/diogo.munaro/learn/tutorial-
jupyter/spark-2.1.0-bin-hadoop2.7
export PATH="$PATH:$SPARK_HOME/bin"
pip3 install -i https://pypi.anaconda.org/hyoon/simple toree==0.2.0.dev1
ou
conda install -c anaconda toree=0.2.0.dev1
pip3 install "jupyter_client<5.0" -i https://pypi.python.org/simple
ou
conda install -c "jupyter_client<5.0"
jupyter toree install –spark_home=$SPARK_HOME
jupyter toree install –interpreters=PySpark
jupyter notebook
Agora sim… Do jeito que funciona
Vamos adicionar kernel do PySpark!
export SPARK_HOME=/Users/diogo.munaro/learn/tutorial-
jupyter/spark-2.1.0-bin-hadoop2.7
export PATH="$PATH:$SPARK_HOME/bin"
pip3 install findspark==1.1.0 -i https://pypi.python.org/simple
jupyter notebook
Vamos para a análise de dados!
Vamos para a análise de dados!
pip3 install pandas==0.19.2 matplotlib==2.0.1 -i https://pypi.python.org/simple
ou
conda install -c anaconda pandas=0.19.2 matplotlib=2.0.1
jupyter notebook
Ok, e JupyterHub?
Ok, e JupyterHub?
npm install -g configurable-http-proxy –registry https://registry.npmjs.org/
pip3 install jupyterhub==0.7.2 -i https://pypi.python.org/simple
ou
conda install -c conda-forge jupyterhub=0.7.2
jupyterhub
http://localhost:8000
Mas como administro com
JupyterHub?
jupyterhub –generate-config
Editar jupyterhub_config.py
c.Authenticator.admin_users = set() → {“diogo.munaro”}
Vamos customizar!
jupyter --paths
Mudar arquivo de login!
Obrigado
http://github.com/dmvieira/
https://www.linkedin.com/in/dmvieira/
diogo.mvieira@gmail.com

Mais conteúdo relacionado

PDF
Python e 10 motivos por que devo conhece-la ?
PDF
Testes metamórficos em problemas complexos
PDF
Apache Spark Overview and Applications
PDF
Paralelismo em machine learning e suas aplicações
PDF
MLOps: Transformando seus modelos de ml em produtos
PDF
Desenvolvedor de software para Big Data
PDF
Machine learning em Produção
PDF
Machine Learning integrado ao produto de software: No more XGH
Python e 10 motivos por que devo conhece-la ?
Testes metamórficos em problemas complexos
Apache Spark Overview and Applications
Paralelismo em machine learning e suas aplicações
MLOps: Transformando seus modelos de ml em produtos
Desenvolvedor de software para Big Data
Machine learning em Produção
Machine Learning integrado ao produto de software: No more XGH

Último (12)

DOC
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
PPT
AULA COACHING INICIAL *******************
PDF
712893401-Geografia-em-perspectiva-3.pdf
PDF
Bases de dados - basicos dos basicos. como identificar chaves
PDF
Plano de gestão - template.pptx.pdf.pdf
PPTX
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
PPTX
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
PDF
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
PDF
Medidor de PH de bancada PH140 para uso em laboratório
PDF
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
PDF
Previsão de Paradas em Máquinas Industriais
PPTX
Slide Gêneros textuais: resenha crítica.ppxt
COMO CRIAR DASHBOARD ATRAVES DE CODIFICAÇÃO PYTHON
AULA COACHING INICIAL *******************
712893401-Geografia-em-perspectiva-3.pdf
Bases de dados - basicos dos basicos. como identificar chaves
Plano de gestão - template.pptx.pdf.pdf
Sermao a mensagem da Cruz.pptx gdfvdcdfdfdsfcdsfxdfdfdfvdgf
Apresentação Lagoa Mandaú Lagoa Mandaú Lagoa Mandaú
01 Anticoag + fibrinol Abr 24 - prof MAISA DIA 020424.pdf
Medidor de PH de bancada PH140 para uso em laboratório
48585b89-ee4d-4f8d-b2c0-7db19cc44e44.pdf
Previsão de Paradas em Máquinas Industriais
Slide Gêneros textuais: resenha crítica.ppxt
Anúncio
Anúncio

Tutorial JupyterHub, Jupyter e PySpark (PythonSudeste)

  • 1. Análise de dados com Python e JupyterHub
  • 2. Cronograma - Instalação e configuração do pyspark + jupyter - Análise de dados do governo - Integração do pyspark com Pandas - Instalação e configuração do JupyterHub - Customizando Jupyter e JupyterHub (bônus) Material do curso: https://github.com/dmvieira/tutorial-jupyter-pyspark
  • 3. O que é Jupyter?
  • 4. O que é Jupyter?
  • 5. O que é Jupyter?
  • 6. O que é Jupyter? Jupyter = Julia Python R Mas… https://github.com/jupyter/jupyter/wiki/Jupyter- kernels PYTHON É O PADRÃO!
  • 7. O que é Jupyter? pip3 install jupyter==1.0.0 -i https://pypi.python.org/simple ou conda install -c anaconda jupyter=1.0.0 jupyter notebook
  • 8. Como adiciono um kernel? Vamos adicionar kernel do PySpark! http://d3kbcqa49mib13.cloudfront.net/spark-2.1 .0-bin-hadoop2.7.tgz Mas o que é PySpark?
  • 9. Como adiciono um kernel? Vamos adicionar kernel do PySpark! http://d3kbcqa49mib13.cloudfront.net/spark-2.1 .0-bin-hadoop2.7.tgz Mas o que é PySpark?
  • 10. ● Ferramenta para processamento de dados em larga escala ● Até 100x mais rápido que map reduce no hadoop ● Distribui tarefas em paralelo ● Suporte a – Java(Spark) – Scala(Spark) – Python(PySpark) – R(SparkR)
  • 11. Vamos descompactar e trabalhar! ● echo "palavra um tres dois tres dois tres"> dataset/teste_de_palavras.txt ● tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz ● cd spark-2.1.0-bin-hadoop2.7/bin ● ./pyspark text_file = sc.textFile("../../dataset/teste_de_palavras.txt") counts = text_file.flatMap(lambda line: line.split(" ")) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a + b) counts.collect()
  • 12. Agora sim… Voltamos pro Kernel Vamos adicionar kernel do PySpark! export SPARK_HOME=/Users/diogo.munaro/learn/tutorial- jupyter/spark-2.1.0-bin-hadoop2.7 export PATH="$PATH:$SPARK_HOME/bin" pip3 install -i https://pypi.anaconda.org/hyoon/simple toree==0.2.0.dev1 ou conda install -c anaconda toree=0.2.0.dev1 pip3 install "jupyter_client<5.0" -i https://pypi.python.org/simple ou conda install -c "jupyter_client<5.0" jupyter toree install –spark_home=$SPARK_HOME jupyter toree install –interpreters=PySpark jupyter notebook
  • 13. Agora sim… Do jeito que funciona Vamos adicionar kernel do PySpark! export SPARK_HOME=/Users/diogo.munaro/learn/tutorial- jupyter/spark-2.1.0-bin-hadoop2.7 export PATH="$PATH:$SPARK_HOME/bin" pip3 install findspark==1.1.0 -i https://pypi.python.org/simple jupyter notebook
  • 14. Vamos para a análise de dados!
  • 15. Vamos para a análise de dados! pip3 install pandas==0.19.2 matplotlib==2.0.1 -i https://pypi.python.org/simple ou conda install -c anaconda pandas=0.19.2 matplotlib=2.0.1 jupyter notebook
  • 17. Ok, e JupyterHub? npm install -g configurable-http-proxy –registry https://registry.npmjs.org/ pip3 install jupyterhub==0.7.2 -i https://pypi.python.org/simple ou conda install -c conda-forge jupyterhub=0.7.2 jupyterhub http://localhost:8000
  • 18. Mas como administro com JupyterHub? jupyterhub –generate-config Editar jupyterhub_config.py c.Authenticator.admin_users = set() → {“diogo.munaro”}