Big data school demo

Agenda
○ Setting up environment (Spark + Kafka + Zeppelin)
○ ETL example: Twitter -> Kafka
○ Data processing with Spark
○ Data visualization with Zeppelin
○ Spark MLLib: simple machine learning example

Setup Spark
Download Spark 1.6.3 from spark.apache.org/downloads.html
> tar xzf spark-1.6.3-bin-hadoop2.6.tgz
> cd spark-1.6.3-bin-hadoop2.6
Start Master & Slave
> ./sbin/start-master.sh
> ./sbin/start-slave.sh spark://Aleksandrs-MacBook-Pro.local:7077

Check Spark is working
> ./bin/spark-submit
--class org.apache.spark.examples.SparkPi
--master spark://Aleksandrs-MacBook-Pro.local:7077
lib/spark-examples-1.6.3-hadoop2.6.0.jar
10
Find at log:
…
Pi is roughly 3.1395271395271394
...

Kafka setup
Download the 0.8.2.1 release and un-tar it.
> tar -xzf kafka_2.10-0.8.2.1.tgz
> cd kafka_2.10-0.8.2.1
Start Server
> nohup bin/zookeeper-server-start.sh config/zookeeper.properties &
> nohup bin/kafka-server-start.sh config/server.properties &

Kafka setup
Create topic
> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --
partitions 1 --topic test
> bin/kafka-topics.sh --list --zookeeper localhost:2181
Run consumer
> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-
beginning

Start simple ETL
> ./bin/spark-submit
--class com.dataart.bigdataschool.SimpleETLExample
--master spark://Aleksandrs-MacBook-Pro.local:7077
--deploy-mode cluster
--total-executor-cores 2
/Users/apavlenko/github/BigDataSchoolDemo/SimpleETLExample/target/scala-
2.10/SimpleETLExample-assembly-0.1.0.jar
localhost:9092 test
Simple ETL Example Gist:
https://gist.github.com/AleksandrPavlenko/897c930918bc079048774df170d88085

Zeppelin setup
Download and un-tar it
https://zeppelin.apache.org/download.html
> cp conf/zeppelin-site.xml.template conf/zeppelin-site.xml
> cp conf/zeppelin-env.sh.template conf/zeppelin-env.sh
Change zeppelin.server.port to 8090 in zeppelin-site.xml
Set SPARK_HOME in zeppelin-env.sh
Run Zeppelin
> ./bin/zeppelin-daemon.sh start

Big Data School Zeppelin notebook
https://github.com/AleksandrPavlenko/BigDataSchoolKharkiv

Big data school demo

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Big data school demo (20)

More from DataArt (20)

Recently uploaded (20)

Big data school demo