Spark Summit EU talk by John Musser

Lessons Learned
Optimizing NoSQLfor
Apache Spark
John Musser @johnmusser / Basho @basho
Spark Summit Europe, 2016

NoSQL
Key-Value
Document
Columnar
Graph

+ =
Webuiltthis.
Hereareourlessons…

Parallelize
Mapsmart
Optimizeallthelevels
Beflexible
Simplify

Riak
• Distributed, key-value NoSQL database
• Known for scalability, reliability, ops simplicity
• Launched 2009, used by 1/3 of Fortune 50
• Open source (Apache), on GitHub
https://github.com/basho/riak/
• Enterprise Edition, see multi-cluster replication

Westarted to seeinourcustomer base…

Moredemandaround:
timeseries,
IoT,
metrics

Moredemandaround:
timeseries,
IoT,
metrics
RiakTS
Spark-Riak
Connector

Key-Value
data
Time Series
data
Riak KV Riak TS
User data
Session data
Profile data
Log data
IoT / Device data
Metrics data
Event data
Streaming data
Riak Core
Released
in 2016

Time Series
data
Riak TS
DDL for tables (with data types)
SQL subset (with filters and aggregations)
Fast bulk writes
Efficient reads via “time slice” queries
Riak Core
Released
in 2016

Intellicore Sports Data Platform
• 1GB telemetry per driver
• 400 packets/second
• 1.2M packets/race
• Platform setup for 40,000 TPS

Spark Summit EU talk by John Musser

Spark-Riak Connector
• Version 1.0: published Sept. 2015
• Current version: 1.6, published Sept. 2016
• Scala / JVM based
• Support for Java, Scala, Python
• Supports Spark 1.6.x
• Open source (Apache), on GitHub
https://github.com/basho/spark-riak-connector/

Enable SQL analytics over Riak
Use Riak to store results generated by Spark
Use Riak to store streaming data
READ WRITE STREAM

(this inturn uses learnings from
other connectors we’vebuilt...)

?
How to move lots of data
quickly and efficiently?

Using Direct Key-based GETs
Lesson 1(a):
Too many Gets make Spark unhappy

Lesson 1(b):
Too many 2i queries make
Riak unhappy
Using Secondary Index (2i)

Coverage Plan + Parallel Extract

Coverage Plan:
locations of data across cluster

Parallelization

Parallelization
= everybody’s happy

Key-Value
& Time Series
Data DataFrames
RDDs
DataSets

Key-Value
& Time Series
Data DataFrames
RDDs
DataSets
Plain Text
XML
JSON
Binary

Key-Value
& Time Series
Data DataFrames
RDDs
DataSets
?

Key-Value
& Time Series
Data DataFrames
RDDs
DataSets
?
How to map the data as
efficiently and seamlessly
as possible?

Properties: "r":"quorum"
How Riak Stores Data
MiscBucket
User123 122883|dave|…
Item17Z {
“color”:”blue”,
“size”:”small”,
…
}
LogoHD
Key ValueKeys
Values
Buckets
Bucket Types

Specify Bucket
RDDsLoad Data
Key-Value Data

Specify Bucket
Load Data
val kv_bucket = new Namespace(”MiscBucket")
val riakRdd =
sc.riakBucket[String](kv_bucket).queryAll()
Code: Key/Value Query

Query by Keys
Query by 2i Range
val rdd =
sc.riakBucket[String](kv_bucket_name)
.queryBucketKeys("Alice", "Bob", "Charlie")
val rdd =
.query2iRange("myIndex", 1L, 5000L)
Code: Key/Value Query
Query by 2i Strings
val rdd =
.query2iKeys("dailyDataIndx", ”Jan", ”Feb”)

Specify Bucket
RDDsLoad Data
Key-Value Data
Which is “fine”, but, the data is
still a bit opaque…

Specify Bucket
Load Data
Key-Value Data
Often this data is
stored as JSON

Specify Bucket
Map Schema
Key-Value Data
Load Data
We can tell Spark
how to interpret
the NoSQL values

Specify Bucket
Map Schema
Key-Value Data
Load Data DataFrames

Specify Bucket
Map Schema
Key-Value Data
Load Data DataFrames
Now we have full-fledged
DataFrames

Specify Bucket
Map Schema
Load Data
val kv_bucket = new Namespace(”MiscBucket")
case class UserData(
user_id: String, name: String, age: Int)
val riakRdd =
sc.riakBucket[UserData](kv_bucket).queryAll()
val df = riakRdd.toDF()
Code

Specify Bucket
Map Schema
Key-Value Data
Load Data

Specify Bucket
Map Schema
Time Series Data
Load Data

Specify Bucket
Map Schema
Time Series Data
Load Data
But time series
data already has
a schema defined

Specify Bucket
Map Schema
Time Series Data
Load Data
So let’s use
automatic schema
discovery instead

Specify Bucket
Load Data
Time Series Data
DataFrames

Specify Table
Load Data
val ts_table_name = "test-table"
df = sqlContext.re.option(
"spark.riak.connection.hosts",
"riak_host_ip:10017")
.format("org.apache.spark.sql.riak")
.load(ts_table_name)
.select(“time”, “col1”, “col2”)
.filter(s"time >= CAST($from AS TIMESTAMP)")
Time Series Code

Specify Table
Load Data
Time Series Code
Use Data
df.where(df("age") >= 50).select("id", "name")
df.groupBy(”age").count

Specify Table
Load Data
Time Series Code
Use Data
df.where(df("age") >= 50).select("id", "name")
df.groupBy(”age").count
Uses the Spark
Data Source API

HTTP Protocol Buffers
2primary interfaces toRiak

2primary interfaces toRiak
Flexibility Performance

Protocol Buffers
• Data serialization and interchange
• Developed by Google
• IDL + RPC
• Messages serialized to binary wire format
• Library support for 20+ languages

Protocol Buffers
• For data serialization and interchange
• Originally developed by Google
• IDL + RPC
• Messages serialized to binary wire format
• Library support for 20+ languages
Note: In Riak, you typically don’t
have to know the details, the client
SDKs take care of it for you

Howmuch faster?
150-300%
faster

This interaction defaults to
using Protocol Buffers
to optimize performance

Whatif wecan makethis faster?
?

HTTP Protocol Buffers Optimized Binary

Spark-Riak Connector dynamically
selects basedon querytype
Optimized Binary

Protocol Buffers
BulkTS
Operations
Optimized Binary
Other
Operations
Fetch
Query
Store

Protocol Buffers
BulkTS
Operations
Optimized Binary
Other
Operations
30-50%
increased
throughput

2use case-specific
optimizations

FullBucketReads
Riak KV supports these as optimization:
Give me all the data in this bucket,
and I’ll work with it over here in Spark

Time-based Data Locality
Riak TS uses a time based ‘quanta’ to
intelligently partition data across the
cluster based on user-specified time

Location, location, location
Key/Value cluster vnodes
PUT PUT
Time Series cluster vnodes
Local grouping based on time quanta
Write to same vnode
Query direct to data

Location, location, location
Key/Value cluster vnodes
PUT GET
Time Series cluster vnodes
Local grouping based on time quanta
Write to same vnode
Query direct to data

Riak Time Series SQL
Define
table
CREATE TABLE WEATHER (
region VARCHAR NOT NULL,
city VARCHAR NOT NULL,
time TIMESTAMP NOT NULL,
temperature DOUBLE,
PRIMARY KEY(
(region, state, QUANTUM(time, 2, 'h')),
region, state, time
)
)

Define
table
temperature DOUBLE,
PRIMARY KEY(
region, state, time
)
)
The quantum is the
tunable key to
performance

SELECT * FROM WEATHER
WHERE city = ’Brussels'
time >= ‘2016-01-01’ AND
time <= ‘2016-02-01 00:00:00’
Define
table
Query
temperature DOUBLE,
PRIMARY KEY(
region, state, time
)
)

Python
import pyspark_riak
conf = pyspark.SparkConf().setAppName("My Spark Riak App")
conf.set("spark.riak.connection.host", "127.0.0.1:8087")
sc = pyspark.SparkContext(conf)
pyspark_riak.riak_context(sc)
Setup

Python
import pyspark_riak
my_data = [{'key0':{'data': 0}}, {'key1':{'data': 1}}]
kv_write_rdd = sc.parallelize(my_data)
kv_write_rdd.saveToRiak(‘kv_sample_bucket’)
Setup
Write

Python
import pyspark_riak
my_data = [{'key0':{'data': 0}}, {'key1':{'data': 1}}]
kv_write_rdd = sc.parallelize(my_data)
kv_write_rdd.saveToRiak(‘kv_sample_bucket’)
Setup
Write
Read
kv_read_rdd = sc.riakBucket(‘kv_sample_bucket’).queryAll()
print(kv_read_rdd.collect())

Setup
Stream
import com.basho.riak.spark.streaming._
val ssc = new StreamingContext(sparkConf, Seconds(1))
val lines = ssc.socketTextStream(serverIP, serverPort)
val errs = lines.filter(lines => lines contains "ERROR")
Spark-Riak Streaming
Save errs.saveToRiak("test-bucket-4store")

Deployment
Onpremise
Cloud
Hybrid
Geo-distributed

Deployment
https://github.com/basho-labs/riak-mesos
+

Connector hosted at Spark-Packages
https://spark-packages.org/package/basho/spark-riak-connector

https://docs.cloud.databricks.com/docs/latest/databricks_guide/index.html
Tutorial notebook on Databricks.com

FailureHandling
If a Riak node dies during data retrieval,
Spark connector will request an
Alternative Coverage Plan

NextstepsforRiak-Spark?
Spark2.0
DataSets
Structured Streaming

Photo Credits
Race car: Spacesuit Media
Intellicore application screenshots: Intellicore, http://www.intellicore.tv/

Spark Summit EU talk by John Musser

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Spark Summit EU talk by John Musser (20)

More from Spark Summit (20)

Recently uploaded (20)

Spark Summit EU talk by John Musser