Data lineage and observability with Marquez - subsurface 2020

Data Lineage and
observability
Julien Le Dem
CTO and co-founder Datakin
@J_

AGENDA
Intro to Marquez
Marquez community
02
04
Why metadata?01
Airflow integration03

Need to create a healthy
data ecosystem

Team interdependencies
Team A Team B
Team C

DATA
● What is the data source?
● What is the schema?
● Who is the owner?
● How often is it updated?
● Where is it coming from?
● Who is using the data?
● What has changed?
Today: Limited context

Maslow’s Data hierarchy of needs
New Business Opportunities
Business optimization
Data Quality
Data Freshness
Data Availability

Data
Operations
Data
Governance
Data
Discovery
Marquez

http://cidrdb.org/cidr2017/papers/p111-hellerstein-cidr17.pdf

Metadata (Marquez)
Ingest Storage Compute
StreamingBatch/ETL
● Data Platform
built around
Marquez
● Integrations
○ Ingest
○ Storage
○ Compute
Flink
Airflow
Kafka
Iceberg / S3
BI

Marquez: Data model
Job
Dataset Job Version
Run
*
1
*
1
*
1
1*
1*
Source
1 *
● MYSQL
● POSTGRESQL
● REDSHIFT
● SNOWFLAKE
● KAFKA
● S3
● ICEBERG
● DELTALAKE
● BATCH
● STREAM
● SERVICE
Dataset Version

Marquez: Data model
DbTable Filesystem Stream
Job
Dataset Job Version
Run
*
1
*
1
*
1
1*
1*
Source
1 *
● MYSQL
● POSTGRESQL
● REDSHIFT
● SNOWFLAKE
● KAFKA
● S3
● ICEBERG
● DELTALAKE
● BATCH
● STREAM
● SERVICE
Dataset Version

v1 v4Dataset
v2
v4
v4
Job
v1
Dataset
v4
Job
v2
Marquez: Data model
● Debugging
○ What job version(s) produced and
consumed dataset version X?
● Backfilling
○ Full / incremental processing
Design benefits

Marquez: Metadata collection
How is metadata collected?
● Push-based metadata
collection
● REST API
● Language-specific SDKs
○ Java
○ Python
Marquez
Job
Dataset+job
metadata

● Centralized metadata
management
○ Sources
○ Datasets
○ Jobs
● Modular framework
○ Data governance
○ Data lineage
○ Data discovery +
exploration
Metadata Service
Marquez: Design
Marquez
Core
Lineage
Search
REST API
ETL Batch Stream

Extensions
datakin
Lineage
analysis
Lineage collectionAPIs
Integrations
Client -
side
Metadata
Core
DB
Graph
Storage
Marquez UI
Listener
Core API

Source
{
"type":"POSTGRESQL",
"name":"analyticsdb”,
"connectionUrl":"jdbc:postgresql://localhost:5431/analytics”,
"description":“Contains tables such as office room bookings.”
}
01

{
}
{
"type":"DB_TABLE",
"name":"room_bookings”,
"physicalName":"public.room_bookings”,
"sourceName":"analyticsdb”,
"namespace":"datascience",
"fields": [...],
"description":“All global room bookings for each office.”
}
02 Dataset
Source01

{
}
{
"type":"DB_TABLE",
"namespace":"datascience”,
"fields": [...],
}
{
"type":"BATCH",
"name":"room_bookings_7_days”,
"inputs":[{"namespace":"datascience","name":"room_bookings”}],
"outputs":[],
"location":"https://github.com/jobs/blob/124f6089...”,
"description":“Weekly email of room bookings occupancy patterns.”
}
03 Job
Source01
02 Dataset

{
}
{
"type":"DB_TABLE",
"fields": [...],
}
{
"type":"BATCH",
"name":"room_bookings_7_days”,
"inputs":[{"namespace":"datascience","name":"room_bookings”}],
"outputs":[],
"location":"https://github.com/jobs/blob/124f6089...”,
"description":“Weekly email of room bookings occupancy patterns.”
}
03 Job
Source01
LINK SOURCE
LINK DATASET
02 Dataset

01 Job
v1
{
"type":"BATCH",
"name":"room_bookings_7_days”
"inputs":[{
"name":"room_bookings”
}],
"outputs":[],
...
}
LINEAGE
JOBDATASET

{
"type":"BATCH",
"inputs":[{
}],
"outputs":[],
...
}
JOBDATASET
02 Job
v2
{
"type":"BATCH",
"inputs":[{
}],
"outputs":[{
"name":"room_bookings_aggs”
}],
...
}
LINEAGE
LINEAGE
01 Job
v1

Airflow
DAG
DAG
DAG
DAG
Marquez Lib.
● Metadata
○ Task lifecycle
○ Task parameters
○ Task runs linked to versioned code
○ Task inputs / outputs
● Lineage
○ Track inter-DAG dependencies
● Built-in
○ SQL parser
○ Link to code builder (GitHub)
○ Metadata extractors
Marquez: Airflow
Airflow support for Marquez

DAG
MarquezLib.
Integration
Marquez
RESTAPI
Capturing task-level metadata in a
nutshell
Marquez: Airflow
Job
Dataset
Job
Version
Run
Dataset
Version
*
1
*
1
1*
1*
Source
1 *
*
1
Airflow

● Open source: marquez-airflow
● Enables global task-level metadata collection
● Extends Airflow’s DAG class
from marquez_airflow import DAG
from airflow.operators.postgres_operator import PostgresOperator
...
room_bookings_7_days_dag.py
Marquez: Airflow
Marquez Airflow Lib.

airflow.operators.PostgresOperator
marquez_airflow.extractors.PostgresExtractor
Extractor
Operator
Metadata
Airflow
Marquez Airflow
Lib.
Example
Marquez: Airflow

Marquez: Airflow
t1=PostgresOperator(
task_id=’new_room_booking’,
postgres_conn_id=’analyticsdb’,
sql=’’’
INSERT INTO room_bookings VALUES(%s, %s, %s)
’’’
parameters=... # room booking
)
Operator Metadata
Source01
new_room_booking_dag.py

Marquez: Airflow
sql=’’’
’’’
)
Operator Metadata
Source01
02 Dataset

Marquez: Airflow
sql=’’’
’’’
)
Operator Metadata
02 Dataset
03 Job
Source01

Marquez: Airflow
new_room_bookings_dag.py top_room_bookings_dag.py
Managing inter-DAG dependencies

Marquez: Airflow
new_room_bookings_dag.py top_room_bookings_dag.py
Managing inter-DAG dependencies
b940314,1541624285,2
TSLOCATION ROOM
b648485,1541501885,9
b648485,1541710685,4
public.room_bookings

Marquez
API
● Marquez standardizes metadata collection
○ Job runs
○ parameters
○ version
○ inputs / outputs
● Datakin enables
○ Understanding operational dependencies
○ Impact analysis
○ Troubleshooting: What has changed
since the last time it worked?
Datakin leverages Marquez metadata
datakin
Lineage analysis
Graph
Integrations

https://marquezproject.github.io/marquez

Neutral
● Not controlled by
a company
● Community
driven
Community
● Build trust
● Grow adoption
● Everybody is on
an equal footing
Governance
● Decision
mechanisms
● Becoming a
maintainer
● Code of Conduct
Now part of the LF AI foundation

github.com/MarquezProject
@MarquezProject

Data lineage and observability with Marquez - subsurface 2020

More Related Content

What's hot (20)

Similar to Data lineage and observability with Marquez - subsurface 2020 (20)

More from Julien Le Dem (19)

Recently uploaded (20)

Data lineage and observability with Marquez - subsurface 2020