220126 python-datalake-spark

データレイクとPySpark
2022-01-26
西本卓也 @24motz / @nishimotz
すごい広島 with Python

2
AWSではじめるデータレイク

3
AWSデータレイクのハンズオン
• QuickSight = BIツール
• https://aws.amazon.com/jp/campaigns/manga/vol8-1/
• CSVファイルをアップロードしてすぐ集計
• 他にも方法はある
• Enterprise Edition
• 30日間無料
• CloudWatch のグラフに似ている？

4
サーバレスのデータ分析
• S3 にバケットを作る
• バケットのフォルダに入力CSVファイルを置く
• Glue クローラーで読み込む
• Glue データカタログに登録される
• Athena で SQL 文を使ってクエリー
• CTAS = create table as select で新しいテーブルを作る
• 保存先はバケットの別フォルダ
• Parquet 形式（Snappy圧縮）が選べる
• 要するに S3 に保存できる read only データベース

5
ETL (Extract Transform Load)
• 参考書にのってない新しい方法
• Glue Studio
• AppFlow
• 参考書の方法
• Glue クローラと「分類子」で読み込み方法のカスタマイズ
• Glue ジョブ
• GUIで操作すると PySpark のスクリプトが生成される
• サーバレスで実行できる
• 実行結果を Glue クローラでデータカタログに登録
• Athena で確認

12
Parquet をのぞいてみよう
• Athena が作った Parquet + Snappy ファイルを落とした
$ file 20220124_093108_00027_q33tc_＊＊＊-7ba532c804ab
20220124_093108_00027_q33tc_ ＊＊＊ -7ba532c804ab: Apache Parquet

13
pandas に read_parquet あるが。。
• https://pandas.pydata.org/docs/reference/api/pandas.read_parq
uet.html
• さすがに何か入れないとだめらしい
ImportError: Unable to find a usable engine; tried
using: 'pyarrow', 'fastparquet'.
A suitable version of pyarrow or fastparquet is
required for parquet support.

15
PySpark を使う
• Parquet はこれで読めるらしい
from pyspark import SparkContext
from pyspark.sql import SparkSession
spark_context = SparkContext()
spark = SparkSession(spark_context)
df = spark.read.parquet("s3://my-backet/my-data/")

16
python 3.9 venv で環境を作る
• おっとでかい。。
$ pip install jupyterlab pandas
$ pip install pyspark
Collecting pyspark
Downloading pyspark-3.2.1.tar.gz (281.4 MB)

17
入門 PySpark
• 2017年に買った
• 最近やっと思い出した

18
PySpark と Pandas の DataFrame
from pyspark import SparkContext
from pyspark.sql import SparkSession
spark_context = SparkContext()
spark = SparkSession(spark_context)
filename = "20220124_093108_00027_*****"
df = spark.read.parquet(filename)
type(df) # => pyspark.sql.dataframe.DataFrame
df.show()
df.createOrReplaceTempView("chap7_japan_ctas")
spark.sql("select * from chap7_japan_ctas").collect()
df.count()
df2 = df.toPandas()
type(df2) # => pandas.core.frame.DataFrame
df2.tail(10)

19
まとめ
• 物足りなくなったら RedShift
• Google Cloud = BigQuery で同じようなことをどうするか
• Python Charity Talks 2020
• Apache Beam Python SDKとCloud Dataflowを使ったデータ処理パイ
プラインの構築
• PyCon JP 2021
• Vertex Pipelines ではじめるサーバーレス機械学習パイプライン

220126 python-datalake-spark

More Related Content

What's hot (20)

Similar to 220126 python-datalake-spark (18)

More from Takuya Nishimoto (20)

220126 python-datalake-spark