Serverless untuk Apache Spark memungkinkan Anda menjalankan workload Spark tanpa perlu menyediakan dan mengelola cluster Dataproc Anda sendiri. Ada dua cara untuk menjalankan workload Serverless untuk Apache Spark:
Workload batch
Kirimkan beban kerja batch ke layanan Serverless for Apache Spark menggunakan konsolGoogle Cloud , Google Cloud CLI, atau Dataproc API. Layanan menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya Serverless untuk Apache Spark hanya berlaku saat workload dijalankan.
Untuk memulai, lihat Menjalankan beban kerja batch Apache Spark.
Sesi interaktif
Tulis dan jalankan kode di notebook Jupyter selama sesi interaktif Serverless for Apache Spark untuk Spark. Anda dapat membuat sesi notebook dengan cara berikut:
Jalankan kode PySpark di notebook BigQuery Studio. Gunakan notebook Python BigQuery untuk membuat sesi interaktif Serverless for Apache Spark berbasis Spark-Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi Serverless for Apache Spark aktif yang terkait dengannya.
Gunakan plugin Dataproc JupyterLab untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, kartu berbeda yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Serverless for Apache Spark, lalu mulai tulis dan uji kode Anda di notebook.
Plugin Dataproc JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Buat cluster Dataproc di Compute Engine.
- Kirimkan tugas ke cluster Dataproc di Compute Engine.
- Lihat log Google Cloud dan Spark.
Serverless untuk Apache Spark dibandingkan dengan Dataproc di Compute Engine
Jika Anda ingin menyediakan dan mengelola infrastruktur, lalu menjalankan beban kerja di Spark dan framework pemrosesan open source lainnya, gunakan Dataproc di Compute Engine. Tabel berikut mencantumkan perbedaan utama antara Dataproc di Compute Engine dan Serverless for Apache Spark.
Kemampuan | Serverless untuk Apache Spark | Dataproc di Compute Engine |
---|---|---|
Framework pemrosesan | Beban kerja batch: Spark 3.5 dan versi yang lebih lama Sesi interaktif: Spark 3.5 dan versi yang lebih lama |
Spark 3.5 dan versi yang lebih lama. Framework open source lainnya, seperti Hive, Flink, Trino, dan Kafka |
Serverless | Ya | Tidak |
Waktu mulai | 60-an | 90-an |
Kontrol infrastruktur | Tidak | Ya |
Pengelolaan resource | Berdasarkan Spark | Berbasis YARN |
Dukungan GPU | Ya | Ya |
Sesi interaktif | Ya | Tidak |
Container kustom | Ya | Tidak |
Akses VM (misalnya, SSH) | Tidak | Ya |
Versi Java | Java 17, 11 | Versi sebelumnya yang didukung |
Kepatuhan terhadap keamanan
Serverless untuk Apache Spark mematuhi semua persyaratan lokalitas data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi Dataproc.
Kemampuan workload batch
Anda dapat menjalankan jenis workload batch Serverless untuk Apache Spark berikut:
- PySpark
- Spark SQL
- Spark R
- Spark (Java atau Scala)
Anda dapat menentukan properti Spark saat mengirimkan workload batch Serverless untuk Apache Spark.