Halaman ini diterjemahkan oleh Cloud Translation API.

Ringkasan Serverless untuk Apache Spark

Serverless untuk Apache Spark memungkinkan Anda menjalankan workload Spark tanpa perlu menyediakan dan mengelola cluster Dataproc Anda sendiri. Ada dua cara untuk menjalankan workload Serverless untuk Apache Spark:

Beban kerja batch
Sesi interaktif

Workload batch

Kirimkan beban kerja batch ke layanan Serverless for Apache Spark menggunakan konsolGoogle Cloud , Google Cloud CLI, atau Dataproc API. Layanan menjalankan workload pada infrastruktur komputasi terkelola, serta melakukan penskalaan otomatis resource sesuai kebutuhan. Biaya Serverless untuk Apache Spark hanya berlaku saat workload dijalankan.

Untuk memulai, lihat Menjalankan beban kerja batch Apache Spark.

Sesi interaktif

Tulis dan jalankan kode di notebook Jupyter selama sesi interaktif Serverless for Apache Spark untuk Spark. Anda dapat membuat sesi notebook dengan cara berikut:

Jalankan kode PySpark di notebook BigQuery Studio. Gunakan notebook Python BigQuery untuk membuat sesi interaktif Serverless for Apache Spark berbasis Spark-Connect. Setiap notebook BigQuery hanya dapat memiliki satu sesi Serverless for Apache Spark aktif yang terkait dengannya.
Gunakan plugin Dataproc JupyterLab untuk membuat beberapa sesi notebook Jupyter dari template yang Anda buat dan kelola. Saat Anda menginstal plugin di mesin lokal atau VM Compute Engine, kartu berbeda yang sesuai dengan konfigurasi kernel Spark yang berbeda akan muncul di halaman peluncur JupyterLab. Klik kartu untuk membuat sesi notebook Serverless for Apache Spark, lalu mulai tulis dan uji kode Anda di notebook.

Plugin Dataproc JupyterLab juga memungkinkan Anda menggunakan halaman peluncur JupyterLab untuk melakukan tindakan berikut:
- Buat cluster Dataproc di Compute Engine.
- Kirimkan tugas ke cluster Dataproc di Compute Engine.
- Lihat log Google Cloud dan Spark.

Serverless untuk Apache Spark dibandingkan dengan Dataproc di Compute Engine

Jika Anda ingin menyediakan dan mengelola infrastruktur, lalu menjalankan beban kerja di Spark dan framework pemrosesan open source lainnya, gunakan Dataproc di Compute Engine. Tabel berikut mencantumkan perbedaan utama antara Dataproc di Compute Engine dan Serverless for Apache Spark.

Kemampuan	Serverless untuk Apache Spark	Dataproc di Compute Engine
Framework pemrosesan	Beban kerja batch: Spark 3.5 dan versi yang lebih lama Sesi interaktif: Spark 3.5 dan versi yang lebih lama	Spark 3.5 dan versi yang lebih lama. Framework open source lainnya, seperti Hive, Flink, Trino, dan Kafka
Serverless	Ya	Tidak
Waktu mulai	60-an	90-an
Kontrol infrastruktur	Tidak	Ya
Pengelolaan resource	Berdasarkan Spark	Berbasis YARN
Dukungan GPU	Ya	Ya
Sesi interaktif	Ya	Tidak
Container kustom	Ya	Tidak
Akses VM (misalnya, SSH)	Tidak	Ya
Versi Java	Java 17, 11	Versi sebelumnya yang didukung

Kepatuhan terhadap keamanan

Serverless untuk Apache Spark mematuhi semua persyaratan lokalitas data, CMEK, VPC-SC, dan persyaratan keamanan lainnya yang dipatuhi Dataproc.

Kemampuan workload batch

Anda dapat menjalankan jenis workload batch Serverless untuk Apache Spark berikut:

PySpark
Spark SQL
Spark R
Spark (Java atau Scala)

Anda dapat menentukan properti Spark saat mengirimkan workload batch Serverless untuk Apache Spark.