Dapatkan inferensi asinkron, ber-throughput tinggi, dan hemat biaya untuk kebutuhan pemrosesan data skala besar Anda dengan kemampuan prediksi batch Gemini. Panduan ini akan menjelaskan nilai prediksi batch, cara kerjanya, batasannya, dan praktik terbaik untuk hasil yang optimal.
Mengapa menggunakan prediksi batch?
Dalam banyak skenario dunia nyata, Anda tidak memerlukan respons langsung dari model bahasa. Sebagai gantinya, Anda mungkin memiliki set data perintah yang besar yang perlu diproses secara efisien dan terjangkau. Di sinilah keunggulan prediksi batch.
Manfaat utama meliputi:
- Efisiensi Biaya: Batch processing ditawarkan dengan tarif diskon 50% dibandingkan dengan inferensi real-time, sehingga ideal untuk tugas berskala besar yang tidak mendesak.
- Batas frekuensi tinggi: Proses ratusan ribu permintaan dalam satu batch dengan batas frekuensi yang lebih tinggi dibandingkan dengan Gemini API real-time.
- Alur Kerja yang Disederhanakan: Daripada mengelola pipeline kompleks dari setiap permintaan real-time, Anda dapat mengirimkan satu tugas batch dan mengambil hasilnya setelah pemrosesan selesai. Layanan ini akan menangani validasi format, memparalelkan permintaan untuk pemrosesan serentak, dan mencoba lagi secara otomatis untuk berupaya mencapai rasio penyelesaian yang tinggi dengan waktu penyelesaian 24 jam.
Prediksi batch dioptimalkan untuk tugas pemrosesan skala besar seperti:
- Pembuatan Konten: Buat deskripsi produk, postingan media sosial, atau teks kreatif lainnya secara massal.
- Anotasi dan Klasifikasi Data: Mengklasifikasikan ulasan pengguna, mengategorikan dokumen, atau melakukan analisis sentimen pada korpus teks yang besar.
- Analisis Offline: Meringkas artikel, mengekstrak informasi penting dari laporan, atau menerjemahkan dokumen dalam skala besar.
Model Gemini yang mendukung prediksi batch
Model Gemini dasar dan yang disesuaikan berikut mendukung prediksi batch:
Kuota dan batas
Meskipun prediksi batch sangat efektif, penting untuk mengetahui batasan berikut.
- Kuota: Tidak ada batas kuota yang telah ditentukan sebelumnya untuk penggunaan Anda. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan resource dan permintaan real-time di semua pelanggan model tersebut. Jika lebih banyak pelanggan aktif dan kapasitas kami sudah penuh, permintaan batch Anda mungkin dimasukkan dalam antrean untuk mendapatkan kapasitas.
- Waktu Antrean: Jika layanan kami mengalami traffic tinggi, tugas batch Anda akan mengantre untuk mendapatkan kapasitas. Tugas akan berada dalam antrean hingga 72 jam sebelum berakhir.
- Batas Permintaan: Satu batch job dapat mencakup hingga 200.000 permintaan. Jika Anda menggunakan Cloud Storage sebagai input, ada juga batas ukuran file sebesar 1 GB.
- Waktu Pemrosesan: Tugas batch diproses secara asinkron dan tidak dirancang untuk aplikasi real-time. Sebagian besar tugas selesai dalam waktu 24 jam setelah mulai berjalan (tidak termasuk waktu antrean). Setelah 24 jam, tugas yang belum selesai akan dibatalkan, dan Anda hanya akan ditagih untuk permintaan yang telah selesai.
- Fitur yang tidak didukung: Prediksi batch tidak mendukung Penyimpanan dalam Cache Konteks, RAG, atau Endpoint global.
Praktik terbaik
Untuk mendapatkan hasil maksimal dari prediksi batch dengan Gemini, sebaiknya ikuti praktik terbaik berikut:
- Gabungkan tugas: Untuk memaksimalkan throughput, gabungkan tugas yang lebih kecil menjadi satu tugas besar, dalam batas sistem. Misalnya, mengirimkan satu tugas batch dengan 200.000 permintaan akan memberikan throughput yang lebih baik daripada 1.000 tugas dengan masing-masing 200 permintaan.
- Memantau Status Tugas: Anda dapat memantau progres tugas menggunakan API, SDK, atau UI. Untuk mengetahui informasi selengkapnya, lihat memantau status tugas. Jika tugas gagal, periksa pesan error untuk mendiagnosis dan memecahkan masalah.
- Mengoptimalkan Biaya: Manfaatkan penghematan biaya yang ditawarkan oleh pemrosesan batch untuk tugas apa pun yang tidak memerlukan respons langsung.
Langkah berikutnya
- Membuat tugas batch dengan Cloud Storage
- Membuat tugas batch dengan BigQuery
- Pelajari cara menyesuaikan model Gemini di Ringkasan penyesuaian model untuk Gemini
- Pelajari lebih lanjut Batch prediction API.