Praktik Terbaik untuk Audio
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Halaman ini berisi rekomendasi tentang cara memberikan data ucapan ke
Google Assistant API. Pedoman ini dirancang untuk meningkatkan
efisiensi dan akurasi serta waktu respons yang wajar dari layanan.
Pra-pemrosesan audio
Sebaiknya sediakan audio yang sebersih mungkin dengan menggunakan mikrofon yang berkualitas baik dan diposisikan dengan tepat. Namun, menerapkan pemrosesan sinyal pengurang bising ke audio sebelum mengirimkannya ke layanan biasanya akan mengurangi akurasi pengenalan. Layanan ini dirancang untuk menangani audio yang bising.
Untuk mendapatkan hasil terbaik:
- Posisikan mikrofon sedekat mungkin dengan pengguna, terutama ketika
ada suara bising di latar belakang.
- Hindari pemangkasan audio.
- Jangan gunakan kontrol penguatan otomatis (AGC).
- Semua pemrosesan pengurangan bising harus dinonaktifkan.
Idealnya:
- Level audio harus dikalibrasi sehingga sinyal input tidak terpotong,
dan level audio ucapan puncak mencapai sekitar -20 hingga -10 dBFS.
- Perangkat harus menunjukkan amplitudo "datar" dibandingkan
karakteristik frekuensi (+- 3 dB 100 Hz hingga 8.000 Hz).
- Total distorsi harmonik harus kurang dari 1% dari 100 Hz hingga 8.000
Hz pada level input SPL 90 dB.
Frekuensi pengambilan sampel
Jika memungkinkan, tetapkan frekuensi pengambilan sampel sumber audio ke 16.000 Hz. Jika tidak,
setel sample_rate_hertz
agar sesuai dengan frekuensi sampel native sumber audio (bukan
pengambilan sampel ulang).
Ukuran frame
Asisten Google mengenali audio live saat direkam dari mikrofon.
Streaming audio harus dibagi menjadi beberapa frame dan dikirim dalam pesan
AssistRequest
berturut-turut. Semua ukuran frame dapat diterima. Frame yang lebih besar lebih efisien, tetapi menambah latensi. Ukuran frame 100 milidetik direkomendasikan sebagai
kompromi yang baik antara latensi dan efisiensi.
Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.
Terakhir diperbarui pada 2025-07-26 UTC.
[null,null,["Terakhir diperbarui pada 2025-07-26 UTC."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["This page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]