コース: Microsoft Azure AIの基礎知識:Azureでのワークロードと機械学習

Azure AI Speechとは

Azure AI Speech は Microsoft のサービスで、 強力な音声テキスト変換機能と 音声読み上げ機能を活用して、 アプリケーションを よりリアルにさせることができます。 音声テキスト変換を使用すると、 マイク、音声ファイル、 Azure Blob Storage の バッチファイルなど、 さまざまなソースから 音声をテキストに変換できます。 そして、このサービスでは、 次の機能を利用できます。 ライブ会議の文字起こし、 キャプション、字幕、 会話において、 誰が何をいつ言ったかを利用する 発話者識別(ダイアリゼーション)、 言語学習者にフィードバックを提供する 発音評価、 顧客通話のリアルタイム文字起こしと 分析を提供する コンタクトセンターエージェント アシスタント、 話し言葉を入力する音声認識、 そして、アプリケーションと 対話型インターフェイスを作成する 音声エージェント、 迅速な文字起こし API Fast Transcription は、 予測可能な待ち時間(レイテンシ)で 迅速に音声やビデオの文字起こしを 行います。 非常に短時間で結果を得たい場合に 最適です。 音声や動画の速やかな文字起こし、 字幕作成、編集。 バッチ文字起こしは、 大量の音声データを一度に処理できます。 事前記録されたコンテンツの キャプション作成や、 通話の後のデータ分析、 話者の識別、 ダイアリゼーションに最適です。 音声合成を使用すると、 テキストを人間のような音声に 変換できます。 事前に構築されたニューラルボイスを 選択するか、 ブランドに合わせた カスタムニューラルボイスを作成できます。 音声合成マークアップ言語 (SSML)を使用して、 ピッチ、速度、発音、音量などを調整し、 ニーズに合わせることもできます。 さらに、リアルタイムで話された言語を 翻訳する音声翻訳機能、 音声内で話されている言語を識別する 言語識別機能、 声のパターンを基に話者を特定する 話者認識機能も利用できます。 話者識別機能も利用できます。 発音評価は、 話し言葉についての フィードバックを習得し、 学習を改善するために使用されます。 意図認識は、 音声テキスト変換を 自然言語処理と組み合わせ、 話されたコマンドに基づいて アクションを実行するために使用されます。 最後に、カスタム音声モデルは、 独自のテキストデータで トレーニングすることで、 業界特有の、または、専門の用語を より適切に認識するように 基本モデルを強化します。 これらすべての機能は、 Azure AI Speech の専用リソース、 または、 多目的 Azure AI Service リソースを通じて アクセス可能です。 Speech Studio を使用すると、 コード不要で機能を試すことができます。 Azure AI Speech を アプリケーションに統合するのは簡単で、 利用可能な SDK と REST API のおかげで、 ワークフローに音声機能を スムーズに導入できます。

目次