SlideShare a Scribd company logo
Gemini Live APIで
AIと会話しながらブログを作成する
アプリを作ってみた
久保田 崇文
※ Opinions are my own.
久保田 崇文
出身:東京(〜3才) → 埼玉(〜小2) →
東京(〜大学)→ 千葉(〜現在)
趣味:ギター、作曲
経歴:
・大学:無機EL(LEDの親戚)の研究
・新卒:大手メーカーで評価解析技術の研究開発
・現在:Web系企業で生成AIエンジニア
登壇経験:
・ Google Cloud Next Tokyo ’23
・ 求人ボックスにおける Vertex AI Vector Search を利用したレコメンド
・Generative AI Summit Tokyo ‘24
・自然言語処理における生成AI の活用事例の紹介
・言語処理学会第31回年次大会(NLP2025)
・ 大規模言語モデルベースの日本語固有表現抽出における
Self-ReflectionとFew-Shot学習による精度改善
X:@kubornetes
作成したアプリ:音声会話によるブログ作成支援AI
デモ動画はこちら
https://youtu.be/KR64RyfLuKU
GitHubはこちら
https://github.com/xxkuboxx/voice-conversation-ai
なぜ、Daily.coおよびPipecatを用いたか
公式SDKをそのまま使うより簡便な実装になるため。
公式のSDK Pipecat
Pipecatのはまりどころ
● Windowsではライブラリがインストールできず動かない。
→ Dockerを使うことで解消。
● 新しめのライブラリのため、バグが割とある。
→ソースコードをAIに読ませて回避策を見つけ事なきを得る。
● 非同期処理、特にFrameの概念の理解が難しい。
→「Frameは常に流れている」と解釈し、理解に一歩近づく。
Pipecatの拡張性
● 各種フロントエンドのSDKあり。
● Google Searchなどのtool useも可能。
ご清聴ありがとうございました!
X
@kubornetes
Zennの記事
Gemini Multimodal Live API,
Daily.co, Pipecatを使った
AI音声会話アプリ作成方法

More Related Content

PDF
Cloud Run, Firestore, LangGraphを使ったAgentic Chatbot
PDF
Langfuse_v3をGoogleCloud上にTerraformでサクッとホスト
PDF
[Whisper論文紹介]Robust Speech Recognition via Large-Scale Weak Supervision
PDF
もう一度Kotlinの話をしよう #ndsmeetup4
PPTX
関西Itコミュニティ集まれ!デブサミ名物コミュニティlt大会(発表版)
PDF
20170804 Builderscon Androidアプリ開発アンチパターン
PDF
[DojoCon Japan 2018]自分にできる貢献のしかたを見つけよう by CoderDojo光
PPTX
SIGGRAPH 2019 Report
Cloud Run, Firestore, LangGraphを使ったAgentic Chatbot
Langfuse_v3をGoogleCloud上にTerraformでサクッとホスト
[Whisper論文紹介]Robust Speech Recognition via Large-Scale Weak Supervision
もう一度Kotlinの話をしよう #ndsmeetup4
関西Itコミュニティ集まれ!デブサミ名物コミュニティlt大会(発表版)
20170804 Builderscon Androidアプリ開発アンチパターン
[DojoCon Japan 2018]自分にできる貢献のしかたを見つけよう by CoderDojo光
SIGGRAPH 2019 Report

Similar to Gemini_Live_APIでAIと会話しながらブログを作成するアプリを作ってみた (20)

PPTX
C# Tokyo ガイド 2020/02
ODP
Iot2bio2 20160521
PDF
Twitterでみる社会のトレンド
PPTX
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
PDF
.NETはインテリジェントエッジの夢を見る
PPT
サービス作る系 20110128
PDF
A06  角田研究室6 長谷川和紀
PPTX
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
PDF
ニコニコアプリ開発
PPTX
シビックテックセミナーinJAIST発表資料
PDF
「Camelog」Android開発秘話
PDF
Arduino で組み込み開発 - 京都TECH オープンキャンパス2021
PDF
[OSC2018広島]自分にできる貢献のしかたを見つけよう(OSC2018広島Ver)
PDF
発見から納品へ
PPTX
Watanabe civictechforum
PPTX
映像解析IoTプラットフォーム SCORERの紹介
PPTX
【デブサミ2010】アジリティを向上させる開発ツールの進化
PDF
どうやってフォント選ぶべき?
PDF
BIMを活用? 現場環境をアプリで再現・管理する取り組みとその効果
PDF
20150425 iiba日本支部講演 日米比較 一色浩一郎
C# Tokyo ガイド 2020/02
Iot2bio2 20160521
Twitterでみる社会のトレンド
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
.NETはインテリジェントエッジの夢を見る
サービス作る系 20110128
A06  角田研究室6 長谷川和紀
高専キャリア ~アプリコンテストに独りで挑んだ「OnlyOne」の皆さん~
ニコニコアプリ開発
シビックテックセミナーinJAIST発表資料
「Camelog」Android開発秘話
Arduino で組み込み開発 - 京都TECH オープンキャンパス2021
[OSC2018広島]自分にできる貢献のしかたを見つけよう(OSC2018広島Ver)
発見から納品へ
Watanabe civictechforum
映像解析IoTプラットフォーム SCORERの紹介
【デブサミ2010】アジリティを向上させる開発ツールの進化
どうやってフォント選ぶべき?
BIMを活用? 現場環境をアプリで再現・管理する取り組みとその効果
20150425 iiba日本支部講演 日米比較 一色浩一郎
Ad

Gemini_Live_APIでAIと会話しながらブログを作成するアプリを作ってみた