Yuka

Yuka_に過去の会話履歴から学習した応
答を組み込んでみた

2010/09/25
Showyou
(twitter, hatena:showyou)

みなさんこんにちは。showyouです

今日はYuka_(twitter.com/yuka_)に組み込んだ実験
的な機能について説明します

今までのyuka_さん
固定的な応答のみ
● 例：「おはよう」が来たら「おはよう」と返す

今回組んだ奴
●
過去の他人の会話履歴から拾って使う

応答の流れ
● 「@yuka_ おはようございます」という入力
● 「おはようございます」を形態素解析
→「おはよう」「ござい」「ます」に分割
●
それぞれの単語で
● 特徴語A1,A2,...を抜き出す←注１。うまくできてない
● 特徴語A1,A2,...だけ
– 返信文|返信先の表から返信先にその語がある返信文を取ってくる
● 例：「おはよう」がsrcにある返信文章「おはようございます」「おはよう」
– 返信文章をさらに形態素解析。そこで出てきた特徴語B1,B2,...の出現回
数T1,T2,を数える
● 例なら{“おはよう”:2回, “ござい”:1回}
●
ただし１文中に何回同じ単語が出てきても
● T1,T2を合計して多いヤツ上位数件から一つ選ぶ（Cとする）
● Cが返信元にある返信文を取ってくる
これを絵で描け！

システムの構成
● マシン：Phenom II X4 945
● Ubuntu10.04, メモリ4GB使ったVM, MySQL,
Python
● 応答|応答元のテーブル:70万件程度
● Yatsのログをいただいて利用
● ただしyatsのログはin_reply_to_status_idがないた
め、これを取ってくるのに時間がかかる
● 以上の内容で１分程度で大体取ってこれる
● ただしPythonのSQLAlchemyの都合上検索結果
は10万件程度に制限している←会話内容が片
寄ってる原因かも

できてないこと
● 特徴語のうまい検出。今だと「っ」とかヒットする
● 今は実行時に毎回検索している
●
事前に準備するには解空間があまりにもでかすぎるのどうす
れば・・
● 統計的な処理もっと入れたい
● 今は単純に回数の多さだけ見ている
● 今回@があるやつのみに限定しているが、通常の発言
でもreply飛ばしたい
● 失敗するとうざいだけなんだけど。P(単語Aをtweetしたときに
返信があった回数)/P(単語Aの出現回数)が一定以上になっ
たら返信とか
● 口調をyukaさんっぽく直してない
● というか未だにこの人工無脳の性格決めてない・・

余談：にせほbot(nisehorn)の返信学
習の仕方
● http://halmidi.com/doc/nisehorn/index.php?機能
● 短い文章に限定して全部記憶、一致したやつから
ランダムで返す

Yuka

More Related Content

What's hot (14)

Viewers also liked (8)

More from show you (8)

Yuka