Yuka_に過去の会話履歴から学習した応
       答を組み込んでみた



                          2010/09/25
                            Showyou
           (twitter, hatena:showyou)
みなさんこんにちは。showyouです




今日はYuka_(twitter.com/yuka_)に組み込んだ実験
      的な機能について説明します
今までのyuka_さん
固定的な応答のみ
●   例:「おはよう」が来たら「おはよう」と返す
今回組んだ奴
●
    過去の他人の会話履歴から拾って使う
応答の流れ
●   「@yuka_ おはようございます」という入力
●   「おはようございます」を形態素解析
    →「おはよう」「ござい」「ます」に分割
●
    それぞれの単語で
    ●   特徴語A1,A2,...を抜き出す←注1。うまくできてない
    ●   特徴語A1,A2,...だけ
        –   返信文|返信先の表から返信先にその語がある返信文を取ってくる
            ●   例:「おはよう」がsrcにある返信文章「おはようございます」「おはよう」
        –   返信文章をさらに形態素解析。そこで出てきた特徴語B1,B2,...の出現回
            数T1,T2,を数える
            ●   例なら{“おはよう”:2回, “ござい”:1回}
            ●
                ただし1文中に何回同じ単語が出てきても
    ●   T1,T2を合計して多いヤツ上位数件から一つ選ぶ(Cとする)
    ●   Cが返信元にある返信文を取ってくる
    これを絵で描け!
システムの構成
●   マシン:Phenom II X4 945
●   Ubuntu10.04, メモリ4GB使ったVM, MySQL,
    Python
●   応答|応答元のテーブル:70万件程度
    ●   Yatsのログをいただいて利用
    ●   ただしyatsのログはin_reply_to_status_idがないた
        め、これを取ってくるのに時間がかかる
●   以上の内容で1分程度で大体取ってこれる
●   ただしPythonのSQLAlchemyの都合上検索結果
    は10万件程度に制限している←会話内容が片
    寄ってる原因かも
できてないこと
●   特徴語のうまい検出。今だと「っ」とかヒットする
●   今は実行時に毎回検索している
    ●
        事前に準備するには解空間があまりにもでかすぎるのどうす
        れば・・
●   統計的な処理もっと入れたい
    ●   今は単純に回数の多さだけ見ている
●   今回@があるやつのみに限定しているが、通常の発言
    でもreply飛ばしたい
    ●   失敗するとうざいだけなんだけど。P(単語Aをtweetしたときに
        返信があった回数)/P(単語Aの出現回数)が一定以上になっ
        たら返信とか
●   口調をyukaさんっぽく直してない
    ●   というか未だにこの人工無脳の性格決めてない・・
余談:にせほbot(nisehorn)の返信学
      習の仕方
●   http://halmidi.com/doc/nisehorn/index.php?機能
●   短い文章に限定して全部記憶、一致したやつから
    ランダムで返す

More Related Content

PDF
03 var array_flow_func
PPT
1221bot講習会
PPTX
デザイナーのためのPHP講座 for WordPress (初級)
PPTX
資料
PDF
闇魔術を触ってみた
ODP
ぼくとしりとりの約3.0*10^3日間戦争
PDF
Pythonが動く仕組み(の概要)
PDF
JVM上で動くPython処理系実装のススメ
03 var array_flow_func
1221bot講習会
デザイナーのためのPHP講座 for WordPress (初級)
資料
闇魔術を触ってみた
ぼくとしりとりの約3.0*10^3日間戦争
Pythonが動く仕組み(の概要)
JVM上で動くPython処理系実装のススメ

What's hot (14)

PDF
C++の黒魔術
PPTX
Pytorch 01
PPTX
Pythonで始めるベイズ最適化
PDF
StreamingAPIを使用したTwitter Bot @waketi の紹介
PDF
2013.07.15 はじパタlt scikit-learnで始める機械学習
PDF
プログラムの処方箋~健康なコードと病んだコード
PDF
TeX原稿からEPUBを作りたい
PDF
Mesh tensorflow
PDF
TensorFlow Operation 作ってみた
PDF
About Pointer
PDF
HTTP を肌で感じる
PPTX
コードで感じるKotlin入門
PDF
TensorFlow計算グラフ最適化処理
PDF
[第2版]Python機械学習プログラミング 第8章
C++の黒魔術
Pytorch 01
Pythonで始めるベイズ最適化
StreamingAPIを使用したTwitter Bot @waketi の紹介
2013.07.15 はじパタlt scikit-learnで始める機械学習
プログラムの処方箋~健康なコードと病んだコード
TeX原稿からEPUBを作りたい
Mesh tensorflow
TensorFlow Operation 作ってみた
About Pointer
HTTP を肌で感じる
コードで感じるKotlin入門
TensorFlow計算グラフ最適化処理
[第2版]Python機械学習プログラミング 第8章
Ad

Viewers also liked (8)

PDF
PRESENTATION DES KITS
PDF
An introduction of hue
ODP
plot beta dist
PDF
Iaas, paasと利用者
PPT
Dossier Ca
PDF
Tendance Automne 2009
PDF
aisatsu suruto tomodachiga popopoponnto hueruyo
PDF
Dossier Ca 7octobre
PRESENTATION DES KITS
An introduction of hue
plot beta dist
Iaas, paasと利用者
Dossier Ca
Tendance Automne 2009
aisatsu suruto tomodachiga popopoponnto hueruyo
Dossier Ca 7octobre
Ad

More from show you (8)

PDF
Classification of Visualize Tool
PDF
A survey of 2013 data science salary survey”
PDF
二階堂愛と二階堂藍の違いについて
PDF
Pycon tw 2013
PPTX
Mobageのhadoop活用環境と適用方法
PDF
PDF
13.2 隠れマルコフモデル
ODP
SIG-WI2 twitterにおける、人工無脳との インタラクション
Classification of Visualize Tool
A survey of 2013 data science salary survey”
二階堂愛と二階堂藍の違いについて
Pycon tw 2013
Mobageのhadoop活用環境と適用方法
13.2 隠れマルコフモデル
SIG-WI2 twitterにおける、人工無脳との インタラクション

Yuka

  • 1. Yuka_に過去の会話履歴から学習した応 答を組み込んでみた 2010/09/25 Showyou (twitter, hatena:showyou)
  • 3. 今までのyuka_さん 固定的な応答のみ ● 例:「おはよう」が来たら「おはよう」と返す
  • 4. 今回組んだ奴 ● 過去の他人の会話履歴から拾って使う
  • 5. 応答の流れ ● 「@yuka_ おはようございます」という入力 ● 「おはようございます」を形態素解析 →「おはよう」「ござい」「ます」に分割 ● それぞれの単語で ● 特徴語A1,A2,...を抜き出す←注1。うまくできてない ● 特徴語A1,A2,...だけ – 返信文|返信先の表から返信先にその語がある返信文を取ってくる ● 例:「おはよう」がsrcにある返信文章「おはようございます」「おはよう」 – 返信文章をさらに形態素解析。そこで出てきた特徴語B1,B2,...の出現回 数T1,T2,を数える ● 例なら{“おはよう”:2回, “ござい”:1回} ● ただし1文中に何回同じ単語が出てきても ● T1,T2を合計して多いヤツ上位数件から一つ選ぶ(Cとする) ● Cが返信元にある返信文を取ってくる これを絵で描け!
  • 6. システムの構成 ● マシン:Phenom II X4 945 ● Ubuntu10.04, メモリ4GB使ったVM, MySQL, Python ● 応答|応答元のテーブル:70万件程度 ● Yatsのログをいただいて利用 ● ただしyatsのログはin_reply_to_status_idがないた め、これを取ってくるのに時間がかかる ● 以上の内容で1分程度で大体取ってこれる ● ただしPythonのSQLAlchemyの都合上検索結果 は10万件程度に制限している←会話内容が片 寄ってる原因かも
  • 7. できてないこと ● 特徴語のうまい検出。今だと「っ」とかヒットする ● 今は実行時に毎回検索している ● 事前に準備するには解空間があまりにもでかすぎるのどうす れば・・ ● 統計的な処理もっと入れたい ● 今は単純に回数の多さだけ見ている ● 今回@があるやつのみに限定しているが、通常の発言 でもreply飛ばしたい ● 失敗するとうざいだけなんだけど。P(単語Aをtweetしたときに 返信があった回数)/P(単語Aの出現回数)が一定以上になっ たら返信とか ● 口調をyukaさんっぽく直してない ● というか未だにこの人工無脳の性格決めてない・・
  • 8. 余談:にせほbot(nisehorn)の返信学 習の仕方 ● http://halmidi.com/doc/nisehorn/index.php?機能 ● 短い文章に限定して全部記憶、一致したやつから ランダムで返す