モンテカルロ法とエージェ
ントの主観確率に基づく
人狼知能の実装
成瀬 雅人*, 山野 太靖, 白松 俊
(名古屋工業大学工学部情報工学科)
・2013年にコミュニケーションゲーム「人
狼」をプレイする人工知能の実現を試みる人狼
知能プロジェクトが立ち上がった
−人狼は不完全情報ゲーム
−そのため将棋などと違い最善手を決めにくい
・同プロジェクトの開催するコンテストへの応
募が本研究の動機である
−JavaのAPIが提供されている
人狼をプレイする人工知能
人狼のルール
プレイヤーに割り当てられる役職
• 人狼陣営
- 人狼、狂人
• 村人陣営
- 村人、占い師、霊能者、狩人
基本的ルール
• ターン制, 割り当てられた陣営を勝たせる
• 他のプレイヤーの役職は不明
昼
話し合いで怪しい人物を見つける
「誰が怪しい?」
「俺が占い師だよ」
「私が占い師です、貴
方狂人か人狼ですね」
「あいつ怪しくない?」
夜
処刑する人物や占い相手、噛む相手を決める
怪しいから投票!
→
今日はあの人を占おう
あいつが邪魔だから
あいつから食い殺そう
昼と夜を繰り返す
勝敗決定
人狼の数0 → 村人側勝利
勝敗決定
村人側の数<=人狼の数
→ 人狼陣営勝利
本研究の課題
1.人狼は自分以外の役職が分からない不完全情
報ゲームなので、自分以外の役職を推定する
必要がある
アプローチ:ある役職らしさを主観確率として定義
2.また、人狼は自分の陣営の勝利の為に毎日
行動選択を行う必要がある
アプローチ:モンテカルロ法の1種であるプレイアウト
主観確率
本研究では、主観確率と信頼度と呼ばれるパラ
メータを推定している。
主観確率…自分から見た各プレイヤーの役職の
尤もらしさ
信頼度…あるプレイヤーが、各プレイヤーから
どれほど村人陣営よりだと思われているか
ロジットモデル
• 主観確率や信頼度を[0,1]に収める→ロジットモデル
- 信頼度そのものではなくロジットを操作
- 主観確率は全役職の合計が1になるように正規化
信
頼
度
C
ロジット logit
C = (1 + exp(-logit))-1
信頼度変更の具体例
a2a1
/
a2は人狼だと思う!
\
( a2が疑われる)
→a2からa1への
信頼度が減少
a1 a2
/
占ったらa2は
村人だった
\
→a2からa1への
信頼度が増加
\
人狼じゃないよー
/
\
当たってる
/
Logiti(a1) = logiti-1(a1)+w(act)
Ci(a1) = (1 + exp(-logiti(a1)))-1
w(act)<0 w(act)>0
役職の推定や行動基準に
用いるパラメータ
パラメータ 説明
Vote先の信頼度が高ければ負の値
Estimateが自分の考えに近ければ正の値
Agree先の信頼度が高ければ正の値
Disagree先の信頼度が高ければ負の値
Comingoutが早ければ正の値
有用なDivind先なら正の値,逆なら負
Inquestedが自分の考えに近ければ正の値
Guard発言の確証性が高ければ正
Vote先の信頼度が高ければ負の値
霊能者を信頼する基準値 霊能者を信頼する為の閾値
占い師を信頼する基準値 占い師を信頼する為の閾値
上げ幅下げ幅は経験的に決定(将来的にはモンテカルロ法)
実験:主観確率による役職推定精度
・人狼知能プロジェクトが配布する実装をベース
に提案手法を実装した
・一番大きな主観確率を取る役職と推定する
・結果:役職の正答率は試行500回中
占い師の場合68.9%
村人の場合54.5%
(チャンスレート33.3%)
となった
プレイアウト
• 局面を評価関数なしに評価するためプレイアウトを用いる
- 現状からランダムに合法手を進め、終局の勝率から局面の評価をする
- 不完全情報ゲームに対応する必要
現在の局
面
プレイヤー
a2に投票
正 誤
プレイヤー
a3に投票
正 誤
勝利
1.0
敗北
0.0
より勝率の高い
ものを選択
役職推定の正誤による分岐を
主観確率で重み付け
平均値を取る→
勝利
1.0
勝利
1.0
敗北
0.0
敗北
0.0
勝利
1.0
敗北
0.0
1.0 0.0 0.5 0.5
0.7 0.3 0.8 0.2
0.7 0.5
不完全情報ゲームへの対応
• 人狼ゲームは不完全情報ゲーム
→プレイアウトをするには確定情報が不足
• そこで本研究では推定が正しい場合と間違っている場合
に分岐させてプレイアウトを行う
• 主観確率を用いて枝に重みをつける
• 現在実装中 役職推定の正誤による分岐を
主観確率で重み付け
0.7 0.3
0.7
正 誤
考察
・主観確率を用いる事である程度相手の役職を
推定する事ができた(占い師視点で68.9%)
・しかし、占い師は早めに名乗り出る戦略を取
ると狙われやすくなった→勝率低下
・そのため、占い師が人狼に狙われにくくなる
戦略へと改善が必要→カミングアウトのタイミ
ングをモンテカルロ法で最適化
まとめと今後の課題
・人狼知能の実装にむけて
−相手の役職を主観確率や信頼度から推定
・ロジットモデルに基づき、変化量は経験的に決定
−自身の行動選択をプレイアウト手法を行い決定(実装中)
・今後は,プレイアウトにおける探索空間の絞り込みや
モンテカルロ法によるパラメータ最適化を実装する.
・さらに,人狼陣営のプレイヤーが自身の役職を偽り撹乱する
ための戦略についても設計・実装する予定である.
・今回のコンテストには実装が間に合わなかったが,来年に
向け研究を継続予定
人狼知能の研究手法の例
今年のコンテストの応募チームの事例
・プレイヤー間の関係に焦点を当てて推理
・予め行動パターンをいくつか作成しておき、
状況に合わせて選択
・占い師COタイミングの学習
・クラスタリングを用いた投票時等の対象決定
・発言や占い結果などの矛盾検知
JavaのAPI例(Agent間の会話)
会話のテンプレート
org.aiwolf.client.lib.TemplateTalkFactory(全体用)
org.aiwolf.client.lib.TemplateWhisperFactory(囁き用)
使用例
public String talk() {
// 「引数のagentが役職roleだと思う」と発言
return TemplateTalkFactory.estimate(agent, role);
}

More Related Content

PPTX
人工知能研究のための視覚情報処理
PPTX
人狼BBSにおける発話の自動分類
PDF
ユーザの個人差とインタラクションデザイン, 西崎友規子
PDF
「哲学塾x人狼知能」刊行記念トークショー講演資料
PDF
知能が作る社会・社会が作る知能:HAI研究による知能と社会のデザイン(大澤 博隆)
PPTX
白松研卒論発表_渡辺
PDF
Linked Open Data を用いた シビックテックプロジェクトの 透明性向上と協働促進
PDF
社会課題とその解決目標のLOD化による公共圏での協働促進サービス
人工知能研究のための視覚情報処理
人狼BBSにおける発話の自動分類
ユーザの個人差とインタラクションデザイン, 西崎友規子
「哲学塾x人狼知能」刊行記念トークショー講演資料
知能が作る社会・社会が作る知能:HAI研究による知能と社会のデザイン(大澤 博隆)
白松研卒論発表_渡辺
Linked Open Data を用いた シビックテックプロジェクトの 透明性向上と協働促進
社会課題とその解決目標のLOD化による公共圏での協働促進サービス

Viewers also liked (9)

PPTX
ipsj全国大会発表スライド_水野
PDF
徘徊高齢者捜索のための BLEビーコンの電波強度分布を用いた 位置推定手法
PPTX
2017ipsj全国大会発表スライド_一ノ瀬
PPTX
東海大会発表 0927
PPTX
東海支部西田
PPTX
2017ipsj全国大会発表スライド_宮脇
PPTX
2017ipsj全国大会発表スライド_池田
PPTX
2017ipsj全国大会発表スライド_成瀬
PPTX
2017ipsj全国大会発表スライド_福本
ipsj全国大会発表スライド_水野
徘徊高齢者捜索のための BLEビーコンの電波強度分布を用いた 位置推定手法
2017ipsj全国大会発表スライド_一ノ瀬
東海大会発表 0927
東海支部西田
2017ipsj全国大会発表スライド_宮脇
2017ipsj全国大会発表スライド_池田
2017ipsj全国大会発表スライド_成瀬
2017ipsj全国大会発表スライド_福本
Ad

東海支部成瀬2

Editor's Notes

  • #19: 上から順に1位、2位、3位、4位のアルゴリズムより抜粋 矛盾検知は大抵のアルゴリズムで採用されている