Optimal Auctions
through Deep Learning
北海道大学 大学院情報科学研究院 情報理工学部門
複合情報工学分野 調和系工学研究室学研究室
2020年5月27日
1書誌情報
• Paul Dütting * 1 Zhe Feng * 2 Harikrishna Narasimham * 2
David C. Parkes * 2 Sai S. Ravindranath * 2
• 1. London School of Economics
• 2. Harvard University.
• Proceedings of the 36 th International Conference on Machine Learning
(ICML2019)
• full版がarxivに掲載
• https://arxiv.org/abs/1706.03459
• ICMLで省略されたモデルの説明がある
• 著者グループの発表スライド
• https://icml.cc/media/Slides/icml/2019/102(11-11-00)-11-11-40-4439-optimal_auction.pdf
• コードは公開
• https://github.com/saisrivatsan/deep-opt-auctions
• python2.7
2本研究の内容
Contribution
• 複数アイテムのオークションデザイン問題を解く最初のend-to-endの
アプローチ
• bidderの価値を入力とし,割当と支払い額を出力とする多層
ニューラルネットワークを採用
• (弱)支配戦略が正直申告になるように条件づけ
• 解析的解が既知の設定において,最適なオークションを再現できる
• 最適オークションが知られていない設定についても,従来の研究と
同等かそれ以上の収入を達成
• 大きい設定に対しても適用可能
背景
• 1アイテムのオークションにおける主催者利益を最大にする最適オークション
はMyerson(1981)によって示された.
• 2アイテム,2参加者のような単純な場合でも完全には解かれておらず,
多くの先行研究は入札の正直申告について弱い条件しか満たしていない
• Bayesian incentive compatibility(BIC)
3問題設定
今回考えるオークションの設定
• bidder 𝑁 = 1, … , 𝑛
• アイテム 𝑀 = 1, … , 𝑚
• bidder 𝑖 の価値関数𝑣𝑖: 2 𝑀 → ℝ≥0
• アイテムの部分集合ごとに価値が決まっている
• 𝑣𝑖は分布𝐹𝑖からサンプリングされる
• 𝑣 = (𝑣1, … , 𝑣 𝑛)は分からないが,𝐹 = (𝐹1, … , 𝐹𝑛)はオークショニアに既知
• オークションは(𝑔, 𝑝)と表記
• 割当ルール 𝑔𝑖: 𝑉 → 2 𝑀
• 支払いルール 𝑝𝑖: 𝑉 → ℝ≥0
• あるbidの組𝑏 = (𝑏1, … , 𝑏 𝑛)に対して,割当を𝑔(𝑏),支払いを𝑝(𝑏)とする
• bidder 𝑖の効用は𝑢𝑖 𝑣𝑖, 𝑏 = 𝑣𝑖 𝑔𝑖 𝑏 − 𝑝𝑖(𝑏)と表される
𝑉は𝑣の集合
4今回満たしたいオークションの性質
dominant strategy incentive compatible, individually rationalをみたす,
最適オークションルールを構築したい
• DSIC(dominant strategy incentive compatible)
• 他人のbidに関わらず,正直にbidすることで効用が最大化される
• すべての可能な𝑣𝑖, 𝑏𝑖, 𝑏−𝑖について
• 𝑢𝑖 𝑣𝑖, 𝑣𝑖, 𝑏−𝑖 ≥ 𝑢𝑖(𝑣𝑖, 𝑏𝑖, 𝑏−𝑖 )
• IR(individually rational)
• 参加しても損はしない
• すべての可能な𝑣𝑖, 𝑏𝑖, 𝑏−𝑖についてbidderの効用が非ゼロ
• 𝑢𝑖(𝑣𝑖, 𝑣𝑖, 𝑏−𝑖 ) ≥ 0
• 最適オークション
• オークショニアの期待収入が最大化されるオークション
正直申告時の効用 正直申告以外の効用
5最適オークション設計の学習問題としての定式化
制約付きの最小化問題として定式化を実施
• 負の期待収入の最小化
• − 𝑖∈𝑁 𝑝𝑖
𝑤
𝑣 の期待値
• incentive compatibilityへの違反度合いとして事後リグレットを定義
• 𝑟𝑔𝑡𝑖 𝑤 = Ε max
𝑣𝑖
′∈𝑉 𝑖
𝑢𝑖
𝑤
(𝑣𝑖; (𝑣𝑖
′
, 𝑣−𝑖) − 𝑢𝑖
𝑤
(𝑣𝑖; 𝑣𝑖, 𝑣−𝑖))]
• 自分の価値以外のbidをしていた場合に得られる最大の効用との差
• DSICを満たすにはこれが0になればよい
• L個の価値の組に対してのサンプルから計算できるように上記の期待値を
書き換えると最終的な学習問題は
𝑤はオークションの
パラメータ(NNのパラメータ)
6RegretNet(additive valuations)
提案するニューラルネットワーク(RegretNet)の構造の説明
割当のネットワークと支払いのネットワークの2つからなる
• 加法的価値(additive valuations)の場合
• あるアイテムセット𝑆に対する価値が𝑣𝑖 𝑆 = 𝑗∈𝑆 𝑣𝑖(𝑗)のように表される
入力
bidderの
各アイテム
への入札値
出力
割当確率
支払額が入札値(=価値)
を超えないように𝑏の値
に積算する値を出力
IRの保証
7RegretNet(unit-demand)
提案するニューラルネットワーク(RegretNet)の構造の説明
割当のネットワークと支払いのネットワークの2つからなる
• 単一需要(unit-demand)の場合
• アイテムセット𝑆に対する価値はセット中の最大のアイテムの価値
• 𝑣𝑖 𝑆 = max
𝑗∈𝑆
𝑣𝑖(𝑗)
割当ネットワーク
• 割当ネットワークを変更
• bidder1人に対する割当は最大1アイテム
• アイテム1個は最大1人に割当
• bidder方向,アイテム方向に
それぞれsoftmaxを適用
• 小さい方を出力とする
• 得られた出力は二重確率行列
になっており,1対1の割当で
表現できる
8RegretNet(combinatorial valuations)
提案するニューラルネットワーク(RegretNet)の構造の説明
割当のネットワークと支払いのネットワークの2つからなる
• 組み合わせ価値(combinatorial valuations)の場合
• bidderはアイテムのバンドル𝑆にういての入札𝑏𝑖,𝑠をおこなう
• 割当も同様に,バンドルごとに実施
• bidderごとの割当確率の和は最大1
• バンドル中のアイテムが割当てられる
確率は最大1
• アイテムごと・bidderごとに
ソフトマックスで和が1になるように
• 最小のものを出力とする
9訓練方法
制約付き最適化問題を解くため,
拡張ラグランジュ法を採用
十分なステップ数の後,下式を最小化
するものが解
解きたい問題
𝜆はラグランジュ乗数
𝜌はペナルティ項の重み
最適な虚偽申告の
値を計算
オークションのパラメータ更新
一定ステップごとに
ラグランジュ乗数を更新
10実験
最適解が知られているオークションが再現できるか・解析的な解が知られていないオークショ
ンを発見できるかの2点を確かめる実験
実験設定
• Tensorflow, NVIDIA GPU
• Glorotの一様初期化(Glorot & Bengio 2010), 活性化関数:tanh
• 訓練時には640,000,テスト時には10000の価値の組み合わせを利用
• 分布からのサンプリングであって,実データではない
• 拡張ラグランジュ法は最大80epoch
• ペナルティ項の重み𝜌は初期値1で2epochごとにインクリメント
• オークションパラメータの更新はAdam(lr=0.001)でミニバッチごとに
• 虚偽申告を求める際にはAdam(lr=0.1)で25回更新
• ラグランジュ乗数の更新は100ミニバッチに一回
11単一bidderの場合
2つの解析的解が得られている場合についての適用結果を比較
(Ⅰ)Manelli & Vincent (2006): 単一bidder,2アイテム,加法的価値,価値分布𝑈[0,1]
(Ⅱ)Pavlov(2011): 単一bidder,2アイテム,単一需要,価値分布𝑈[2,3]
テストデータでの収入とregret
• 最適解に非常に近い収入を
わずかなregretで達成
• regretが小さいが非ゼロであることで
収入が解析解よりも高いことも
ルールの可視化:点線が最適解の場合の割当確率の境界
色がついているところが今回手法で出力した割当ルール
12学習の経過
(Ⅰ)の場合の学習経過
収入の変化 regretの変化
解法では収入を初期はイテレーション,その後でリグレットに焦点を当てて
ラグランジュ乗数を適応させている.
13複数bidderの場合
Sandholm & Likhodedov(2015)の結果と比較
(Ⅲ) 2bidder,加法的価値,2アイテム,価値分布𝑈[0,1]
テストデータでの収入とregret
• 微小のregretで収入が改善している
• 単一bidderのときの改善幅は非常に
小さかったので,これはregretに
非ゼロを許容したからではない
14スケール
サイズの大きい場合でも有効なのかを実験
(隠れ層数,ノード数/層)ごとの結果
ベースラインとの比較
• (Ⅵ)について,隠れ層数5,
ノード数/層100の
ネットワークが最良の結果
• ベースラインと比較しても
大きい収入を達成している
15LPベースのアプローチとの比較
自動メカニズムデザインの従来手法であるLPベースのアプローチと比較
あまりサイズが大きいとLPベースの手法が動かないので,
2bidder(additive),3アイテムの場合で実験
• LPのソルバはGurobi(商用)
• アイテムごとに価値は5つのbinで離散化:105
変数,4 × 106
制約
• LPは離散化の影響でIR違反の度合いが大きい
• 一週間以上かかる,より細かい離散化では実験できなかった
• RegretNetは短い時間(9時間)で,IRの違反も出ない
• IRが0なのはニューラルネットワークの設計による
テストセットに対する結果
16結論
• ニューラルネットワークを用いた最適オークション設計の方法を示した
• 解析解を再現でき,従来の計算的に求められた解よりも性能のいい解
が発見可能
• 従来のLPベースのアプローチよりも大きい問題を扱える

More Related Content

PDF
基礎からのベイズ統計学第5章
PDF
続わかりやすいパターン認識11章(11.1 - 11.4)
PDF
プログラミングコンテストでの乱択アルゴリズム
PDF
大規模凸最適化問題に対する勾配法
PDF
直前合宿 講義スライド
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
PDF
Chapter 8 ボルツマンマシン - 深層学習本読み会
PPTX
AtCoder Regular Contest 001
基礎からのベイズ統計学第5章
続わかりやすいパターン認識11章(11.1 - 11.4)
プログラミングコンテストでの乱択アルゴリズム
大規模凸最適化問題に対する勾配法
直前合宿 講義スライド
計算論的学習理論入門 -PAC学習とかVC次元とか-
Chapter 8 ボルツマンマシン - 深層学習本読み会
AtCoder Regular Contest 001

What's hot (20)

PDF
自動微分変分ベイズ法の紹介
PPTX
金融時系列のための深層t過程回帰モデル
PPTX
劣モジュラ最適化と機械学習 2.4節
PDF
Divisor
PDF
機械学習におけるオンライン確率的最適化の理論
PDF
カップルが一緒にお風呂に入る割合をベイズ推定してみた
PDF
ベイズ統計入門
PDF
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
PDF
双対性
PDF
ベイズ推論とシミュレーション法の基礎
PDF
アルゴリズムのイメージを擬人化する
PDF
カーネル法:正定値カーネルの理論
PDF
Stanとdlmによる状態空間モデル
PPTX
ハミルトニアンモンテカルロ法についての説明
PDF
CF-FinML 金融時系列予測のための機械学習
PDF
[DL輪読会]GANとエネルギーベースモデル
PDF
FHE in Action
PDF
実践・最強最速のアルゴリズム勉強会 第五回講義資料(ワークスアプリケーションズ & AtCoder)
自動微分変分ベイズ法の紹介
金融時系列のための深層t過程回帰モデル
劣モジュラ最適化と機械学習 2.4節
Divisor
機械学習におけるオンライン確率的最適化の理論
カップルが一緒にお風呂に入る割合をベイズ推定してみた
ベイズ統計入門
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
双対性
ベイズ推論とシミュレーション法の基礎
アルゴリズムのイメージを擬人化する
カーネル法:正定値カーネルの理論
Stanとdlmによる状態空間モデル
ハミルトニアンモンテカルロ法についての説明
CF-FinML 金融時系列予測のための機械学習
[DL輪読会]GANとエネルギーベースモデル
FHE in Action
実践・最強最速のアルゴリズム勉強会 第五回講義資料(ワークスアプリケーションズ & AtCoder)
Ad

Similar to Optimal auction through Deep Learning (20)

PDF
Probably approximately efficient combinatorial auctions via machine learning
PPTX
WWW2014勉強会発表
PPTX
論文紹介 "budget constrained bidding by model free reinforcement learning in dis...
PDF
20130527 mechanism design
PDF
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
PDF
強化学習の実適用に向けた課題と工夫
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PPTX
全脳アーキテクチャ若手の会 強化学習
PDF
Real time bidding algorithms for performance-based display ad allocation
PDF
Shimodaira_20150701
PDF
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
PDF
公平性を保証したAI/機械学習
アルゴリズムの最新理論
PPTX
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
PPTX
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
PDF
Joint optimization of bid and budget allocation in sponsored search
PPTX
DNNの曖昧性に関する研究動向
PPTX
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
PDF
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Probably approximately efficient combinatorial auctions via machine learning
WWW2014勉強会発表
論文紹介 "budget constrained bidding by model free reinforcement learning in dis...
20130527 mechanism design
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
強化学習の実適用に向けた課題と工夫
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
全脳アーキテクチャ若手の会 強化学習
Real time bidding algorithms for performance-based display ad allocation
Shimodaira_20150701
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
公平性を保証したAI/機械学習
アルゴリズムの最新理論
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Joint optimization of bid and budget allocation in sponsored search
DNNの曖昧性に関する研究動向
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

Optimal auction through Deep Learning