Gunosyにおける
畳み込みニューラルネットワークを応用した
デモグラフィックの推定について
WebDB Forum 2016
工藤 啓朗(Gunosy Inc.)
2016/09/14
工藤 啓朗(くどう ひろあき)@Hmj_kd
株式会社 Gunosy データ分析部
● 北海道釧路市出身
● 高専 : 釧路高専 情報工学科
● 大学 : 物理学科
○ ブラックホール,Inflation 宇宙論
● 現職 : 2016/02 Gunosy入社
○ 記事配信アルゴリズムの改善,データ分析
自己紹介
Gunosy inc. 2
サマリー
1. ユーザの行動ログのデータを利用して年齢を推定
2. 理論的というよりも,実務的な試行錯誤についての共有
3. 畳み込みニューラルネットワーク(以下,CNN)を画像以外に応用
4. 精度など,いくつかの具体的な数値について,諸事情で公表できません.ご了承く
ださい
Gunosy inc. 3
アジェンダ
1. 自己紹介
2. Gunosy の紹介
3. ユーザのデモグラフィック推定の背景
4. モデル紹介
5. まとめと今後の課題
Gunosy inc. 4
Gunosy の紹介
Gunosy inc.
Gunosyは 情報キュレーションサービス「グノシー」と
2016年6月1日にKDDI株式会社と共同でリリースした
無料ニュース配信アプリ「ニュースパス」を提供する
会社です。「情報を世界中の人に最適に届ける」を
ビジョンに活動しています。
200媒体以上のニュースソースをベースに、
新たに開発した情報解析・配信技術を用いて自動的に
選定したニュースや情報をユーザーに届けます。
ネット上に存在するさまざまな情報を、
独自のアルゴリズムで収集、評価付けを行い
ユーザーに届けます。
5
ユーザのデモグラフィック推定の背景
現状
Gunosy ではユーザのデモグラフィック(主に,性別や年齢)はわからない
一部のユーザでは,占いサービスなどによりその情報を得ることができる
理想
ユーザのデモグラフィックが分かると,
デモグラ層毎に記事リストや広告を配信することができるようになる
より最適な情報の提供ができ,ユーザ体験の向上を望むことができる
Gunosy inc. 6
ユーザの年齢を知るには...
Gunosy inc.
1. 直接ユーザにきく
a. 入力ストレスなどでサービスから離脱してしまう恐れもある
b. 全ユーザが入力してくれるわけではない
c. → 上記を考慮して現時点では行わないという判断
2. 何かしらの手法で推定する
a. ユーザが読んだ記事情報をもとに年齢を推定できないか ?
b. 占いサービスの誕生日から計算して,正解データとして使用できるのではない
か ?
7
クラス数
年齢を ~19歳,20~24歳,などの層に分けて,
全体で6つのクラスにわけて,多クラス分類問題とした
評価設定
10-fold cross-validation で
得られた Accuracy の平均にて評価した
年齢推定の問題設定
Gunosy inc. 8
年齢推定のデータセットについて
対象ユーザは,集計期間中で記事の閲覧数が10以上のユーザ
データセットの作成手順は,次の通り
1. 各ユーザが読んだ記事のIDのリストを用意
2. 記事IDを「単語」とみたてて辞書を作成
3. tf-idf で重み付けをする
4. 潜在意味インデキシング(Latent Semantic Indexing, 以下 LSI)でN次元に圧縮され
たベクトルを作成
Gunosy inc. 9
最初の推定
使用したモデル等
- モデル : SVM,Random Forest,Neural Network(以下,NN)
- 使用したライブラリ : scikit-learn
- 教師データ数 : 数万件(各クラス同じ程度になるようにした)
- 精度 : 満足いく精度ではなかった
その後の調査
NN のほうが,50代を10代と予測するような極端な間違い方が減った
NN の系統でいくとうまくいくのではないか ?
Gunosy inc. 10
CNN の応用へ
1. CNN を利用しようとした理由
2. CNN を応用する実験
a. 実験内容
b. 気づき
3. 自然言語処理で応用されているCNN を応用してNNモデルよりも +10 pt
4. CNN のモデル平均でさらに +10 pt
※ 自然言語処理で応用されているCNNを,以降 CNN for NLP と略します
Gunosy inc. 11
CNN の応用へ
1. CNN を利用しようとした理由
2. CNN を応用する実験
a. 実験内容
b. 気づき
3. CNN for NLP を応用してNNモデルよりも +10 pt
4. CNN のモデル平均でさらに +10 pt
Gunosy inc. 12
CNN を利用しようと思った理由
- 年齢毎に生活パターンに差異があると考えた
- ユーザ毎に集計,画像化して,画像認識問題と考え
て CNN を適用した
- しかし,NNを超える精度はでなかった
- 記事の閲覧ログにCNNを適用することを考えた
Gunosy inc.
縦軸 : 曜日,横軸 : 時間,値 : 起動数
13
CNN の応用へ
1. CNN を利用しようとした理由
2. CNN を応用する実験
a. 実験内容
b. 気づき
3. CNN for NLP を応用してNNモデルよりも +10 pt
4. CNN のモデル平均でさらに +10 pt
Gunosy inc. 14
LSI による次元圧縮後のベクトルを画像にみたてて,CNNを適用
記事の閲覧ログに CNN を応用する実験
Gunosy inc.
. . . . . . . . . . . . ← 28 × 28 = 784次元ベクトル
28 個
1段目へ
28 個
2段目へ
Conv
Layer
Pool
Layer
Conv
Layer
Pool
Layer
FC
Layer
15
記事の閲覧ログに CNN を応用する実験
実験環境
- AWS g2.2xlarge
- Chainer
精度
- 前述のNNと比較して低かったですが,いくつかの気づきがあった
Gunosy inc. 16
CNNを応用する実験 ~ 気づき1
CNNのパラメータをいくつか変更して実験
- フィルタの大きさ
- フィルタの数
- フィルタの形状
- 入力画像の前処理の有無
- 新たな Conv Layer の挿入
横長のフィルタにすると平均の精度向上
Gunosy inc. 17
CNN(CPCP型)の上位層と下位層の特徴の違いからの気づき
- 下位層の学習が初期化されたほうが,推定の精度が著しく落ちる
- 下位層がタスク依存の特徴を抽出しているが
- フィルタ形状によって各クラス毎の分類精度は異なる
異なるフィルタによる結果を合併できれば精度があがるのでは ?
CNNを応用する実験 ~ 気づき2
Gunosy inc. 18
学習後のフィルタのパラメータに乱数を加えて学習を初
期化する,ということを何度か繰り返し,そのモデルで
の推定結果がどうなるかを調べた
CNN の応用へ
1. CNN を利用しようとした理由
2. CNN を応用する実験
a. 実験内容
b. 気づき
3. CNN for NLP を応用してNNモデルよりも +10 pt
4. CNN のモデル平均でさらに +10 pt
Gunosy inc. 19
CNN for NLP(Natural Language Processing, 自然言語処理 )
前述の結果からいくつか横型のフィルタを組み合わせたい
CNN for NLP が適用できると考えた
参考 : https://arxiv.org/pdf/1510.03820v4.pdf
Gunosy inc. 20
6つに分類
CNN for NLP を応用
入力データ
各フィルタの形状
縦 : (2, 4, 8),横 : 28
活性化関数
特徴マップを生成
Max
Pooling
結合する
Softmax
Gunosy inc. 21
畳み込み
CNN for NLP の結果
これで NNモデルの精度に
+ 10pt となりました
Gunosy inc. 22
CNN の応用へ
1. CNN を利用しようとした理由
2. CNN を応用する実験
a. 実験内容
b. 気づき
3. CNN for NLP を応用してNNモデルよりも +10 pt
4. CNN のモデル平均でさらに +10 pt
Gunosy inc. 23
入力データへの加工 1
LSI 後のベクトルは左上から高い数字となっている
- 左上の topic のほうがより重要度の高い特徴
- 左上から真ん中によせるような変換をすれば精度は
向上するのではないか ?
精度向上 + 2~3pt
Gunosy inc. 24
入力データへの加工 2
1. LSI 後の次元圧縮されたベクトルの各topic毎に
最大値,最小値,50%点などの統計的な数値を
可視化
2. 各topic毎に,そのtopicの25%点以下の値はノ
イズとみなして,除去するような変換をして,精
度向上
精度向上 + 2~3 pt
Gunosy inc.
縦軸: 最大値と最小値,
横軸がtopic k
縦軸: 75%, 50%, 25%点,
横軸がtopic k
25
推定に対する頑健性がほしい
モデル平均で精度アップと頑健さをアップさせたい
Gunosy inc.
CNN
26
モデル平均
Gunosy inc.
特徴マップを
生成 Max
Pooling
CNN
CNN
CNN
パラメータやフィルタ形状が異なる
CNNをいくつか用意します
27
6つに分類結合する
入力データ
CNN for NLP のモデル平均の結果
これで NNモデルの精度に
+ 20pt となりました
Gunosy inc. 28
まとめと今後の課題
1. 畳み込みニューラルネットワークをユーザの行動ログに適用することで,年齢推定
を既存手法よりも高い精度で行えるようになった
2. 精度をより向上させて,記事配信ロジックの改善につなげたい
a. ユーザがアプリを利用した時間帯の素性を再度挑戦したい
b. ユーザにより最適な情報が届くようにしたい
Gunosy inc. 29
ご清聴ありがとうございました !!

More Related Content

PDF
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
PDF
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PDF
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
PPTX
第14回 KAIM M5StickV(K210)をDNNアクセラレータとして使おうとした試み
PDF
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
PPTX
【2017年】ディープラーニングのフレームワーク比較
PDF
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
PDF
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
KubeCon 2021 NA Recap - Scheduler拡張事例最前線 / Kubernetes Meetup Tokyo #47 / #k8sjp
第14回 KAIM M5StickV(K210)をDNNアクセラレータとして使おうとした試み
How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / C...
【2017年】ディープラーニングのフレームワーク比較
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)

What's hot (19)

PPTX
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
PPTX
気象予報データ(数値予報GPV)を用いた データビジュアライゼーション
PPTX
農業AIハッカソンマイクロソフト様発表資料
PDF
ディープラーニングイメージで構築する快適・高速な機械学習環境
PDF
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
PPTX
強化学習 DQNからPPOまで
PDF
使ってみませんか?pg hint_plan
PDF
Cloud operator days tokyo 2020講演資料_少人数チームでの機械学習製品の効率的な開発と運用
PDF
Deep Learningハンズオン勉強会「Caffeで画像分類を試してみようの会」
PDF
ディープラーニング最新動向と技術情報
PPTX
Dynamic Routing Between Capsules
PDF
Azure Data Explorer
PPTX
機械学習 / Deep Learning 大全 (5) Tool編
PPTX
Jupyter Notebookでscikit-learnを使った機械学習・画像処理の基本
PPTX
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
PPTX
Interop2017
PPTX
NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
PPTX
CNNの構造最適化手法について
PPTX
今更聞けないストリーム処理のあれとかこれ
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
気象予報データ(数値予報GPV)を用いた データビジュアライゼーション
農業AIハッカソンマイクロソフト様発表資料
ディープラーニングイメージで構築する快適・高速な機械学習環境
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
強化学習 DQNからPPOまで
使ってみませんか?pg hint_plan
Cloud operator days tokyo 2020講演資料_少人数チームでの機械学習製品の効率的な開発と運用
Deep Learningハンズオン勉強会「Caffeで画像分類を試してみようの会」
ディープラーニング最新動向と技術情報
Dynamic Routing Between Capsules
Azure Data Explorer
機械学習 / Deep Learning 大全 (5) Tool編
Jupyter Notebookでscikit-learnを使った機械学習・画像処理の基本
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Interop2017
NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection
CNNの構造最適化手法について
今更聞けないストリーム処理のあれとかこれ
Ad

Viewers also liked (19)

PDF
Which Is Deeper - Comparison Of Deep Learning Frameworks On Spark
PDF
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
PDF
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
PDF
いまさら聞けない機械学習の評価指標
PDF
機械学習のデータ並列処理@第7回BDI研究会
PDF
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
PDF
Gunosyデータマイニング研究会 #118 これからの強化学習
PDF
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
PPTX
A/B Testing at Pinterest: Building a Culture of Experimentation
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
PDF
爆速クエリエンジン”Presto”を使いたくなる話
PDF
記事分類における教師データおよびモデルの管理
PDF
論文紹介@ Gunosyデータマイニング研究会 #97
PDF
マイクロサービスとABテスト
PDF
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
PDF
実践多クラス分類 Kaggle Ottoから学んだこと
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Which Is Deeper - Comparison Of Deep Learning Frameworks On Spark
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
いまさら聞けない機械学習の評価指標
機械学習のデータ並列処理@第7回BDI研究会
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
Gunosyデータマイニング研究会 #118 これからの強化学習
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
A/B Testing at Pinterest: Building a Culture of Experimentation
Apache Kudu - Updatable Analytical Storage #rakutentech
#cwt2016 Apache Kudu 構成とテーブル設計
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
爆速クエリエンジン”Presto”を使いたくなる話
記事分類における教師データおよびモデルの管理
論文紹介@ Gunosyデータマイニング研究会 #97
マイクロサービスとABテスト
Gunosy における AWS 上での自然言語処理・機械学習の活用事例
実践多クラス分類 Kaggle Ottoから学んだこと
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Ad

Similar to WebDB Forum 2016 gunosy (20)

PPTX
CNNチュートリアル
PDF
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
PPTX
Image net classification with Deep Convolutional Neural Networks
PDF
画像認識のための深層学習
PDF
DeepLearningDay2016Summer
PDF
Learning Convolutional Neural Networks for Graphs
PDF
Learning Convolutional Neural Networks for Graphs
PDF
SAS ViyaのCNNを活用したProcess Innovation ~機械は解析図表をどう見ているのか~
PDF
拡がるディープラーニングの活用
PDF
IEEE ITSS Nagoya Chapter
PPTX
What deeplearning
PDF
(2021年8月版)深層学習によるImage Classificaitonの発展
PDF
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
PDF
深層学習 - 画像認識のための深層学習 ①
PDF
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
PDF
リクルートにおける画像解析事例紹介
PDF
Tutorial-DeepLearning-PCSJ-IMPS2016
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
PPTX
TensorFlowとCNTK
PPTX
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク
CNNチュートリアル
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
Image net classification with Deep Convolutional Neural Networks
画像認識のための深層学習
DeepLearningDay2016Summer
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
SAS ViyaのCNNを活用したProcess Innovation ~機械は解析図表をどう見ているのか~
拡がるディープラーニングの活用
IEEE ITSS Nagoya Chapter
What deeplearning
(2021年8月版)深層学習によるImage Classificaitonの発展
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
深層学習 - 画像認識のための深層学習 ①
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
リクルートにおける画像解析事例紹介
Tutorial-DeepLearning-PCSJ-IMPS2016
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
TensorFlowとCNTK
PRML 5.5.6-5.6 畳み込みネットワーク(CNN)・ソフト重み共有・混合密度ネットワーク

WebDB Forum 2016 gunosy