Upload
Download free for 30 days
Login
Submit Search
Tokyor26 data fusion
13 likes
3,328 views
Yohei Sato
1 of 54
Download now
Downloaded 62 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
More Related Content
PDF
Rで階層ベイズモデル
Yohei Sato
PDF
傾向スコア解析とUplift Modelling
Yohei Sato
PDF
Rでレポートメール
Yohei Sato
PDF
Complex network ws_percolation
Yohei Sato
PDF
Rでピボットテーブル
Yohei Sato
PDF
異常行動検出入門(改)
Yohei Sato
PDF
Uplift Modelling 入門(1)
Yohei Sato
PDF
Tokyowebmining19 data fusion
Yohei Sato
Rで階層ベイズモデル
Yohei Sato
傾向スコア解析とUplift Modelling
Yohei Sato
Rでレポートメール
Yohei Sato
Complex network ws_percolation
Yohei Sato
Rでピボットテーブル
Yohei Sato
異常行動検出入門(改)
Yohei Sato
Uplift Modelling 入門(1)
Yohei Sato
Tokyowebmining19 data fusion
Yohei Sato
What's hot
(8)
PDF
Tokyor24 yokkuns
Yohei Sato
PDF
Tokyor22 selection bias
Yohei Sato
PDF
Japan r2 lt_yokkuns
Yohei Sato
PDF
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
Ono Shigeru
PDF
モデル最適化指標・評価指標の選び方
幹雄 小川
PDF
モデル最適化指標・評価指標の選び方
幹雄 小川
PDF
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
kenichiroyamada
PDF
Tokyo r15 異常検知入門
Yohei Sato
Tokyor24 yokkuns
Yohei Sato
Tokyor22 selection bias
Yohei Sato
Japan r2 lt_yokkuns
Yohei Sato
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 5
Ono Shigeru
モデル最適化指標・評価指標の選び方
幹雄 小川
モデル最適化指標・評価指標の選び方
幹雄 小川
Lilien, G.L. & Rangaswamy, A. (2004) Marketing Engineering: Chapter 6
kenichiroyamada
Tokyo r15 異常検知入門
Yohei Sato
Ad
Viewers also liked
(19)
PDF
第3回Japan rパネルディスカッション
Yohei Sato
PDF
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Yohei Sato
PDF
Sakuteki02 yokkuns
Yohei Sato
PDF
Tokyowebmining09 初めてでも分かるペアトレード
Yohei Sato
PDF
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
PDF
Tokyor42 ggplot2
Yohei Sato
PPTX
Tokyor42_r_datamining_18
Yohei Sato
PDF
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
PDF
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
PDF
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
PDF
時系列分析による異常検知入門
Yohei Sato
PDF
Japan r2 tokyor
Yohei Sato
PDF
Japan r2 opening
Yohei Sato
PDF
Ml4nlp04 1
Yohei Sato
PDF
Japanr01
Yohei Sato
PDF
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Yohei Sato
PDF
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
PDF
Tokyor14 - R言語でユニットテスト
Yohei Sato
PDF
Tokyor39 yokkuns
Yohei Sato
第3回Japan rパネルディスカッション
Yohei Sato
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Yohei Sato
Sakuteki02 yokkuns
Yohei Sato
Tokyowebmining09 初めてでも分かるペアトレード
Yohei Sato
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Yohei Sato
Tokyor42 ggplot2
Yohei Sato
Tokyor42_r_datamining_18
Yohei Sato
異常行動検出入門 – 行動データ時系列のデータマイニング –
Yohei Sato
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Yohei Sato
Tokyo r12 - R言語による回帰分析入門
Yohei Sato
時系列分析による異常検知入門
Yohei Sato
Japan r2 tokyor
Yohei Sato
Japan r2 opening
Yohei Sato
Ml4nlp04 1
Yohei Sato
Japanr01
Yohei Sato
Tokyowebmining07 初めてでも分かるヘッジファンド入門
Yohei Sato
エンジニアサポート新年会2012 データマイニングcross 第1部
Yohei Sato
Tokyor14 - R言語でユニットテスト
Yohei Sato
Tokyor39 yokkuns
Yohei Sato
Ad
Similar to Tokyor26 data fusion
(20)
PDF
おしゃスタat銀座
Issei Kurahashi
PDF
時系列解析の使い方 - TokyoWebMining #17
horihorio
PPTX
ビックデータ戦略
Kengo Nagahashi
PDF
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
PDF
おしゃスタ@リクルート
Issei Kurahashi
PPTX
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
Shintaro Nomura
PPT
Big data解析ビジネス
Mie Mori
PDF
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
PDF
クラウド・モデリング
Tomoharu ASAMI
PDF
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
PDF
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
Yoichi Motomura
PDF
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
Atsushi Nakada
PDF
『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
Koichi Hamada
PDF
[R勉強会][データマイニング] R言語による時系列分析
Koichi Hamada
PDF
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
Koichi Hamada
PDF
【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直
schoowebcampus
PDF
チケット駆動開発の概要と体験談
Makoto SAKAI
PDF
Tokyo webmining発表資料 20111127
kan_yukiko
PDF
(道具としての)データサイエンティストのつかい方
Shohei Hido
PDF
ハンドアウト(配布用資料:佐藤正美)
聡 鳥谷部
おしゃスタat銀座
Issei Kurahashi
時系列解析の使い方 - TokyoWebMining #17
horihorio
ビックデータ戦略
Kengo Nagahashi
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
おしゃスタ@リクルート
Issei Kurahashi
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
Shintaro Nomura
Big data解析ビジネス
Mie Mori
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
クラウド・モデリング
Tomoharu ASAMI
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
Yoichi Motomura
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
Atsushi Nakada
『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011
Koichi Hamada
[R勉強会][データマイニング] R言語による時系列分析
Koichi Hamada
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
Koichi Hamada
【schoo WEB-campus】データ分析、その前にやっておくべきこと 先生:田畑直
schoowebcampus
チケット駆動開発の概要と体験談
Makoto SAKAI
Tokyo webmining発表資料 20111127
kan_yukiko
(道具としての)データサイエンティストのつかい方
Shohei Hido
ハンドアウト(配布用資料:佐藤正美)
聡 鳥谷部
More from Yohei Sato
(7)
PDF
Tokyor60 r data_science_part1
Yohei Sato
PDF
Tokyor60 opening
Yohei Sato
PDF
EasyHtmlReportの紹介
Yohei Sato
PDF
20131206 japan r
Yohei Sato
PDF
Tokyor35 人工データの発生
Yohei Sato
PDF
ドリコムの分析環境とデータサイエンス活用事例
Yohei Sato
PDF
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
Tokyor60 r data_science_part1
Yohei Sato
Tokyor60 opening
Yohei Sato
EasyHtmlReportの紹介
Yohei Sato
20131206 japan r
Yohei Sato
Tokyor35 人工データの発生
Yohei Sato
ドリコムの分析環境とデータサイエンス活用事例
Yohei Sato
R言語で学ぶマーケティング分析 競争ポジショニング戦略
Yohei Sato
Tokyor26 data fusion
1.
R言語で学ぶ
Data Fusion入門 @yokkuns: 里 洋平 yohei0511@gmail.com 2012.09.08 TokyoR26 2012年9月9日日曜日
2.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
3.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
4.
自己紹介
◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データサイエンティスト ◆ 時系列解析や異常検知など 各種方法論を実ビジネスに適用 2012年9月9日日曜日
5.
活動例: 勉強会の主催・執筆
Tokyo.R主催 パッケージ本執筆しました! 2012年9月9日日曜日
6.
活動例: 動画レコメンド
閲覧されている動画の情報を用いておすすめ動画を表示する 2012年9月9日日曜日
7.
活動例: 市場予測
Web上の情報から市場予測 2012年9月9日日曜日
8.
活動例: 異常検知
Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年9月9日日曜日
9.
活動例: 時系列解析と影響分析
TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年9月9日日曜日
10.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
11.
Data Fusionとは
87 2012年9月9日日曜日
12.
Data Fusionとは
異なる複数のデータを 単一のデータに統合することで 87 2012年9月9日日曜日
13.
Data Fusionとは
異なる複数のデータを 単一のデータに統合することで 個別のデータからは得られない 複合的な情報を抽出し 87 2012年9月9日日曜日
14.
Data Fusionとは
異なる複数のデータを 単一のデータに統合することで 個別のデータからは得られない 複合的な情報を抽出し 予測や意思決定を支援する方法論 87 2012年9月9日日曜日
15.
Data Fusionとは
異なる複数のデータを単一のデータに統合し 個別のデータからは得られない、複合的な情報を抽出する データA データB データAとデータBの相関関係 データBで特定の値だったユーザのデータAの値の予測・補完 87 2012年9月9日日曜日
16.
Data Fusionの活用シーン
広告接触のデータと購買履歴のデータ 異なる対象者によるデータである事が多い 購買履歴データ 広告接触データ 2012年9月9日日曜日
17.
Data Fusionの活用シーン
広告接触データでの購買有無 購買データでの広告接触の有無 これらを予測・補完できれば、重要な示唆が得られる 購買履歴データ 広告接触データ ある広告を見たユーザーのうち、ある商品はどれだけ購入されたか どのような広告媒体にどのような情報を載せれば、より購入されるか ・・・ 87 2012年9月9日日曜日
18.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
19.
類似度からのアプローチ
広告媒体への接触やある特性を有する商品の購入は ユーザーの属性に偏りが存在する 広告A 商品A 広告B 商品B 属性が似ている 属性は似てない 2012年9月9日日曜日
20.
類似度からのアプローチ
属性が似ているユーザーは 接触する広告媒体や購入する商品が似ている 広告A 商品A 広告B 商品B 属性が似ている 属性は似てない 87 2012年9月9日日曜日
21.
Matching法
購買履歴データと広告接触データで 属性が似ている人でペアを作り、同一ユーザーと見なす 購買履歴データ 広告接触データ 商品A 広告A 買った 見た 商品A 広告A 買った 見た 2012年9月9日日曜日
22.
Rでの実行方法
MatchingパッケージのMatch関数でペアを抽出し 擬似的なシングルソースデータを作成する 割当変数 共変量 データAのindex データBのindex 87 2012年9月9日日曜日
23.
Matchingの問題点
87 2012年9月9日日曜日
24.
Matchingの問題点
測定誤差などによりバイアスが生じてしまい 推定精度があまり高くない 87 2012年9月9日日曜日
25.
Matchingの問題点
測定誤差などによりバイアスが生じてしまい 推定精度があまり高くない マッチングに利用しない対象者のデータが 無駄になるため、非常に非効率 87 2012年9月9日日曜日
26.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
27.
因子分析モデル
購買有無・広告接触有無・属性 3つの変数の背後に共通の因子を仮定して予測を行う 共通因子 共通因子 購買有無 共変量 広告有無 購買有無 共変量 広告有無 共通因子 購買有無 共変量 広告有無 87 2012年9月9日日曜日
28.
潜在クラスモデル
消費者市場のセグメンテーションと同じ概念 各潜在クラス内では広告接触や購入する商品が似ている 商品Aが2/3 広告Aが2/3 商品Bが1/3 購買履歴データ 広告接触データ 広告Bが1/3 潜在クラスA 潜在クラスA 商品A 広告A 商品B 潜在クラスA 広告A 商品A 広告B 2012年9月9日日曜日
29.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
30.
回帰モデルによる融合
属性データを用いて直接購買の有無をモデリングする 2値変数の場合ロジスティック回帰が使われる 87 2012年9月9日日曜日
31.
Rでの実行方法
一般化線形モデルの関数glmを使って ロジスティック回帰分析を実行して予測する 87 2012年9月9日日曜日
32.
Rでの実行例: 使うデータ
データセットlalondeを2分割してマルチソースデータを作成 NSW受講者の78年賃金有りの割合を予測する 87 2012年9月9日日曜日
33.
Rでの実行例: Data Fusionによる予測
Matchingとロジスティック回帰による Data Fusionの関数を定義 87 2012年9月9日日曜日
34.
Rでの実行例: Data Fusionによる予測
Matchingとロジスティック回帰の2つの手法で予測する サンプリングして100回実行 87 2012年9月9日日曜日
35.
Rによる実行結果
どちらも手法も値が希薄化が起きている バラツキは回帰モデルの方が小さい NSW受講者の78年賃金有りの比率の推定結果 87 2012年9月9日日曜日
36.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
37.
欠測データとしてのData Fusion
購買履歴データと広告接触データは 他方のデータが欠測しているシングルソースデータ 欠測データとしてのData Fusion 購買履歴データ 市場調査データ 購買履歴 購買履歴データ 欠測 広告接触 欠測 広告接触データ 共変量 共通で得られている属性データ 2012年9月9日日曜日
38.
欠測しているデータの予測分布
広告接触データで欠測している購買データの 予測分布を考える 87 2012年9月9日日曜日
39.
Data Fusionの前提条件① :
ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
40.
Data Fusionの前提条件① :
ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
41.
Data Fusionの前提条件① :
ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
42.
Data Fusionの前提条件① :
ランダムな欠測 商品の購入と広告接触データ割当は依存していない 欠測はランダムに発生すると仮定出来る 購買と広告接触データへの割当は 依存していないので除外出来る 87 2012年9月9日日曜日
43.
欠測しているデータの予測分布
ある属性を条件付けた時の 購買有無と広告接触の同時分布が分かれば ある広告に接触した人がどれくらい購買しているかが分かる 87 2012年9月9日日曜日
44.
Data Fusionの前提条件② :
条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 87 2012年9月9日日曜日
45.
Data Fusionの前提条件② :
条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 87 2012年9月9日日曜日
46.
Data Fusionの前提条件② :
条件付き独立性 属性が似ていれば広告接触も似ていると仮定すると 属性を条件づけた購買履歴は広告に依存しない 87 2012年9月9日日曜日
47.
Data Fusionの前提条件が成り立つためには
条件付き独立性の仮定が成り立つためには 属性による購買有無の予測力が十分高い必要がある 87 2012年9月9日日曜日
48.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
49.
混合モデルで説明力を上げる
通常の回帰モデルでは説明力が低い 混合モデルを利用することで説明力を上げる 混合回帰モデルのイメージ 図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 87 2012年9月9日日曜日
50.
ディリクレ過程混合モデル
混合モデルにおいて要素数を事前に決めるのは難しい ディリクレ過程混合モデルは、要素数をデータから決定する 混合回帰モデルとディリクレ過程混合モデル 図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf 87 2012年9月9日日曜日
51.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
52.
参考資料
■調査観察データの統計科学 http://www.amazon.co.jp/dp/4000069721 ■data fusion についてのメモ - BOD http://d.hatena.ne.jp/dichika/20110907/1315359207 ■A Direct Approach to Data Fusion http://www.chicagobooth.edu/research/workshops/marketing/archive/ WorkshopPapers/Rossi.pdf ■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」 http://chasen.org/ daiti-m/paper/ibis2008-npbayes-tutorial.pdf 2012年9月9日日曜日
53.
AGENDA
■ 自己紹介 ■ Data Fusionとは ■ よく使われるデータ融合手法 ◆ Matching ◆ 潜在変数モデリング ◆ 回帰モデル ■ Data Fusionの仕組み ■ セミパラメトリックモデルによる融合 ◆ ディリクレ過程混合モデル ■ 参考資料 2012年9月9日日曜日
54.
次回以降の
発表者を募集しています! 導入セッション・初心者セッションも 絶賛募集中です! 87 2012年9月9日日曜日
Download