SlideShare a Scribd company logo
データサイエンスを支える基盤と
そのテクノロジー
ヤフー株式会社
データ&サイエンスソリューション統括本部
データインフラ本部 開発1部 部長
小林 直哉
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データ で
79%
Yahoo! JAPAN利用率79%
ニールセン2014年 日本のインターネットサービス利用者数ランキングを発表~ Nielsen NetView 家庭および職場のPCからの利用
インターネット利用者総数5200万人のうち、
79%の皆様がヤフーを利用
2億7000万以上
アプリ累計ダウンロード数
“Yahoo! JAPAN”、“天気”、“防災速報”,”乗換案内”、
“カーナビ”など、ランキング1位獲得アプリも多数
事業領域
マーケティング
ソリューション事業
3,042億円
69.4%
コンシューマ事業
1,020億円
23.2%
%
その他
323億円
7.4%
2014年度通期および第4四半期決算より
18期連続増収増益
18
15
16
17
サービス開始以来、18期連続で増収増益を達成
2014年度の売上高は4284億円、営業利益は1972億円
2014年度通期および第4四半期決算より
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
ヤフーのビッグデータ?
サービス数
メディア、コマース、エンターテインメント、コミュニケー
ション、金融・決済など、幅広い分野でサービスを展開
100以上
100以上のデータバラエティ
検索キーワード、ビュー/クリック、コンテンツ、購買情報、
ツイートなど、多様なデータを活用可能
100以上
膨大なデータボリューム
月間649億ページビュー
1日8,300万ユニークブラウザ
649億PV
約50,000アクセス
in 1sec
Variety
Volume
Velocity
ヤフーはビッグデータカンパニー
Variety
Volume
Velocity
Yahoo! JAPANはインターネット複合企業
Media
JP
US
Search C2C EC B2C EC
ニュース 検索
Answer
知恵袋
Media
JP
US
Search C2C EC B2C EC
ニュース 検索
Answer
知恵袋
日本市場No.1のサービスを保有している
Media
JP
US
Search C2C EC B2C EC
ニュース 検索
Answer
知恵袋
Yahoo! JAPAN IDで連結されている
100以上のサービス・ビジネスデータと連結
ヤフーは多数のビッグデータを抱えた
マルチビッグデータカンパニー
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
あなたへのおすすめ
検索キーワード入力補助
言葉の一部を入力すると、
残りのワードをサジェストする
おすすめ商品をレコメンド
検索結果の最適化
広告表示の最適化
自動画像クロッピング
画像処理で人物の顔を
自動的にクロッピングする
適用前 適用後
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
データ分析基盤とそのテクノロジー
① データパイプライン環境
② データ処理環境
基盤:データパイプライン環境
多種多様な大量のデータを収集できる
収集データサイズ
約125TB/日
独自パイプライン
システム
基盤:データ処理環境
多種多様な大量のデータを格納し処理できる
6,000台の処理環境
(最大クラスタは3,000台)
独自パイプライン
システム
基盤:データ分析基盤の活用
多種多様な大量のデータを活用できる
広告配信
ターゲティング
アドホック
予測モデル
独自パイプライン
システム
 多種多様な大量のデータを収集できる
データパイプライン環境がある
 多種多様な大量のデータを格納し処理できる
データ分析環境がある
データ分析基盤とそのテクノロジー
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
広告最適化における分析基盤利用の実例
① デモグラフィック推定
② クリック予測モデル作成
広告最適化における分析基盤利用の実例
① デモグラフィック推定
② クリック予測モデル作成
広告最適化:デモグラフィック推定概要
デモグラフィック推定で対象を増やす
男性には男性向けの広告
女性には女性向けの広告
ログインのみ ログイン+推定
広告最適化:デモグラフィック推定概要
行動履歴から性別を推定する
乳液(検索キーワードログ)
Yahoo! BEAUTY(アクセスログ)
広告最適化:デモグラフィック推定概要
推定結果から広告を配信する
乳液(検索キーワードログ)
Yahoo! BEAUTY(アクセスログ)
女性向け広告を配信
推定
広告最適化:デモグラフィック推定概要
収集データを分析基盤で学習し推定する
検索ログ
アクセスログ
(URL・ドメイン)
等
広告配信サーバ
機械学習
推定結果
広告最適化における分析基盤利用の実例
① デモグラフィック推定
② クリック予測モデル作成
広告最適化:クリック予測概要
データを収集する
乳液(検索キーワードログ)
一眼レフ(検索キーワードログ)
Yahoo! BEAUTY(アクセスログ)
ショッピングのカメラカテゴリ(アクセスログ)
女性向けカメラの広告
女性向けゲームの広告
女性向け旅行の広告
広告
入稿
広告最適化:クリック予測概要
クリック予測結果から最適な広告を配信する
乳液(検索キーワードログ)
一眼レフ(検索キーワードログ)
Yahoo! BEAUTY(アクセスログ)
ショッピングのカメラカテゴリ(アクセスログ)
クリック
予測
女性向け
カメラの広告を配信
女性向けカメラの広告
女性向けゲームの広告
女性向け旅行の広告
広告
入稿
広告最適化:クリック予測概要
分析基盤で学習したクリック予測結果に基づき配信する
広告配信ログ
広告クリックログ
配信広告タイトル
広告配信ページクロールデータ
広告配信サーバ
データ結合&整形
クリックした
(100%)
クリックされない
(サンプリング)
機械学習
数百GBのメモリを積んだ
モンスターマシンで学習
モデル
乳液(検索キーワードログ)
一眼レフ(検索キーワードログ)
Yahoo! BEAUTY(アクセスログ)
ショッピングのカメラカテゴリ(アクセスログ)
アジェンダ
1. Yahoo! JAPAN のご紹介
2. マルチビッグデータ
3. データサイエンスのビジネス活用事例
4. データ分析基盤とそのテクノロジー
5. 広告最適化における分析基盤利用の実例
6. 進化するデータ分析基盤
 大量のデータを扱える
スマホアプリ・位置情報・IoT・オフラインデータ
 高速に処理できる
長期間・組み合わせ・DeepLearning(画像・音声解析)
 高効率である
サーバ・ネットワーク・場所・電力・運用
 新しい取り組みをすぐに試せる
新しいデータ・新しいOSS・新しいアルゴリズム
進化:データ分析環境で大事なこと
進化:課題は進化のスピード
 データと処理量は指数関数的に増加
CPU・メモリ・HDD・ネットワークの進化では間に合わない
 新しいデータ分析技術の開発が活発化
独自技術の開発では間に合わない
進化を加速させる必要がある
進化:基盤の進化を加速させる
クローズドからオープンへ
試行錯誤を高速に繰り返す
と 技術提携
進化:基盤の進化を加速させる
OSS共同研究開発への投資
 多種多様なデータを収集する技術(構築)
クローズドな独自パイプラインからオープンなKafkaへ
• OSS開発サイクルによる早い機能追加
• オープンなインタフェースによる高い接続性と拡張性
進化:大量のデータを扱える技術の開発
HDFS Erasure Code Storage データ保存効率を向上させる技術(開発)
誤り訂正符号による高い冗長性と保存効率の向上
• 信頼性が向上(2-冗長 → 3-冗長)
• 保存効率が向上(元データの3倍 → 1.5倍)
LLAP - long-lived execution in Hive
 多様なデータを高速に処理する技術(検証)
GPUクラスタによりさらに高速にデータを処理
シングルGPU(既利用)からマルチGPU・マルチGPUサーバへ
• 画像・音声データ等の高コストデータの処理
• 機械学習
• Deep Learning
 データ処理効率を向上させる技術(開発)
HiveクエリをFragmentに分けて常駐プロセスで処理
• 起動時間の短縮
• データのキャッシュ
• 最適化効果の向上
進化:高速に処理できる技術の開発
進化:高効率な技術の導入
 効率を追求したハードウェア技術(導入)
オープンなハードウェアによる高効率な処理環境
OCP(Open Compute Project)
• サーバ費用の削減
• 消費電力の削減
• 設置スペースの削減
• 現地作業時間の削減
• データ移行コストの削減
 リサーチ環境(設計)
本番のデータで新しい取り組みをすぐに試せる環境
進化:新しい取り組みを試せる環境の提供
本番環
境
リサーチ環境
効果をすぐに確認できる
問題を事前に把握できる
10% クラスタ規模
10% データ送信
100% ジョブ投入
新しいデータ
最新のバージョン
新しいOSS
新しいアルゴリズム
等の導入が早まる(はず)
最新のバージョンテスト
新しい改善の投入
新しい取り組みの投入
本番環境は安定運用が最優
先
 マルチビッグデータがある
 ビジネスにデータサイエンスを活用している
 データサイエンスを支えるデータ分析基盤がある
 データ分析基盤は進化している
チャレンジできる環境がある
まとめ
データ で
ご清聴ありがとうございました

More Related Content

PDF
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
PDF
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
PDF
Google big query × Amazon redshift
PDF
データにまつわるWeb業界の仕事について
PDF
データファースト開発
PDF
MapR Hadoop M7 in CyberAgent AdTech Studio
PPTX
F.O.Xを支える技術
PDF
広告におけるビッグデータの分析事例
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
Google big query × Amazon redshift
データにまつわるWeb業界の仕事について
データファースト開発
MapR Hadoop M7 in CyberAgent AdTech Studio
F.O.Xを支える技術
広告におけるビッグデータの分析事例

What's hot (20)

PPTX
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
PDF
AbemaTV Developer Conference 2016
PDF
10分でわかるサイバーエージェント広告部門のハイブリッドクラウド環境 公開用
PDF
Business Innovation cases driven by AI and BigData technologies
PDF
グリーのセキュリティ戦略:組織改革成功の秘訣と新たな課題への取り組み
PPTX
ハイブリッドクラウドで変わるインフラストラクチャ設計
PDF
行ってみよう、やってみよう!
PPTX
niconicoにおける継続的なデータ活用のためのHadoop運用事例
PPTX
グリーにおけるAWS移行の必然性
PPTX
DataEngConf NYC’18 セッションサマリー #1
PDF
[Japan Tech summit 2017] CLD 022
PDF
[社内勉強会]エンジニアな僕の情報収集法
PDF
All about 開発本部infra部 TASKs
PDF
"フルスタック"セキュリティ
PPTX
第一回☆GREE AI Programming ContestでTensorFlow
PPTX
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
PDF
[Observability conference 2022/3/11] NewsPicks のプロダクト開発エンジニアが実践するスキルとしての SRE
PDF
[Japan Tech summit 2017] PRD 003
PDF
自治体Web service 021114
PDF
インフラエンジニアの楽しい標準化活動
クラウドの積極的利活用による生産性向上と経営に寄与する仕組みづくり
AbemaTV Developer Conference 2016
10分でわかるサイバーエージェント広告部門のハイブリッドクラウド環境 公開用
Business Innovation cases driven by AI and BigData technologies
グリーのセキュリティ戦略:組織改革成功の秘訣と新たな課題への取り組み
ハイブリッドクラウドで変わるインフラストラクチャ設計
行ってみよう、やってみよう!
niconicoにおける継続的なデータ活用のためのHadoop運用事例
グリーにおけるAWS移行の必然性
DataEngConf NYC’18 セッションサマリー #1
[Japan Tech summit 2017] CLD 022
[社内勉強会]エンジニアな僕の情報収集法
All about 開発本部infra部 TASKs
"フルスタック"セキュリティ
第一回☆GREE AI Programming ContestでTensorFlow
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
[Observability conference 2022/3/11] NewsPicks のプロダクト開発エンジニアが実践するスキルとしての SRE
[Japan Tech summit 2017] PRD 003
自治体Web service 021114
インフラエンジニアの楽しい標準化活動
Ad

Viewers also liked (20)

PDF
アクセス解析サミット2011「データドリブンなチームを目指せ」
PDF
とにかくシュッと検索っぽいことをしたい!
PDF
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
PDF
IoTの世界でデータサイエンスしよう (IBM Datapalooza Tokyo 講演資料)
PDF
自律連合型基盤システムの構築
PPTX
ディスカバリー・ツールとは?
PDF
デブサミ関西2013 「ソーシャルゲームのデータサイエンス」
PDF
Jubatusが目指すインテリジェンス基盤
PPT
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
PDF
【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
PDF
社内外のデータを徹底的に活用する!
PDF
前処理のための前処理(Tokyo.R#45)
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PPTX
てかLINEやってる? (Japan.R 2016 LT) #JapanR
PDF
スキルアップハウス『x-garden桜台』コンセプト資料
PDF
情報抽出入門 〜非構造化データを構造化させる技術〜
PDF
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
PPTX
Kafkaを活用するためのストリーム処理の基本
PDF
星野「調査観察データの統計科学」第1&2章
PDF
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
アクセス解析サミット2011「データドリブンなチームを目指せ」
とにかくシュッと検索っぽいことをしたい!
スキーマつきストリーム データ処理基盤、 Confluent Platformとは?
IoTの世界でデータサイエンスしよう (IBM Datapalooza Tokyo 講演資料)
自律連合型基盤システムの構築
ディスカバリー・ツールとは?
デブサミ関西2013 「ソーシャルゲームのデータサイエンス」
Jubatusが目指すインテリジェンス基盤
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
【IMJ】パネルディスカッション|顧客ロイヤルティ施策とデータドリブンマーケティング(I・CON2014)
社内外のデータを徹底的に活用する!
前処理のための前処理(Tokyo.R#45)
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
てかLINEやってる? (Japan.R 2016 LT) #JapanR
スキルアップハウス『x-garden桜台』コンセプト資料
情報抽出入門 〜非構造化データを構造化させる技術〜
機械学習するな機会学習しろ - データサイエンスLT祭り 2夜目
Kafkaを活用するためのストリーム処理の基本
星野「調査観察データの統計科学」第1&2章
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
Ad

Similar to データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015 (20)

PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
PPTX
CIVIC TECH FORUM_20170325 Local Gov Tech
PDF
基調講演:「多様化する情報を支える技術」/西川徹
PDF
避けては通れないビッグデータ周辺の重要課題
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC
PDF
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
PDF
「Data Infrastructure at Scale 」#yjdsw4
PPTX
サイエンス視点からのデータアーキテクト
PDF
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
PDF
マルチビッグデータの活用を支える DWHの作り方
PDF
Hadoop~Yahoo! JAPANの活用について~
PDF
IoTデータ活用のフィードバックループ
PDF
ビッグデータ
PDF
tut_pfi_2012
PDF
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
PDF
HCCJP teradata final_20190906
PDF
データ分析基盤について
PPTX
データ利活用を促進するメタデータ
PDF
mlabforum2012_okanohara
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
CIVIC TECH FORUM_20170325 Local Gov Tech
基調講演:「多様化する情報を支える技術」/西川徹
避けては通れないビッグデータ周辺の重要課題
データの見える化で進めるデータドリブンカンパニー #devsumiC
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
「Data Infrastructure at Scale 」#yjdsw4
サイエンス視点からのデータアーキテクト
Investment in Yahoo! JAPAN's dataplatform and business growth by big data
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
マルチビッグデータの活用を支える DWHの作り方
Hadoop~Yahoo! JAPANの活用について~
IoTデータ活用のフィードバックループ
ビッグデータ
tut_pfi_2012
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
HCCJP teradata final_20190906
データ分析基盤について
データ利活用を促進するメタデータ
mlabforum2012_okanohara

More from Yahoo!デベロッパーネットワーク (20)

PDF
ゼロから始める転移学習
PDF
継続的なモデルモニタリングを実現するKubernetes Operator
PDF
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
PDF
オンプレML基盤on Kubernetes パネルディスカッション
PDF
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
PDF
Persistent-memory-native Database High-availability Feature
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
PDF
eコマースと実店舗の相互利益を目指したデザイン #yjtc
PDF
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
PDF
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
PDF
ビッグデータから人々のムードを捉える #yjtc
PDF
サイエンス領域におけるMLOpsの取り組み #yjtc
PDF
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
PDF
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
PDF
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
PDF
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PDF
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc
PDF
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ゼロから始める転移学習
継続的なモデルモニタリングを実現するKubernetes Operator
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
Persistent-memory-native Database High-availability Feature
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
eコマースと実店舗の相互利益を目指したデザイン #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
ビッグデータから人々のムードを捉える #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc

データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015