SlideShare a Scribd company logo
サイバーエージェントにおける
データの品質管理について
2016 November 8th
CyberAgent, Inc. All Rights Reserved
株式会社 サイバーエージェント
技術本部
田中 克季
Cloudera World Tokyo 2016
タイトル TITLE自己紹介
2
• 株式会社サイバーエージェント
• 基盤系システムエンジニア
• 主担当はデータ分析基盤開発運用やサービスの
分析コンサルや分析システムの導入
名前:田中克季
タイトル TITLEサイバーエージェントの事業
インターネット広告事業 メディア事業 ゲーム事業
広告代理事業
自社広告商品
(アドテク) など
など など
3
タイトル TITLE事業の多様性
4
タイトル TITLE事業の多様性
5
ガチャ回転率
課金・スペンド
…
view数
投稿数
視聴時間
…
新規登録数
DAU
継続率
…
タイトル TITLEデータ分析基盤システム概要
6
• データ分析基盤 (Patriot)
• Flume, HDFS, Hive, HBase
• システム規模 : Hadoopクラスタ 73 node
データ量 : 2PB (レプリケーション含む)
※2016年11月現在
タイトル TITLEデータ分析基盤システム概要
7
• 一昨年はデータ分析基盤でのHBase活用事例に
ついて紹介
http://www.slideshare.net/cyberagent/20141106cwtzenmyonaito-41840992
http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013
• 2013年にデータ分析基盤について紹介
タイトル TITLE各サービスからのデータフロー
8
Amebaやスマフォプラットフォームなど
各サービスサーバ
分析データ
取得
データ分析基盤
タイトル TITLEデータ集計環境における課題
9
• メディアサービスやゲームサービスのユーザ行動デー
タ特性の多様化
• 各プラットフォームやサービスのデータ集計方法,
ユーザ識別の複雑化
• データの品質劣化に伴う分析コストの増大
複雑さを解消し、データ品質の担保や管理の必要性
タイトル TITLEデータ品質管理向上の注力ポイント
10
1.データ集計基盤一元化
2.データフォーマットの統一(スキーマ定義)
3.スキーマ定義に基づいたデータ検証
4.データ標準化
タイトル TITLEデータ品質管理向上の注力ポイント
11
1.データ集計基盤一元化
2.データフォーマットの統一(スキーマ定義)
3.スキーマ定義に基づいたデータ検証
4.データ標準化
タイトル TITLEデータ集計基盤の一元化
12
• 対象サービス管理の一元化
• 様々なデータ転送方式のサポート
(https, flume, fluentd, Google Cloud Pub/Sub
etc…)
・サービス毎のデータ転送コントロール
Https
タイトル TITLEデータ品質管理向上の注力ポイント
13
1.データ集計基盤一元化
2.データフォーマットの統一(スキーマ定義)
3.スキーマ定義に基づいたデータ検証
4.データ標準化
タイトル TITLEデータフォーマットの統一
14
• データフォーマットはjson
• Snowplow の Canonical Event Modelを参考
に基本スキーマを定義
https://github.com/snowplow/snowplow/wiki/canonical-
event-model
• 1ユーザ1行動を1単位
タイトル TITLEスキーマ定義
15
Header部
Contents部
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"action_type": "like",
"arrival_time": “2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"page": {},
"platform": "native",
"time": "2016-10-27T21:03:15.731+09:00",
"user": {
"service_user_id": "6577109897303400875"
},
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"contents": {
"like_type": "liked",
"pass_num": 1,
"super": false,
"target_user_id": "4717712170393248212"
}
}
タイトル TITLEスキーマ定義
16
Header部
Contents部
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"action_type": "like",
"arrival_time": “2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"page": {},
"platform": "native",
"time": "2016-10-27T21:03:15.731+09:00",
"user": {
"service_user_id": "6577109897303400875"
},
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"contents": {
"like_type": "liked",
"pass_num": 1,
"super": false,
"target_user_id": "4717712170393248212"
}
}
Header部はユー
ザ識別子や環境、
状態を記述
タイトル TITLEスキーマ定義
17
Header部
Contents部
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"action_type": "like",
"arrival_time": “2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"page": {},
"platform": "native",
"time": "2016-10-27T21:03:15.731+09:00",
"user": {
"service_user_id": "6577109897303400875"
},
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"contents": {
"like_type": "liked",
"pass_num": 1,
"super": false,
"target_user_id": "4717712170393248212"
}
}
Contents部は
ユーザ行動毎の
詳細情報
タイトル TITLEHeader部
18
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": “like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
uuid: ログ識別子
タイトル TITLEHeader部
19
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
schema:
ログ仕様バージョン
タイトル TITLEHeader部
20
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": “2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
,
time:
行動発生時間
arrival_time:
データ到着時間
iso8601に準拠
タイトル TITLEHeader部
21
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
mine_id: サービスID
タイトル TITLEHeader部
22
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
client部:
ユーザ行動発生時の端末
情報。IP, OS, UAなど
タイトル TITLEHeader部
23
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
platform:
行動が発生したプラット
フォーム(ブラウザ, ネイ
ティブアプリ, TVなど)
タイトル TITLEHeader部
24
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
action_type:
ユーザ行動タイプ
タイトル TITLEHeader部
25
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
page:
ページ、view情報など
タイトル TITLEHeader部
26
{
"uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1"
"schema": "like/1-2-0",
"time": "2016-10-27T21:03:15.731+09:00",
"arrival_time": "2016-10-27T21:03:17.589+09:00",
"mine_id": "rHTbhVAJ",
"client": {
"device_model": "SC-05G",
"ip": "xx.98.1x3.98",
"os": "Android",
"os_version": "6.0.1",
"useragent": ""
},
"platform": "native",
"action_type": "like",
"page": {
"page_id": "top_page1",
},
"user": {
"service_user_id": "6577109897303400875"
},
…
26
user:
ユーザ識別子などユーザ
情報
タイトル TITLEContents部
27
{
…
"action_type": "like",
…
"contents": {
"like_type": "liked",
"pass_num": 1,
"super": false,
"target_user_id": "4717712170393248212"
}
}
contents:
行動タイプに対応する行
動詳細情報
タイトル TITLEデータ品質管理向上の注力ポイント
28
1.データ集計基盤一元化
2.データフォーマットの統一(スキーマ定義)
3.スキーマ定義に基づいたデータ検証
4.データ標準化
タイトル TITLEデータ検証方法
29
• JsonSchemaによるデータ仕様の検証
• http://json-schema.org/
• latest IETF published draft v4
検証内容の例:
必須/任意, データ型, FromTo, Enum, 固定
値, 相関チェック, URL形式, IP形式などなど
タイトル TITLEJson Schema例
30
行動タイプregisterに対するJsonSchema抜粋
{
"$schema" : "http://json-schema.org/draft-04/schema#",
"type" : "object",
"properties" : {
"action_type" : { "type" : "string","enum" : [ "register" ]},
"contents" : {
"properties" : {
"nickname" : { "type" : "string"},
"sex" : {
"type" : "string",
"enum" : [ "male", "female", "unknown" ]
}, …
}, …
}
action_typeは型がstring,
固定値"register"
タイトル TITLEJson Schema例
31
行動タイプregisterに対するJsonSchema抜粋
{
"$schema" : "http://json-schema.org/draft-04/schema#",
"type" : "object",
"properties" : {
"action_type" : { "type" : "string","enum" : [ "register" ]},
"contents" : {
"properties" : {
"nickname" : { "type" : "string"},
"sex" : {
"type" : "string",
"enum" : [ "male", "female", "unknown" ]
}, …
}, …
}
contents内部のnickname
は型がstring,
sexは型がstring, "male",
"female", "unknown"の値
をとる
タイトル TITLE違反検知例
32
行動タイプregisterのデータ検証違反
{
"action_type": "register",
"arrival_time": "2016-11-01T21:00:14.536+09:00",
"schema": "register/1-0–0”,
"time": "2016-11-01T1:00:14.451+09:00",
"contents": { "sex": "special" },
"mine_id": "hIHYdsma",
"platform": "native",
"user": {
"active_user": true,
"as_user_id": “8998897244"
},
"uuid": "34350542-F01C-47B6-B434-E8365F7B5113"
}
",
行動registerのsexキーは
"male", "female",
"unknown"しかとらない
ので、"special"は異常と
して検知する
t e : 0 6 0 :00: . 5 09:00 ,
"contents": { "sex": "special" },
"mine id": "hIHYdsma"
タイトル TITLEデータ仕様のversion管理
33
データ仕様はサービス施策や分析要件によって変
化していくため検証仕様も変化させる必要があり、
仕様のversion管理が必要 (GitHub管理)
"schema":"register/1-0-0"g
対象の行動タイプ
メジューバージョン、マイナーバー
ジョン、リビジョン
タイトル TITLEデータ検証の流れ
34
1. データ仕様決定
サービス分析担当 分析基盤管理
2. データ仕様(JsonSchema)登録
3. JsonSchemaデプロイ
5. データ検証
4. サービスデータ転送
6. エラーレポートの確認
タイトル TITLEデータ検証の仕組み
35
検証UDF
RAWデータ
正常データ
違反データ
サービスからの
ユーザ行動データ
JsonSchema
タイトル TITLEデータ検証の仕組み
36
検証UDF
RAWデータ
正常データ
違反データ
サービスからの
ユーザ行動データ
JsonSchema
違反データ
分析や集計は
こちらを利用する
タイトル TITLEエラーレポート
37
データ検証で検知された違反データのサマリーレ
ポートを作成し、サービス側に提供
違反カテゴリ件数
カテゴリ毎のエラー件数
違反カテゴリ毎の違反詳細
検証違反データのピックアップ
タイトル TITLEデータ品質管理向上の注力ポイント
38
1.データ集計基盤一元化
2.データフォーマットの統一(スキーマ定義)
3.スキーマ定義に基づいたデータ検証
4.データ標準化
タイトル TITLEデータ標準化
39
ログ層 標準化層 集約層
Rawデータ格納 集計しやすい状態
にデータ整形
分析用途での
データのサマリー
集計や積み上げ集
計の結果
Google BigQuery
HBase
Google SpreadSheet
タイトル TITLEログ層
40
• 送信されたデータをそのまま保持する層
• 集計の大元データ
標準化層
• 送信されたログを集計しやすい形にし、格納す
る層
• データ検証で一定のデータ品質を担保
• 日, サービス毎のパーティション
タイトル TITLE集約層
41
• 標準化層データを日毎に集計した結果を格納
• 1日のアクセスメッシュ集計(アクティブユーザ
やアクション別など)
• ユーザ単位の行動記録のサマリー集計(初回アク
セス日, アクセスデバイス, OSなど)
タイトル TITLE集約層
42
• ユーザアクセスメッシュテーブル
フィールド データ型 説明
user_id string ユーザ識別子
access_mesh binary アクセスの1minメッシュ
by_term Map<string, binary> デバイス/OS/クライアント毎のアクセ
ス1minメッシュ
service string サービス識別子(パーティション)
dt string 集計対象日付(パーティション)
0000001111111100000000110…00011111111111100000
1minメッシュ
01 0111111110 11111111111110 0110
サービス滞在時間や視聴時間などの指標で利用できる
タイトル TITLE集約層
43
• ユーザアクセス集約テーブル
フィールド データ型 説明
user_id string ユーザ識別子
first_access_date string 初回アクセス日
last_access_date string 最終アクセス日
access_dates_count bigint 通算アクセス日数
recent_access_dates array<string> 過去1ヶ月のアクセス日
recent_access_weeks array<string> 過去24週のアクセス週
recent_access_months array<string> 過去2年のアクセス月
service string サービス識別子(パーティション)
dt string 集計対象日付(パーティション)
DAU, 継続率, 呼び戻し率などのユーザの行動集約情報が必要な指標
積み上げ情報なので最新のパーティションに絞ることが可能
タイトル TITLE取り組みから得られた結果
44
• これまで発生していたサービス毎の基本指標に
対する集計実装コストの大幅な削減
• 集計で問題が発生したときの調査コストの削減
• 集約テーブルから取得できる数値や指標のクエ
リ実行時間の短縮
タイトル TITLE取り組みから得られた結果
45
• 集約情報作成までの一連の流れが自動化されて
いるので、基本指標においてはデータ送信した
翌日から分析担当は容易に取得可能に
• サービスエンジニアの分析用ログの品質への意
識が高まった
タイトル TITLE今後の課題や展望
46
1.データ検証の向上
• 現在はJsonSchemaによる静的な検証のみ。集計データ
の行動の順序性や行動間の情報整合性なども検証対象に
• ストリーミングデータで逐次的な検証
2.分析データ実装簡易化(サービスエンジニアに
かかるデータ転送部分開発の負担軽減)
3.分析指標のセグメント設定
さいごに
Ameba Technology Laboratory & 基盤システ
ムグループでは分析基盤エンジニアを募集してい
ます!
Hadoop / データマイニング / 機会学習 / 検索
などに興味がある方はお声掛けください。
詳細はコーポレイトサイトにも掲載されています
https://www.cyberagent.co.jp/recruit/career/jobs/
ご静聴ありがとうございました

More Related Content

PDF
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
PDF
AWS Black Belt Online Seminar 2017 Amazon Kinesis
PDF
AWS Black Belt Tech Webinar 2016 〜 Amazon CloudSearch & Amazon Elasticsearch ...
PPTX
動的コンテンツをオリジンとしたCloudFrontを構築してみた
PPTX
Spring Cloud Netflixを使おう #jsug
PDF
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
PDF
WebSocket / WebRTCの技術紹介
PDF
Cassandraとh baseの比較して入門するno sql
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
AWS Black Belt Online Seminar 2017 Amazon Kinesis
AWS Black Belt Tech Webinar 2016 〜 Amazon CloudSearch & Amazon Elasticsearch ...
動的コンテンツをオリジンとしたCloudFrontを構築してみた
Spring Cloud Netflixを使おう #jsug
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
WebSocket / WebRTCの技術紹介
Cassandraとh baseの比較して入門するno sql

What's hot (20)

PPTX
ビッグデータ処理データベースの全体像と使い分け
2018年version
PDF
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
PDF
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
PPTX
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
PDF
マイクロサービスに至る歴史とこれから - XP祭り2021
PDF
AWS EC2 Eメール制限解除 - 逆引き(rDNS)設定 申請手順
PDF
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
PPTX
DeNAの最新のマスタデータ管理システム Oyakata の全容
PDF
リクルートライフスタイル流!分析基盤との賢い付き合い方
PDF
20200630 AWS Black Belt Online Seminar Amazon Cognito
PDF
アサヒのデータ活用基盤を支えるデータ仮想化技術
PDF
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
PDF
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
PDF
SageMakerでもAUTOMATIC1111したい
PDF
とある診断員とAWS
PDF
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
PDF
AWS Glueを使った Serverless ETL の実装パターン
PDF
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
PDF
Managed Service Provider(MSP)によるマルチOrganizations管理の裏側(Security JAWS 第24回 発表資料)
PDF
[AC05] マイクロサービスは分割がキモ!基幹システムのためのドメイン駆動設計
ビッグデータ処理データベースの全体像と使い分け
2018年version
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
マイクロサービスに至る歴史とこれから - XP祭り2021
AWS EC2 Eメール制限解除 - 逆引き(rDNS)設定 申請手順
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
DeNAの最新のマスタデータ管理システム Oyakata の全容
リクルートライフスタイル流!分析基盤との賢い付き合い方
20200630 AWS Black Belt Online Seminar Amazon Cognito
アサヒのデータ活用基盤を支えるデータ仮想化技術
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
SageMakerでもAUTOMATIC1111したい
とある診断員とAWS
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
AWS Glueを使った Serverless ETL の実装パターン
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
Managed Service Provider(MSP)によるマルチOrganizations管理の裏側(Security JAWS 第24回 発表資料)
[AC05] マイクロサービスは分割がキモ!基幹システムのためのドメイン駆動設計
Ad

Viewers also liked (20)

PPTX
データ活用を効率化するHadoop WebUIと権限管理改善事例
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
PDF
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
PDF
データファースト開発
PDF
Amebaにおけるレコメンデーションシステムの紹介
PDF
MapR Hadoop M7 in CyberAgent AdTech Studio
PDF
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
PDF
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
PDF
広告におけるビッグデータの分析事例
PDF
Cookpad TechConf 2016 - DWHに必要なこと
PDF
20141106_cwt-zenmyo-naito
PDF
ソーシャル系Webサービスのデータを用いた社会科学 資料
PDF
How Do Newcomers Blend into a Group?: Study on a Social Network Game
PDF
社会関係の強さに基づく社会的グルーミング戦略の適応性
PDF
データにまつわるWeb業界の仕事について
PDF
サラリーマンのための計算社会科学
PDF
みんなのウェディングのデータ分析基盤の作り方。
PPTX
Flumeを活用したAmebaにおける大規模ログ収集システム
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
PDF
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
データ活用を効率化するHadoop WebUIと権限管理改善事例
大規模データに対するデータサイエンスの進め方 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データファースト開発
Amebaにおけるレコメンデーションシステムの紹介
MapR Hadoop M7 in CyberAgent AdTech Studio
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
広告におけるビッグデータの分析事例
Cookpad TechConf 2016 - DWHに必要なこと
20141106_cwt-zenmyo-naito
ソーシャル系Webサービスのデータを用いた社会科学 資料
How Do Newcomers Blend into a Group?: Study on a Social Network Game
社会関係の強さに基づく社会的グルーミング戦略の適応性
データにまつわるWeb業界の仕事について
サラリーマンのための計算社会科学
みんなのウェディングのデータ分析基盤の作り方。
Flumeを活用したAmebaにおける大規模ログ収集システム
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
Ad

Similar to サイバーエージェントにおけるデータの品質管理について #cwt2016 (20)

PDF
20100930 sig startups
PDF
20130313 OSCA Hadoopセミナー
PDF
事例で学ぶトレジャーデータ 20140612
PDF
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
PDF
【18-B-2】データ分析で始めるサービス改善最初の一歩
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
PDF
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
PDF
スマートニュースの世界展開を支えるログ解析基盤
PDF
如何に “データが壊れない” 管理画面を作るか - 管理画面開発の裏側
PDF
20140708 オンラインゲームソリューション
PDF
「実践的」カスタマージャーニー分析のすすめ
PDF
『入門 ソーシャルデータ』9章
PDF
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
PDF
Google Analytics のデータ分析ハンズオン
PDF
Presto As A Service - Treasure DataでのPresto運用事例
PDF
SparkやBigQueryなどを用いた モバイルゲーム分析環境
PDF
トレジャーデータ新サービス発表 2013/12/9
PDF
HBaseCon 2012 参加レポート
PDF
HBaseを用いたグラフDB「Hornet」の設計と運用
PDF
ビッグデータ
20100930 sig startups
20130313 OSCA Hadoopセミナー
事例で学ぶトレジャーデータ 20140612
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
【18-B-2】データ分析で始めるサービス改善最初の一歩
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
スマートニュースの世界展開を支えるログ解析基盤
如何に “データが壊れない” 管理画面を作るか - 管理画面開発の裏側
20140708 オンラインゲームソリューション
「実践的」カスタマージャーニー分析のすすめ
『入門 ソーシャルデータ』9章
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Google Analytics のデータ分析ハンズオン
Presto As A Service - Treasure DataでのPresto運用事例
SparkやBigQueryなどを用いた モバイルゲーム分析環境
トレジャーデータ新サービス発表 2013/12/9
HBaseCon 2012 参加レポート
HBaseを用いたグラフDB「Hornet」の設計と運用
ビッグデータ

More from cyberagent (20)

PDF
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
PDF
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
PDF
WebにおけるHuman Dynamics 武内慎
PDF
Webと経済学 數見拓朗
PDF
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
PDF
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
PDF
AbemaTVにおける推薦システム
PDF
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
PDF
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
PPTX
インターネットテレビ局「AbemaTV」プロダクトの変遷
PDF
番組宣伝に関するAbemaTV分析事例の紹介
PDF
WWW2018 論文読み会  Webと経済学
PDF
WWW2018 論文読み会 WebにおけるHuman Dynamics
PDF
WWW2018 論文読み会 Web Search and Mining
PDF
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
PDF
ログ解析基盤におけるストリーム処理パイプラインについて
PDF
Orion an integrated multimedia content moderation system for web services
PDF
Orion an integrated multimedia content moderation system for web services
PDF
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
PPTX
"マルチメディア機械学習" の取り組み
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
WebにおけるHuman Dynamics 武内慎
Webと経済学 數見拓朗
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
AbemaTVにおける推薦システム
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
インターネットテレビ局「AbemaTV」プロダクトの変遷
番組宣伝に関するAbemaTV分析事例の紹介
WWW2018 論文読み会  Webと経済学
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 Web Search and Mining
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
ログ解析基盤におけるストリーム処理パイプラインについて
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
"マルチメディア機械学習" の取り組み

サイバーエージェントにおけるデータの品質管理について #cwt2016