SlideShare a Scribd company logo
EMR
•          (@sasata299)
•     Hadoop
•
•
• Rails, Hadoop, NoSQL
クックパッドでのemr利用事例
クックパッドでのemr利用事例
[PR] NoSQL
クックパッドでのemr利用事例
1. Hadoop
2.   EMR
3. EMR
4.
1. Hadoop
クックパッドでのemr利用事例
2009/9
•
• MySQL
• GROUP BY       …
• 7000
• Hadoop
クックパッドでのemr利用事例
2009/10
• EC2    Hadoop
• Cloudera CDH1
• Ruby Hadoop Streaming
•         7000   →30
• Hadoop
Hadoop++

   ←Hadoop


        ↓MySQL
2.   EMR
2010/7

• Hadoop
• Hadoop
• SocketTimeoutException   …
• CDH2
• EMR
クックパッドでのemr利用事例
EMR vs CDH2

                        AMI
                     (Amazon Machine
                         Image)
       UP


EMR


CDH2
EMR vs CDH2

                        AMI
                     (Amazon Machine
                         Image)
       UP


EMR


CDH2
クックパッドでのemr利用事例
クックパッドでのemr利用事例
2010/8

• EMR
•
• Hadoop
•
クックパッドでのemr利用事例
クックパッドでのemr利用事例
3. EMR
DB

•   xx   UU
•             UU
•
•        , etc...
• MySQL   MySQL
• MySQL    EMR
   - UU
   -
   -
EMR

•
    - ○○   xx
• Ruby
•
•
4.
•
•
    -       1
•       5       …
[13930, 29011, 39291, ...] # 50000

                  1000

{
    ‘139’ => [13930, 13989, 13991, ...], # 50
    ‘290’ => [29011, 29098, 29076, ...], # 50
    ‘392’ => [39291, 39244, 39251, ...], # 50
    ...
}
•                    …
• mapper → reducer → finalize
• script-runner.jar
•
•
•     IF
•
•   EMR
• EMR
•
•
• Hadoop Streaming
•                  :-)
クックパッドでのemr利用事例
クックパッドでのemr利用事例
クックパッドでのemr利用事例
クックパッドでのemr利用事例
@sasata299

More Related Content

PPTX
ビズリーチにおけるEMR(AWS)活用事例
PDF
kube-system落としてみました
PDF
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
PDF
ZabbixによるAWS監視のコツ
PDF
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
PDF
AWS Black Belt - AWS Glue
PDF
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
PDF
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
ビズリーチにおけるEMR(AWS)活用事例
kube-system落としてみました
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
ZabbixによるAWS監視のコツ
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
AWS Black Belt - AWS Glue
アプリ開発者、DB 管理者視点での Cloud Spanner 活用方法 | 第 10 回 Google Cloud INSIDE Games & App...
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN

What's hot (20)

PDF
Kubernetes Security with DevSecOps
PDF
20190911 AWS Black Belt Online Seminar AWS Batch
PDF
O/Rマッパーによるトラブルを未然に防ぐ
PDF
20200826 AWS Black Belt Online Seminar AWS CloudFormation
PDF
KafkaとAWS Kinesisの比較
PPTX
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
PPTX
動的コンテンツをオリジンとしたCloudFrontを構築してみた
PDF
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
PDF
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
PDF
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
PPTX
アプリケーション開発者のためのAzure Databricks入門
PDF
わたくし、やっぱりCDKを使いたいですわ〜CDK import編〜.pdf
PDF
楽天のインフラ事情 2022
PDF
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
PPTX
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
PDF
20190514 AWS Black Belt Online Seminar Amazon API Gateway
PDF
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
PPTX
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
PDF
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
PDF
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Kubernetes Security with DevSecOps
20190911 AWS Black Belt Online Seminar AWS Batch
O/Rマッパーによるトラブルを未然に防ぐ
20200826 AWS Black Belt Online Seminar AWS CloudFormation
KafkaとAWS Kinesisの比較
監査要件を有するシステムに対する PostgreSQL 導入の課題と可能性
動的コンテンツをオリジンとしたCloudFrontを構築してみた
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
アプリケーション開発者のためのAzure Databricks入門
わたくし、やっぱりCDKを使いたいですわ〜CDK import編〜.pdf
楽天のインフラ事情 2022
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20200422 AWS Black Belt Online Seminar Amazon Elastic Container Service (Amaz...
Containers + EC2 Spot: AWS Batch による大規模バッチ処理でのスポットインスタンス活用
20190828 AWS Black Belt Online Seminar Amazon Aurora with PostgreSQL Compatib...
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Ad

Viewers also liked (20)

PDF
ソーシャルゲームのEMR活用事例
PPTX
20111215_第1回EMR勉強会発表資料
PDF
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
PDF
SparkやBigQueryなどを用いた モバイルゲーム分析環境
PDF
Groongaでのタグ検索と表記揺れとの戦い
PDF
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
PDF
Auto Scaling x Spot Instances によるスケーラビリティと コストカット
PDF
MySQLユーザ視点での小さく始めるElasticsearch
PPTX
ソーシャルアプリにおけるRedisの活用事例とトラブル事例
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
PDF
DeepSecurityでシステムを守る運用を幾つか
PPTX
Redis勉強会資料(2015/06 update)
PDF
MapReduce入門
PDF
Hadoop概要説明
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
PDF
Business Innovation cases driven by AI and BigData technologies
PDF
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
PPTX
Case Study: OLAP usability on Spark and Hadoop
PDF
AWSでのビッグデータ分析
ソーシャルゲームのEMR活用事例
20111215_第1回EMR勉強会発表資料
Amazon Elastic MapReduceやSparkを中心とした社内の分析環境事例とTips
SparkやBigQueryなどを用いた モバイルゲーム分析環境
Groongaでのタグ検索と表記揺れとの戦い
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
Auto Scaling x Spot Instances によるスケーラビリティと コストカット
MySQLユーザ視点での小さく始めるElasticsearch
ソーシャルアプリにおけるRedisの活用事例とトラブル事例
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
DeepSecurityでシステムを守る運用を幾つか
Redis勉強会資料(2015/06 update)
MapReduce入門
Hadoop概要説明
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Business Innovation cases driven by AI and BigData technologies
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
sparksql-hive-bench-by-nec-hwx-at-hcj16
Case Study: OLAP usability on Spark and Hadoop
AWSでのビッグデータ分析
Ad

Similar to クックパッドでのemr利用事例 (20)

KEY
マーケティングのためのHadoop利用
KEY
ソーシャルゲームログ解析基盤のHadoop活用事例
KEY
800万人の"食べたい"をHadoopで分散処理
PDF
データ解析技術入門(Hadoop編)
PDF
Lightweight wrapper for Hive on Amazon EMR
PDF
Hadoop, Taming Elephants
KEY
Hadoopを業務で使ってみた
KEY
961万人の食卓を支えるデータ解析
PDF
Hadoop Conference Japan 2011 Fallに行ってきました
PDF
Introduction to Hadoop
PPTX
Big Data Cloud Meetup - Jan 24 2013 - Zettaset
PPT
Brust hadoopecosystem
KEY
COOKPADでのHadoop利用
KEY
Hadoop導入事例 in クックパッド
PDF
Hadoop入門とクラウド利用
PDF
Hw09 Making Hadoop Easy On Amazon Web Services
PDF
GOTO 2011 preso: 3x Hadoop
PPTX
Introduction to AWS Big Data
PDF
Hadoop breizhjug
PDF
Introduction To Elastic MapReduce at WHUG
マーケティングのためのHadoop利用
ソーシャルゲームログ解析基盤のHadoop活用事例
800万人の"食べたい"をHadoopで分散処理
データ解析技術入門(Hadoop編)
Lightweight wrapper for Hive on Amazon EMR
Hadoop, Taming Elephants
Hadoopを業務で使ってみた
961万人の食卓を支えるデータ解析
Hadoop Conference Japan 2011 Fallに行ってきました
Introduction to Hadoop
Big Data Cloud Meetup - Jan 24 2013 - Zettaset
Brust hadoopecosystem
COOKPADでのHadoop利用
Hadoop導入事例 in クックパッド
Hadoop入門とクラウド利用
Hw09 Making Hadoop Easy On Amazon Web Services
GOTO 2011 preso: 3x Hadoop
Introduction to AWS Big Data
Hadoop breizhjug
Introduction To Elastic MapReduce at WHUG

More from Tatsuya Sasaki (7)

KEY
からあげエンジニアについて
KEY
からあげとビーチと私
KEY
メタプログラミングでDSLを書こう
PDF
NoSQLデータベースが登場した背景と特徴
KEY
Hadoopをemr経由で利用する方法
KEY
Hadoopを業務で使ってみました
からあげエンジニアについて
からあげとビーチと私
メタプログラミングでDSLを書こう
NoSQLデータベースが登場した背景と特徴
Hadoopをemr経由で利用する方法
Hadoopを業務で使ってみました

Recently uploaded (20)

PDF
Mobile App Security Testing_ A Comprehensive Guide.pdf
PDF
Network Security Unit 5.pdf for BCA BBA.
PDF
cuic standard and advanced reporting.pdf
PDF
Review of recent advances in non-invasive hemoglobin estimation
PDF
TokAI - TikTok AI Agent : The First AI Application That Analyzes 10,000+ Vira...
PDF
Spectral efficient network and resource selection model in 5G networks
PDF
Dropbox Q2 2025 Financial Results & Investor Presentation
PDF
GamePlan Trading System Review: Professional Trader's Honest Take
PDF
solutions_manual_-_materials___processing_in_manufacturing__demargo_.pdf
PDF
CIFDAQ's Market Insight: SEC Turns Pro Crypto
PDF
Bridging biosciences and deep learning for revolutionary discoveries: a compr...
PDF
Advanced IT Governance
PDF
[발표본] 너의 과제는 클라우드에 있어_KTDS_김동현_20250524.pdf
PDF
Build a system with the filesystem maintained by OSTree @ COSCUP 2025
PDF
Blue Purple Modern Animated Computer Science Presentation.pdf.pdf
PPTX
Big Data Technologies - Introduction.pptx
PDF
Chapter 3 Spatial Domain Image Processing.pdf
PPT
Teaching material agriculture food technology
PPTX
PA Analog/Digital System: The Backbone of Modern Surveillance and Communication
PPTX
Understanding_Digital_Forensics_Presentation.pptx
Mobile App Security Testing_ A Comprehensive Guide.pdf
Network Security Unit 5.pdf for BCA BBA.
cuic standard and advanced reporting.pdf
Review of recent advances in non-invasive hemoglobin estimation
TokAI - TikTok AI Agent : The First AI Application That Analyzes 10,000+ Vira...
Spectral efficient network and resource selection model in 5G networks
Dropbox Q2 2025 Financial Results & Investor Presentation
GamePlan Trading System Review: Professional Trader's Honest Take
solutions_manual_-_materials___processing_in_manufacturing__demargo_.pdf
CIFDAQ's Market Insight: SEC Turns Pro Crypto
Bridging biosciences and deep learning for revolutionary discoveries: a compr...
Advanced IT Governance
[발표본] 너의 과제는 클라우드에 있어_KTDS_김동현_20250524.pdf
Build a system with the filesystem maintained by OSTree @ COSCUP 2025
Blue Purple Modern Animated Computer Science Presentation.pdf.pdf
Big Data Technologies - Introduction.pptx
Chapter 3 Spatial Domain Image Processing.pdf
Teaching material agriculture food technology
PA Analog/Digital System: The Backbone of Modern Surveillance and Communication
Understanding_Digital_Forensics_Presentation.pptx

クックパッドでのemr利用事例

Editor's Notes