SlideShare a Scribd company logo
DMM.COM SPARK
2015/4 - DMM labo
API
scalamatsuri
AGENDA
DMM
Apache Spark
DMM
Tips
DMM
DMM
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
SPARK
UC Berkekey Apache
Scala, Python, Java, SQL, R API
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
(2014/09)
Mahout
Spark
Java, Scala, Python
GraphLab
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
WHY SPARK
MLlib, GraphX
Hadoop
Hadoop
item to item
user to item
popular
1. (Tracking API)
2. (Hive on Spark)
3. (Spark)
4. (Sqoop)
5. API(Play)
(TRACKING API)
Javascript
API
RDB Hadoop
(HIVE ON SPARK)
Spark
(SPARK)
val itemToItems = userProducts.join(userProducts).filter {
case (user, ((item1, keyword1, score1), (item2, keyword2, score2))) => item1
}.map {
case (user, ((item1, keyword1, score1), (item2, keyword2, score2))) => ((item
}.reduceByKey(_ + _).mapValues(math.sqrt(_)).map {
case ((item1, keyword1, item2), score) => ((item1, keyword1), (item2, score))
}.groupByKey().mapValues(_.toList.sortBy(_._2).reverse.take(config.numDisplayIt
case ((item1, keyword1), items) => items.size >= config.numDisplayItems
}.cache()
(SPARK)
MLlib ALS( )
val model = ALS.train(ratings.map(_._1), config.alsRank,
config.alsNumIterations, config.alsLambda)
val predictions = model.predict(candidates).groupBy(_.user).map {
case (user, ratings) =>
(user, ratings.toList.sortBy(_.rating)
.reverse.take(config.numDisplayItems))
}.cache()
(SPARK)
RDB Hadoop
Sqoop MariaDB
API
item2item(id: ItemId): List[ItemId]
user2item(id: UserId): List[ItemId]
popular : List[ItemId]
DEPLOY AND EXECUTE
Jenkins + Build Pipeline + BuildFlow
(2015/09)
Jenkins + Build Pipeline + BuildFlow
Job Script + Git
Hive
Spark
Sqoop
Recommend API(Node.js)
MariaDB(Galera Cluster)
Jenkins + Build Pipeline + BuildFlow
Job Script + Management API
Hive on Spark
Spark
Sqoop
Recommend API(Play)
MariaDB(Galera Cluster)
Management API
File
Hive on Spark
Hive 3
Play
Spark, Hive UDF Util
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
AB PDCA
[ ]
701
75 % ↑
97% ↑
TIPS
use dataframes or datasets
hive
executor
memoryOverhead
cheat sheet
Top 5 Mistakes to Avoid When Writing Apache Spark
Applications
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
HIVE
Spark
HiveContext
Hive on Spark
DATAFRAMES DATASETS
(1.3 - ) Dataframes
(1.6 - ) Datasets
Project Tungsten(1.5 - )
DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!
Realtime Recommend
Dataframes & Datasets
Graphframes
DMM.com Group 3~4
DMM

More Related Content

PDF
SparkR: Enabling Interactive Data Science at Scale
PDF
Introduction to SparkR
PPTX
First impressions of SparkR: our own machine learning algorithm
PDF
Performant data processing with PySpark, SparkR and DataFrame API
PDF
Introduction to Spark R with R studio - Mr. Pragith
PDF
SparkR: Enabling Interactive Data Science at Scale on Hadoop
PDF
Apache spark basics
PPTX
Introduction to Apache Spark
SparkR: Enabling Interactive Data Science at Scale
Introduction to SparkR
First impressions of SparkR: our own machine learning algorithm
Performant data processing with PySpark, SparkR and DataFrame API
Introduction to Spark R with R studio - Mr. Pragith
SparkR: Enabling Interactive Data Science at Scale on Hadoop
Apache spark basics
Introduction to Apache Spark

What's hot (20)

PPTX
Introduction to Spark ML
PPTX
Big data week presentation
PDF
An efficient data mining solution by integrating Spark and Cassandra
PDF
SparkR: The Past, the Present and the Future-(Shivaram Venkataraman and Rui S...
PPTX
How LinkedIn Uses Scalding for Data Driven Product Development
PDF
All About GRAND Stack: GraphQL, React, Apollo, and Neo4j (Mark Needham) - Gre...
PDF
Apache spark linkedin
PDF
Adios hadoop, Hola Spark! T3chfest 2015
PDF
SystemML - Declarative Machine Learning
PDF
Using SparkR to Scale Data Science Applications in Production. Lessons from t...
PPTX
What is Spark
PPTX
An Architect's guide to real time big data systems
PDF
Spark's Role in the Big Data Ecosystem (Spark Summit 2014)
PDF
Distilling Insights @ Appsflyer (Data Architecture)
PDF
Big Data Analytics with Spark
PPTX
Parallelizing Existing R Packages with SparkR
PPTX
SparkR - Scalable machine learning - Utah R Users Group - U of U - June 17th
PDF
A Data Frame Abstraction Layer for SparkR-(Chris Freeman, Alteryx)
PDF
End-to-end Data Pipeline with Apache Spark
PDF
Introduction to Apache Airflow - Data Day Seattle 2016
Introduction to Spark ML
Big data week presentation
An efficient data mining solution by integrating Spark and Cassandra
SparkR: The Past, the Present and the Future-(Shivaram Venkataraman and Rui S...
How LinkedIn Uses Scalding for Data Driven Product Development
All About GRAND Stack: GraphQL, React, Apollo, and Neo4j (Mark Needham) - Gre...
Apache spark linkedin
Adios hadoop, Hola Spark! T3chfest 2015
SystemML - Declarative Machine Learning
Using SparkR to Scale Data Science Applications in Production. Lessons from t...
What is Spark
An Architect's guide to real time big data systems
Spark's Role in the Big Data Ecosystem (Spark Summit 2014)
Distilling Insights @ Appsflyer (Data Architecture)
Big Data Analytics with Spark
Parallelizing Existing R Packages with SparkR
SparkR - Scalable machine learning - Utah R Users Group - U of U - June 17th
A Data Frame Abstraction Layer for SparkR-(Chris Freeman, Alteryx)
End-to-end Data Pipeline with Apache Spark
Introduction to Apache Airflow - Data Day Seattle 2016
Ad

Viewers also liked (20)

PDF
ICTSC5 DMM.comラボの紹介+お給料の話
PDF
大海原の小さなイルカ
PDF
ヒカ☆ラボ ユニティ・テクノロジーズ・ジャパン合同会社 安原 祐二氏登壇資料_20170119
PDF
markedj: The best of markdown processor on JVM
PPTX
ビズリーチ x ScalaMatsuri by BIZREACH, Inc.
PPTX
Authentication, Authorization, OAuth, OpenID Connect and Pyramid
PDF
手を動かしながら学ぶエンジニアのためのデータサイエンス!
PPTX
2014 11-20 Machine Learning with Apache Spark 勉強会資料
PDF
【ビズリーチ】プロダクトマネージャーの仕事と魅力
PPTX
Spark streamingを使用したtwitter解析によるレコメンドサービス例
PDF
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
PPTX
PHP7を魔改造した話
PPTX
JVM and OS Tuning for accelerating Spark application
PDF
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
PDF
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
PDF
Amebaにおけるレコメンデーションシステムの紹介
PDF
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
ICTSC5 DMM.comラボの紹介+お給料の話
大海原の小さなイルカ
ヒカ☆ラボ ユニティ・テクノロジーズ・ジャパン合同会社 安原 祐二氏登壇資料_20170119
markedj: The best of markdown processor on JVM
ビズリーチ x ScalaMatsuri by BIZREACH, Inc.
Authentication, Authorization, OAuth, OpenID Connect and Pyramid
手を動かしながら学ぶエンジニアのためのデータサイエンス!
2014 11-20 Machine Learning with Apache Spark 勉強会資料
【ビズリーチ】プロダクトマネージャーの仕事と魅力
Spark streamingを使用したtwitter解析によるレコメンドサービス例
【19-D-1】人間と機械学習のはざま:どこまでアルゴリズムに任せるか
PHP7を魔改造した話
JVM and OS Tuning for accelerating Spark application
Hadoop Conference Japan 2016 LT資料 グラフデータベース事始め
Spark Streaming と Spark GraphX を使用したTwitter解析による レコメンドサービス例
Amebaにおけるレコメンデーションシステムの紹介
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
sparksql-hive-bench-by-nec-hwx-at-hcj16
Ad

More from leverages_event (20)

PDF
Ac tsumugu 20170712
PDF
20171206 tsumugu4 人工知能特集_v1.00_抜粋
PDF
【ヒカ☆ラボ】アーキテクト養成講座「入門編」 折田 武己 氏 登壇資料 20171205
PDF
【ヒカ☆ラボ】 dely株式会社 梅森 翔氏 登壇資料 20171121
PDF
【ヒカ☆ラボ】 dely株式会社 大竹 雅登氏 登壇資料 20171121
PDF
【ヒカ☆ラボ】 dely株式会社 深尾 もとのぶ氏 登壇資料 20171121
PDF
【ヒカ☆ラボ】 dely株式会社 三笠 斉輝氏 登壇資料 20171121
PPTX
【ヒカ☆ラボ】 株式会社AMG Solution 山口 博史氏登壇資料 20170817
PPTX
【ヒカ☆ラボ】株式会社ライナフ 登壇資料
PDF
【ヒカ☆ラボ】株式会社エアー様~ETLツール活用法について~
PPTX
インスタグラムを活用した、マーケティングについて
PPTX
ヒカ☆ラボ 株式会社PR TIMES 山田 和広氏登壇資料 20161129
PPTX
ヒカ☆ラボ 株式会社PR TIMES 新井 隆士氏登壇資料 20161129
PDF
ヒカラボ「自社サービス開発会社で活躍し続けるために必要な○○とは?」開発エンジニア
PDF
ヒカラボ「自社サービス開発会社で活躍し続けるために必要な○○とは?」UIデザイナー
PDF
初心者向けGo言語勉強会
PPTX
Node.js×mongo dbで3年間サービス運用してみた話
PDF
株式会社waja 安藤様 登壇資料
PDF
株式会社インタースペース 清水様 登壇資料
PDF
株式会社インタースペース 沖本様 登壇資料
Ac tsumugu 20170712
20171206 tsumugu4 人工知能特集_v1.00_抜粋
【ヒカ☆ラボ】アーキテクト養成講座「入門編」 折田 武己 氏 登壇資料 20171205
【ヒカ☆ラボ】 dely株式会社 梅森 翔氏 登壇資料 20171121
【ヒカ☆ラボ】 dely株式会社 大竹 雅登氏 登壇資料 20171121
【ヒカ☆ラボ】 dely株式会社 深尾 もとのぶ氏 登壇資料 20171121
【ヒカ☆ラボ】 dely株式会社 三笠 斉輝氏 登壇資料 20171121
【ヒカ☆ラボ】 株式会社AMG Solution 山口 博史氏登壇資料 20170817
【ヒカ☆ラボ】株式会社ライナフ 登壇資料
【ヒカ☆ラボ】株式会社エアー様~ETLツール活用法について~
インスタグラムを活用した、マーケティングについて
ヒカ☆ラボ 株式会社PR TIMES 山田 和広氏登壇資料 20161129
ヒカ☆ラボ 株式会社PR TIMES 新井 隆士氏登壇資料 20161129
ヒカラボ「自社サービス開発会社で活躍し続けるために必要な○○とは?」開発エンジニア
ヒカラボ「自社サービス開発会社で活躍し続けるために必要な○○とは?」UIデザイナー
初心者向けGo言語勉強会
Node.js×mongo dbで3年間サービス運用してみた話
株式会社waja 安藤様 登壇資料
株式会社インタースペース 清水様 登壇資料
株式会社インタースペース 沖本様 登壇資料

Recently uploaded (20)

PPTX
web development for engineering and engineering
PDF
Mitigating Risks through Effective Management for Enhancing Organizational Pe...
PPTX
Current and future trends in Computer Vision.pptx
PPTX
Safety Seminar civil to be ensured for safe working.
PPTX
Infosys Presentation by1.Riyan Bagwan 2.Samadhan Naiknavare 3.Gaurav Shinde 4...
PDF
Model Code of Practice - Construction Work - 21102022 .pdf
PDF
PPT on Performance Review to get promotions
PDF
Embodied AI: Ushering in the Next Era of Intelligent Systems
PDF
Mohammad Mahdi Farshadian CV - Prospective PhD Student 2026
PDF
TFEC-4-2020-Design-Guide-for-Timber-Roof-Trusses.pdf
PPTX
UNIT 4 Total Quality Management .pptx
PPTX
Sustainable Sites - Green Building Construction
PDF
composite construction of structures.pdf
PPTX
Construction Project Organization Group 2.pptx
PDF
BMEC211 - INTRODUCTION TO MECHATRONICS-1.pdf
PDF
keyrequirementskkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk
PDF
Enhancing Cyber Defense Against Zero-Day Attacks using Ensemble Neural Networks
PPTX
Engineering Ethics, Safety and Environment [Autosaved] (1).pptx
PPT
Project quality management in manufacturing
PPTX
Artificial Intelligence
web development for engineering and engineering
Mitigating Risks through Effective Management for Enhancing Organizational Pe...
Current and future trends in Computer Vision.pptx
Safety Seminar civil to be ensured for safe working.
Infosys Presentation by1.Riyan Bagwan 2.Samadhan Naiknavare 3.Gaurav Shinde 4...
Model Code of Practice - Construction Work - 21102022 .pdf
PPT on Performance Review to get promotions
Embodied AI: Ushering in the Next Era of Intelligent Systems
Mohammad Mahdi Farshadian CV - Prospective PhD Student 2026
TFEC-4-2020-Design-Guide-for-Timber-Roof-Trusses.pdf
UNIT 4 Total Quality Management .pptx
Sustainable Sites - Green Building Construction
composite construction of structures.pdf
Construction Project Organization Group 2.pptx
BMEC211 - INTRODUCTION TO MECHATRONICS-1.pdf
keyrequirementskkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk
Enhancing Cyber Defense Against Zero-Day Attacks using Ensemble Neural Networks
Engineering Ethics, Safety and Environment [Autosaved] (1).pptx
Project quality management in manufacturing
Artificial Intelligence

DMM.comラボはなぜSparkを採用したのか?レコメンドエンジン開発の裏側をお話します!