SlideShare a Scribd company logo
ビッグデータ分析基盤Sparkの
最新動向とその活⽤用
-‐‑‒  Spark  SUMMIT  EAST  2015  –
2015年年3⽉月17⽇日〜~18⽇日
⼤大⽊木  基⾄至
ohki@inulab.sys.es.osaka-‐‑‒u.ac.jp
Spark Summit EAST 2015 大木基至	
 2	
01.  Spark  と  カンファレンス概要
Spark  とは?
•  Sparkとは
–  公式サイトでは、
  ⇛Apache  Sparkは⼤大規模データ処理理のための⾼高速で汎⽤用的なエンジン
Spark Summit EAST 2015 大木基至	
 3	
Spark  とは?
•  Sparkとは
–  UC  Berkeleyの研究組織「AMPLab.」で開発されたOSS
–  開発の中⼼心企業は⽶米Databricks社
•  ラボからIon  Stoica⽒氏らがスピンアウトして設⽴立立したベンチャー企業
–  分散クラスタ型のデータ処理理エンジンで、インメモリでビッグデータ
を並列列分散処理理する
–  ビッグデータの分散処理理としてはhadoopが有名であるが、ストレー
ジベースの処理理⽅方式のため、あまり⾼高速ではない
–  対してsparkはデータを⼀一旦メモリにキャッシュし、メモリ上で処理理
を⾏行行うため、繰り返し処理理ではとても⾼高速
Spark Summit EAST 2015 大木基至	
 4	
Spark  とは?
開発履履歴
⽇日付 Ver. 内容
2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始
2010年年 - OSS化。その後Apacheソフトウェア財団にコードを寄贈
2012年年10⽉月 0.6.0 スタンドアロンモード、Java APIサポート
2013年年2⽉月 0.7.0 Python APIサポート、ストリーミングサポート
2013年年9⽉月 0.8.0 UIにジョブのダッシュボードが追加、Mlibサポート
2014年年2⽉月 0.9.0 Scala2.10サポート、GraphXサポート
2014年年5⽉月 1.0.0 Spark SQLサポート、Mlibのアルゴリズム充実
2014年年11⽉月 1.1.0 マイナーリリース
2014年年12⽉月 1.2.0 パフォーマンス改善、Spark StreamingのHAサポート
2015年年3⽉月 1.3.0 DataFrames APIサポート
2015年年4⽉月 1.3.1 メンテナンスリリース
Spark Summit EAST 2015 大木基至	
 5	
Spark  とは?
•  Hadoopとの⽐比較ーレイヤスタック図
–  下回りの構成は同じ。
–  MapReduceがSparkに置き換わったイメージ
Spark
HDFS
MapReduce
Spark
SQL
MlibHive Sqoop
YARN Mesos
SparkHadoop
YARN:分散処理理フレームワーク。アプリケーションからのリソース要求のハンドリングやスケジューリングを⾏行行う
Mesos:分散アプリケーション  or フレームワークに対して、効率率率的なリソース分離離、共有を提供するクラスタ管理理ソフト
… …
HDFS
YARN Mesos
Spark Summit EAST 2015 大木基至	
 6	
Spark  とは?
•  Hadoopとの⽐比較ーデータ処理理の流流れ
MapReduceはディスクベースで処理理
各ステージ(処理理の単位)処理理はオンメモリで実⾏行行
M
Spark
Hadoop
R R R
HDFS
処理理
読 読 読書 書 書
S S S
HDFS
処理理
読 読 読書 書 書
Spark Summit EAST 2015 大木基至	
 7	
Spark  とは?
•  Hadoopとの⽐比較
–  共通点
•  ASF(Apache  Software  Foundation)のトップレベルPJ
•  分散ファイルシステム(HDFS)からファイルをロード可能
•  MapReduceプログラミングモデル
•  SQLのインタフェイスや機械学習等のライブラリが充実
–  相違点
•  メモリ上にデータをキャシュして処理理可能
•  Scala,  Pythonのユーザインタフェイスでインタラクティブに操作可能
Spark Summit EAST 2015 大木基至	
 8	
開催概要
•  開催⽇日:2015/03/18〜~2015/03/19(2⽇日間)
–  3/18:午前:Keynote
                午後:3  tracks(27  sessions)
                                                -‐‑‒  Developers,  Applications,  Data  Science
–  3/19:Workshop
•  開催場所:The  Sheraton,  New  York
•  開催回数:
–  Spark  Summit  East  としては初開催
–  Spark  Summit  2015  がサンフランシスコで2015年年7⽉月開
催予定
•  これまで、Spark  Summit  2013、2014がいずれもサンフランシ
スコで
Spark Summit EAST 2015 大木基至	
 9	
会場の雰囲気
Spark Summit EAST 2015 大木基至	
 10	
Silver
Sponsors
Platinum
Gold
データウェアハウス系企業ももちろん多いが、
データサイエンス  /  データを所持した企業も多い
Spark Summit EAST 2015 大木基至	
 11	
2014年年のSpark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
Spark Summit EAST 2015 大木基至	
 12	
2014年年のSpark
Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」
Contributors  per  Month  to  Spark
http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
Spark Summit EAST 2015 大木基至	
 13	
Spark  Summit  Keynote  
Spark Summit EAST 2015 大木基至	
 14	
2015年年の焦点は以下の2つ
•  1. Data Science
–  データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から)
–  Machine Learning Pipelinesの開発も引き続き
–  R interfaceの充実(2015/6リリースのSpark 1.4でSparkR!)
所感:2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている
•  2. Platform Interfaces Plug in data sources
and algorithms
–  外部のData Soucesインターフェースを充実させる
•  MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ
クな⽂文法で呼べるようになる
–  Goalとして、”unified engine across data sources”
New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
Spark Summit EAST 2015 大木基至	
 15	
New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
所感:Sparkがデータソースとそれらを分析するツールを統合化した
      コアエンジンになることを⽬目指している
Spark Summit EAST 2015 大木基至	
 16	
Harnessing  the  Power  of  Spark  with  Databricks  Cloud
•  Ion Stoica(CEO at databricks)が講演
•  Databricks Cloudのご紹介
–  Databricks社のクラウド型の統合分析プラットフォーム
•  Notebook型のインターフェース
•  Scala, Python, SQL
•  クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager
→
Notebook型イン
ターフェースで分析
ダッシュボードとし
て共有
分析がジョブと
して実⾏行行される
Spark Summit EAST 2015 大木基至	
 17	
Harnessing  the  Power  of  Spark  with  Databricks  Cloud
•  Databricks Cloud プラットフォーム
Spark Summit EAST 2015 大木基至	
 18	
Developers  Track  
Developers Track の全体概要
•  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と
いうキーワードをセッションの中に盛り込んでいた
•  SQLで操作したいという欲求も多い
–  Hadoopの世界と同じ
–  やはりDB技術者は多い
•  パラメータチューニングに関する話題はほとんど無かった
–  プロダクトの紹介が多い
•  javaは嫌
–  コンパイル⾔言語は⼤大変。。
–  Python、R好きの⼈人から注⽬目を集めている
Spark Summit EAST 2015 大木基至	
 19	
Developers  Track  
•  Beyond SQL: Spark SQL Abstractions For The Common
Spark Job - Michael Armbrust (Databricks)
–  ジョブの作成コストがHadoopよりも低い
•  コード量量が少ない
–  様々なAPIが⽤用意されているので他のミドルとの連携が⽤用意
•  import側:JSON, Hive, MySQL, HDFS, S3等
•  export側:dBase, cassandram HBASE, elasticsearch, amazonRedshift
Spark Summit EAST 2015 大木基至	
 20	
Developers  Track  
•  Spark User Concurrency and Context/RDD Sharing
at Production Scale - Farzad Aref (Zoomdata)
–  ビジュアライゼーションツールの1つであるZoomdataの紹介
–  Zoomdataは様々なデータソース(ex. S3, HDFS, RDB)を
扱えるがSparkにも対応している
–  Spark側でジョブを実⾏行行するようにコネクタ(ドライバ)を作
成したので、インメモリでデータを解析する仕組みを
Zoomdata上から活⽤用可能
–  HDFS上のデータならspark経由でデータを扱ったほうが⾼高速で
良良い
Spark Summit EAST 2015 大木基至	
 21	
Developers  Track  
•  Power Hive with Spark(Hive on Spark) - Chao Sun
(Cloudera), Marcelo Vanzin (Cloudera)
–  HiveはSQLライクな⾔言語でHadoopのジョブを実⾏行行できるインタフェ
イスであり、様々な企業で利利⽤用されているが、map/reduce処理理のた
め⾼高速な処理理は期待できない
–  Hiveの処理理エンジンとしてSparkを利利⽤用する事でレスポンスタイムを
向上できる
–  hiveの機能の⼀一部として開発が進んでいる(HIVE-7292)
•  著名な企業からコントリビュータが参画
–  Hive1.1の機能の⼀一部としてHive on Spark(HoS)
HDFS
Spark
Mesos
Hive
YARN
HoS
Spark Summit EAST 2015 大木基至	
 22	
Data  Science  Track  
Data Science Track の全体概要
•  各ライブラリを使った分析事例例
–  2014年年の前回から事例例が増えている
•  前回は使ってみました系 / 試してみましたが多かった
–  Mlib, Graph X, Spark Streamingなどを使った事例例
–  実際に動いてるデモが多く、使えることをアピールしている
•  コードの実装例例も⾒見見ることができた
•  Sparkによるデータ分析の効率率率化のための検証
–  SparkRの現状報告やR onlyよりどれだけ処理理が早いかなどの検証
–  Deep LearningをするためのGPU演算をSparkで分散実⾏行行
*  講演の様⼦子はYoutubeで公開
Spark Summit EAST 2015 大木基至	
 23	
Spark  ML  Pipelines
•  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供
①Tokenizer:
データの選択/変換しトークン化
②hashingTF:
データの特徴抽出(TF-‐‑‒IDF)
③lr:
(パラメータを変化させながら)モデル
作成
ML  Pipelinesの⼀一例例
④Pipelines実⾏行行
①
②
③
④
Spark Summit EAST 2015 大木基至	
 24	
Spark  ML  Pipelines
•  Practical Machine Learning Pipelines with Mllib
–  Joseph Bradley (Databricks)
–  ML Pipelinesの紹介
•  Spark 1.2以上で使⽤用可能だが、まだ実験的な段階
•  他にも、グリッドサーチによるパラメータ選択・Cross Validationによる
モデル選択なども実装できている
•  今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して
いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark
1.3もリリースした印象
•  データサイエンスの中でユースケースの話しは特になし
–  まだ使える⼿手法が限定されている
Spark Summit EAST 2015 大木基至	
 25	
Spark  Mlib
•  実⽤用的な機械学習ライブラリを提供
–  K-means, Logistic regression…など
•  ただし、アルゴリズムによって実装品質が揃ってないので注意
•  Scikit-learn / R に追いつけるか…
–  Scala, Python, Javaで書ける
•  Sparkのバイナリをダウンロードするとソースコードもついてくる
–  数⾏行行程度度で機械学習が回せるのは便便利利
–  ⾃自学習には、Spark Summit 2014のハンズオン資料料が良良い
•  https://databricks-training.s3.amazonaws.com/movie-
recommendation-with-mllib.html
Spark Summit EAST 2015 大木基至	
 26	
Spark  Mlib
•  Un-collaborative filtering: Giving the right
recommendations when your users aren’t helping
you
–  Leah McGuire (PhD, Salesforce)
–  協調フィルタリングの実装とその分析事例例
データ分析のスケールがほしい
⼀一からは作りたくない・Mlibが便便利利
Spark Summit EAST 2015 大木基至	
 27	
Spark  Streaming
•  ストリームデータ︎のほぼリアルタイム処理理を提供する  
–  Scala, Javaのみだったが、Spark 1.3以降降でPythonもサポート
–  多くのストリーミングデータ・ソースをそのまま読み込める
•  Socket, Flume, Kafka, Twitterなど(Fluentdはまだ未実装)
–  Discretized Stream(= ⼀一連のRDD)
•  受けっ取ったストリーミングデータをn秒ごとにRDDに切切り出す
•  あくまでマイクロバッチ(500ms ~ 30s)
•  10msクラスなら
     Flume / Stormが適切切
–  イベントドリブンには
少し使いづらいかも
•  ずっと演算しているので
CPU / メモリは⾷食う
参考(DMMのビッグデータ分析のご紹介2  〜~Sparkによるリアルタイムレコメンド
〜~):https://prezi.com/iz1d_sefm1q9/dmmcom-dmm2-spark/
Spark Summit EAST 2015 大木基至	
 28	
Spark  Streaming
•  Streaming machine learning in Spark
–  Jeremy Freeman (HHMI Janelia Research Center)
•  Neuroscientist using computation to understand the brain
–  Mlib+Spark Streming
•  K-means Streaming, Streaming Linear Regression, Time Series
analysis… など
•  個⼈人的には⼀一番しっかりSparkらしい分析をしていた
Spark Summit EAST 2015 大木基至	
 29	
(紹介)  Graph  X  
•  並列列グラフ計算処理理システム
–  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム
で実装することが可能
•  分散格納されたグラフ構造データは分散環境間で情報の共有が必要で、並
列列分散処理理⾃自体に適さないところを解決している
•  そもそもグラフ解析とは?
–  表構造で扱いづらいデータが増えてきた(SNS, Networkなど)
•  繋がりの抽出
•  軸の抽出
•  距離離の計測
•  影響の計測
•  Graph X Advent Calendar 2014
–  http://www.adventar.org/calendars/491
•  Graph X だけの書籍も
Spark Summit EAST 2015 大木基至	
 30	
Workshop
Data Science Workshop
n  Databricks  Cloud  環境の紹介
n  機械学習の各⼿手法の説明
n  Kaggle  コンテストデータを使った
Hands  On
…さらに、RecSys2015への投稿
■Sparkの内部アーキテクチャの解説
■ジョブ実⾏行行の仕組み解説
■GUIツールの解説
■(メモリ周り中⼼心)パラメータ項⽬目の説明
とおおまかな設定⽅方法解説
■DataBricks Cloudを使⽤用してのSparkジョ
ブの実⾏行行
- データロードの仕⽅方、関数の使い⽅方
- ジョブを実⾏行行してGUI上からジョブを閲覧等
Advance  Developer  Workshop
Spark Summit EAST 2015 大木基至	
 31	
Workshop
•  Workshopの所感
–  DataBricks Cloud便便利利
•  GUIでサクッとVMをデプロイしたりクローン作成が可能
•  マルチ⾔言語が便便利利(SQLでデータ取ってきて、Pythonで機械学習を実施
みたいなことができた)
•  シェアするのも便便利利
–  (Developers Workshopの)アンケート結果(⾔言語毎の習熟度度)
•  Java、SQL使いが多い
•  Scala、Pythonは初⼼心者
•  Rは知らない
→  1⽇日⽬目のキーノートではデータサイエンティストを取り込む流流れを
述べていたが、現時点ではSpark Developersに興味がある⼈人はデータ
サイエンティストでは無い様⼦子
–  Wireless LAN障害で2時間程、何もできず
•  しまいにはホテルの公衆lanを使えという始末
Spark Summit EAST 2015 大木基至	
 32	
Meetup  
•  データサイエンス系のMeetupも周辺で多数開催
–  DataDriven(2015/03/17 )
•  NYCで⽉月1度度開催
•  データにまつわることをなんでも
•  IT企業のCEO,CTOが発表することも多い
•  無料料でbloombergでご飯も
•  講演はYoutubeチャンネルで配信
–  NYC Data Science(2015/03/18)
•  Spark DataFrames and ML Pipelines for Large-Scale Data Science
•  Databricks社のエンジニアも発表した模様
–  PyData NYC(2015/03/20)
•  Python + Data Science
•  ⽇日本でも現在5回⽬目(5/22)。いつも参加登録が殺到
–  http://pydatatokyo.connpass.com/
Spark Summit EAST 2015 大木基至	
 33	
Data  Driven  NYC  #35
•  #35のテーマ
–  Swiftkeyの開発背景(Swiftkey, CTO)
•  キーボードアプリ。⼊入⼒力力ミスを学習し、⾃自動で訂正してくれる。よく使う
⾔言葉葉、⽂文脈に応じた次の⾔言葉葉を予測してくれる
–  時系列列データベースInfluxDB(Paul Dix@InfluxDB, CEO)
•  GO⾔言語、時系列列データベース
•  分析のためのDB
–  Sparkの背景(Ion Stoica@Databricks, CEO)
•  ポイント
–  データを活かすまでの事前作業はとてつもなく⼤大変
•  Swiftkeyの単語数は1兆語!
–  データベースも分析をするために使⽤用されることを前提とした作りが
前提になっている
1.  Datadriven:http://datadrivennyc.com/
2.  Datadriven Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
Spark Summit EAST 2015 大木基至	
 34	
PyData  NYC
•  テーマ
–  Project Jupyter for Data Science
–  Matplotlib and the IPython notebook
–  shapeshifting for your data
–  A couple of tips for winning data science competitions
•  ポイント
–  Jupyter(Julia + Python + R)
•  マルチ⾔言語を1つのnotebookインタフェースで分析できるように
–  分析、レジュメ作成、プレゼン、公開まですべてnotebookで
•  データサイエンティストの分析をnotebookに集めようとしている
•  Notebookインタフェースを使ってプレゼンも
1.  PyData:http://datadrivennyc.com/
2.  PyData Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
Spark Summit EAST 2015 大木基至	
 35	
まとめ
•  Sparkとは
–  今データサイエンスの中で今もっともアクティブなプロジェクト
•  Spark Summit概要
–  Hadoopの時と異異なりデータサイエンティストを巻き込もうとしてい
る
•  各トラックとWorkshopの内容
–  ネクストHadoop。メモリに収まりきらないデータの分析でも殆どの
場合でHadoopよりも早い
–  Mlib / SparkStreaming / Graph X / SparkR等の開発・事
例例・検証もまだまだ出てくる
•  その他関連MTG
–  Notebookインターフェースでの分析が今のトレンド
–  R, Python, (Juliaも?)がデータサイエンスの⾔言語の中⼼心

More Related Content

PDF
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
PDF
Spark勉強会_ibm_20151014-公開版
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
PDF
Spark MLlibではじめるスケーラブルな機械学習
PDF
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
PDF
Spark SQL - The internal -
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
PPTX
Pythonで入門するApache Spark at PyCon2016
16.02.08_Hadoop Conferece Japan 2016_データサイエンスにおける一次可視化からのSpark on Elasticsear...
Spark勉強会_ibm_20151014-公開版
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
Spark MLlibではじめるスケーラブルな機械学習
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
Spark SQL - The internal -
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Pythonで入門するApache Spark at PyCon2016

What's hot (20)

PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
PDF
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
PDF
Sparkを用いたビッグデータ解析 〜 前編 〜
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
PDF
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
PDF
Apache Sparkの紹介
PPSX
HBaseとSparkでセンサーデータを有効活用 #hbasejp
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
PDF
Hadoop2.6の最新機能+
PDF
Apache Spark 1000 nodes NTT DATA
PDF
Apache Hadoop 2.8.0 の新機能 (抜粋)
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
PDF
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
PDF
Apache Spark の紹介(前半:Sparkのキホン)
PDF
Spark Summit 2015 参加報告
PDF
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
PDF
Hadoop ecosystem NTTDATA osc15tk
PDF
Apache Hadoop and YARN, current development status
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkコミュニティに飛び込もう!(Spark Meetup Tokyo 2015 講演資料、NTTデータ 猿田 浩輔)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
Sparkを用いたビッグデータ解析 〜 前編 〜
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Apache Sparkの紹介
HBaseとSparkでセンサーデータを有効活用 #hbasejp
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Hadoop2.6の最新機能+
Apache Spark 1000 nodes NTT DATA
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
Apache Spark の紹介(前半:Sparkのキホン)
Spark Summit 2015 参加報告
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop ecosystem NTTDATA osc15tk
Apache Hadoop and YARN, current development status
Ad

Similar to 15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015- (20)

PPTX
Spark Summit 2014 の報告と最近の取り組みについて
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
PDF
ビッグじゃなくても使えるSpark Streaming
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
PDF
20190517 Spark+AI Summit2019最新レポート
PPTX
Watson summit 2016_j2_5
PDF
ゼロから始めるSparkSQL徹底活用!
PDF
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
PDF
Presto As A Service - Treasure DataでのPresto運用事例
PDF
平成最後の1月ですし、Databricksでもやってみましょうか
PDF
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
PDF
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
PDF
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
PDF
What makes Apache Spark?
PDF
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
PPTX
Big datauniversity
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Spark Summit 2014 の報告と最近の取り組みについて
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
ビッグじゃなくても使えるSpark Streaming
Deep Dive into Spark SQL with Advanced Performance Tuning
20190517 Spark+AI Summit2019最新レポート
Watson summit 2016_j2_5
ゼロから始めるSparkSQL徹底活用!
Spark Streamingで作る、つぶやきビッグデータのクローン(Hadoop Spark Conference Japan 2016版)
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
Presto As A Service - Treasure DataでのPresto運用事例
平成最後の1月ですし、Databricksでもやってみましょうか
Spark Streamingで作る、つぶやきビッグデータのクローン (2015-11.10版)
9/16 Tokyo Apache Drill Meetup - drill vs sparksql
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
What makes Apache Spark?
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Big datauniversity
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Ad

More from LINE Corp. (20)

PDF
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
PDF
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
PDF
17.04.27_JSAI Cup 2017_5th winner's solution
PPTX
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
PDF
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
PDF
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
PDF
13.03.09_決定ルール解析のための頑健性指標
PDF
14.09.12_インターネット測定システムの開発と運用
PPTX
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
PDF
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
PDF
Rによるテキストマイニングの一例
PPTX
Rによる決定木解析の一例
PPTX
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
PPTX
13.12.21_大ヒットの方程式数理モデル解説
PPTX
13.12.07 CIKM2013読み会
PDF
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
PDF
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
PDF
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
PDF
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
PDF
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...
18.07.11_useR2018 Poster_Time Series Digger : Automatic time series analysis ...
18.02.05_IAAI2018_Mobille Network Failure Event Detection and Forecasting wit...
17.04.27_JSAI Cup 2017_5th winner's solution
17.11.29_論文紹介_BRACID a comprehensive approach to learning rules from imbalanc...
17.04.21_論文紹介_Decision bireducts and decision reducts - a comparison
17.01.18_論文紹介_Discrimination- and privacy-aware patterns
13.03.09_決定ルール解析のための頑健性指標
14.09.12_インターネット測定システムの開発と運用
13.11.15_野村総研マーケティング分析コンテスト2013(佳作賞)_Facebookとtwitterの利用者に対する消費行動分析とそれに基づく広告...
14.01.31_アドベンチャー杯2013_情報工学分野と他の研究分野間の関連度分析
Rによるテキストマイニングの一例
Rによる決定木解析の一例
11.12.06_論文紹介_Classification systems based on rough sets under the belief fun...
13.12.21_大ヒットの方程式数理モデル解説
13.12.07 CIKM2013読み会
11.05.10_論文紹介_Can Bayesian Confirmation Measures be Useful for Rough Set Deci...
11.11.27_2011年度数理システム学生研究奨励賞「佳作賞」_ニュースサイトにおける大学生の嗜好要因の特定とサイト制作への応用_
12.11.06_2012年度S-PLUS学生研究奨励賞「佳作賞」_数量化理論第Ⅱ類とアソシエーションルール解析による自動車バナーデザインの分析
12.10.22_論文紹介_Measuring expected effects of interventions based on decision r...
12.10.15_論文紹介_Property of rule interestingness measures and alternative appro...

Recently uploaded (8)

PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説

15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-

  • 1. ビッグデータ分析基盤Sparkの 最新動向とその活⽤用 -‐‑‒  Spark  SUMMIT  EAST  2015  – 2015年年3⽉月17⽇日〜~18⽇日 ⼤大⽊木  基⾄至 ohki@inulab.sys.es.osaka-‐‑‒u.ac.jp
  • 2. Spark Summit EAST 2015 大木基至 2 01.  Spark  と  カンファレンス概要 Spark  とは? •  Sparkとは –  公式サイトでは、   ⇛Apache  Sparkは⼤大規模データ処理理のための⾼高速で汎⽤用的なエンジン
  • 3. Spark Summit EAST 2015 大木基至 3 Spark  とは? •  Sparkとは –  UC  Berkeleyの研究組織「AMPLab.」で開発されたOSS –  開発の中⼼心企業は⽶米Databricks社 •  ラボからIon  Stoica⽒氏らがスピンアウトして設⽴立立したベンチャー企業 –  分散クラスタ型のデータ処理理エンジンで、インメモリでビッグデータ を並列列分散処理理する –  ビッグデータの分散処理理としてはhadoopが有名であるが、ストレー ジベースの処理理⽅方式のため、あまり⾼高速ではない –  対してsparkはデータを⼀一旦メモリにキャッシュし、メモリ上で処理理 を⾏行行うため、繰り返し処理理ではとても⾼高速
  • 4. Spark Summit EAST 2015 大木基至 4 Spark  とは? 開発履履歴 ⽇日付 Ver. 内容 2009年年 - UC Berkleyの研究組織「AMPLab.」にて開発開始 2010年年 - OSS化。その後Apacheソフトウェア財団にコードを寄贈 2012年年10⽉月 0.6.0 スタンドアロンモード、Java APIサポート 2013年年2⽉月 0.7.0 Python APIサポート、ストリーミングサポート 2013年年9⽉月 0.8.0 UIにジョブのダッシュボードが追加、Mlibサポート 2014年年2⽉月 0.9.0 Scala2.10サポート、GraphXサポート 2014年年5⽉月 1.0.0 Spark SQLサポート、Mlibのアルゴリズム充実 2014年年11⽉月 1.1.0 マイナーリリース 2014年年12⽉月 1.2.0 パフォーマンス改善、Spark StreamingのHAサポート 2015年年3⽉月 1.3.0 DataFrames APIサポート 2015年年4⽉月 1.3.1 メンテナンスリリース
  • 5. Spark Summit EAST 2015 大木基至 5 Spark  とは? •  Hadoopとの⽐比較ーレイヤスタック図 –  下回りの構成は同じ。 –  MapReduceがSparkに置き換わったイメージ Spark HDFS MapReduce Spark SQL MlibHive Sqoop YARN Mesos SparkHadoop YARN:分散処理理フレームワーク。アプリケーションからのリソース要求のハンドリングやスケジューリングを⾏行行う Mesos:分散アプリケーション  or フレームワークに対して、効率率率的なリソース分離離、共有を提供するクラスタ管理理ソフト … … HDFS YARN Mesos
  • 6. Spark Summit EAST 2015 大木基至 6 Spark  とは? •  Hadoopとの⽐比較ーデータ処理理の流流れ MapReduceはディスクベースで処理理 各ステージ(処理理の単位)処理理はオンメモリで実⾏行行 M Spark Hadoop R R R HDFS 処理理 読 読 読書 書 書 S S S HDFS 処理理 読 読 読書 書 書
  • 7. Spark Summit EAST 2015 大木基至 7 Spark  とは? •  Hadoopとの⽐比較 –  共通点 •  ASF(Apache  Software  Foundation)のトップレベルPJ •  分散ファイルシステム(HDFS)からファイルをロード可能 •  MapReduceプログラミングモデル •  SQLのインタフェイスや機械学習等のライブラリが充実 –  相違点 •  メモリ上にデータをキャシュして処理理可能 •  Scala,  Pythonのユーザインタフェイスでインタラクティブに操作可能
  • 8. Spark Summit EAST 2015 大木基至 8 開催概要 •  開催⽇日:2015/03/18〜~2015/03/19(2⽇日間) –  3/18:午前:Keynote                午後:3  tracks(27  sessions)                                                -‐‑‒  Developers,  Applications,  Data  Science –  3/19:Workshop •  開催場所:The  Sheraton,  New  York •  開催回数: –  Spark  Summit  East  としては初開催 –  Spark  Summit  2015  がサンフランシスコで2015年年7⽉月開 催予定 •  これまで、Spark  Summit  2013、2014がいずれもサンフランシ スコで
  • 9. Spark Summit EAST 2015 大木基至 9 会場の雰囲気
  • 10. Spark Summit EAST 2015 大木基至 10 Silver Sponsors Platinum Gold データウェアハウス系企業ももちろん多いが、 データサイエンス  /  データを所持した企業も多い
  • 11. Spark Summit EAST 2015 大木基至 11 2014年年のSpark http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
  • 12. Spark Summit EAST 2015 大木基至 12 2014年年のSpark Matei「データサイエンスの中で今最もアクティブなプロジェクトだ」 Contributors  per  Month  to  Spark http://www.slideshare.net/databricks/new-directions-for-apache-spark-in-2015
  • 13. Spark Summit EAST 2015 大木基至 13 Spark  Summit  Keynote  
  • 14. Spark Summit EAST 2015 大木基至 14 2015年年の焦点は以下の2つ •  1. Data Science –  データフレームをRDDで(2015年年3⽉月リリースのSpark 1.3から) –  Machine Learning Pipelinesの開発も引き続き –  R interfaceの充実(2015/6リリースのSpark 1.4でSparkR!) 所感:2015年年度度はデータサイエンス系の⼈人材を引き込もうとしている •  2. Platform Interfaces Plug in data sources and algorithms –  外部のData Soucesインターフェースを充実させる •  MySQL、Hive、Hbaseとのインターフェース。例例えば、SQLライ クな⽂文法で呼べるようになる –  Goalとして、”unified engine across data sources” New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks)
  • 15. Spark Summit EAST 2015 大木基至 15 New  Direction  for  Spark  in  2015(Matei,  CTO,  Databricks) 所感:Sparkがデータソースとそれらを分析するツールを統合化した       コアエンジンになることを⽬目指している
  • 16. Spark Summit EAST 2015 大木基至 16 Harnessing  the  Power  of  Spark  with  Databricks  Cloud •  Ion Stoica(CEO at databricks)が講演 •  Databricks Cloudのご紹介 –  Databricks社のクラウド型の統合分析プラットフォーム •  Notebook型のインターフェース •  Scala, Python, SQL •  クラウド基盤はAWSで、計算エンジンがSpark + Cluster Manager → Notebook型イン ターフェースで分析 ダッシュボードとし て共有 分析がジョブと して実⾏行行される
  • 17. Spark Summit EAST 2015 大木基至 17 Harnessing  the  Power  of  Spark  with  Databricks  Cloud •  Databricks Cloud プラットフォーム
  • 18. Spark Summit EAST 2015 大木基至 18 Developers  Track   Developers Track の全体概要 •  殆どのスピーカはsparkが「インメモリ型処理理を⾏行行うから早い」と いうキーワードをセッションの中に盛り込んでいた •  SQLで操作したいという欲求も多い –  Hadoopの世界と同じ –  やはりDB技術者は多い •  パラメータチューニングに関する話題はほとんど無かった –  プロダクトの紹介が多い •  javaは嫌 –  コンパイル⾔言語は⼤大変。。 –  Python、R好きの⼈人から注⽬目を集めている
  • 19. Spark Summit EAST 2015 大木基至 19 Developers  Track   •  Beyond SQL: Spark SQL Abstractions For The Common Spark Job - Michael Armbrust (Databricks) –  ジョブの作成コストがHadoopよりも低い •  コード量量が少ない –  様々なAPIが⽤用意されているので他のミドルとの連携が⽤用意 •  import側:JSON, Hive, MySQL, HDFS, S3等 •  export側:dBase, cassandram HBASE, elasticsearch, amazonRedshift
  • 20. Spark Summit EAST 2015 大木基至 20 Developers  Track   •  Spark User Concurrency and Context/RDD Sharing at Production Scale - Farzad Aref (Zoomdata) –  ビジュアライゼーションツールの1つであるZoomdataの紹介 –  Zoomdataは様々なデータソース(ex. S3, HDFS, RDB)を 扱えるがSparkにも対応している –  Spark側でジョブを実⾏行行するようにコネクタ(ドライバ)を作 成したので、インメモリでデータを解析する仕組みを Zoomdata上から活⽤用可能 –  HDFS上のデータならspark経由でデータを扱ったほうが⾼高速で 良良い
  • 21. Spark Summit EAST 2015 大木基至 21 Developers  Track   •  Power Hive with Spark(Hive on Spark) - Chao Sun (Cloudera), Marcelo Vanzin (Cloudera) –  HiveはSQLライクな⾔言語でHadoopのジョブを実⾏行行できるインタフェ イスであり、様々な企業で利利⽤用されているが、map/reduce処理理のた め⾼高速な処理理は期待できない –  Hiveの処理理エンジンとしてSparkを利利⽤用する事でレスポンスタイムを 向上できる –  hiveの機能の⼀一部として開発が進んでいる(HIVE-7292) •  著名な企業からコントリビュータが参画 –  Hive1.1の機能の⼀一部としてHive on Spark(HoS) HDFS Spark Mesos Hive YARN HoS
  • 22. Spark Summit EAST 2015 大木基至 22 Data  Science  Track   Data Science Track の全体概要 •  各ライブラリを使った分析事例例 –  2014年年の前回から事例例が増えている •  前回は使ってみました系 / 試してみましたが多かった –  Mlib, Graph X, Spark Streamingなどを使った事例例 –  実際に動いてるデモが多く、使えることをアピールしている •  コードの実装例例も⾒見見ることができた •  Sparkによるデータ分析の効率率率化のための検証 –  SparkRの現状報告やR onlyよりどれだけ処理理が早いかなどの検証 –  Deep LearningをするためのGPU演算をSparkで分散実⾏行行 *  講演の様⼦子はYoutubeで公開
  • 23. Spark Summit EAST 2015 大木基至 23 Spark  ML  Pipelines •  データの選択、前処理理、変換の⼀一気通貫した実⾏行行を提供 ①Tokenizer: データの選択/変換しトークン化 ②hashingTF: データの特徴抽出(TF-‐‑‒IDF) ③lr: (パラメータを変化させながら)モデル 作成 ML  Pipelinesの⼀一例例 ④Pipelines実⾏行行 ① ② ③ ④
  • 24. Spark Summit EAST 2015 大木基至 24 Spark  ML  Pipelines •  Practical Machine Learning Pipelines with Mllib –  Joseph Bradley (Databricks) –  ML Pipelinesの紹介 •  Spark 1.2以上で使⽤用可能だが、まだ実験的な段階 •  他にも、グリッドサーチによるパラメータ選択・Cross Validationによる モデル選択なども実装できている •  今後、データ選択、変換、特徴抽出のアルゴリズムなどをさらに実装して いくとFuture Plan…だが、Roadmap的にやること⼭山積みのまま、Spark 1.3もリリースした印象 •  データサイエンスの中でユースケースの話しは特になし –  まだ使える⼿手法が限定されている
  • 25. Spark Summit EAST 2015 大木基至 25 Spark  Mlib •  実⽤用的な機械学習ライブラリを提供 –  K-means, Logistic regression…など •  ただし、アルゴリズムによって実装品質が揃ってないので注意 •  Scikit-learn / R に追いつけるか… –  Scala, Python, Javaで書ける •  Sparkのバイナリをダウンロードするとソースコードもついてくる –  数⾏行行程度度で機械学習が回せるのは便便利利 –  ⾃自学習には、Spark Summit 2014のハンズオン資料料が良良い •  https://databricks-training.s3.amazonaws.com/movie- recommendation-with-mllib.html
  • 26. Spark Summit EAST 2015 大木基至 26 Spark  Mlib •  Un-collaborative filtering: Giving the right recommendations when your users aren’t helping you –  Leah McGuire (PhD, Salesforce) –  協調フィルタリングの実装とその分析事例例 データ分析のスケールがほしい ⼀一からは作りたくない・Mlibが便便利利
  • 27. Spark Summit EAST 2015 大木基至 27 Spark  Streaming •  ストリームデータ︎のほぼリアルタイム処理理を提供する   –  Scala, Javaのみだったが、Spark 1.3以降降でPythonもサポート –  多くのストリーミングデータ・ソースをそのまま読み込める •  Socket, Flume, Kafka, Twitterなど(Fluentdはまだ未実装) –  Discretized Stream(= ⼀一連のRDD) •  受けっ取ったストリーミングデータをn秒ごとにRDDに切切り出す •  あくまでマイクロバッチ(500ms ~ 30s) •  10msクラスなら      Flume / Stormが適切切 –  イベントドリブンには 少し使いづらいかも •  ずっと演算しているので CPU / メモリは⾷食う 参考(DMMのビッグデータ分析のご紹介2  〜~Sparkによるリアルタイムレコメンド 〜~):https://prezi.com/iz1d_sefm1q9/dmmcom-dmm2-spark/
  • 28. Spark Summit EAST 2015 大木基至 28 Spark  Streaming •  Streaming machine learning in Spark –  Jeremy Freeman (HHMI Janelia Research Center) •  Neuroscientist using computation to understand the brain –  Mlib+Spark Streming •  K-means Streaming, Streaming Linear Regression, Time Series analysis… など •  個⼈人的には⼀一番しっかりSparkらしい分析をしていた
  • 29. Spark Summit EAST 2015 大木基至 29 (紹介)  Graph  X   •  並列列グラフ計算処理理システム –  グラフ構造データと表構造データの並列列分散処理理をひとつのシステム で実装することが可能 •  分散格納されたグラフ構造データは分散環境間で情報の共有が必要で、並 列列分散処理理⾃自体に適さないところを解決している •  そもそもグラフ解析とは? –  表構造で扱いづらいデータが増えてきた(SNS, Networkなど) •  繋がりの抽出 •  軸の抽出 •  距離離の計測 •  影響の計測 •  Graph X Advent Calendar 2014 –  http://www.adventar.org/calendars/491 •  Graph X だけの書籍も
  • 30. Spark Summit EAST 2015 大木基至 30 Workshop Data Science Workshop n  Databricks  Cloud  環境の紹介 n  機械学習の各⼿手法の説明 n  Kaggle  コンテストデータを使った Hands  On …さらに、RecSys2015への投稿 ■Sparkの内部アーキテクチャの解説 ■ジョブ実⾏行行の仕組み解説 ■GUIツールの解説 ■(メモリ周り中⼼心)パラメータ項⽬目の説明 とおおまかな設定⽅方法解説 ■DataBricks Cloudを使⽤用してのSparkジョ ブの実⾏行行 - データロードの仕⽅方、関数の使い⽅方 - ジョブを実⾏行行してGUI上からジョブを閲覧等 Advance  Developer  Workshop
  • 31. Spark Summit EAST 2015 大木基至 31 Workshop •  Workshopの所感 –  DataBricks Cloud便便利利 •  GUIでサクッとVMをデプロイしたりクローン作成が可能 •  マルチ⾔言語が便便利利(SQLでデータ取ってきて、Pythonで機械学習を実施 みたいなことができた) •  シェアするのも便便利利 –  (Developers Workshopの)アンケート結果(⾔言語毎の習熟度度) •  Java、SQL使いが多い •  Scala、Pythonは初⼼心者 •  Rは知らない →  1⽇日⽬目のキーノートではデータサイエンティストを取り込む流流れを 述べていたが、現時点ではSpark Developersに興味がある⼈人はデータ サイエンティストでは無い様⼦子 –  Wireless LAN障害で2時間程、何もできず •  しまいにはホテルの公衆lanを使えという始末
  • 32. Spark Summit EAST 2015 大木基至 32 Meetup   •  データサイエンス系のMeetupも周辺で多数開催 –  DataDriven(2015/03/17 ) •  NYCで⽉月1度度開催 •  データにまつわることをなんでも •  IT企業のCEO,CTOが発表することも多い •  無料料でbloombergでご飯も •  講演はYoutubeチャンネルで配信 –  NYC Data Science(2015/03/18) •  Spark DataFrames and ML Pipelines for Large-Scale Data Science •  Databricks社のエンジニアも発表した模様 –  PyData NYC(2015/03/20) •  Python + Data Science •  ⽇日本でも現在5回⽬目(5/22)。いつも参加登録が殺到 –  http://pydatatokyo.connpass.com/
  • 33. Spark Summit EAST 2015 大木基至 33 Data  Driven  NYC  #35 •  #35のテーマ –  Swiftkeyの開発背景(Swiftkey, CTO) •  キーボードアプリ。⼊入⼒力力ミスを学習し、⾃自動で訂正してくれる。よく使う ⾔言葉葉、⽂文脈に応じた次の⾔言葉葉を予測してくれる –  時系列列データベースInfluxDB(Paul Dix@InfluxDB, CEO) •  GO⾔言語、時系列列データベース •  分析のためのDB –  Sparkの背景(Ion Stoica@Databricks, CEO) •  ポイント –  データを活かすまでの事前作業はとてつもなく⼤大変 •  Swiftkeyの単語数は1兆語! –  データベースも分析をするために使⽤用されることを前提とした作りが 前提になっている 1.  Datadriven:http://datadrivennyc.com/ 2.  Datadriven Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
  • 34. Spark Summit EAST 2015 大木基至 34 PyData  NYC •  テーマ –  Project Jupyter for Data Science –  Matplotlib and the IPython notebook –  shapeshifting for your data –  A couple of tips for winning data science competitions •  ポイント –  Jupyter(Julia + Python + R) •  マルチ⾔言語を1つのnotebookインタフェースで分析できるように –  分析、レジュメ作成、プレゼン、公開まですべてnotebookで •  データサイエンティストの分析をnotebookに集めようとしている •  Notebookインタフェースを使ってプレゼンも 1.  PyData:http://datadrivennyc.com/ 2.  PyData Youtube:https://www.youtube.com/channel/UCQID78IY6EOojr5RUdD47MQ
  • 35. Spark Summit EAST 2015 大木基至 35 まとめ •  Sparkとは –  今データサイエンスの中で今もっともアクティブなプロジェクト •  Spark Summit概要 –  Hadoopの時と異異なりデータサイエンティストを巻き込もうとしてい る •  各トラックとWorkshopの内容 –  ネクストHadoop。メモリに収まりきらないデータの分析でも殆どの 場合でHadoopよりも早い –  Mlib / SparkStreaming / Graph X / SparkR等の開発・事 例例・検証もまだまだ出てくる •  その他関連MTG –  Notebookインターフェースでの分析が今のトレンド –  R, Python, (Juliaも?)がデータサイエンスの⾔言語の中⼼心