SlideShare a Scribd company logo
分析環境-アレコレ- 
By @yuu_kimy
◇自己紹介(簡単に..) 
› 最近は、こんな感じです。相変わらず、エンジニア(の端くれ)です.. 
› Rを結構動かしたり、、 
› 英語の記事を追いかけたり、 
› Java演習のサポートをしたり、、etc 
› ブログを時々書いています。(時々です。笑) 
› http://yuu-kimy-note.hatenablog.com/
◇分析環境 
› 今回のテーマは、「分析環境」をみていきます! 
› これまではRがメインでしたが、他に、どのような環境が 
› 出来るのかをみていきたいと思います。
◇Rの短所 
› 統計解析/機械学習に非常に強みを持つRも短所はあるわけで、、 
› 基本的に1CPU(コア)による演算処理 
› 分析データは、メモリで保持 
› 結構メモリを喰う..(参照渡しが出来ない) 
› つまり、大規模データを扱うには不向きな分析環境と言えますね.. 
› (勿論、フリーソフトであり、様々なパッケージを持つRは、魅力的ですよ!!!)
◇分析環境を考える.. 
› 他に、どのような環境が考えられるか見ていきましょう! 
› 1. Rと大規模データ用のパッケージを利用(or ハードウェア強化) 
› 2. RとHadoopの組合せを利用 
› 3. Mahout(Hadoop)を利用 
› 4. Jubatus(呼称:ユバタス)を利用 
› 5. PostgreSQLとMADlibを利用 
› 6. Revolution Rを利用 
› 7. Pythonを利用 
› 8. Microsoft AzureMLを利用
1. Rと大規模データ用のパッケージ利用(or HW) 
› 既存環境のRを強化するパターン。 
› 元々、Rは大規模データの扱いが苦手なわけですが、 
› パッケージ{ff,Bigmemory}で、その短所を改善する。 
(つまり、オンメモリではなく、ディスクも有効活用するということ) 
› 又は、R環境のメモリ容量を格段に上げる!(64bit環境+XXGB) 
› 注意: 
› 上記パッケージは、大量データを取込む際、活用できそうですが、 
› 多くの分析モデルが対応しているわけではないとのこと..
2. RとHadoopの組合せを利用 
› Hadoopを組合せて、そのPowerを手に入れよう!というパターン。 
› ただ、これって、RからMapReduceを実行することになり、 
› Javaで書く代わりにRで書くことは必要!! 
› パッケージ{RHadoop}を利用する。 
› (勿論、Hadoop環境は必要) 
› 環境は、AWSを利用するのがポピュラーなのかな~★ 
› Ex) R+RStudio Server + Hadoop(Amazon EMR)
2. RとHadoopの組合せを利用(補足) 
› イメージはこんな感じです。(各ノードにRが必要なわけです..!) 
出典: RHadoop Tutorial by Revolution Analytics 
› 各ノードにRのインストールが必要なわけで、結構手間かな~.. 
› いやいや、実装にも慣れが必要そう..汗
3. Mahout(Hadoop)を利用 
› Hadoop上で動く機械学習ライブラリを利用するパターン。 
› Hadoopの場合は、MapReduceに基づいて、ゴリゴリMap処理と 
› Reduce処理を書く必要がありますが、Mahoutは、コマンドから 
› 実行できる関数群が用意されている!(Rのような感じ) 
› 但し、まだまだ分析モデルはRに比べて、少ないのが現状のよう.. 
› そもそも、Hadoop自体の慣れも必要な環境なので、 
› よりエンジニア好みの環境..かも。
4. Jubatus(呼称:ユバタス)を利用 
› 「国産」の機械学習フレームワークを利用するパターン.. 
› (いわゆる、国産製品を使っていこう!っていうわけですね。。) 
› ではなく、、 
› 分散化されたオンライン機械学習フレームワークを利用するパターン。 
› 「オンライン機械学習」とは、リアルタイムに発生するデータの流れに 
› 対して、逐次分析するような機械学習を指す! 
› 活用シーンとしては、M2Mな環境、機器の異常監視等が 
› 想定されます。(実際、そういう事例があるようです。)
5. PostgreSQLとMADlibを利用 
› Rから離れて、SQLで機械学習を頑張ろうぜ、というパターン。 
› PostgreSQLは、MySQLと並び、OSSなデータベース製品。 
› 一方のMADlibは、SQLベースの統計/機械学習ライブラリ。 
› 商用だと、PostgreSQLをベースとしたGreenplum、 
› 又は、PivotalHDと組み合わせることは、某社が推奨してますね.. 
(In-Database分析を推してますよね?!) 
› SQLに慣れ親しんだメンバーが多い時は、結構イケるかも! 
› SVMの分析モデルも実装されていました!! 
› PostgreSQLの場合は、やっぱり、シングルノード構成だけですね..
5. PostgreSQLとMADlibを利用(補足) 
› SQLで分析用関数を呼び出すわけです、、こんな感じ! 
出典: MADlib 1.6 User Documentation 
› つまりは、Rと同様、決められたフォーマットに従い、分析モデルの 
› 関数を呼び出すわけですね。(上記は、ロジスティック回帰の関数)
6. Revolution Rを利用 
› Rが好きなら、とことん利用するぞ、というパターン。 
› この場合は、商用版R(Revolution Analytics社)を利用する。 
› メリットとしては、、より大規模データが扱える、商用サポートあり、 
› 商用ライセンスの信頼性が挙げられていますね! 
› で、肝心の価格は??? 
› アカデミック版は無料らしいです、、 
› ビジネス版は確認が必要そう!!!
7. Pythonを利用 
› 御存知、Rを抜きつつあるPython様を利用するパターン。 
› 軽量なスクリプト言語として人気のあるPythonは、Webサービスの 
› 開発に利用されていますが、分析環境としても熱い視線が!!! 
› Rと同様、統計解析/機械学習ライブラリは勿論あります。 
› とは言え、大規模データを扱うのであれば、Rと同様の問題も.. 
› (Rよりはメモリ利用が上手いというお話があったり、、)
8. Microsoft AzureMLを利用 
› もう、最後は天下のMicrosoftに頼るべしというパターンです。笑 
› 最近は、MicrosoftのAzureクラウド環境も有名ですが、 
› まさに、その環境で機械学習をやろう~って寸法です。 
› 基本は、GUI画面で各タスク(アイコン)を繋げて、分析フローを 
› 構築していくイメージ。(S○SS Modelerと近いかと。。) 
› 実は、構築した分析フローは、Rコードとして吐き出せる優れもの! 
› クラウドのメリットである使った分だけの課金というのも良いですね。 
› 但し、現在は、プレビューの段階とのこと..
8. Microsoft AzureMLを利用(補足) 
出典: Microsoft Azue 
› 実際の画面はこんな感じらしい..(まだ、英語版のみかも?!)
◇参考資料1 
› 本資料は、以下を参考にしております。 
› 1. R諸々 
› http://rogiersbart.blogspot.jp/2011/10/use-r.html 
› http://www.slideshare.net/sfchaos/rbigmemory-tokyowebmining10 
› http://www.r-bloggers.com/five-ways-to-handle-big-data-in-r/ 
› http://www.slideshare.net/wdkz/rffbigmemoryrevoscaler-10334116 
› 2. RHadoop 
› http://www.slideshare.net/holidayworking/rhadoop 
› http://blogs.aws.amazon.com/bigdata/post/Tx37RSKRFDQNTSL/Statistical 
-Analysis-with-Open-Source-R-and-RStudio-on-Amazon-EMR 
› http://cdn.oreillystatic.com/en/assets/1/event/100/Using%20R%20and% 
20Hadoop%20for%20Statistical%20Computation%20at%20Scale%20Pres 
entation.htm#/ 
› http://acro-engineer.hatenablog.com/entry/20111204/1323010742
◇参考資料2 
› 本資料は、以下を参考にしております。 
› 3. Mahout 
› http://www.slideshare.net/yamakatu/lt-23793589 
› http://gihyo.jp/dev/serial/01/mahout/0005 
› 4. Jubatus 
› http://jubat.us/ja/overview/feature.html 
› 5. MADlib 
› http://enterprisezine.jp/iti/detail/3905 
› http://doc.madlib.net/latest/group__grp__logreg.html 
› http://wp.sigmod.org/?p=344
◇参考資料3 
› 本資料は、以下を参考にしております。 
› 6. Revolution R 
› http://www.r-analytics.jp/ 
› http://www.slideshare.net/SatoshiKitajima2/jfssa-taikai-opensource 
› 7. Python 
› http://www.pytables.org/docs/LargeDataAnalysis.pdf 
› http://web-analytics-or-die.org/2013/07/pandas/ 
› 8. Azure ML 
› http://azure.microsoft.com/en-us/ 
documentation/articles/machine-learning-create-experiment/ 
› http://azure.microsoft.com/ja-jp/services/machine-learning/

More Related Content

PPTX
第51回NDS PostgreSQLのデータ型 #nds51
PPTX
第52回なんてかんたんなJavaEE
PDF
20120830 DBリファクタリング読書会第三回
PDF
Database smells
PDF
Oss x user_meeting_6_postgres
PDF
Oratopostgres-hiroshima
PDF
Elasticsearch at CrowdWorks
PDF
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)
第51回NDS PostgreSQLのデータ型 #nds51
第52回なんてかんたんなJavaEE
20120830 DBリファクタリング読書会第三回
Database smells
Oss x user_meeting_6_postgres
Oratopostgres-hiroshima
Elasticsearch at CrowdWorks
なぜ、いま リレーショナルモデルなのか(理論から学ぶデータベース実践入門読書会スペシャル)

What's hot (20)

PDF
あなたが知らない リレーショナルモデル
PDF
知って得するWebで便利なpostgre sqlの3つの機能
PDF
今すぐ使えるクラウドとPostgreSQL
PDF
ElasticSearch勉強会 第6回
PPTX
Elasticsearch 変わり種プラグインの作り方
PDF
クライアントサイドjavascript簡単紹介
ODP
リーダブルパスワード - SQLアンチパターンより抜粋 -
PDF
Osc2015北海道 札幌my sql勉強会_波多野_r3
PPTX
Redmineでメトリクスを見える化する方法
PDF
JavaScriptユーティリティライブラリの紹介
PDF
はてなブックマークに基づく関連記事レコメンドエンジンの開発
PDF
MySQLユーザ視点での小さく始めるElasticsearch
PPTX
Elasticsearchインデクシングのパフォーマンスを測ってみた
PPTX
Capistrano introduction
PDF
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
PPTX
鹿駆動勉強会 青江発表資料
PDF
⑮jQueryをおぼえよう!その1
PPTX
ソーシャルゲームにレコメンドエンジンを導入した話
PDF
Java8でRDBMS作ったよ
PDF
⑳CSSでアニメーション!その1
あなたが知らない リレーショナルモデル
知って得するWebで便利なpostgre sqlの3つの機能
今すぐ使えるクラウドとPostgreSQL
ElasticSearch勉強会 第6回
Elasticsearch 変わり種プラグインの作り方
クライアントサイドjavascript簡単紹介
リーダブルパスワード - SQLアンチパターンより抜粋 -
Osc2015北海道 札幌my sql勉強会_波多野_r3
Redmineでメトリクスを見える化する方法
JavaScriptユーティリティライブラリの紹介
はてなブックマークに基づく関連記事レコメンドエンジンの開発
MySQLユーザ視点での小さく始めるElasticsearch
Elasticsearchインデクシングのパフォーマンスを測ってみた
Capistrano introduction
[db tech showcase Tokyo 2014] B22: Hadoop Rush!! HDFSからデータを自在に取得、加工するにはどうする? ...
鹿駆動勉強会 青江発表資料
⑮jQueryをおぼえよう!その1
ソーシャルゲームにレコメンドエンジンを導入した話
Java8でRDBMS作ったよ
⑳CSSでアニメーション!その1
Ad

Viewers also liked (20)

PPTX
About alteryx
PDF
Alteryxの紹介とデモ
PDF
[db tech showcase Sapporo 2015] C15:商用RDBをOSSへ Oracle to Postgres 徹底解説 by 株式会...
PDF
データからインサイト そして、アイデアの発想へ(CJM/POV/HMW)
PPTX
Predictive analytics and julia
PDF
Pivotal OSS meetup - MADlib and PivotalR
PDF
BIG DATA ANALYTICS MEANS “IN-DATABASE” ANALYTICS
PDF
[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita
PDF
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
PDF
In-Database Predictive Analytics
PDF
Io tビジネスモデルに関する考察20161119
PDF
はじパタ2章
PDF
Pivotal Data Warehouse in the Age of Digital Transformation
PDF
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
PDF
10分でわかる主成分分析(PCA)
PDF
はじめよう多変量解析~主成分分析編~
PDF
Cloud Foundry Technical Overview
PPTX
ビジネスモデルの作り方
PDF
The ninja elephant, scaling the analytics database in Transwerwise
PPTX
アウトプットし続ける技術〜毎日書くためのマインドセットとスキルセット
About alteryx
Alteryxの紹介とデモ
[db tech showcase Sapporo 2015] C15:商用RDBをOSSへ Oracle to Postgres 徹底解説 by 株式会...
データからインサイト そして、アイデアの発想へ(CJM/POV/HMW)
Predictive analytics and julia
Pivotal OSS meetup - MADlib and PivotalR
BIG DATA ANALYTICS MEANS “IN-DATABASE” ANALYTICS
[D22] Pivotal HD 2.0 -業界最高レベルSQL on Hadoop技術「HAWQ」解説- by Masayuki Matsushita
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
In-Database Predictive Analytics
Io tビジネスモデルに関する考察20161119
はじパタ2章
Pivotal Data Warehouse in the Age of Digital Transformation
ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング
10分でわかる主成分分析(PCA)
はじめよう多変量解析~主成分分析編~
Cloud Foundry Technical Overview
ビジネスモデルの作り方
The ninja elephant, scaling the analytics database in Transwerwise
アウトプットし続ける技術〜毎日書くためのマインドセットとスキルセット
Ad

Similar to Analytics Environment (20)

PDF
Devsの常識、DBAは非常識
PDF
Mongo dbを知ろう devlove関西
PDF
B 2-1 はじめての Windows Azure
PDF
Djangoのススメ
PPTX
Sql server これだけはやっておこう 最終版
ODP
高トラフィックサイトをRailsで構築するためのTips基礎編
PDF
明日から使えるPostgre sql運用管理テクニック(監視編)
PDF
RealtimeTweakPickerMode
ODP
集合演算を真っ向から否定するアレの話
PDF
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
PDF
BtoCでバインド変数
PPTX
ここからはじめる SQL Server の状態取得
PDF
RDBってなに?
PDF
MySQLやSSDとかの話 前編
PDF
OSC沖縄2014_JPUG資料
PDF
Hadoop事始め
PDF
2015-10-31 クラウドネイティヴ時代の運用を考える 〜 ドキュメント駆動運用へ
PDF
パネルディスカッション資料(公開版)
PDF
Amazon DynamoDB 初心者が理解した事
PDF
データベース・リファクタリング読書会第四回オープニング
Devsの常識、DBAは非常識
Mongo dbを知ろう devlove関西
B 2-1 はじめての Windows Azure
Djangoのススメ
Sql server これだけはやっておこう 最終版
高トラフィックサイトをRailsで構築するためのTips基礎編
明日から使えるPostgre sql運用管理テクニック(監視編)
RealtimeTweakPickerMode
集合演算を真っ向から否定するアレの話
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
BtoCでバインド変数
ここからはじめる SQL Server の状態取得
RDBってなに?
MySQLやSSDとかの話 前編
OSC沖縄2014_JPUG資料
Hadoop事始め
2015-10-31 クラウドネイティヴ時代の運用を考える 〜 ドキュメント駆動運用へ
パネルディスカッション資料(公開版)
Amazon DynamoDB 初心者が理解した事
データベース・リファクタリング読書会第四回オープニング

Recently uploaded (9)

PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
商用ウェブカメラ市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
限外ろ過膜調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf

Analytics Environment

  • 2. ◇自己紹介(簡単に..) › 最近は、こんな感じです。相変わらず、エンジニア(の端くれ)です.. › Rを結構動かしたり、、 › 英語の記事を追いかけたり、 › Java演習のサポートをしたり、、etc › ブログを時々書いています。(時々です。笑) › http://yuu-kimy-note.hatenablog.com/
  • 3. ◇分析環境 › 今回のテーマは、「分析環境」をみていきます! › これまではRがメインでしたが、他に、どのような環境が › 出来るのかをみていきたいと思います。
  • 4. ◇Rの短所 › 統計解析/機械学習に非常に強みを持つRも短所はあるわけで、、 › 基本的に1CPU(コア)による演算処理 › 分析データは、メモリで保持 › 結構メモリを喰う..(参照渡しが出来ない) › つまり、大規模データを扱うには不向きな分析環境と言えますね.. › (勿論、フリーソフトであり、様々なパッケージを持つRは、魅力的ですよ!!!)
  • 5. ◇分析環境を考える.. › 他に、どのような環境が考えられるか見ていきましょう! › 1. Rと大規模データ用のパッケージを利用(or ハードウェア強化) › 2. RとHadoopの組合せを利用 › 3. Mahout(Hadoop)を利用 › 4. Jubatus(呼称:ユバタス)を利用 › 5. PostgreSQLとMADlibを利用 › 6. Revolution Rを利用 › 7. Pythonを利用 › 8. Microsoft AzureMLを利用
  • 6. 1. Rと大規模データ用のパッケージ利用(or HW) › 既存環境のRを強化するパターン。 › 元々、Rは大規模データの扱いが苦手なわけですが、 › パッケージ{ff,Bigmemory}で、その短所を改善する。 (つまり、オンメモリではなく、ディスクも有効活用するということ) › 又は、R環境のメモリ容量を格段に上げる!(64bit環境+XXGB) › 注意: › 上記パッケージは、大量データを取込む際、活用できそうですが、 › 多くの分析モデルが対応しているわけではないとのこと..
  • 7. 2. RとHadoopの組合せを利用 › Hadoopを組合せて、そのPowerを手に入れよう!というパターン。 › ただ、これって、RからMapReduceを実行することになり、 › Javaで書く代わりにRで書くことは必要!! › パッケージ{RHadoop}を利用する。 › (勿論、Hadoop環境は必要) › 環境は、AWSを利用するのがポピュラーなのかな~★ › Ex) R+RStudio Server + Hadoop(Amazon EMR)
  • 8. 2. RとHadoopの組合せを利用(補足) › イメージはこんな感じです。(各ノードにRが必要なわけです..!) 出典: RHadoop Tutorial by Revolution Analytics › 各ノードにRのインストールが必要なわけで、結構手間かな~.. › いやいや、実装にも慣れが必要そう..汗
  • 9. 3. Mahout(Hadoop)を利用 › Hadoop上で動く機械学習ライブラリを利用するパターン。 › Hadoopの場合は、MapReduceに基づいて、ゴリゴリMap処理と › Reduce処理を書く必要がありますが、Mahoutは、コマンドから › 実行できる関数群が用意されている!(Rのような感じ) › 但し、まだまだ分析モデルはRに比べて、少ないのが現状のよう.. › そもそも、Hadoop自体の慣れも必要な環境なので、 › よりエンジニア好みの環境..かも。
  • 10. 4. Jubatus(呼称:ユバタス)を利用 › 「国産」の機械学習フレームワークを利用するパターン.. › (いわゆる、国産製品を使っていこう!っていうわけですね。。) › ではなく、、 › 分散化されたオンライン機械学習フレームワークを利用するパターン。 › 「オンライン機械学習」とは、リアルタイムに発生するデータの流れに › 対して、逐次分析するような機械学習を指す! › 活用シーンとしては、M2Mな環境、機器の異常監視等が › 想定されます。(実際、そういう事例があるようです。)
  • 11. 5. PostgreSQLとMADlibを利用 › Rから離れて、SQLで機械学習を頑張ろうぜ、というパターン。 › PostgreSQLは、MySQLと並び、OSSなデータベース製品。 › 一方のMADlibは、SQLベースの統計/機械学習ライブラリ。 › 商用だと、PostgreSQLをベースとしたGreenplum、 › 又は、PivotalHDと組み合わせることは、某社が推奨してますね.. (In-Database分析を推してますよね?!) › SQLに慣れ親しんだメンバーが多い時は、結構イケるかも! › SVMの分析モデルも実装されていました!! › PostgreSQLの場合は、やっぱり、シングルノード構成だけですね..
  • 12. 5. PostgreSQLとMADlibを利用(補足) › SQLで分析用関数を呼び出すわけです、、こんな感じ! 出典: MADlib 1.6 User Documentation › つまりは、Rと同様、決められたフォーマットに従い、分析モデルの › 関数を呼び出すわけですね。(上記は、ロジスティック回帰の関数)
  • 13. 6. Revolution Rを利用 › Rが好きなら、とことん利用するぞ、というパターン。 › この場合は、商用版R(Revolution Analytics社)を利用する。 › メリットとしては、、より大規模データが扱える、商用サポートあり、 › 商用ライセンスの信頼性が挙げられていますね! › で、肝心の価格は??? › アカデミック版は無料らしいです、、 › ビジネス版は確認が必要そう!!!
  • 14. 7. Pythonを利用 › 御存知、Rを抜きつつあるPython様を利用するパターン。 › 軽量なスクリプト言語として人気のあるPythonは、Webサービスの › 開発に利用されていますが、分析環境としても熱い視線が!!! › Rと同様、統計解析/機械学習ライブラリは勿論あります。 › とは言え、大規模データを扱うのであれば、Rと同様の問題も.. › (Rよりはメモリ利用が上手いというお話があったり、、)
  • 15. 8. Microsoft AzureMLを利用 › もう、最後は天下のMicrosoftに頼るべしというパターンです。笑 › 最近は、MicrosoftのAzureクラウド環境も有名ですが、 › まさに、その環境で機械学習をやろう~って寸法です。 › 基本は、GUI画面で各タスク(アイコン)を繋げて、分析フローを › 構築していくイメージ。(S○SS Modelerと近いかと。。) › 実は、構築した分析フローは、Rコードとして吐き出せる優れもの! › クラウドのメリットである使った分だけの課金というのも良いですね。 › 但し、現在は、プレビューの段階とのこと..
  • 16. 8. Microsoft AzureMLを利用(補足) 出典: Microsoft Azue › 実際の画面はこんな感じらしい..(まだ、英語版のみかも?!)
  • 17. ◇参考資料1 › 本資料は、以下を参考にしております。 › 1. R諸々 › http://rogiersbart.blogspot.jp/2011/10/use-r.html › http://www.slideshare.net/sfchaos/rbigmemory-tokyowebmining10 › http://www.r-bloggers.com/five-ways-to-handle-big-data-in-r/ › http://www.slideshare.net/wdkz/rffbigmemoryrevoscaler-10334116 › 2. RHadoop › http://www.slideshare.net/holidayworking/rhadoop › http://blogs.aws.amazon.com/bigdata/post/Tx37RSKRFDQNTSL/Statistical -Analysis-with-Open-Source-R-and-RStudio-on-Amazon-EMR › http://cdn.oreillystatic.com/en/assets/1/event/100/Using%20R%20and% 20Hadoop%20for%20Statistical%20Computation%20at%20Scale%20Pres entation.htm#/ › http://acro-engineer.hatenablog.com/entry/20111204/1323010742
  • 18. ◇参考資料2 › 本資料は、以下を参考にしております。 › 3. Mahout › http://www.slideshare.net/yamakatu/lt-23793589 › http://gihyo.jp/dev/serial/01/mahout/0005 › 4. Jubatus › http://jubat.us/ja/overview/feature.html › 5. MADlib › http://enterprisezine.jp/iti/detail/3905 › http://doc.madlib.net/latest/group__grp__logreg.html › http://wp.sigmod.org/?p=344
  • 19. ◇参考資料3 › 本資料は、以下を参考にしております。 › 6. Revolution R › http://www.r-analytics.jp/ › http://www.slideshare.net/SatoshiKitajima2/jfssa-taikai-opensource › 7. Python › http://www.pytables.org/docs/LargeDataAnalysis.pdf › http://web-analytics-or-die.org/2013/07/pandas/ › 8. Azure ML › http://azure.microsoft.com/en-us/ documentation/articles/machine-learning-create-experiment/ › http://azure.microsoft.com/ja-jp/services/machine-learning/