SlideShare a Scribd company logo
オープンソースのETLツール 
Pentaho Data Integration(PDI) 
のご紹介 
PostgreSQLアンカンファレンス@東京(9/6) 
KSKアナリティクス 
川崎照夫 
TwitterID:@teruu
自己紹介 
川崎照夫 
TwitterID: @teruu 
所属:KSKアナリティクス 
BI歴:2年(※BI:ビジネス・インテリジェンス) 
DB歴:17年
DWH系データベースを探しています 
HP Vertica Community Edition 
→ production環境も可 
PostgreSQL-XL 
→ 永安さんブログ 
「Chef/serverspecを使ってPostgres-XLを2分でデプロイする」 
http://pgsqldeepdive.blogspot.jp/2014/06/deploying-postgres-xl-chef-serverspec.html 
関連ツイート(今回このツイートを見て、この会に参加させていただきました) 
https://twitter.com/snaga/status/491907303155564544
こちらの永安さん 
のやり取りを拝見 
したのがきっかけ 
で今回参加させて 
いただきました
自己紹介 
オープンソースBI 勉強会#10 
https://atnd.org/events/56153
Yahooリアルタイム検索 
「pentaho」定点観測中 
・「日本語の資料が全然ない」というツイート 
日本のPentahoユーザ 
・日本語の情報が見つからない 
・やりたいことがなかなかできない(簡単なことなのに...) 
・フラストレーションがたまりがち 
Pentahoのチュートリアル資料を充実 
6/83
これまでの開催 
• #5 MongoDB+Pentaho ハンズオン 
• #6 OLAP ハンズオン 
• #7 ETL ハンズオン 
• #8 定型レポート 
• #9 CTools (ダッシュボード)
次回以降 
• #10 OLAPハンズオン(9/30) 
• #11 ETLハンズオン 
• #12 定型レポートハンズオン 
• #13 CTools(ダッシュボード)ハンズオン
これまでの資料 
オープンソースBI勉強会メモ 
• #7 ETL ハンズオン 
http://www.slideshare.net/teruok/pdi-tutorial-20140121 
• #8 定型レポート 
http://www.slideshare.net/teruok/pentaho-reporting-20140729
会員制ドキュメント・ダウンロード・サービス「LiBRA」 
(リブラ) 
→提供資料の加工編集、再配布が可能 
(http://libra.netcommerce.co.jp/) 
以降はLiBRAの「ビジネス・インテリジェンス」から引用 
(http://libra.netcommerce.co.jp/library/knowledge/841)
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
ETLツール使ってますか? 
• 商用製品 
• オープンソース(出典:Wikipedia) 
– Talend Open Studio for Data Integration 
– JasperReports ETL 
– Clover.ETL 
– Enhydra Octopus 
– Pentaho Data Integration
オープンソースのETLツール 
Pentaho Data Integration(PDI)
GitHub(ギットハブ)での開発 
PDIをはじめPentahoのオープンソース製品は、ソフトウェア 
開発のための共有ウェブサービスである「GitHub」を利用し 
て開発が行われています。 
GitHubにアクセスすることで、活発なソフトウェア開発の様 
子を見ることができます。また、公開されているソースコー 
ドを参照でき、バグの修正などの形でPDIのソフトウェア開 
発に参加することも可能です。 
◇PDIのGitHubリポジトリ 
https://github.com/pentaho/pentaho-kettle
ダウンロード 
• Pentaho配布サイト 
http://community.pentaho.com/ 
http://sourceforge.net/projects/pentaho/files/ 
• Pentaho配布サイトPDI 
http://sourceforge.net/projects/pentaho/files/Data%2 
0Integration/ 
• ダウンロード候補 
– pdi-ce-5.1.0.0-752.zip
インストール 
• ダウンロードするだけ(Javaの環境があれ 
ば) 
• DBのJDBCドライバを追加 
– postgresqlのドライバは同梱されている 
• SourceForgeのサイトからダウンロードし、 
Windowsであれば、解凍したフォルダ中の 
Spoon.batをダブルクリック 
• 起動後、言語の設定を確認(日本語に 
なっているか)
Spoon起動Windowsの場合、Spoon.batファイルをダブ 
ルクリックして起動します。
新規→データ変換ファイル→新規→データ変換、を 
選択します。 
デザイン 
タブ 
ツールバー 
キャンバス
データ変換作成 
• DB出力 
(※過去のハンズオンから) 
詳細は下記資料をごらんください。 
#7 ETL ハンズオン 
http://www.slideshare.net/teruok/pdi-tutorial-20140121
テキストファイル入力 
新規→データ変換を選択。 
「入力」ノードから「テキストファイ 
ル入力」を選択。
ステップ配置 
「出力」ノードから「テキストファイ 
ル出力」を選択。下記のように配 
置します。
「テキストファイル入力」ス 
テップで先ほど出力したファイ 
ルを指定。 
「プレビュー」ボタンをクリッ 
ク。 
テキストファイル入力
プレビュープレビューを確認。
テキストファイル入力 
全般タブ 
全般タブで「入力タブ」ボタン 
をクリックしてタブを入力。
テキストファイル入力 
フィールドタブ 
「フィールドを取得」をクリッ 
ク。
走査した結果走査した結果が表示される。
テーブル出力 
「テーブル出力」ステップを編集。テーブル名 
を指定。「列名を指定する」チェックボックス 
をONに。「フィールドを取得」ボタンをク 
リックして、フィールド欄に自動記入。 
「SQL」ボタンをクリック。
SQL文生成、実行 
CREATE TABLE文が生成される。 
「実行」ボタンをクリックして、 
出力先のテーブル作成。
「フィールドマッピング」ボタ 
ンをクリックして、マッピング 
の内容を確認。 
フィールドマッピング
実行ツールバーの「実行」をクリッ 
ク。「実行」ボタンをクリック。
実行結果実行結果が表示される。
照会 
DBに出力した内容を確認。 
ビュータブのデータベース接続 
から該当の接続を右クリックし 
て、「照会」を選択。
データベース 
エクスプローラー 
該当のテーブルを選択。
プレビュー該当のテーブルを右クリックし 
て、「x行プレビュー」を選択。
プレビューテーブルの内容が表示される。
データ変換作成 
• DB出力
関連書籍 
ハンズオンのスライドでは、左側の「Pentaho Data Integration Beginner’s 
Guide」の内容を一部参考にしています。
不明な点 
• Pentahoのフォーラムへ 
– 日本語でコミュニティー・サポート 
http://forums.pentaho.com/forumdisplay.php?86
オープンソースBI 勉強会#10 
https://atnd.org/events/56153 
9/30(火)19:00~ 大崎 
オープンソースカンファレンス2014 Tokyo/Fall 
http://www.ospn.jp/osc2014-fall/ 
10/18(土)、19日(日) 
→ 「オープンソースBI勉強会」コミュニティで出展予定

More Related Content

PDF
Pdi tutorial 20140121
PPTX
Pentaho CTools 20140902
PDF
Pentaho ETL ハンズオン
PDF
Pentaho ETL
PDF
インデックスのおはなし
PDF
Boost Overview
PDF
Pentaho ETL@DevLOVE関西
PPTX
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
Pdi tutorial 20140121
Pentaho CTools 20140902
Pentaho ETL ハンズオン
Pentaho ETL
インデックスのおはなし
Boost Overview
Pentaho ETL@DevLOVE関西
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)

Similar to オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906 (20)

PPTX
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
PPT
オープンソースBI勉強会Mongo-20140325
PDF
今時のオンプレなgithubクローン環境構築
KEY
Yapc2012資料
PDF
Mizuno buddypress-plugin
PDF
Mizuno buddypress-plugin
PDF
Git 20100724
PPTX
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
PDF
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
PPTX
Programming AWS with Python
PDF
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
PDF
[Gree] DataEngConf NYC’18 セッションサマリー #1
PPTX
DataEngConf NYC’18 セッションサマリー #1
PDF
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
PDF
Metahub for github
PPTX
Getting Started with Graph Database with Python
PDF
ユーザ・デザイナーから見たPlone CMSのアピールポイント
PDF
20201008 GitHub at Microsoft
PDF
Cloudn PaaSチームのChatOps実践
PDF
PostgreSQL開発コミュニティに参加しよう! (オープンデベロッパーズカンファレンス(ODC)2024 発表資料)
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
オープンソースBI勉強会Mongo-20140325
今時のオンプレなgithubクローン環境構築
Yapc2012資料
Mizuno buddypress-plugin
Mizuno buddypress-plugin
Git 20100724
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
Programming AWS with Python
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
[Gree] DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
Metahub for github
Getting Started with Graph Database with Python
ユーザ・デザイナーから見たPlone CMSのアピールポイント
20201008 GitHub at Microsoft
Cloudn PaaSチームのChatOps実践
PostgreSQL開発コミュニティに参加しよう! (オープンデベロッパーズカンファレンス(ODC)2024 発表資料)
Ad

More from Teruo Kawasaki (6)

PDF
Lambda in java_20160121
PDF
Pentaho 定型レポート ハンズオン
PDF
Pentaho Reporting Tutorial 20140729
PPTX
About BI (2014/03/25)
PDF
TokyoWebminig カジュアルなHadoop
PDF
2章グラフ理論スピード入門
Lambda in java_20160121
Pentaho 定型レポート ハンズオン
Pentaho Reporting Tutorial 20140729
About BI (2014/03/25)
TokyoWebminig カジュアルなHadoop
2章グラフ理論スピード入門
Ad

オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906

Editor's Notes

  • #16: 図左上:pentahoリポジトリ 図左下:pentaho-kettleリポジトリのプルリクエスト一覧 図右上:ソースコードのdiff画面(差分表示)