Submit Search
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
Download as PPTX, PDF
7 likes
6,612 views
Teruo Kawasaki
PostgreSQLアンカンファレンス@東京(9/6) 発表資料です。 https://atnd.org/events/54447
Software
Read more
1 of 40
Download now
Downloaded 60 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
More Related Content
PDF
Pdi tutorial 20140121
Teruo Kawasaki
PPTX
Pentaho CTools 20140902
Teruo Kawasaki
PDF
Pentaho ETL ハンズオン
Teruo Kawasaki
PDF
Pentaho ETL
Hirokazu Tokuno
PDF
インデックスのおはなし
hajikami
PDF
Boost Overview
Akira Takahashi
PDF
Pentaho ETL@DevLOVE関西
Hirokazu Tokuno
PPTX
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
NTT DATA Technology & Innovation
Pdi tutorial 20140121
Teruo Kawasaki
Pentaho CTools 20140902
Teruo Kawasaki
Pentaho ETL ハンズオン
Teruo Kawasaki
Pentaho ETL
Hirokazu Tokuno
インデックスのおはなし
hajikami
Boost Overview
Akira Takahashi
Pentaho ETL@DevLOVE関西
Hirokazu Tokuno
PostgreSQL開発コミュニティに参加しよう!(PostgreSQL Conference Japan 2021 発表資料)
NTT DATA Technology & Innovation
Similar to オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
(20)
PPTX
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
泰史 栃折
PPT
オープンソースBI勉強会Mongo-20140325
Hisashi Nakayama
PDF
今時のオンプレなgithubクローン環境構築
You&I
KEY
Yapc2012資料
matsuo kenji
PDF
Mizuno buddypress-plugin
Fumito Mizuno
PDF
Mizuno buddypress-plugin
Ikuko Kanada
PDF
Git 20100724
Taku AMANO
PPTX
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
NTT DATA Technology & Innovation
PDF
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
Masanori Ishigami
PPTX
Programming AWS with Python
Yasuhiro Matsuo
PDF
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
cch-robo
PDF
[Gree] DataEngConf NYC’18 セッションサマリー #1
Takashi Suzuki
PPTX
DataEngConf NYC’18 セッションサマリー #1
gree_tech
PDF
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
Shigeru Hanada
PDF
Metahub for github
Suguru Oho
PPTX
Getting Started with Graph Database with Python
ロフト くん
PDF
ユーザ・デザイナーから見たPlone CMSのアピールポイント
Masaki NIWA
PDF
20201008 GitHub at Microsoft
Issei Hiraoka
PDF
Cloudn PaaSチームのChatOps実践
Kazuto Kusama
PDF
PostgreSQL開発コミュニティに参加しよう! (オープンデベロッパーズカンファレンス(ODC)2024 発表資料)
NTT DATA Technology & Innovation
パーソナルデータのあり方を変える!オープンソース分散型PDS「Personium」を使ってみよう!
泰史 栃折
オープンソースBI勉強会Mongo-20140325
Hisashi Nakayama
今時のオンプレなgithubクローン環境構築
You&I
Yapc2012資料
matsuo kenji
Mizuno buddypress-plugin
Fumito Mizuno
Mizuno buddypress-plugin
Ikuko Kanada
Git 20100724
Taku AMANO
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
NTT DATA Technology & Innovation
[使い倒し]GitHubのIssueとTFS/VSOのWorkItem連動に挑む(2015/08/26)
Masanori Ishigami
Programming AWS with Python
Yasuhiro Matsuo
Before lunch オプションを使って Flutterでstaging/release環境を切り替える
cch-robo
[Gree] DataEngConf NYC’18 セッションサマリー #1
Takashi Suzuki
DataEngConf NYC’18 セッションサマリー #1
gree_tech
PostgreSQLではじめるOSS開発@OSC 2014 Hiroshima
Shigeru Hanada
Metahub for github
Suguru Oho
Getting Started with Graph Database with Python
ロフト くん
ユーザ・デザイナーから見たPlone CMSのアピールポイント
Masaki NIWA
20201008 GitHub at Microsoft
Issei Hiraoka
Cloudn PaaSチームのChatOps実践
Kazuto Kusama
PostgreSQL開発コミュニティに参加しよう! (オープンデベロッパーズカンファレンス(ODC)2024 発表資料)
NTT DATA Technology & Innovation
Ad
More from Teruo Kawasaki
(6)
PDF
Lambda in java_20160121
Teruo Kawasaki
PDF
Pentaho 定型レポート ハンズオン
Teruo Kawasaki
PDF
Pentaho Reporting Tutorial 20140729
Teruo Kawasaki
PPTX
About BI (2014/03/25)
Teruo Kawasaki
PDF
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
PDF
2章グラフ理論スピード入門
Teruo Kawasaki
Lambda in java_20160121
Teruo Kawasaki
Pentaho 定型レポート ハンズオン
Teruo Kawasaki
Pentaho Reporting Tutorial 20140729
Teruo Kawasaki
About BI (2014/03/25)
Teruo Kawasaki
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
2章グラフ理論スピード入門
Teruo Kawasaki
Ad
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
1.
オープンソースのETLツール Pentaho Data
Integration(PDI) のご紹介 PostgreSQLアンカンファレンス@東京(9/6) KSKアナリティクス 川崎照夫 TwitterID:@teruu
2.
自己紹介 川崎照夫 TwitterID:
@teruu 所属:KSKアナリティクス BI歴:2年(※BI:ビジネス・インテリジェンス) DB歴:17年
3.
DWH系データベースを探しています HP Vertica
Community Edition → production環境も可 PostgreSQL-XL → 永安さんブログ 「Chef/serverspecを使ってPostgres-XLを2分でデプロイする」 http://pgsqldeepdive.blogspot.jp/2014/06/deploying-postgres-xl-chef-serverspec.html 関連ツイート(今回このツイートを見て、この会に参加させていただきました) https://twitter.com/snaga/status/491907303155564544
4.
こちらの永安さん のやり取りを拝見 したのがきっかけ
で今回参加させて いただきました
5.
自己紹介 オープンソースBI 勉強会#10
https://atnd.org/events/56153
6.
Yahooリアルタイム検索 「pentaho」定点観測中 ・「日本語の資料が全然ない」というツイート
日本のPentahoユーザ ・日本語の情報が見つからない ・やりたいことがなかなかできない(簡単なことなのに...) ・フラストレーションがたまりがち Pentahoのチュートリアル資料を充実 6/83
7.
これまでの開催 • #5
MongoDB+Pentaho ハンズオン • #6 OLAP ハンズオン • #7 ETL ハンズオン • #8 定型レポート • #9 CTools (ダッシュボード)
8.
次回以降 • #10
OLAPハンズオン(9/30) • #11 ETLハンズオン • #12 定型レポートハンズオン • #13 CTools(ダッシュボード)ハンズオン
9.
これまでの資料 オープンソースBI勉強会メモ •
#7 ETL ハンズオン http://www.slideshare.net/teruok/pdi-tutorial-20140121 • #8 定型レポート http://www.slideshare.net/teruok/pentaho-reporting-20140729
10.
会員制ドキュメント・ダウンロード・サービス「LiBRA」 (リブラ) →提供資料の加工編集、再配布が可能
(http://libra.netcommerce.co.jp/) 以降はLiBRAの「ビジネス・インテリジェンス」から引用 (http://libra.netcommerce.co.jp/library/knowledge/841)
13.
ETLツール使ってますか? • 商用製品
• オープンソース(出典:Wikipedia) – Talend Open Studio for Data Integration – JasperReports ETL – Clover.ETL – Enhydra Octopus – Pentaho Data Integration
14.
オープンソースのETLツール Pentaho Data
Integration(PDI)
15.
GitHub(ギットハブ)での開発 PDIをはじめPentahoのオープンソース製品は、ソフトウェア 開発のための共有ウェブサービスである「GitHub」を利用し
て開発が行われています。 GitHubにアクセスすることで、活発なソフトウェア開発の様 子を見ることができます。また、公開されているソースコー ドを参照でき、バグの修正などの形でPDIのソフトウェア開 発に参加することも可能です。 ◇PDIのGitHubリポジトリ https://github.com/pentaho/pentaho-kettle
16.
ダウンロード • Pentaho配布サイト
http://community.pentaho.com/ http://sourceforge.net/projects/pentaho/files/ • Pentaho配布サイトPDI http://sourceforge.net/projects/pentaho/files/Data%2 0Integration/ • ダウンロード候補 – pdi-ce-5.1.0.0-752.zip
17.
インストール • ダウンロードするだけ(Javaの環境があれ
ば) • DBのJDBCドライバを追加 – postgresqlのドライバは同梱されている • SourceForgeのサイトからダウンロードし、 Windowsであれば、解凍したフォルダ中の Spoon.batをダブルクリック • 起動後、言語の設定を確認(日本語に なっているか)
18.
Spoon起動Windowsの場合、Spoon.batファイルをダブ ルクリックして起動します。
19.
新規→データ変換ファイル→新規→データ変換、を 選択します。 デザイン
タブ ツールバー キャンバス
20.
データ変換作成 • DB出力
(※過去のハンズオンから) 詳細は下記資料をごらんください。 #7 ETL ハンズオン http://www.slideshare.net/teruok/pdi-tutorial-20140121
21.
テキストファイル入力 新規→データ変換を選択。 「入力」ノードから「テキストファイ
ル入力」を選択。
22.
ステップ配置 「出力」ノードから「テキストファイ ル出力」を選択。下記のように配
置します。
23.
「テキストファイル入力」ス テップで先ほど出力したファイ ルを指定。
「プレビュー」ボタンをクリッ ク。 テキストファイル入力
24.
プレビュープレビューを確認。
25.
テキストファイル入力 全般タブ 全般タブで「入力タブ」ボタン
をクリックしてタブを入力。
26.
テキストファイル入力 フィールドタブ 「フィールドを取得」をクリッ
ク。
27.
走査した結果走査した結果が表示される。
28.
テーブル出力 「テーブル出力」ステップを編集。テーブル名 を指定。「列名を指定する」チェックボックス
をONに。「フィールドを取得」ボタンをク リックして、フィールド欄に自動記入。 「SQL」ボタンをクリック。
29.
SQL文生成、実行 CREATE TABLE文が生成される。
「実行」ボタンをクリックして、 出力先のテーブル作成。
30.
「フィールドマッピング」ボタ ンをクリックして、マッピング の内容を確認。
フィールドマッピング
31.
実行ツールバーの「実行」をクリッ ク。「実行」ボタンをクリック。
32.
実行結果実行結果が表示される。
33.
照会 DBに出力した内容を確認。 ビュータブのデータベース接続
から該当の接続を右クリックし て、「照会」を選択。
34.
データベース エクスプローラー 該当のテーブルを選択。
35.
プレビュー該当のテーブルを右クリックし て、「x行プレビュー」を選択。
36.
プレビューテーブルの内容が表示される。
37.
データ変換作成 • DB出力
38.
関連書籍 ハンズオンのスライドでは、左側の「Pentaho Data
Integration Beginner’s Guide」の内容を一部参考にしています。
39.
不明な点 • Pentahoのフォーラムへ
– 日本語でコミュニティー・サポート http://forums.pentaho.com/forumdisplay.php?86
40.
オープンソースBI 勉強会#10 https://atnd.org/events/56153
9/30(火)19:00~ 大崎 オープンソースカンファレンス2014 Tokyo/Fall http://www.ospn.jp/osc2014-fall/ 10/18(土)、19日(日) → 「オープンソースBI勉強会」コミュニティで出展予定
Editor's Notes
#16:
図左上:pentahoリポジトリ 図左下:pentaho-kettleリポジトリのプルリクエスト一覧 図右上:ソースコードのdiff画面(差分表示)
Download