SlideShare a Scribd company logo
RealtimeCompute構築手順書
SBクラウド株式会社
技術部
本手順書で想定するデータパイプライン
ECS LogService Realtime
Compute
RDS
ログ収集 ETL ログ分析
OSS
*ハンズオンシステム構成図
3
LogService
ローカルPC
レポート
閲覧
データ収集 データ蓄積 データ処理 データ準備 データ利用
Action Trail
(監査サービス)
アップロード
OSS
Realtime Compute
データソース
SQL
文字列処理
テーブル結合
RDS
(マスタテーブル)
監査レポート
閲覧
動作確認用
ログ生成
スクリプト
VPC
一般
ユーザー
root
ユーザー
Alibaba Cloud
ElasticSearch k
i
b
a
n
a
作業の流れ
4
RealtimeCompute構築作業
1. プロダクトの購入
2. Project作成
3. JOB作成
4. データソース設定
5. データシンク設定
6. UDFの利用
7. 業務ロジック作成
8. Debug方法
9. Jobリリース
ー プロダクト紹介 ー
©︎ 2019 SB Cloud Corp.
Realtime Compute とは
6
Apache Flink の改善版 Blink をベースにしたストリーミング処理マ
ネージドサービスです。また、Alibaba Group 内部の 11・11 キャ
ンペーンなどの基幹システムのストリームデータ処理基盤として
利用されています。
数千ノード規模のクラスタ拡張性実績に加え、一日あたり数百 TB
のデータ処理実績があります。
特徴
• 構築不要・高可用性・高拡張性
• 他プロダクトとのシームレス連携
• 自動リソース振り分け
• Flink SQL で簡単にジョブを開発
• UDX 関数サポート
• オンライン開発・運用環境
ジョブ API
• Flink SQL
• Data StreamAPI(未公開)
利用モード
• 共有モード(日本サイト未サポー
ト)
• 専有モード
©︎ 2019 SB Cloud Corp.
前提条件(注意事項)
7
● 日本リージョンのドキュメントURL(英語のみ):
https://jp.alibabacloud.com/help/product/45029.htm?spm=a21mg.p38356.a1.2.1f4946dcXs9i0L
● 現時点日本リージョンでは下記の制限事項があります、ご注意ください
・購入ページへの遷移は専用URLが必要
・コンソール言語は英語のみ
・共有モード利用できない(CU単位で購入すること)
・最新のバージョンはblink3.3.0
・使用できるデータソースは「TableStore」、「RDS」、「LogService」のみ
・接続情報の中で、接続用ユーザ名とパスワードは平文で表示される
現時点:2019年10月
1、プロダクトの購入
1_サービス有効化(購入)
9
購入ページURL:
https://common-buy-
intl.alibabacloud.com/?spm=a21mg.p38356.a3.3.18c85c53m6vt9C&commodityCode=blinkonecs_jp&_ga=2.181819619.531431699.1561945206-
1963448762.1559888161#/buy
必要なクラスタタイプを選択
した上で【今すぐ購入】ボタ
ンをクリックする
2、Project作成
2_Project作成(クラスタレベル)
11
1、購入済のクラスタ
OrderIDを選択する
2、Project Name入力
(必須)
3、Project 説明を入力
(必須)
2_Project作成(クラスタ内のProject)
12
2_Project作成(クラスタ内のProject)
13
項目 説明
Project Name 任意名
Project
Description
任意内容入力
Specified CUs 該当PJに割り当てCU数
を選択
3、JOB作成
3_realtimeComputeコンソール紹介
15
3_JOB作成
16
【Development】
ボタンをクリックし、開
発画面へ遷移する
3_JOB作成
17
フォルダおよびファ
イル新規作成
3_JOB作成
18
IDEの新規画面が開いた
4、データソース作成
4_データソースとデータシンク説明
20
RealtimeCompute
ストリームA
ストリームB
Input側:データソース
ストリームA
Output側:データシンク
4_データソース設定(LogService例)
21
①【Storage】タブボタ
ンをクリックする
②接続したいデータソース
を選択
本DemoではLogServiceをデ
ータソースとして接続する
4_データソース設定(LogService例)
22
①【LogService】を右ク
リックし【Register
Data Store】をクリッ
クする
4_データソース設定(LogService例)
23
項目 説明
Endpoint 接続先のLogServiceのEndpoint
(イントラネットエンドポイント使用可能)
https://jp.alibabacloud.com/help/doc-
detail/29008.html?spm=a2c5t.11065259.1996646101.searchclickresult.3cf1793d38n
AkM
Project 接続先のLogServiceのProject名
4_データソース設定(LogService例)
24
接続が問題無ければ、対象のデ
ータソース(LogService)が表
示されて、ダブルクリックする
と、詳細画面がコンソールの下
に表示されます
LogHubのDataPreview
「Reference as Source
Table」をクリックする
4_データソース設定(LogService例)
25
設定された接続情報は自動生成
されたことを確認
必要に応じてカラム名を追加し
ます。
4_データソース設定(RDS例)
26
「RDS Data Storage」を右クリ
ックし、「Register Data
Store」をクリックする
4_データソース設定(RDS例)
27
項目 説明
Stirage Type RDS Data Storage
Region ap-northease-1
日本リージョン
Instance RDSのInstanceIDを入力
DBName 接続対象DB名を入力
UserName ユーザー名
Password パスワード
Network Type Internal Network
Whitelist チェックする
※該当設定をすると、RDS側のホワイトリストに
自動的にRealtimeComputeのIPを追加することが
できる。
入力後、「OK」ボタンをクリック
4_データソース設定(RDS例)
28
接続が成功すると、
対象DBが表示され
る。
データプレビュー画
面が正常に表示され
る。
4_データソース設定(RDS例)
29
対象DBを確認後、「Reference as
Dimension Table」ボタンをクリ
ックする
4_データソース設定(RDS例)
30
接続用のSQL文が自動生成された。
必要に応じて、カラム名やタイプな
どの情報を修正してください
5、データシンク作成
5_データシンク(ElasticSearch例)の設定
32
注意:ElasticSearchの接続は現時点で「Storage」画面ではサポートしておりません、手動でJOBにて定義する必要があります。
参考ドキュメント:https://jp.alibabacloud.com/help/faq-detail/94716.htm?spm=a21mg.q38357.a3.8.de5f4e58i0l0aT
CREATE TABLE es_stream_sink(
columns_name_1 TIMESTAMP,
columns_name_2 VARCHAR,
columns_name_3 VARCHAR
) WITH (
type = 'elasticsearch',
endPoint = 'http://es-sg-*********************.elasticsearch.aliyuncs.com:9200',
accessId = 'elastic',
accessKey =***********',
index = 'index_name',
typeName = 'index_type'
);
サンプル
6、UDF利用
6_UDFの利用
34
前提条件
1. UDFの開発環境構築は下記のドキュメントを参照してください
a. https://jp.alibabacloud.com/help/doc-detail/74943.htm?spm=a21mg.p38356.b99.69.124146dcRdeo6U
2. 使用するDemoは下記のドキュメントからダウンロードしてください
a. https://jp.alibabacloud.com/help/doc-detail/69463.htm?spm=a21mg.p38356.b99.65.703b5b04ubumCK
6_UDFの利用
35
1、開発コンソール画面の右下
「Resources」タブをクリックする
2、「Create Resource」ボタンを
クリック
6_UDFの利用
36
項目 説明
Resource 「Upload Resource」をクリ
ックし、対象のJarファイル
を選択する。アップロード
する
Resource
Name
任意の名前
Resource
Description
任意の説明
Resource
Type
現時点はJarのみサポートし
ている
2019年10月時点
6_UDFの利用
37
1、「Reference」ボタンをクリック
し、対象リソースと関係付けする
2、SQL文の先頭で引用文を定義す
る
7、業務ロジック作成
7_業務ロジック作成
39
INSERT INTO es_stream_sink
SELECT
--UNIX時間変換
TO_TIMESTAMP(FROM_UNIXTIME(sls.__receive_time__)),
sls.__source__,
sls.__path__,
sls.__hostname__,
sls.eventtime,
stringLengthUdf(sls.`hostname`),
sls.label,
sls.meassage,
--大文字変換
UPPER(sls.`user`),
rds.host_info,
stringLengthUdf(rds.host_os),
rds.hostname_id
FROM for_realtimecompute_sls as sls
--RDSとのテーブル結合
JOIN realtime_demo_2 FOR SYSTEM_TIME AS OF PROCTIME() as rds
ON sls.`hostname`= rds.hostname_id;
SQL例
SQL本文に下記のサンプルを貼り付けてください
必要に応じて修正してください
8、Debug方法
8_Debug方法
41
SQL本文編集完了後、オンラインDebugの仕方を紹介いたします。
1、「Syntax Check」ボタンをクリック
し、文法エラーをチェックする
2、文法エラーが存在しない場合は、下
記のメッセージが表示される
8_Debug方法
42
1、「Debug」ボタンをクリックする
8_Debug方法
43
1、それぞれのデータソースからテスト用データを取得する
※データソースにデータがない場合は、接続情報(カラム
設定)通りにサンプルデータを作成し、アップロードすること
も可能です。
2、テストデータ準備完了後、「OK」ボタンをクリックし、
Debugを行う
※実際にデータシンクにデータを書き込むことはないです。
処理結果を画面に表示するだけ
3、エラーが表示される場合は、エラーログ通りにSQL文を修
正すること。
注意!一部Debugモードでエラーが表示され、実際リリースし
たらエラーが消える事象もあります(例:文字化けなど)
9、JOBリリース
9_Jobリリース
45
1、「Publish」ボタンをクリックする
2、Use last time Auto Scalingを選択する
9_Jobリリース
46
「Next」ボタンをクリックする
9_Jobリリース
47
「Next」ボタンをクリックする
デフォルトのまま
9_Jobリリース
48
バージョン説明を入力した上で
「Publish」ボタンをクリックする
9_Jobリリース
49
1、「Administration」タブをクリックし、
運用画面へ遷移する
2、先ほどリリースしたJobが表示される
こと
9_Jobリリース
50
1、対象Jobを「Start」する
2、処理開始時間を選択する
説明:データソースの”いつから”のデー
タを処理させるかの設定
9_Jobリリース
51
Job起動直後に、「Status」が
「Running」になること
9_Jobリリース
52
Jobをクリックすると、詳細の実行画面
が表示される
9_Jobリリース
53
「Curve Charts」タブをクリックすると、
ストリームのIOなどの詳細画面を確認す
ることができる
9_Jobリリース
54
エラーが発生時に、「Failover」タブを
クリックすると、エラーの詳細内容を確
認することができる
9_Jobリリース
55
運用画面の詳細説明は別資料にて紹介する予定です
EOF

More Related Content

PPTX
Azure Cosmos DB のキホンと使いドコロ
PPTX
Azure Cosmos DB を使った クラウドネイティブアプリケーションの 設計パターン
PDF
Google Cloud Dataflow を理解する - #bq_sushi
PDF
Google bigquery導入記
PDF
No-Ops で大量データ処理基盤を簡単に実現する
PDF
[de:code 2018] [DA19] 次世代データベース サービス「Azure Cosmos DB」を使いこなそう ~ Azure Cosmos D...
PDF
Google BigQuery クエリの処理の流れ - #bq_sushi
PDF
EmbulkのGCS/BigQuery周りのプラグインについて
Azure Cosmos DB のキホンと使いドコロ
Azure Cosmos DB を使った クラウドネイティブアプリケーションの 設計パターン
Google Cloud Dataflow を理解する - #bq_sushi
Google bigquery導入記
No-Ops で大量データ処理基盤を簡単に実現する
[de:code 2018] [DA19] 次世代データベース サービス「Azure Cosmos DB」を使いこなそう ~ Azure Cosmos D...
Google BigQuery クエリの処理の流れ - #bq_sushi
EmbulkのGCS/BigQuery周りのプラグインについて

What's hot (20)

PDF
20211209 lt runtime_field
PDF
[DI04] 使わないのはもったいない! プラネット スケールの NoSQL サービス「Azure Cosmos DB」を使いこなそう
PDF
[Cloud OnAir] Google Kubernetes Engine と Cloud Spanner の紹介 2020 年 1 月 30 日放送
PDF
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
PDF
超実践 Cloud Spanner 設計講座
PDF
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
PDF
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
PDF
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
PDF
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
PDF
[Cloud OnAir] Google Cloud における RDBMS の運用パターン 2020年11月19日 放送
PDF
[db tech showcase Tokyo 2018] Azure Cosmos DB Technical Deep Dive ~グローバル分散型マル...
PDF
[Cloud OnAir] 【Google Kubernetes Engine 演習】解説を聞きながら GKE を体験しよう 2020年10月29日 放送
PDF
[AC10] Azure Stack パート2 ~企業が求めるこれからのハイブリッドクラウド設計~
PDF
[Cloud OnAir] Google Cloud で実践するマイクロサービスアーキテクチャ 2019年2月21日 放送
PDF
[Cloud OnAir] Cloud Run & Firestore で、実践アジャイル開発 2020年6月25日 放送
PDF
Azure Batch Renderingではじめるクラウドレンダリング
PDF
[2018bcu30]1年半もかけてしまったビッグデータ環境のリプレイス
PPTX
Log collect with google fluentd
PDF
[Cloud OnAir] BigQuery へデータを読み込む 2019年3月14日 放送
PDF
Google Cloud のネットワークとロードバランサ
20211209 lt runtime_field
[DI04] 使わないのはもったいない! プラネット スケールの NoSQL サービス「Azure Cosmos DB」を使いこなそう
[Cloud OnAir] Google Kubernetes Engine と Cloud Spanner の紹介 2020 年 1 月 30 日放送
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
超実践 Cloud Spanner 設計講座
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
[GKE & Spanner 勉強会] Cloud Spanner の技術概要
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[Cloud OnAir] Google Cloud における RDBMS の運用パターン 2020年11月19日 放送
[db tech showcase Tokyo 2018] Azure Cosmos DB Technical Deep Dive ~グローバル分散型マル...
[Cloud OnAir] 【Google Kubernetes Engine 演習】解説を聞きながら GKE を体験しよう 2020年10月29日 放送
[AC10] Azure Stack パート2 ~企業が求めるこれからのハイブリッドクラウド設計~
[Cloud OnAir] Google Cloud で実践するマイクロサービスアーキテクチャ 2019年2月21日 放送
[Cloud OnAir] Cloud Run & Firestore で、実践アジャイル開発 2020年6月25日 放送
Azure Batch Renderingではじめるクラウドレンダリング
[2018bcu30]1年半もかけてしまったビッグデータ環境のリプレイス
Log collect with google fluentd
[Cloud OnAir] BigQuery へデータを読み込む 2019年3月14日 放送
Google Cloud のネットワークとロードバランサ
Ad

Similar to sbc_rc_200_RealtimeCompute_handson_ver1.0 (20)

PDF
OSS on Azure で構築するウェブアプリケーション
PDF
Spark Analytics - スケーラブルな分散処理
PPTX
Sbc odps 200_data_works_handson_ver1.0
PDF
aws mackerel twilio_handson_public
PDF
BPStudy20121221
PDF
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
PPTX
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
PPTX
AWSで作る分析基盤
PPTX
15分でお届けする Elastic Stack on Azure 設計・構築ノウハウ
PDF
弊社IoT事例とAlexaSkil開発レシピ
PDF
[日本DCの本命、大阪でWindows Azureを愛でる会] Windows Azure 概要 & 最新情報
PPTX
Jenkinsとhadoopを利用した継続的データ解析環境の構築
PDF
Azure Batch Renderingではじめるクラウドレンダリング
PPTX
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
PDF
VisualStudio2010ReadyDay Azureセッション資料
PPTX
IoT World Conference 2017 - Microsoft AI Platform
PPTX
SIGMOD 2022 Amazon Redshift Re-invented を読んで
PDF
PDF
AWS Glueを使った Serverless ETL の実装パターン
PDF
[AWS Summit 2012] クラウドデザインパターン#6 CDP クラウド監視編
OSS on Azure で構築するウェブアプリケーション
Spark Analytics - スケーラブルな分散処理
Sbc odps 200_data_works_handson_ver1.0
aws mackerel twilio_handson_public
BPStudy20121221
AWS Lake Formation で実現、マイクロサービスのサーバーレスな分散トレーシング
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
AWSで作る分析基盤
15分でお届けする Elastic Stack on Azure 設計・構築ノウハウ
弊社IoT事例とAlexaSkil開発レシピ
[日本DCの本命、大阪でWindows Azureを愛でる会] Windows Azure 概要 & 最新情報
Jenkinsとhadoopを利用した継続的データ解析環境の構築
Azure Batch Renderingではじめるクラウドレンダリング
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
VisualStudio2010ReadyDay Azureセッション資料
IoT World Conference 2017 - Microsoft AI Platform
SIGMOD 2022 Amazon Redshift Re-invented を読んで
AWS Glueを使った Serverless ETL の実装パターン
[AWS Summit 2012] クラウドデザインパターン#6 CDP クラウド監視編
Ad

Recently uploaded (8)

PDF
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
PDF
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
PDF
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
PDF
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
PDF
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
PDF
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
PDF
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
PDF
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
【QYResearch】急拡大する医療機器市場における主要企業の動向と競争環境分析
【QYResearch】人形ロボット産業の市場構造と今後の発展方向に関する分析レポート
【QYResearch】グローバルコネクタ市場の動向と将来展望に関する詳細な分析報告
XCMSを用いた質量分析データ処理_BioCAsia2021_yamamoto.pdf
【QYResearch】グローバル農業機械市場の動向分析と成長戦略に関する総合調査報告
グローバルロープウェイ用スチールワイヤーロープ市場2025:主要企業のシェア、売上動向、競争戦略
【QYResearch】グローバル磁性材料産業チェーンの構造分析と市場動向の詳細解説
世界半導体用酸化ハフニウム市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031

sbc_rc_200_RealtimeCompute_handson_ver1.0