sbc_rc_200_RealtimeCompute_handson_ver1.0

RealtimeCompute構築手順書
SBクラウド株式会社
技術部

本手順書で想定するデータパイプライン
ECS LogService Realtime
Compute
RDS
ログ収集 ETL ログ分析
OSS

＊ハンズオンシステム構成図
3
LogService
ローカルPC
レポート
閲覧
データ収集データ蓄積データ処理データ準備データ利用
Action Trail
（監査サービス）
アップロード
OSS
Realtime Compute
データソース
SQL
文字列処理
テーブル結合
RDS
(マスタテーブル)
監査レポート
閲覧
動作確認用
ログ生成
スクリプト
VPC
一般
ユーザー
root
ユーザー
Alibaba Cloud
ElasticSearch k
i
b
a
n
a

作業の流れ
4
RealtimeCompute構築作業
1. プロダクトの購入
2. Project作成
3. JOB作成
4. データソース設定
5. データシンク設定
6. UDFの利用
7. 業務ロジック作成
8. Debug方法
9. Jobリリース

©︎ 2019 SB Cloud Corp.
Realtime Compute とは
6
Apache Flink の改善版 Blink をベースにしたストリーミング処理マ
ネージドサービスです。また、Alibaba Group 内部の 11・11 キャ
ンペーンなどの基幹システムのストリームデータ処理基盤として
利用されています。
数千ノード規模のクラスタ拡張性実績に加え、一日あたり数百 TB
のデータ処理実績があります。
特徴
• 構築不要・高可用性・高拡張性
• 他プロダクトとのシームレス連携
• 自動リソース振り分け
• Flink SQL で簡単にジョブを開発
• UDX 関数サポート
• オンライン開発・運用環境
ジョブ API
• Flink SQL
• Data StreamAPI（未公開）
利用モード
• 共有モード（日本サイト未サポー
ト）
• 専有モード

©︎ 2019 SB Cloud Corp.
前提条件（注意事項）
7
● 日本リージョンのドキュメントURL（英語のみ）：
https://jp.alibabacloud.com/help/product/45029.htm?spm=a21mg.p38356.a1.2.1f4946dcXs9i0L
● 現時点日本リージョンでは下記の制限事項があります、ご注意ください
・購入ページへの遷移は専用URLが必要
・コンソール言語は英語のみ
・共有モード利用できない（CU単位で購入すること）
・最新のバージョンはblink3.3.0
・使用できるデータソースは「TableStore」、「RDS」、「LogService」のみ
・接続情報の中で、接続用ユーザ名とパスワードは平文で表示される
現時点：2019年10月

１、プロダクトの購入

１_サービス有効化（購入）
9
購入ページURL：
https://common-buy-
intl.alibabacloud.com/?spm=a21mg.p38356.a3.3.18c85c53m6vt9C&commodityCode=blinkonecs_jp&_ga=2.181819619.531431699.1561945206-
1963448762.1559888161#/buy
必要なクラスタタイプを選択
した上で【今すぐ購入】ボタ
ンをクリックする

２_Project作成（クラスタレベル）
11
１、購入済のクラスタ
OrderIDを選択する
２、Project Name入力
（必須）
３、Project 説明を入力
（必須）

２_Project作成（クラスタ内のProject）
12

２_Project作成（クラスタ内のProject）
13
項目説明
Project Name 任意名
Project
Description
任意内容入力
Specified CUs 該当PJに割り当てCU数
を選択

３_realtimeComputeコンソール紹介
15

３_JOB作成
16
【Development】
ボタンをクリックし、開
発画面へ遷移する

３_JOB作成
17
フォルダおよびファ
イル新規作成

３_JOB作成
18
IDEの新規画面が開いた

４、データソース作成

４_データソースとデータシンク説明
20
RealtimeCompute
ストリームA
ストリームB
Input側：データソース
ストリームA
Output側：データシンク

４_データソース設定（LogService例）
21
①【Storage】タブボタ
ンをクリックする
②接続したいデータソース
を選択
本DemoではLogServiceをデ
ータソースとして接続する

22
①【LogService】を右ク
リックし【Register
Data Store】をクリッ
クする

23
項目説明
Endpoint 接続先のLogServiceのEndpoint
（イントラネットエンドポイント使用可能）
https://jp.alibabacloud.com/help/doc-
detail/29008.html?spm=a2c5t.11065259.1996646101.searchclickresult.3cf1793d38n
AkM
Project 接続先のLogServiceのProject名

24
接続が問題無ければ、対象のデ
ータソース（LogService）が表
示されて、ダブルクリックする
と、詳細画面がコンソールの下
に表示されます
LogHubのDataPreview
「Reference as Source
Table」をクリックする

25
設定された接続情報は自動生成
されたことを確認
必要に応じてカラム名を追加し
ます。

４_データソース設定（RDS例）
26
「RDS Data Storage」を右クリ
ックし、「Register Data
Store」をクリックする

27
項目説明
Stirage Type RDS Data Storage
Region ap-northease-1
日本リージョン
Instance RDSのInstanceIDを入力
DBName 接続対象DB名を入力
UserName ユーザー名
Password パスワード
Network Type Internal Network
Whitelist チェックする
※該当設定をすると、RDS側のホワイトリストに
自動的にRealtimeComputeのIPを追加することが
できる。
入力後、「OK」ボタンをクリック

28
接続が成功すると、
対象DBが表示され
る。
データプレビュー画
面が正常に表示され
る。

29
対象DBを確認後、「Reference as
Dimension Table」ボタンをクリ
ックする

30
接続用のSQL文が自動生成された。
必要に応じて、カラム名やタイプな
どの情報を修正してください

５、データシンク作成

５_データシンク（ElasticSearch例）の設定
32
注意：ElasticSearchの接続は現時点で「Storage」画面ではサポートしておりません、手動でJOBにて定義する必要があります。
参考ドキュメント：https://jp.alibabacloud.com/help/faq-detail/94716.htm?spm=a21mg.q38357.a3.8.de5f4e58i0l0aT
CREATE TABLE es_stream_sink(
columns_name_1 TIMESTAMP,
columns_name_2 VARCHAR,
columns_name_3 VARCHAR
) WITH (
type = 'elasticsearch',
endPoint = 'http://es-sg-*********************.elasticsearch.aliyuncs.com:9200',
accessId = 'elastic',
accessKey =***********',
index = 'index_name',
typeName = 'index_type'
);
サンプル

６_UDFの利用
34
前提条件
1. UDFの開発環境構築は下記のドキュメントを参照してください
a. https://jp.alibabacloud.com/help/doc-detail/74943.htm?spm=a21mg.p38356.b99.69.124146dcRdeo6U
2. 使用するDemoは下記のドキュメントからダウンロードしてください
a. https://jp.alibabacloud.com/help/doc-detail/69463.htm?spm=a21mg.p38356.b99.65.703b5b04ubumCK

６_UDFの利用
35
１、開発コンソール画面の右下
「Resources」タブをクリックする
２、「Create Resource」ボタンを
クリック

６_UDFの利用
36
項目説明
Resource 「Upload Resource」をクリ
ックし、対象のJarファイル
を選択する。アップロード
する
Resource
Name
任意の名前
Resource
Description
任意の説明
Resource
Type
現時点はJarのみサポートし
ている
2019年10月時点

６_UDFの利用
37
１、「Reference」ボタンをクリック
し、対象リソースと関係付けする
２、SQL文の先頭で引用文を定義す
る

７、業務ロジック作成

７_業務ロジック作成
39
INSERT INTO es_stream_sink
SELECT
--UNIX時間変換
TO_TIMESTAMP(FROM_UNIXTIME(sls.__receive_time__)),
sls.__source__,
sls.__path__,
sls.__hostname__,
sls.eventtime,
stringLengthUdf(sls.`hostname`),
sls.label,
sls.meassage,
--大文字変換
UPPER(sls.`user`),
rds.host_info,
stringLengthUdf(rds.host_os),
rds.hostname_id
FROM for_realtimecompute_sls as sls
--RDSとのテーブル結合
JOIN realtime_demo_2 FOR SYSTEM_TIME AS OF PROCTIME() as rds
ON sls.`hostname`= rds.hostname_id;
SQL例
SQL本文に下記のサンプルを貼り付けてください
必要に応じて修正してください

８_Debug方法
41
SQL本文編集完了後、オンラインDebugの仕方を紹介いたします。
１、「Syntax Check」ボタンをクリック
し、文法エラーをチェックする
２、文法エラーが存在しない場合は、下
記のメッセージが表示される

８_Debug方法
42
１、「Debug」ボタンをクリックする

８_Debug方法
43
１、それぞれのデータソースからテスト用データを取得する
※データソースにデータがない場合は、接続情報（カラム
設定）通りにサンプルデータを作成し、アップロードすること
も可能です。
２、テストデータ準備完了後、「OK」ボタンをクリックし、
Debugを行う
※実際にデータシンクにデータを書き込むことはないです。
処理結果を画面に表示するだけ
３、エラーが表示される場合は、エラーログ通りにSQL文を修
正すること。
注意！一部Debugモードでエラーが表示され、実際リリースし
たらエラーが消える事象もあります（例：文字化けなど）

９_Jobリリース
45
１、「Publish」ボタンをクリックする
２、Use last time Auto Scalingを選択する

９_Jobリリース
46
「Next」ボタンをクリックする

９_Jobリリース
47
「Next」ボタンをクリックする
デフォルトのまま

９_Jobリリース
48
バージョン説明を入力した上で
「Publish」ボタンをクリックする

９_Jobリリース
49
１、「Administration」タブをクリックし、
運用画面へ遷移する
２、先ほどリリースしたJobが表示される
こと

９_Jobリリース
50
１、対象Jobを「Start」する
２、処理開始時間を選択する
説明：データソースの”いつから”のデー
タを処理させるかの設定

９_Jobリリース
51
Job起動直後に、「Status」が
「Running」になること

９_Jobリリース
52
Jobをクリックすると、詳細の実行画面
が表示される

９_Jobリリース
53
「Curve Charts」タブをクリックすると、
ストリームのIOなどの詳細画面を確認す
ることができる

９_Jobリリース
54
エラーが発生時に、「Failover」タブを
クリックすると、エラーの詳細内容を確
認することができる

９_Jobリリース
55
運用画面の詳細説明は別資料にて紹介する予定です

sbc_rc_200_RealtimeCompute_handson_ver1.0

More Related Content

What's hot (20)

Similar to sbc_rc_200_RealtimeCompute_handson_ver1.0 (20)

Recently uploaded (8)

sbc_rc_200_RealtimeCompute_handson_ver1.0