Submit Search
Cassandraバージョンアップ&移設
Download as PPTX, PDF
2 likes
2,550 views
Takehiro Torigaki
Cassandraバージョンアップ&移設の話をまとめました。
Technology
Read more
1 of 24
Download now
Downloaded 11 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
More Related Content
PPTX
これがCassandra
Takehiro Torigaki
PDF
Yahoo! JAPANにおけるApache Cassandraへの取り組み
Yahoo!デベロッパーネットワーク
PPT
インフラエンジニアのためのcassandra入門
Akihiro Kuwano
PDF
Cassandraとh baseの比較して入門するno sql
Yutuki r
PDF
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Toru Makabe
PPT
Cassandraのしくみ データの読み書き編
Yuki Morishita
PDF
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
Preferred Networks
PDF
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
Hibino Hisashi
これがCassandra
Takehiro Torigaki
Yahoo! JAPANにおけるApache Cassandraへの取り組み
Yahoo!デベロッパーネットワーク
インフラエンジニアのためのcassandra入門
Akihiro Kuwano
Cassandraとh baseの比較して入門するno sql
Yutuki r
Kubernetesのしくみ やさしく学ぶ 内部構造とアーキテクチャー
Toru Makabe
Cassandraのしくみ データの読み書き編
Yuki Morishita
わかる!metadata.managedFields / Kubernetes Meetup Tokyo 48
Preferred Networks
【第26回Elasticsearch勉強会】Logstashとともに振り返る、やっちまった事例ごった煮
Hibino Hisashi
What's hot
(20)
PDF
HashiCorp Vault 紹介
hashicorpjp
PDF
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
Kazuhiro Mitsuhashi
PDF
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Preferred Networks
PPTX
FD.io VPP事始め
tetsusat
PDF
TCAMのしくみ
ogatay
PDF
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
PDF
Kubernetesのワーカーノードを自動修復するために必要だったこと
h-otter
PDF
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
PDF
2023年はTiDBの時代!
Tomotaka6
PDF
RHEL7/CentOS7 NetworkManager徹底入門
Etsuji Nakai
PDF
Datadog による Container の監視について
Masaya Aoyama
PDF
Enhancing Network and Runtime Security with Cilium and Tetragon by Raymond De...
ContainerDay Security 2023
PDF
Pacemakerを使いこなそう
Takatoshi Matsuo
PDF
VirtualBox と Rocky Linux 8 で始める Pacemaker ~ VirtualBox でも STONITH 機能が試せる! Vi...
ksk_ha
PDF
NEDIA_SNIA_CXL_講演資料.pdf
Yasunori Goto
PDF
インターネットの仕組みとISPの構造
Taiji Tsuchiya
PPTX
Amazon EKS によるスマホゲームのバックエンド運用事例
gree_tech
PDF
[GKE & Spanner 勉強会] GKE 入門
Google Cloud Platform - Japan
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
HashiCorp Vault 紹介
hashicorpjp
次世代データ基盤としてのSnowflakeの可能性 SnowDay 20211208
Kazuhiro Mitsuhashi
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Preferred Networks
FD.io VPP事始め
tetsusat
TCAMのしくみ
ogatay
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
Kubernetesのワーカーノードを自動修復するために必要だったこと
h-otter
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
2023年はTiDBの時代!
Tomotaka6
RHEL7/CentOS7 NetworkManager徹底入門
Etsuji Nakai
Datadog による Container の監視について
Masaya Aoyama
Enhancing Network and Runtime Security with Cilium and Tetragon by Raymond De...
ContainerDay Security 2023
Pacemakerを使いこなそう
Takatoshi Matsuo
VirtualBox と Rocky Linux 8 で始める Pacemaker ~ VirtualBox でも STONITH 機能が試せる! Vi...
ksk_ha
NEDIA_SNIA_CXL_講演資料.pdf
Yasunori Goto
インターネットの仕組みとISPの構造
Taiji Tsuchiya
Amazon EKS によるスマホゲームのバックエンド運用事例
gree_tech
[GKE & Spanner 勉強会] GKE 入門
Google Cloud Platform - Japan
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
NTT DATA Technology & Innovation
Ad
Viewers also liked
(14)
PDF
Apache Cassandra and Go
DataStax Academy
PPTX
Time-Series Apache HBase
HBaseCon
PDF
qpstudy 2013.07 NoSQL
Akihiro Okuno
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
PDF
On the benchmark of Chainer
Kenta Oono
PDF
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
Yuta Kashino
PDF
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Yahoo!デベロッパーネットワーク
PDF
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
Yusuke HIDESHIMA
PDF
マシンパーセプション研究におけるChainer活用事例
nlab_utokyo
PDF
Chainer Update v1.8.0 -> v1.10.0+
Seiya Tokui
PDF
Chainer, Cupy入門
Yuya Unno
PPTX
Cassandra DataTables Using RESTful API
Simran Kedia
PDF
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
PPTX
Chainerを使って細胞を数えてみた
samacoba1983
Apache Cassandra and Go
DataStax Academy
Time-Series Apache HBase
HBaseCon
qpstudy 2013.07 NoSQL
Akihiro Okuno
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
On the benchmark of Chainer
Kenta Oono
深層学習ライブラリの環境問題Chainer Meetup2016 07-02
Yuta Kashino
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
Yahoo!デベロッパーネットワーク
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
Yusuke HIDESHIMA
マシンパーセプション研究におけるChainer活用事例
nlab_utokyo
Chainer Update v1.8.0 -> v1.10.0+
Seiya Tokui
Chainer, Cupy入門
Yuya Unno
Cassandra DataTables Using RESTful API
Simran Kedia
NVIDIA 更新情報: Tesla P100 PCIe/cuDNN 5.1
NVIDIA Japan
Chainerを使って細胞を数えてみた
samacoba1983
Ad
Cassandraバージョンアップ&移設
1.
Cassandra99台を移設してバー ジョンアップした話 あの鬼の哭くシステムは その後どうなったのか?
2.
こいつを改善した話をします
3.
今日話すこと • Cassandraとの戦歴 • クラスタ分けた話 •
そして移設へ・・・
4.
システム構成(2012~2014年頃) • Node数:99台 • サーバスペック 機器:物理サーバ(DELL) CPU:
16コア、24コアが混在 メモリ:64GB HDD:以下構成が混在 600GBx4(RAID-10) 600GBx2(RAID-1)+SSD 512GBx2(RAID-0) 600GBx2(RAID-1)+HDD(SATA) 1TBx2(RAID-1) • クラスタ数:1 • Cassandraバージョン:1.1.5-2 • 1nodeあたりのデータサイズ:約200~300GB
5.
この頃よく起こっていたこと • SSDがぶっ壊れまくっていた • Node再構築でRepair→Compaction祭りループ •
Heap使いきってプロセスハングが頻発 詳しくはWebで。。。
6.
対処したこと • SSD撲滅→HDD(1TB)に交換 →この頃は容量問題があったのでSATA 1TBに交換。 →ディスクIOが遅すぎてプロセス再起動に20~30分かか る事案発生。 →容量問題解決してから、順次SASに入れ替える作業して いくことになる。 ・Heapサイズを12GBに変更 →推奨値は8GBだが足らないので増やした。 →とりあえずHeapは安定した。
7.
クラスタ分割 • とにかく一番容量でかいcolumn familyをなん とかしたい。 →このCFのデータ保持期間は約1カ月 →このCFのデータを第1クラスタと第2クラスタで2重書き込み すれば安全にクラスタ分割できそう
8.
第2クラスタ誕生へ 第1クラスタ 第2クラスタ 第1クラスタ用 リソースAPI 第2クラスタ用 リソースAPI API郡 ・第1クラスタ、第2クラスタ両方 にデータを書き込むようにする。 ・第2クラスタでの運用に問題な いこと確認できた時点で、第1ク ラスタのCFをTrancate。
9.
クラスタ分割した結果。。。 • 1Nodeあたりのデータサイズが約300GB以 上あったのが、100GBくらいまで削減!!
10.
システム構成(2014~2015年頃) • Node数: 第1クラスタ:99台 第2クラスタ:30台(→15台に削減) • サーバスペック 機器:物理サーバ(DELL) CPU:
16コア、24コアが混在 メモリ:64GB HDD:600GBx4(RAID-10) • クラスタ数:2 • Cassandraバージョン: 第1クラスタ:1.1.5-2 第2クラスタ:1.2.13 • 1nodeあたりのデータサイズ 第1クラスタ:約150GB 第2クラスタ:約2GB
11.
そして移設へ • 移設先は物理or仮想? • データ転送にどれくらい時間かかる? •
バージョンアップする?
12.
物理にするか仮想にするか • 第1クラスタは物理サーバで決定 • 第2クラスタは仮想でも十分いけそうだったの で仮想サーバで決定
13.
データ転送の時間 • 1nodeあたり約150GBくらいデータがあって、 99台同時に転送しなければならない。。。 • スナップショットの差分を転送することで時間 短縮できそう
14.
移設元DC 移設先DC Cassandraデータ スナップショット保管 nodetool snapshotで差分ス ナップショットを定期取得 旧Cassandraサーバx99台
新Cassandraサーバx99台 スナップショット保管rsyncで 定期コピー 約5分で99台のデータ転送を実現!
15.
バージョンアップするか? • 1.1.5の運用はもうしたくない。。 • Cassandra止めるチャンスはもう2度とないかもし れない。。 →バージョンアップやろう! •
バージョンは何にする? →第2クラスタで1.2系の運用実績がある → 1.1系からは1.2系踏まないと2系にはできない → 1.2系の最新(1.2.19)でいこう (DataStaxさんにもこのバージョンの安定性は確認)
16.
upgradesstables • Cassandraバージョンアップ後は upgradesstablesを実行してデータ構造を1.2用 に変換しないといけない • upgradesstablesをしないとrepairやJoinなどが できない(データの読み書きは可能) •
150GBのデータで約8時間かかる。。。 →メンテ時間内で終わらない。。。
17.
upgradesstablesどうしよう • メンテあけてからやるしかない • オンラインで実行しても問題ないことを DataStaxさんに確認 •
負荷かけながら実行しても問題ない(サーバ 負荷や読み書き)ことを検証して確認 • あとupgradesstablesしたデータは1.1の環境で は読み込めない(プロセス起動できない) →これ実行後は旧環境にデータ戻せない!
18.
負荷試験 • 旧環境のRead/Writeリクエスト:約9000/sec • Cassandra-stressを使って負荷生成 →Read/Writeリクエスト:20000/sec •
OSリソースに問題ないことを確認 • Cassandraステータスで問題ないことを確認
19.
第1クラスタ移設手順 • 旧環境でスナップショット取得 • スナップショットを新環境に転送 •
md5sumで新旧データ比較 • 新環境にてCassandra1.1で起動 • Cassandra停止して1.2にバージョンアップ • Cassandra1.2で起動 • OpsCenterでクラスタに問題ないこと確認 ↑ここまでの作業時間は約90分 • メンテあけてからupgradesstablesを実行
20.
第1クラスタ移設で工夫したこと • 手作業を撤廃→スクリプト化した • スクリプトを全Node同時に実行するために Fabricを使用 •
Fabric実行はJenkinsでJob化 • 各NodeのCassandraバージョンアップと設定 ファイル配布はChef-zeroで実施
21.
第2クラスタの移設 旧Cassandra クラスタ 新Cassandra クラスタ 旧クラスタ用 リソースAPI 新クラスタ用 リソースAPI API郡 移設元DC 移設先DC ・旧クラスタ、新クラスタ両方に データを書き込むようにする。 ・新クラスタでの運用に問題ない こと確認できた時点で、旧クラス タを撤去
22.
システム構成(2016年) • Node数: 第1クラスタ:99台(物理) 第2クラスタ:6台(仮想) • サーバスペック CPU:
24コア メモリ:64GB HDD:600GBx6(RAID-10) • クラスタ数:2 • Cassandraバージョン: 1.2.19 1nodeあたりのデータサイズ 第1クラスタ:約150GB 第2クラスタ:約5GB
23.
バージョンアップして一番よかったこと • repair時のデータ肥大化がなくなった →1.1のときはrepair後はデータ肥大化するの でメジャーCompaction必須だったが、この 運用がなくなった。
24.
今後やりたいこと • Node数減らしたい。。。 • 不要データ削減したい。。。
Download