EMQXクラスターのブルーグリーンアップグレードの実施
目的
ブルーグリーンデプロイメントによるEMQXクラスターのグレースフルアップグレードを実施します。
背景
従来のEMQXクラスターのデプロイメントでは、StatefulSetのデフォルトのローリングアップグレード戦略を用いてEMQX Podを更新することが一般的です。しかし、この方法には以下の2つの問題があります。
- ローリングアップデート中、新旧のPodが対応するServiceにより選択されるため、終了処理中の古いPodにMQTTクライアントが接続され、頻繁な切断と再接続が発生する可能性があります。
- ローリングアップデートの過程では、新しいPodの起動と準備完了に時間がかかるため、任意の時点でサービスを提供できるPodは_N - 1_に制限され、サービスの可用性が低下する恐れがあります。
解決策
EMQX Operatorはデフォルトでブルーグリーンデプロイメントを実施します。対応するEMQX CRを通じてEMQXクラスターを更新すると、EMQX Operatorがアップグレードを開始します。
アップグレード全体の流れは以下のステップに大別されます。
- 更新された仕様で新しいEMQXノード群を作成する。
- 新しいノード群が準備完了したら、Serviceリソースを新しいノード群に切り替え、新規接続が古いノード群にルーティングされないようにする。
- 既存のMQTT接続を制御された速度で古いノード群から新しいノード群へ安全に移行し、再接続の嵐を回避する。
- 古いEMQXノード群を段階的にスケールダウンする。
- アップグレードを完了する。
手順
アップデート戦略の設定
apps.emqx.io/v2beta1のEMQX CRを作成し、アップデート戦略を設定します。
apiVersion: apps.emqx.io/v2
kind: EMQX
metadata:
name: emqx
spec:
image: emqx/emqx:6.2.0
config:
data: |
license {
key = "..."
}
updateStrategy:
evacuationStrategy:
# MQTTクライアントの退避速度(接続数/秒):
connEvictRate: 1000
# MQTTセッションの退避速度(セッション数/秒):
sessEvictRate: 1000
# Pod削除前の待機時間(秒):
waitTakeover: 10
# すべてのノードが準備完了後、アップグレード開始までの待機時間(秒):
initialDelaySeconds: 10
type: Recreate- 上記内容を
emqx-update.yamlとして保存し、kubectl applyでデプロイします。
$ kubectl apply -f emqx-update.yaml
emqx.apps.emqx.io/emqx created- EMQXクラスターの状態を確認します。
STATUSがReadyであることを確認してください。準備完了まで時間がかかる場合があります。
$ kubectl get emqx
NAME STATUS AGE
emqx Ready 8m33sEMQXクラスターへの接続
MQTTXは、MQTT 5.0に対応したオープンソースのコマンドラインクライアントツールで、自動再接続機能を備え、MQTTサービスやアプリケーションの開発・デバッグを支援します。
MQTTXを使ってEMQXクラスターに接続します。
mqttx bench conn -h ${IP} -p ${PORT} -c 3000
[10:05:21 AM] › ℹ 接続ベンチマークを開始、接続数: 3000、リクエスト間隔: 10ms
✔ 成功 [3000/3000] - 接続完了
[10:06:13 AM] › ℹ 完了、合計時間: 31.113秒アップグレードのトリガー
- Podテンプレートの任意の変更がEMQX Operatorのアップグレード戦略をトリガーします。
本例では、PodのImagePullPolicyを変更してアップグレードをトリガーします。
$ kubectl patch emqx emqx --type=merge -p '{"spec": {"imagePullPolicy": "Never"}}'
emqx.apps.emqx.io/emqx patched- アップグレードの進行状況を確認します。
$ kubectl get emqx emqx -o json | jq ".status.nodeEvacuationsStatus"
[
{
"nodeName": "emqx@emqx-54fc496fb4-2.emqx-headless.default.svc.cluster.local",
"initialConnections": 33,
"initialSessions": 0,
"connectionEvictionRate": 200,
"sessionEvictionRate": 200,
"state": "waiting_takeover",
"sessionRecipients": [
"emqx@emqx-5d87d4c6bd-2.emqx-headless.default.svc.cluster.local",
"emqx@emqx-5d87d4c6bd-1.emqx-headless.default.svc.cluster.local",
"emqx@emqx-5d87d4c6bd-0.emqx-headless.default.svc.cluster.local"
]
}
]| フィールド | 説明 |
|---|---|
node | 現在退避中のノード。 |
state | ノードの退避フェーズ。 |
session_recipients | MQTTセッションの受け取り先。 |
session_eviction_rate | 当該ノードのMQTTセッション退避速度(セッション数/秒)。 |
connection_eviction_rate | 当該ノードのMQTT接続退避速度(接続数/秒)。 |
initial_sessions | 当該ノードの初期セッション数。 |
initial_connected | 当該ノードの初期接続数。 |
current_sessions | 当該ノードの現在のセッション数。 |
current_connected | 当該ノードの現在の接続数。 |
- アップグレード完了まで待機します。
$ kubectl get emqx
NAME STATUS AGE
emqx Ready 8m33sSTATUSがReadyであることを確認してください。MQTTクライアント数やセッション数によってはアップグレードに時間がかかる場合があります。
アップグレード完了後、kubectl get podsで古いEMQXノードが削除されていることを確認できます。
Grafanaによるモニタリング
以下のモニタリンググラフは、アップグレード中の接続数(例として10,000接続)を示しています。

| ラベル/プレフィックス | 説明 |
|---|---|
| Total | 接続の合計数。グラフの最上位の線として表示されます。 |
emqx-ee-86f864f975 | 古いEMQXノード3台の名前プレフィックス。 |
emqx-ee-648c45c747 | アップグレード済みのEMQXノード3台の名前プレフィックス。 |
このタイムラインは、EMQX Operatorがスムーズなブルーグリーンアップグレードを実施する様子を示しています。アップグレード中も接続数の合計は安定しており(移行速度、サーバーキャパシティ、クライアントの再接続戦略などの要因による)、サーバーの過負荷を防ぎつつサービスの安定性を高めています。