Skip to content

EMQXクラスターのブルーグリーンアップグレードの実施

目的

ブルーグリーンデプロイメントによるEMQXクラスターのグレースフルアップグレードを実施します。

背景

従来のEMQXクラスターのデプロイメントでは、StatefulSetのデフォルトのローリングアップグレード戦略を用いてEMQX Podを更新することが一般的です。しかし、この方法には以下の2つの問題があります。

  • ローリングアップデート中、新旧のPodが対応するServiceにより選択されるため、終了処理中の古いPodにMQTTクライアントが接続され、頻繁な切断と再接続が発生する可能性があります。
  • ローリングアップデートの過程では、新しいPodの起動と準備完了に時間がかかるため、任意の時点でサービスを提供できるPodは_N - 1_に制限され、サービスの可用性が低下する恐れがあります。

解決策

EMQX Operatorはデフォルトでブルーグリーンデプロイメントを実施します。対応するEMQX CRを通じてEMQXクラスターを更新すると、EMQX Operatorがアップグレードを開始します。

アップグレード全体の流れは以下のステップに大別されます。

  1. 更新された仕様で新しいEMQXノード群を作成する。
  2. 新しいノード群が準備完了したら、Serviceリソースを新しいノード群に切り替え、新規接続が古いノード群にルーティングされないようにする。
  3. 既存のMQTT接続を制御された速度で古いノード群から新しいノード群へ安全に移行し、再接続の嵐を回避する。
  4. 古いEMQXノード群を段階的にスケールダウンする。
  5. アップグレードを完了する。

手順

アップデート戦略の設定

  1. apps.emqx.io/v2beta1のEMQX CRを作成し、アップデート戦略を設定します。
yaml
apiVersion: apps.emqx.io/v2
kind: EMQX
metadata:
  name: emqx
spec:
  image: emqx/emqx:6.2.0
  config:
    data: |
      license {
        key = "..."
      }
  updateStrategy:
    evacuationStrategy:
      # MQTTクライアントの退避速度(接続数/秒):
      connEvictRate: 1000
      # MQTTセッションの退避速度(セッション数/秒):
      sessEvictRate: 1000
      # Pod削除前の待機時間(秒):
      waitTakeover: 10
    # すべてのノードが準備完了後、アップグレード開始までの待機時間(秒):
    initialDelaySeconds: 10
    type: Recreate
  1. 上記内容をemqx-update.yamlとして保存し、kubectl applyでデプロイします。
bash
$ kubectl apply -f emqx-update.yaml
emqx.apps.emqx.io/emqx created
  1. EMQXクラスターの状態を確認します。

STATUSReadyであることを確認してください。準備完了まで時間がかかる場合があります。

bash
$ kubectl get emqx
NAME      STATUS   AGE
emqx      Ready    8m33s

EMQXクラスターへの接続

MQTTXは、MQTT 5.0に対応したオープンソースのコマンドラインクライアントツールで、自動再接続機能を備え、MQTTサービスやアプリケーションの開発・デバッグを支援します。

MQTTXを使ってEMQXクラスターに接続します。

bash
mqttx bench conn -h ${IP} -p ${PORT} -c 3000
[10:05:21 AM] › ℹ  接続ベンチマークを開始、接続数: 3000、リクエスト間隔: 10ms
  成功   [3000/3000] - 接続完了
[10:06:13 AM] › ℹ  完了、合計時間: 31.113秒

アップグレードのトリガー

  1. Podテンプレートの任意の変更がEMQX Operatorのアップグレード戦略をトリガーします。

本例では、PodのImagePullPolicyを変更してアップグレードをトリガーします。

bash
$ kubectl patch emqx emqx --type=merge -p '{"spec": {"imagePullPolicy": "Never"}}'
emqx.apps.emqx.io/emqx patched
  1. アップグレードの進行状況を確認します。
bash
$ kubectl get emqx emqx -o json | jq ".status.nodeEvacuationsStatus"
[
  {
    "nodeName": "emqx@emqx-54fc496fb4-2.emqx-headless.default.svc.cluster.local",
    "initialConnections": 33,
    "initialSessions": 0,
    "connectionEvictionRate": 200,
    "sessionEvictionRate": 200,
    "state": "waiting_takeover",
    "sessionRecipients": [
      "emqx@emqx-5d87d4c6bd-2.emqx-headless.default.svc.cluster.local",
      "emqx@emqx-5d87d4c6bd-1.emqx-headless.default.svc.cluster.local",
      "emqx@emqx-5d87d4c6bd-0.emqx-headless.default.svc.cluster.local"
    ]
  }
]
フィールド説明
node現在退避中のノード。
stateノードの退避フェーズ。
session_recipientsMQTTセッションの受け取り先。
session_eviction_rate当該ノードのMQTTセッション退避速度(セッション数/秒)。
connection_eviction_rate当該ノードのMQTT接続退避速度(接続数/秒)。
initial_sessions当該ノードの初期セッション数。
initial_connected当該ノードの初期接続数。
current_sessions当該ノードの現在のセッション数。
current_connected当該ノードの現在の接続数。
  1. アップグレード完了まで待機します。
bash
$ kubectl get emqx
NAME      STATUS   AGE
emqx      Ready    8m33s

STATUSReadyであることを確認してください。MQTTクライアント数やセッション数によってはアップグレードに時間がかかる場合があります。

アップグレード完了後、kubectl get podsで古いEMQXノードが削除されていることを確認できます。

Grafanaによるモニタリング

以下のモニタリンググラフは、アップグレード中の接続数(例として10,000接続)を示しています。

ラベル/プレフィックス説明
Total接続の合計数。グラフの最上位の線として表示されます。
emqx-ee-86f864f975古いEMQXノード3台の名前プレフィックス。
emqx-ee-648c45c747アップグレード済みのEMQXノード3台の名前プレフィックス。

このタイムラインは、EMQX Operatorがスムーズなブルーグリーンアップグレードを実施する様子を示しています。アップグレード中も接続数の合計は安定しており(移行速度、サーバーキャパシティ、クライアントの再接続戦略などの要因による)、サーバーの過負荷を防ぎつつサービスの安定性を高めています。