Skip to content

指标监控

FlowMQ 以 Prometheus 格式暴露所有运行指标,支持对接 Prometheus + Grafana 等主流监控体系。

指标接入

FlowMQ 通过 HTTP 端点暴露 Prometheus 格式的指标:

GET /v1/prometheus/metrics

配置 Prometheus 采集示例:

yaml
scrape_configs:
  - job_name: "flowmq"
    metrics_path: "/v1/prometheus/metrics"
    static_configs:
      - targets: ["your-flowmq-host:port"]

关键指标

Broker 路由

指标类型说明
broker_messages_published_countCounter发布到 Broker 的消息总数
broker_messages_dispatched_countCounter分发到本地订阅者的消息总数
broker_messages_forwarded_countCounter转发到其他集群节点的消息总数
broker_destinationsGauge已注册的 Destination 数量
broker_subscriptionsGauge本地订阅数量
broker_stream_subscriptionsGaugeStream 订阅数量

MQTT

所有 MQTT 指标均携带 namespace 标签,支持按租户维度观测。

指标类型说明
mqtt_connectionsGauge当前活跃连接数
mqtt_messages_in_countCounter接收消息总数
mqtt_messages_out_countCounter发送消息总数
mqtt_messages_in_bytes_countCounter接收消息总字节数
mqtt_messages_out_bytes_countCounter发送消息总字节数
mqtt_messages_dropped_countCounter丢弃消息数(如配额超限)

Kafka

所有 Kafka 指标均携带 namespace 标签。

指标类型说明
kafka_requests_countCounterKafka 请求总数
kafka_messages_in_countCounter接收消息总数
kafka_messages_out_countCounter发送消息总数
kafka_messages_in_bytes_countCounter接收消息总字节数
kafka_messages_out_bytes_countCounter发送消息总字节数

对象存储(S3)

指标类型说明
s3_request_countCounterS3 请求总数(按 type 标签区分:get、put、delete)
s3_request_sizeCounterS3 传输字节数(按 type 标签区分)
s3_request_timeHistogramS3 请求耗时(ms)

集群

Gossip 协议

指标类型说明
gossip_cluster_sizeGauge集群节点总数
gossip_events_originated_countCounter本节点产生的事件数
gossip_events_received_unique_countCounter接收到的去重事件数
gossip_events_dropped_countCounter丢弃的事件数
gossip_event_propagation_hops_countHistogram事件传播跳数分布

Anti-Entropy 同步

指标类型说明
anti_entropy_syncs_completed_countCounter同步成功次数
anti_entropy_syncs_failed_countCounter同步失败次数
anti_entropy_sync_duration_msHistogram同步耗时(ms)
anti_entropy_missing_events_detected_countCounter检测到的缺失事件数

Stream 存储

指标类型说明
kas3_page_cache_hit_countCounter页缓存命中次数
kas3_page_cache_miss_countCounter页缓存未命中次数
kas3_page_cache_sizeGauge当前页缓存大小(字节)
kas3_online_running_tasksGauge正在运行的在线 Compaction 任务数
kas3_segment_sizeHistogramSegment 大小分布(字节)
kas3_retention_timeHistogramRetention 处理耗时(ms)

告警建议

关注点建议告警条件
连接异常mqtt_connections 骤降
消息积压broker_messages_published_count 持续增长而 broker_messages_dispatched_count 停滞
S3 异常s3_request_time P99 飙升或 s3_request_count(type=get/put)出现失败
集群同步anti_entropy_syncs_failed 持续增长
消息丢弃mqtt_messages_dropped_count 持续增长

排障思路

  1. 从业务现象定位到 Topic / Stream
  2. 查看协议层指标(mqtt_* / kafka_*)确认连接与消息流是否正常
  3. 查看路由层指标(broker_*)确认消息是否被正确分发
  4. 查看存储层指标(s3_* / kas3_*)确认持久化是否正常
  5. 查看集群层指标(gossip_* / anti_entropy_*)确认节点间同步状态