统一运维服务
ECP 平台为用户提供了管理和监控众多边缘服务及 EMQX 集群的的统一运维服务能力。通过收集和分析来自边缘服务和 EMQX 集群的监控数据,ECP 能够提供更全面、精细化的管理和监控体验。
ECP 还集成了Prometheus,用于收集和分析应用程序和服务的度量指标。这种方式实现了实时的数据采集和分析,从而实现更精确的资源管理和性能调优,以及故障预测。
日志服务依赖组件配置
ECP 通过配置外部 Elasticsearch 日志服务器获得日志数据,提供日志服务。其中,为了在 ECP 端集中展示边缘服务的日志,边缘服务通过 ECP 指定的 Telegraf 将日志统一接入 Elasticsearch。
系统安装时已包含 Telegraf,您需要自行安装 Elasticsearch。 安装完成后,请按以下步骤,在 Telegraf 的配置文件 telegraf.conf 中指定 Elasticsearch 输出插件的具体信息。其中:
urls
username
password
分别为 Elasticsearch HTTP 服务器的 URL 地址、基本认证使用的用户名及密码,您可以根据实际情况设置。index_name
为日志在 Elasticsearch 中对应的索引名称,固定为{{appname}}
,请勿更改。- 您也可以按需指定
health_check_interval
的周期,以对 Elasticsearch 做健康检查。
[[outputs.elasticsearch]]
urls = [ "http://elasticsearch-server:9200" ]
username = "elastic"
password = "elastic"
index_name = "{{appname}}"
health_check_interval = "10s"
insecure_skip_verify = true
系统级别设置
正式启用 ECP 的日志和监控功能之前,系统管理员需要进行相应的系统级别设置:
启用日志服务
如希望启用日志服务,在系统管理页面,点击系统设置 -> 通用配置 -> 日志接收器,并在类型中选择“开启”
您可在此对 Elasticsearch 进行设置,通过链接测试后,保存日志接收器信息,接通外部日志数据源。
- 日志级别:表示从边缘服务收集严重程度不低于该级别的日志。
- ES 链接:Elasticsearch 服务器地址。
- ES 用户名:Elasticsearch 用户名。
- ES 密码:Elasticsearch 用户密码。
监控
ECP 的监控服务配置中,可以分别设置 EMQX、 NeuronEX 的拉取时间间隔和拉取超时时间规则。
EMQX 拉取时间间隔:表示监控系统每隔 N 秒拉取一次 EMQX 监控指标数据。
EMQX 拉取超时时间:表示如 EMQX 监控系统在 N 秒后未获得响应,则认为拉取失败。
NeuronEX 推送时间间隔:表示 NeuronEX 每隔 N 秒向 ECP 推送一次边缘服务监控指标数据。
NeuronEX 探活间隔:表示 NeuronEX 每隔 N 秒向 ECP 发送一次心跳包,以保持与 ECP 的连通性。
Pushgateway 服务地址:NeuronEX 通过 Pushgateway 将监控数据推送到 Prometheus,由 ECP 进行收集分析。系统提供自动安装并配置 Pushgateway 服务地址的选项,您也可以自行安装,并对配置项进行修改。
告警
ECP 的告警服务,可以自定义 Webhook 通知的模版,当然,您也可以使用系统默认模版,ECP 支持自定义以下告警字段:
- ${name}(必填):告警名称
- ${contents}(必填):告警信息
- ${alerttime}(必填):告警时间
- ${level}:告警级别,严重/一般
- ${link}:告警列表页链接地址
- ${address}:服务地址链接
- ${systemtime}:发送告警时的系统时间
章节概览
本章将主要讨论以下主题:
ECP 的统一日志功能主要负责收集、聚合、存储及查询云端集群和边缘服务的的运行日志,为运维团队提供一个全局的操作记录和监测系统运行状态的依据。
ECP 集成了 EMQX Dashboard 的访问入口,您可直接通过 EMQX Dashboard 监控 EMQX 集群的运行情况。
您可通过 ECP 查看实例级或项目级的边缘服务统计和监控信息。
ECP 统一告警用于监控和管理云边产品,通过收集和分析各种系统和应用程序的数据,识别并通知用户系统或应用程序中的异常或故障,以便及时处理。
ECP 的告警列表。
ECP 的操作审计功能会记录下平台中所有用户的关键操作,并对其进行审计和监控。它可以帮助管理员详细了解用户对平台的操作,包括访问记录、操作记录和异常行为等,以及针对这些行为进行分析和监控,及时发现和处理安全问题。
ECP 的 API 文档。