基于 Prometheus 和 Grafana 的监控平台 - 运维告警

本贴最后更新于 1612 天前,其中的信息可能已经斗转星移

通过前面几篇文章我们搭建好了监控环境并且监控了服务器、数据库、应用,运维人员可以实时了解当前被监控对象的运行情况,但是他们不可能时时坐在电脑边上盯着 DashBoard,这就需要一个告警功能,当服务器或应用指标异常时发送告警,通过邮件或者短信的形式告诉运维人员及时处理。

今天我们就来聊聊 基于 Prometheus 和 Grafana 的监控平台的异常告警功能。

告警方式

Grafana

新版本的 Grafana 已经提供了告警配置,直接在 dashboard 监控 panel 中设置告警即可,但是我用过后发现其实并不灵活,不支持变量,而且好多下载的图表无法使用告警,所以我们不选择使用 Grafana 告警,而使用 Alertmanager。
image.png

Alertmanager

相比于 Grafana 的图形化界面,Alertmanager 需要依靠配置文件实现,配置稍显繁琐,但是胜在功能强大灵活。接下来我们就一步一步实现告警通知。

告警类型

Alertmanager 告警主要使用以下两种:

  • 邮件接收器 email_config
  • Webhook 接收器 webhook_config,会用 post 形式向配置的 url 地址发送如下格式的参数。
 {
	"version": "2",
	"status": "<resolved|firing>",
	"alerts": [{
			"labels":  < object > ,
			"annotations":  < object > ,
			"startsAt": "<rfc3339>",
			"endsAt": "<rfc3339>"
			}]
	}

这次主要使用邮件的方式进行告警。

实现步骤

  • 下载
    GitHub 上下载最新版本的 Alertmanager,将其上传解压到服务器上。
    tar -zxvf alertmanager-0.19.0.linux-amd64.tar.gz

  • 配置 Alertmanager

vi alertmanager.yml
global:
  resolve_timeout: 5m
  smtp_smarthost: 'mail.163.com:25' #邮箱发送端口
  smtp_from: 'xxx@163.com'
  smtp_auth_username: 'xxx@163.com' #邮箱账号
  smtp_auth_password: 'xxxxxx' #邮箱密码
  smtp_require_tls: false
route:
  group_by: ['alertname']
  group_wait: 10s  # 最初即第一次等待多久时间发送一组警报的通知
  group_interval: 10s # 在发送新警报前的等待时间
  repeat_interval: 1h # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝
  receiver: 'email'
receivers:
  - name: 'email'
    email_configs:
    - to: 'xxx@xxx.com'

修改完成后可以使用 ./amtool check-config alertmanager.yml 校验文件是否正确。
image.png

校验正确后启动 alertmanager。nohup ./alertmanager &。(第一次启动可以不使用 nohup 静默启动,方便后面查看日志)

我们只定义了一个路由,那就意味着所有由 Prometheus 产生的告警在发送到 Alertmanager 之后都会通过名为 email 的 receiver 接收。实际上,对于不同级别的告警,会有不同的处理方式,因此在 route 中,我们还可以定义更多的子 Route。具体配置规则大家可以去百度进一步了解。

  • 配置 Prometheus
    在 Prometheus 安装目录下建立 rules 文件夹,放置所有的告警规则文件。

    alerting:
    	alertmanagers:
    	- static_configs:
    		- targets: ['192.168.249.131:9093']
    
    rule_files:
    	- rules/*.yml
    

    在 rules 文件夹下建立告警规则文件 service_down.yml,当服务器下线时发送邮件。

groups:
 - name: ServiceStatus
   rules:
     - alert: ServiceStatusAlert
       expr: up == 0  
       for: 2m 
       labels:
         team: node
       annotations:
         summary: "Instance {{ $labels.instance }} has bean down"
         description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes."
         value: "{{ $value }}"
**配置详解**  

alert:告警规则的名称。
expr:基于 PromQL 表达式告警触发条件,用于计算是否有时间序列满足该条件。
for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为 PENDING,等待期后为 FIRING。
labels:自定义标签,允许用户指定要附加到告警上的一组附加标签。
annotations:用于指定一组附加信息,比如用于描述告警详细信息的文字等,annotations 的内容在告警产生时会一同作为参数发送到 Alertmanager。

配置完成后重启 Prometheus,访问 Prometheus 查看告警配置。
image.png

  • 测试
    关闭 node_exporter,过 2 分钟就可以收到告警邮件啦,截图如下:
    image.png
    Alertmanager 的告警内容支持使用模板配置,可以使用好看的模板进行渲染,感兴趣的可以试试!

The More

node exporter 的一些计算语句

  • CPU 使用率(单位为 percent)
    (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)

  • 内存已使用(单位为 bytes)
    node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes

  • 内存使用量(单位为 bytes/sec)
    node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes

  • 内存使用率(单位为 percent)
    ((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes)/node_memory_MemTotal_bytes) * 100

  • server1 的内存使用率(单位为 percent)
    ((node_memory_MemTotal_bytes{instance="server1"} - node_memory_MemAvailable_bytes{instance="server1"})/node_memory_MemTotal_bytes{instance="server1"}) * 100

  • server2 的磁盘使用率(单位为 percent)
    ((node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"} - node_filesystem_free_bytes{fstype=~"xfs|ext4",instance="server2"}) / node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"}) * 100

  • uptime 时间(单位为 seconds)
    time() - node_boot_time

  • server1 的 uptime 时间(单位为 seconds)
    time() - node_boot_time_seconds{instance="server1"}

  • 网络流出量(单位为 bytes/sec)
    irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0

  • server1 的网络流出量(单位为 bytes/sec)
    irate(node_network_transmit_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0

  • 网络流入量(单位为 bytes/sec)
    irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0

  • server1 的网络流入量(单位为 bytes/sec)
    irate(node_network_receive_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0

  • 磁盘读取速度(单位为 bytes/sec)
    irate(node_disk_read_bytes_total{device=~"sd.*"}[5m])

  • Prometheus
    20 引用 • 8 回帖
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...