IB 网卡流量带宽监控

本贴最后更新于 579 天前,其中的信息可能已经事过景迁

全部指标参考值来自如下命令:

root@ucloud-wlcb-gpu-061:/etc/zabbix/externalscripts# /usr/bin/mlnx_perf -i ibs31 -t 10 -c 1 
Initializingmlnx_perf...
Samplingstarted.
rx_vport_rdma_unicast_packets: 6,478,784.59
   rx_vport_rdma_unicast_bytes: 24,807,016,550Bps   = 198,456.13Mbps   
tx_vport_rdma_unicast_packets: 6,459,893.9
   tx_vport_rdma_unicast_bytes: 24,692,785,131.59Bps = 197,542.28Mbps   
         rx_corrected_bits_phy: 106
             rx_err_lane_0_phy: 22.50
             rx_err_lane_1_phy: 24.89
             rx_err_lane_2_phy: 46.39
             rx_err_lane_3_phy: 12.19
--------

root@ucloud-wlcb-gpu-061:/etc/zabbix/externalscripts# /usr/bin/mlnx_perf --help
Usage: mlnx_perf-i<interface> [options]

Options:
  --version             showprogram's version number and exit
  -h, --help            showthishelpmessageandexit
  -iINTF, --interface=INTF
                        Interfacename
  -tINTERVAL, --interval=INTERVAL
                        Intervalbetweenmeasurementsinseconds
  -cCOUNT, --count=COUNT
                        Exitcounter-exitaftercountingnumberofintervals
                        ( defaultis-1: donotexit)

脚本内容:

#!/usr/bin/python3
#2023年11月17日 -- Autor : cuijianzhe
import subprocess
import json
import sys
def IB_network_discovery():
    CMD = "ifconfig -a | grep -o 'ib\w*'"
    Result_str = subprocess.getoutput(CMD).split()
    ib_list = []
    for key in Result_str:
        ib_list += [{'{#IBNAME}':key}]
    print(json.dumps({'data':ib_list},sort_keys=True,indent=4,separators=(',',':')))


def net_traffic_List(ib_name):
    CMD = ''' /usr/bin/mlnx_perf -i %s -t 10 -c 1 | grep vport_rdma_unicast_bytes | awk -F "=" '{print $2}' | awk '{print $1}' '''%ib_name
    Result_str = subprocess.getoutput(CMD).replace(",","")
    if Result_str == "":
        output = str("0\n0")
        with open('/etc/zabbix/externalscripts/{}'.format(ib_name), 'w') as f:
            f.write(output)
    else:
        with open('/etc/zabbix/externalscripts/{}'.format(ib_name),'w') as f:
            f.write(Result_str)

if __name__ == '__main__':
    # Check if at least one argument is provided
    if len(sys.argv) >= 2:
        describe = sys.argv[1]
        if describe == 'IB_network_discovery':
            IB_network_discovery()
        elif describe == 'net_traffic_total':
            if len(sys.argv) >= 3:  # Check if second argument is provided
                ib_name = sys.argv[2]
                print(net_traffic_List(ib_name))
            else:
                print("Error: 'net_traffic_total' requires an IB name as the second argument")
        else:
            print(f"Invalid option '{describe}'")
    else:
        print('Error: At least one argument is required')

zabbix 配置文件:

UserParameter=ib_network.discovery,/usr/bin/python3 /etc/zabbix/externalscripts/ib_network_discovery.py IB_network_discovery
UserParameter=ib_network.get[*],/usr/bin/python3 /etc/zabbix/externalscripts/ib_network_discovery.py  net_traffic_total $1
UserParameter=ib_network.rx[*],cat /etc/zabbix/externalscripts/$1 | head -n 1
UserParameter=ib_network.tx[*],cat /etc/zabbix/externalscripts/$1 | tail -n 1

添加自动发现模板:

image20231118115159dswdt25.png

添加监控项原型

image20231118115231r5blqte.png

获取数值监控项,此值没有值,只是希望可以获取到后面两项监控项

image20231118115250805u1by.png

rx 和 tx 值

image202311181153386h3x1go.png

最后看图形

image20231118115411v4odd8t.png

shell 脚本自动发现 IB 网卡名称

#!/bin/bash
IBS=(`ifconfig -a | grep -o 'ib\w*'`)
LENGTH=${#IBS[*]}

printf "{\n"
printf  '\t'"\"data\":["
for ((i=0;i<$LENGTH;i++))
do
        printf '\n\t\t{'
        printf "\"{#IB_NAME}\":\"${IBS[$i]}\"}"
        if [ $i -lt $[$LENGTH-1] ];then
                printf ','
        fi
done
printf  "\n\t]\n"
printf "}\n"
  • InfiniBand
    2 引用
  • Zabbix
    41 引用 • 21 回帖
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    554 引用 • 675 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
cuijianzhe
6 号黑客成员, 2000-03-03 23:22:13 加入 北京

推荐标签 标签

  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    151 引用 • 257 回帖
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    496 引用 • 934 回帖 • 2 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3201 引用 • 8216 回帖 • 3 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用 • 7 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 348 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 37 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    5 引用 • 34 回帖
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 109 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 636 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 464 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    53 引用 • 190 回帖
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    86 引用 • 165 回帖
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 5 关注
  • Outlook
    1 引用 • 5 回帖 • 5 关注
  • 工具

    子曰:“工欲善其事,必先利其器。”

    298 引用 • 763 回帖
  • OnlyOffice
    4 引用 • 18 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 143 回帖 • 1 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1443 引用 • 10082 回帖 • 497 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 114 回帖 • 171 关注
  • CodeMirror
    2 引用 • 17 回帖 • 166 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 105 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    29 引用 • 202 回帖 • 27 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 191 关注