摘要

高性能互连网络是高性能计算机系统中各节点高速协同并行计算的关键。在高性能互连网络的运维过程中,由链路质量恶化引发的网络端口阻塞故障定位困难,一旦发生网络端口阻塞,轻则会导致网络中的丢包率和端对端延迟升高,重则会造成整个网络的瘫痪,严重影响整个系统的可靠性。随着人工智能时代的到来,智能运维已经在网络运维中发挥了重要作用,但是基于高性能互连网络的智能运维研究相对较少。文中基于运维人员在自研高速互连网络运维中积累的大量数据和丰富经验,提出使用有监督的随机森林方法进行网络阻塞检测,实验结果表明,该方法在保持平均95%的召回率的前提下,平均准确率为93.7%,能够有效地解决网络阻塞的检测问题。