来自知识星球

国际漫游提供商GRX/IPX的运维⼯程师是怎样处理故障的?

前两天发了个文章:
为什么数据业务国际漫游会特别慢?
https://t.zsxq.com/cZyL3
聊了聊GRX和国际漫游业务。
有些朋友感兴趣。
今天再聊一下。
国际漫游提供商GRX/IPX的运维工程师是怎样处理故障的?
首先说故障是怎么发现的?
其实故障有两种:
- 一个是大面积的故障;比如link down,网元down;
- 一个是个别用户的故障。
前者主要是靠主动的监控发现,
后者则通常由用户投诉被动发现。
GRX这边和大多数运营商一样,也有运维的监控中心。
也有大屏幕,可以看到各个PoP站点,各个主要网元的实时指标。
包括性能指标、告警等等。比如链路断了,网元倒了。
今天主要说的是后面这种用户投诉类的故障。
大概是这么一个流程。
用户发现自己上网慢。
比如移动用户在美国。
他会先打给自己的运营商比如10086,
10086转给负责国际漫游的工程师处理。
运营商工程师给GRX的热线打电话,要求GRX配合检查。
GRX会开一个ticket(也就是故障工单),并进行跟近。
GRX热线会派单给二线工程师处理(也就是我啦)。
然后我就要开始忙了。
由于端到端经过的节点非常复杂。
我这边其实就是需要用各种技术手段,来进行范围的定界。
技术手段比如ping、查dns、查bgp路由、查acl访问控制列表、抓包分析等等。
最后,确定是谁的问题。
比如拓扑是这样的运营商1---GRX1---GRX2---运营商2。
我可能属于GRX1的Aicent,那如果定位出来是GRX2的问题,
那也就没办法。把log记录下来,写到ticket里作为证据。
然后给GRX2的热线打电话,请求对方继续定位。
也就只能这样了。
但如果定位出来是Aicent自己的问题,那就得在自己网络里去检查了。
比如根据log定位出来是香港Pop的Router666有问题。
那就再登到这个设备上看有什么异常。
也就只能这样了。