5G核心网学习平台
精华问答 #Q52

国际漫游提供商GRX_IPX的运维工程师是怎样处理故障的?

来自知识星球

国际漫游提供商GRX/IPX的运维⼯程师是怎样处理故障的?

前两天发了个文章:

为什么数据业务国际漫游会特别慢?

https://t.zsxq.com/cZyL3

聊了聊GRX和国际漫游业务。

有些朋友感兴趣。

今天再聊一下。

国际漫游提供商GRX/IPX的运维工程师是怎样处理故障的?

首先说故障是怎么发现的?

其实故障有两种:

- 一个是大面积的故障;比如link down,网元down;

- 一个是个别用户的故障。

前者主要是靠主动的监控发现,

后者则通常由用户投诉被动发现。

GRX这边和大多数运营商一样,也有运维的监控中心。

也有大屏幕,可以看到各个PoP站点,各个主要网元的实时指标。

包括性能指标、告警等等。比如链路断了,网元倒了。

今天主要说的是后面这种用户投诉类的故障。

大概是这么一个流程。

用户发现自己上网慢。

比如移动用户在美国。

他会先打给自己的运营商比如10086,

10086转给负责国际漫游的工程师处理。

运营商工程师给GRX的热线打电话,要求GRX配合检查。

GRX会开一个ticket(也就是故障工单),并进行跟近。

GRX热线会派单给二线工程师处理(也就是我啦)。

然后我就要开始忙了。

由于端到端经过的节点非常复杂。

我这边其实就是需要用各种技术手段,来进行范围的定界。

技术手段比如ping、查dns、查bgp路由、查acl访问控制列表、抓包分析等等。

最后,确定是谁的问题。

比如拓扑是这样的运营商1---GRX1---GRX2---运营商2。

我可能属于GRX1的Aicent,那如果定位出来是GRX2的问题,

那也就没办法。把log记录下来,写到ticket里作为证据。

然后给GRX2的热线打电话,请求对方继续定位。

也就只能这样了。

但如果定位出来是Aicent自己的问题,那就得在自己网络里去检查了。

比如根据log定位出来是香港Pop的Router666有问题。

那就再登到这个设备上看有什么异常。

也就只能这样了。

返回精华问答列表