您好、欢迎来到现金彩票网!
当前位置:打鱼棋牌游戏平台 > 网络拥塞 >

一份令人警醒的网络重大故障报告

发布时间:2019-06-19 11:28 来源:未知 编辑:admin

  下午13点39分,软银东日本和西日本两大中心机房的18台4G核心网网元突发故障,造成全网大量用户无法正常通信。

  软银被这突如其来的大故障惊呆了,从CTO到工程师,上上下下忙成一团,整整花了近两个小时才定位出故障原因,直到下午18点04分才恢复故障。

  本次故障历时4小时25分,共计造成约3060万软银用户无法正常通信,是日本通信史上一次罕见的重大通信事故。

  事故发生后,软银高层向用户公开道歉,并承诺以后将加强设备备份管理,严防事故再次发生。

  由于故障发生在白天,影响范围广,对软银造成了极大的负面影响,股票大跌,5天内超过1万户用户解约。

  估计连日本总务省也惊呆了,直到20天后,也就是今天,才官方公布确认“收到软银提交的严重事故报告”。

  故障具体原因为核心网网元MME(移动管理实体),即4G分组交换设备的数字证书(TSL证书)过期导致。

  TLS(Transport Layer Security,传输层安全)是为网络通信提供安全及数据完整性的一种安全协议。

  软银解释到,他们在东日本和西日本两大中心机房合计部署了18台分组交换设备,这些设备都是按照远期需求配置,有足够的负荷冗余量,目前仅使用了30%~40%的负荷。

  同时,18台设备相互备份,且均为池化部署,这意味着即使任何一台甚至多台设备发生故障都不会影响服务正常提供。

  TSL数字证书过期,意味着系统无法识别那些连接分组交换设备的其他设备是否合法,此时,系统检测到异常,根据软银现网设置,会采用重启的方式来试图恢复。

  不过,数字证书过期这种事,即使重启N次,也是无法恢复的,因此,就发生了不断重启的死循环,从而导致了这次重大故障。

  此外,由于4G网络服务中断,导致大量用户转移到3G网络,这也造成3G网络严重拥塞。

  通常,对于其他网络设备,我们在购买设备后,是可以自行确认数字证书到期时间的。

  但分组交换设备的数字证书是通过嵌入式软件固化在相应硬件里的,作为运营商,我们无法确认到期时间。

  本次故障是由2018年4月升级的Ver.1.14版本引起,而之前的Ver.1.08版本没有问题,因此,临时解决措施是从Ver.1.14版本回滚到Ver.1.08版本,但这会导致一些4G物联网功能无法使用。

  3.要求在设备升级后一年内,保留旧版本软件,以在新版软件出现类似问题后,快速回滚到旧版本。

  1.要求以后所有购买的网络设备和软件,运营商均可自行检查数字证书是否到期。

  2.更改系统异常检测和应急机制,当系统检测到网络异常时,不再只是重启恢复,而是设置异常告警级别,根据门限判定是重启还是继续运行。

  3.由于引起本次重大事故的原因之一是由于所有设备都来自同一家供应商,因此,要求在2019年6月30日之前引入多家设备供应商,以分散风险。

  看完软银的故障报告,感觉是字里行间透露出一万个“万万没想到”,尽管各种备份容灾都做到位了,但意外还是发生了。真是网络安全无小事,运维责任重如山,令人警醒。

  智能手机迎十年来最大颠覆!AI化势不可挡,38页白皮书看透真相【附下载】 智东西内参

http://g-unitkennels.com/wangluoyongsai/272.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有