QQ炫舞遭受网络攻击要较其他业务要高许多,同时其抗网络波动能力较弱,这会导致同一网络波动QQ炫舞会比其他游戏多掉线30%左右。

关于网络攻击类的故障,QQ炫舞与腾讯宙斯盾团队进行了深入的合作。高频率的调整防御策略,以防御各类型的攻击;黑洞设备的覆盖与扩容,极大的提升了防御范围与能力(超大流量)。保障了99%的攻击对业务无影响。


高频率的现网掉线导致运维每天都会接收到掉线告警,并需要上线去确认原因。这有损玩家体验、同时也增加了运维的工作量。因此运维侧开发了”掉线原因自动分析“app。在掉线告警产生的同时,通过固化的流程分析出原因,并及时周知;并生成掉线周报、月报,针对性的推动IDC改善网络环境,推动开发商优化网络模块。


通过此app及后续的项目,QQ炫舞的日掉线率下降了70%。


如下图是掉线故障处理新的思路,并已经通过工具实现自动化处理。



DNF的突发多为版本bug导致。


针对类似问题,我们除了要求开发商提升版本质量、加大测试力度之外,还需要对突发的前、中、后进行控制。接入腾讯铁算盘,对金币、关键道具进行监控,以便在问题变严重前及时发现并处理;突发发生中,我们需要及时评估,通过停服、关闭单个活动等手段控制影响,并协调干系同事实时验证并确定修复方案;突发后需要回顾过程,如优化监控策略,缩短DB回档时间,减少停服时长等。


下图为对游戏内金币、道具产出的监控:



为减少停服时间,运维侧制定了灵活(可以针对不同的大区或模块)的停服、起服作业(ijobs作业)


国内开发商在BUG类突发处理的配合度较高,会及时分享进度、原因、以及后续的规避方案;而韩国开发商在信息共享方面做得较少,只是单方面的进行bug修复,所以会出现一些重复的bug。因此运维需要与韩国开发商保持的良好沟通(最后一章节介绍了如何与开发商沟通)并建立信任关系,这样才能获得更多的信息,并获得更多的话语权。


由于韩国网络状况较好、外挂较少,所以开发商会把更多精力放在游戏的内容玩法上,高频率的版本更新节奏,会带来较多的游戏bug及安全漏洞,运维侧需要做好监控、提升操作效率、固化流程,以减少bug对游戏带来的影响。