戏业务运维工作很容易由于各项事务繁杂,陷入到只关心手头上的工作,“云梯”服务化主要是让运维能更好站在业务和玩家的角度来思考支撑工作如何更好服务于业务。通过数据来体现服务质量,并通过流程驱动闭环的形成,不断的提升运维服务质量。


“云梯”服务化涉及范围较多,如版本服务、活动服务、登录服务、下载服务、成本服务等。在上面的故障处理、大版本等章节中,已经介绍了版本服务、活动服务、下载服务等,所以这里只挑取登陆服务在QQ炫舞和DNF的应用简单介绍。


QQ炫舞做的登陆服务中,通过采集登录系统以及游戏内日志,发现每天约十万级别的登陆失败,并通过日报的方式不断对登陆失败的用户进行分析,最终在开发和运维的联合定位中,发现时登陆中有一个环节处理异常,经过优化后目前的登陆失败量,下降到了每天的1w人次以内。


下图为对QQ炫舞登录成功率方面的监控日报:



DNF在大版本后登陆投诉有成倍的上涨,在开发无法添加TQOS的情况下,运维从TCLS上报的登陆数据,与完整性校验、游戏内的卡机等问题进行切入。并联合心悦俱乐部主动关怀。


运维侧,将登陆过程进行拆分,并对每个阶段的错误码进行分析并预警;同时对部分登陆失败玩家推送解决方案。如下图:



登陆服务与主动关怀推出的一个月内,在DNF整体投诉量不变的情况下,登录投诉下降50%。


下面也简单介绍下其他服务话项目在QQ炫舞与DNF的应用。


DNF掉线跟踪


通过掉线自动分析,发现掉线原因、并按类进行分析优化。



发现80%掉线为idc网络波动导致,因此引入idc分析,优化大区在idc的部署,减少掉线。主要从如下几个方面对IDC进行分析:


  • IDC出口质量波动

  • IDC割接次数

  • IDC覆盖全国质量

  • DNF业务各IDC占比

  • DNF业务各IDC掉线率


QQ炫舞视频秀玩家体验优化服务


下图为视频秀体验相关监控,可以监控版本发布前后关键数据的浮动,以及影响玩家体验的数据;视频秀主要指标为关键帧成功率、发包成功率;同时也可以监控到单个主播的质量,用于处理实时问题。