线是业务的关键指标之一,每个业务一般一年会进行至少1次的冲在线活动。在活动支撑工作中将涉及服务器压力、外部攻击、带宽、活跃玩家以及活动规模等不断上升和变化,如何利用恒久不变的“容量“和”监控“的支撑思路达成我们的目标。


  • QQ炫舞的玩家学生较多,且男女比例基本相当,所以暑假、情人节成了冲在线的黄金时间;


  • DNF一般会选择在年度大版本发布后的一周进行一次冲在线活动;


服务器压力评估是冲在线最核心的部分,QQ炫舞的后台server、db、client在冲在线前的版本变化不大,所以容量基本参照现网版本的压力进行评估。每个大区冲在线时的"建设容量”=“目标PCU”/“现网PCU”*“大区当前容量”。评估完成后基本可以得到三档容量,即热点大区(几十万),普通大区(十万+),小区(几万)。后续需要对容量不够大区进行扩容,一般包括db、gamesv的扩容。


每次扩容的承载基本在近百万w,涉及到的机器数百台。短时间把如此量级的机器扩容到现网环境,我们不但要效率,更要质量。因此运维团队在12年的时候开发了自助扩容app。从拿设备,到设备扩容到现网一键实现。目前自助扩缩容已经转移到”标准运维“app实现。


下图为自助扩容实现流程:



DNF基本是大版本后的一周就会启动冲在线,且版本内容改动非常大,即db、gamesvr压力无法参照现网版本进行评估。因此我们在体验服版本迭代的时候就不断进行压测,以评估上线后的压力。以此评估现网设备是否需要升级或扩容。DNF现网大区的频道都是一致的,所以大区的容量都一样。大区容量的扩充基本通过添加频道或添加频道的承载来达到。


下图为体验服进程性能跟踪的监控列表,定时反馈每个版本的性能,以便能及时发现性能问题:



在线较高的业务,冲在线时,除了进行自身容量的评估,环境的压力也需要进行系统的评估。如IDC出口流量、内网流量评估;防攻击策略review;支付压力评估;登陆模块压力评估;活动突发预案等等,这里就不一一赘述了。


同时也可以开发冲高工具,实时反馈现网的情况。如实时现网大区实施压力检测、大区在线实施同步等等,如下图。


大区压力实时监测:



现网在线分钟级检测,以便引导玩家进入压力较小的大区。