2018年春晚总结

        18年春晚保障顺利完成。春晚期间feed业务录得峰值数据如下:

详细数据就不贴出来了。

  其中发博、发评论量峰值已经超过17年春晚的峰值流量,为历史新高。

        在春晚前一个月,微博平台已经启动了线上服务保障相关准备工作,如申请内网服务器扩容等。但实际线上运营、产品活动带来的热度和挑战还是超出了我们的预期——直播互动、下来刷新抢红包等都会带来瞬时的峰值挑战。为了保证微博主系统在无有损核心功能降级的情况下,能够承载业务需求容量,并能够通过扩容、降级等手段进一步提升承载力,我们主要做了以下的几方面的改进:(1)多维度压测线上各服务池冗余度——明确扩容机器台数以及分布,提供决策依据

(2)核心资源、服务4倍冗余建设——保障核心链路满足系统设计要求

(3)决策支持等监控工具体系建设——快速发现资源、服务瓶颈

(4)业务系统改造升级——解决监控覆盖盲点,隔离非核心服务

(5)针对运营、活动热点服务做消峰、优化策略——减少机器投入成本收获最大的运营效果

总结:问题与响应应对: 

制度与经验

       1. 压测需要常态化、体系化。当前针对前端、rpc、队列的压测手段、效果存在较大差异,经常多轮压测的效果相互打架。后续压测需要有体系性、规范性的指导意见、说明,如:前端的压测手段是啥,压测标准是多少,最终报告需要包括哪些方面。春晚前需要进行几轮压测。

       2. 演练要定期、常态化,做到“人人可处理,处理即生效,生效即恢复”,尤其是上行以及部分非重点关注的系统的的演练方案。还有就是开关的决策、突发事情的应对等,本次春晚还是出现了人才断层的情况。
故障报告,改进建议,后来改进建议持续写的。要靠自动化工具
       3. 春节前改造需要预留充足的观察时间——部分改造项目在春晚前一天、两天上线,实际上观察时长、调整迭代机会太少,导致线上效果打折,并可能有后遗症。