2017年3月25日下午,猎聘同道精英汇在北京举行,在此次分享会上,猎聘邀请到了美团云团队的核心人物,与现场参与者分享了美团云运营与维护的第一手干货经验。
美团是中国第一家将服务器完全迁移到云上的电商网站,美团云则是美团推出的公有云平台,通过美团网,美团云在虚拟化、自动化运维、服务器稳定性方面积累了重要的一手经验,同时也完美地支撑了美团网、大众点评、猫眼电影等所有新美大自身业务,并帮助用户打造像新美大业务一样极具竞争力的系统平台。
美团云负责基础设施的运维自动化的DevOps专家雷雨,就新美大数据中心的基础服务展开了分享。
雷雨首先向大家介绍了美团云数据中心一些设施的基础服务。基础服务包括了一个四层的负载均衡体系和DNS,并根据分层模型来决定整个数据中心基础设施的情况。其中的重点是在QR网,即在交换机网上的内网核心。从内网核心到外网之间,部署着美团整个四层负载平台的服务,在外网核心和内网核心之间,就完全由四层负载平台服务器来负载这块平台。
雷雨举例详细解释:任何一个顾客的请求,比如说访问美团的首页,这个请求如何从运营商到外网核心,经过MGW,做四层的转发以后再转到内网,内网再转到具体的某一台机器上,去承载这次请求的应答。
此外,雷雨还着重强调了MGW对一个公司的重要性。通过一个外网的结构访问公司的所有业务,流量都会经过MGW去做内部的负载均衡的转发,但对于任何互联网公司,在这一层面上来说,不管什么业务,有一个节点故障就会影响所有业务流量感知。
雷雨指出,一台服务器在正常使用周期内,它出故障的概率大概是1%,这就是一个瓶颈,容易被各种业务挑战。从三层来说MGW的流量是分摊到整个四台机器上,那么有一台机器如果现在出现故障,那么美团四分之一的客户都会受影响,所以说其对稳定性要求特别高。
随着网络质量越来越好,技术人员在开发的时候就习惯使用一些长连接。长连接带来的问题是,四层负载均衡平台会去做TCP的状态维护,如果一旦有一个节点出现问题,长连接就全断开,如果没有重连,那客户就直接加载失败,这对于网站来说影响特别大,特别是现在一线互联网公司、二线互联网公司,就会导致运营事故。
而美团云则基于此做了一个深度改造,利用深度耦合的网络环境去做改造,即现在线上的AnyCast DNS不仅限于DNS的这一种服务,也就是有关NAT这个美团云运营中的亮点部分——技术监控。技术监控主要场景是基于美团云所面向的基础设施环境的一些技术监控。“美团云即将上线的监控质量,每条链路的质量是怎样的,都通过颜色来标识的,每条线路可以看得到这个质量的持续图,美团第一步先做到网络拓扑质量的全面直观的展示。”雷雨称。
雷雨在这次猎聘同道精英汇上的分享,涉及了很多细节层面的专业阐述,参与者均表示收获颇丰。在自由交流环节,针对现场提问,雷雨还跟大家分享了项目运营的方法论:当在做一个项目的时候,新人往往会考虑这个东西要做得多牛才行。但许多项目的研发成本比较大,一般要求人的技术更高、各方面的视野更广,如果一段时间里没有做出来的话,新人开发者的心理压力是比较大的。其实有很多折中的办法,比如可以先让项目运行起来,小范围展现,让用户有一个简单感受,有一定效果以后,不光思路可以迭代,收到用户的反馈以后,基于这些反馈的问题做更多的思考,从而做出更好的产品来。