首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据中心网络流量采集分析应用

本文节选自《金融电子化》2018年3月刊

作者:中国光大银行信息科技部 蔡絮 谢声涛

编 者 按

本文列举、分析了当前数据中心流量采集所面临的需求与挑战,并进一步介绍了流量采集网络的架构和应用场景。

背景:随着数据中心网络规模扩大,承载应用系统越来越丰富,运维精细化要求不断提高,网络流量采集分析已经成为数据中心基础设施不可缺少的分析手段。通过网络流量深度分析,我们能够更直观地加快故障定位、分析应用数据、协助优化定位,加快故障定位。

问题:数据中心的流量采集正面临着包括采集需求多样化、处理需求复杂化、流量探针限制、数据安全及合规在内的诸多的需求挑战。

实战经验:全流量采集是流量分析体系的基础,一个覆盖全面、合理有效的流量采集网络,有助于提高网络流量的采集、过滤和分析效率,满足不同角度的流量分析需求,优化网络和业务性能指标,提高客户体验。

流量采集的挑战

1.采集需求多样化。我行同城双活数据中心引入Nexus网络架构构建了大二层网络平台,为承载的业务提供高冗余网络架构。二层多路径等技术也对流量采集提出了挑战,不同路径均有流量分布。因此,在双活数据中心流量经过的所有链路上都需要部署流量采集点。

另外,数据中心网络安全域边界部署了防火墙、安全域内部署负载均衡及其他安全设备,为了精准定位业务流量,实现端对端的监控,需要对区域内和区域间的流量进行按需采集。此外,随着我行私有云业务上线推广,对云平台中的网络性能及安全监控也是需要进行有效的采集,才能做到监控没有盲区。

2.处理需求复杂化。不同分析工具对流量采集处理需求各不相同。例如:对于网络性能监控,需要分析业务路径的各个区域间及区域内的流量。通过交换机镜像方式采集的流量将产生重复流量数据,因此需要对流量进行去重处理。同时,为了识别原始流量的网络区域位置,还需要对流量进行标签化管理。此外,网络性能监控不需要数据包的内容,还可以对数据包进行截短,进而为网络性能分析工具优化采集的流量。

对于应用性能监控,则需要能够实时分析网络上承载的业务质量指标,采集业务相关的数据会话,分析交易类型、交易渠道、业务质量关键指标,要求采集完成的交易会话,不允许出现丢包、重复数据包的现象。

3.流量探针限制。基于流量分析的探针,每个设备都需要交换机镜像口的流量,而交换机仅支持2个session,这必然造成有些探针无法取得所需流量,镜像口资源不足。另一方面,流量探针单端口的部署成本较高,交换机和流量探针的组合无法提供高性价比的解决方案。因此,需要在流量采集和分析之间部署流量采集层,将流量采集、处理后转发给相应的分析工具,可以有效降低分析工具的部署成本,节约开支。

4.数据安全及合规。随着数据中心安全防护体系的不断深入,流量采集和分析的应用场景需求不断增加。例如全网流量可视化与动态分析、互联网应用安全防护、云安全等。另一方面,网络承载着客户业务的重要数据,如何能对数据进行安全合规使用,避免信息泄露,也是在进行采集网络规划建设时需重点考虑的问题。例如对于部分重要的生产网络流量数据,需要进行脱敏处理,隐藏客户敏感信息,避免信息泄露。

采集网络架构

综合考虑采集层的稳定性、智能化、可扩展性、可管理性等要求,结合我行的实际监测需求,我行的流量采集网采用结构化分层设计。

采集网络自身的架构对于流量采集至关重要,目前主流的技术主要有级联和集群,级联部署模式中流量需要分段配置过滤规则,即从A设备到B设备流量要在每个设备上去配置与管理;而集群模式是将所有设备作为一个逻辑管理单元,从A设备到B设备的流量是由统一的规则实现,不需要分段配置,既便于流量的管理维护,也能够对流量故障诊断时快速定位流量分配。我行采用了集群部署模式,将同城的双活数据中心流量打通,通过核心层设备实现双中心的流量按需调用至任何需要流量的工具,实现了全网的流量在集群范围内统一管理。

流量汇聚层:我行数据中心采用模块化机房结构,流量汇聚层设备部署于各个模块机房,负责采集本模块机房的流量,并实现流量的标签化管理和基本过滤。

流量核心层:负责采集各个汇聚层汇聚过来的流量,实现流量的统一管理和精细化过滤。

通过实施分布式网络流量采集系统,实现对双活数据中心内的各个业务区域流量分布采集,集中梳理。同时,也能够提供面向不同业务的数据采集、去重、切片、脱敏、分发、筛选、复制和负载均衡,并按需进行网络数据包重构,有助于进行网络规划、网络优化、网络监测、业务流量趋势分析、网络故障定位等工作,保障网络的正常、稳定、可靠运行,实现全网流量可视化和流量精细化管理。分布式流量平台覆盖双活数据中心各个业务功能区域,并且充分考虑系统的可扩容性,为系统的扩展和升级,预留容量。

采集网络应用场景

1.单播泛洪监控。在通常情况下,交换机根据收到数据帧中的源MAC地址建立该地址同交换机端口的映射,并将其写 入MAC地址表中。交换机将数据帧中的目的MAC地址同已建立的MAC地址表进行比较,以决定由哪个端口进行转发。如数据帧中的目的MAC地址不在MAC地址表中,则向所有端口转发,此过程被称作交换机泛洪。单播泛洪产生的主要原因包括:不对称路由导致的MAC表异常、软件Bug导致交换机MAC表异常、机配置不正确导致交换机MAC表异常等。我行在每个网络区域的二层交换机内配置一个Trunk口,连接流量采集网,交换机将网络内所有广播及未知单播报文通过流量采集网,发送到流量分析平台。流量分析平台根据流量大小判断网络通信是否正常,并设置告警阀值,当出现位置单播泛洪时,探针服务器自动触发告警信息,且储存数据包,协助运维人员查看数据包,快速定位泛洪流量源。

2.虚拟化流量采集。目前我行已经部署了智能化网络流量采集管理平台、数据分析探针、虚拟机信息的智能获取。通过部署一个虚拟流量采集VM可以统一采集虚拟环境内的东西向流量,流量采集下来后发送至物理的流量采集平台,进而实现流量的统一管理。虚拟化统一采集明显优于在虚拟化平台中部署多个分析探针,这种部署方式即节约的宿主机的系统资源,又能够实现流量的端到端管理。

3.网络安全防护。基于数据中心网络流量采集平台,可对网络流量进行精细梳理,并通过标签、合并、去重、脱敏等对数据进行按需过滤,并提供网络流量探针、IDS、APT等网络流量分析和网络安全监测平台分析。例如:通过域名解析日志大数据分析,针对病毒、木马发出的域名请求进行实时监控定位,做到快速发现、快速隔离。实践证明,该方案对近期爆发的Wanncry勒索病毒、xmanager软件漏洞、网络终端中毒行为分析有较好监测效果。

通过在关键网络区域部署网络流量采集设备,对网络全流量进行解码还原出真实流量提取网络层、传输层和应用层的头部信息,甚至是重要负载信息,并将通过加密通道传送到分析平台进行统一分析处理。网络流量采集设备内置威胁分析引擎,可根据通讯协议的规范,检测发现非规范协议的通信流量,从而识别出病毒、木马所使用的私有控制协议和隐蔽信道。也可以根据网络运行状态的历史数据统计,形成正常行为轮廓,以此为基础检测异常,通过分析流量对于正常行为模式的偏离而识别检测网络攻击。

4.业务质量监控。流量采集平台将流量进行精细化处理后,分配至BPC应用性能监控平台进行分析处理,定制业务系统端到端的可视化监控视图,实时分析各应用节点的网络流量、可用性、负载、性能、用户感知等指标,实现总分行重要业务系统网络流量可视化。进一步,我行总结了专业团队的技术经验,构建专家知识库,并自动应用到网络故障处置中,基于流量采集系统输出信息,对应用系统故障进行智能定位分析,并为后续防火墙策略状态感知和动态调整提供数据基础。

总结

流量采集网的建立扩展了网络流量采集广度,通过对数据的各类加工,一定程度上提高了数据利用效率。随着各类数据分析需求的发展,后续数据流量采集将与各类分析应用平台联动,从不同角度挖掘数据信息,对数据进行深入分析,支持运维业务发展。

《金融电子化》新媒体部

主任 / 邝源 编辑 / 潘婧

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180418B0VIVG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券