引言
混合云趋势下,数据中心的网络流量监控正在变得越来越复杂。
据咨询机构Enterprise Management Associates调研显示,在企业上云之前,大多数企业已经采用了4-10个工具来监控网络并进行排障。当多云环境和混合IT架构来临时,网络复杂程度成倍增加,传统的以设备为中心的网络监控工具,开始无法满足云环境所需的可见性,而企业也很难把越来越零碎的网络监控工具融合在一起。
那么,混合云下的网络流量监控到底应该怎么做?对于采用了多云环境的企业而言,是否存在一种基于“全景”的网络监控解决方案,能够让复杂的网络环境变得易于管理呢?
暴涨的虚拟网络流量,缺失的全网流量监控
一直以来,网络流量的采集和分析,是企业数据中心基础设施不可或缺的监控手段。通过对网络流量的深度分析,企业能够更好地定位网络故障、优化网络和业务性能指标。
然而,自2019年以来,来自金融、电信、IDC等行业的一线从业者,却对“云环境下的网络流量采集”这一课题,保持着集体性的高度关注。对于这些IT水平走在各行业前列的大型机构来说,一个老生常谈的网络流量监控领域,到底出了什么问题?
在过去,国内企业数据中心普遍采用传统三层IT架构,对网络流量的监控,主要是通过网络物理交换机镜像来获取业务交互的东西向(相对于数据中心出口的南北流量而言)流量,然后将采集到的流量给到分析工具。
随着企业数据中心架构逐渐云化,网络流量的采集和分析随之发生了巨大的变化:云计算环境下,部分东西向的流量不再经过物理交换机。同时,虚拟机的上线、下线、扩容、迁移、切换等操作频繁,均为自动化实现,而传统的静态镜像无法跟随虚拟机实现同步的动态部署,也就无法采集到所需的流量。换句话说,传统的基于物理交换机镜像的网络流量监控方式,在云环境中开始失效。
此外,云端暴增的虚拟网络流量,也让传统的镜像监控方式难以承受。据艾瑞咨询《2020年中国数据中心行业发展洞察报告 》指出,云化推动数据中心向大规模机房演进,目前数据中心东西向流量已经超过南北向流量。在传统镜像方式下,大规模的东西向流量通过物理交换机端口被引向虚拟机或服务器进行集中处理,由于对端口消耗过大,严重影响了网络设备的性能和稳定性。
值得注意的是,混合云环境下的网络架构更为复杂,想要基于企业现有的监控工具实现端到端的诊断,几乎成了一个不可能完成的任务。在混合IT架构下,企业云数据中心可能包括OpenStack、VMware、裸金属、容器等异构IT资源池,涉及业务区、互联网接入区、外联区、DMZ区等多种网络区域划分,网络环境正在变得越来越规模巨大、层级复杂且多变。
从企业现有的网络监控工具看,无论是日志管理、网络性能管理、应用性能管理等工具,还是云厂商提供的流量采集和分析工具,都是各自为阵,无法为企业梳理出完整的业务流量访问路径,来实现基于混合IT的全网流量监控,更不用提在多云环境中能掌握全局化的、精细化的网络管理能力。
据Forrester调研报告显示,12%使用现代基础设施监控工具的受访者表示,他们仍然难以获得端到端的可见性和扩展性以支持整个企业网络运维。这种局限性,随着企业数据中心云化进程的深入,暴露得愈发明显。
越来越多的企业意识到,在混合云环境中实现全网流量监控,并不是一件轻松的事情。
企业IT历史包袱下,全网流量监控改造之痛
云环境下全网流量监控的缺失,让企业如鲠在喉。大型金融机构、电信运营商、IDC运营商,以及采用了混合云和云原生技术的行业头部企业,都在急切地寻求解决方案。
然而在企业IT历史包袱下,改造之路何谈容易?
从建设的角度看,企业经过多年的信息化建设,积累了大量的软硬件IT资产,并形成了较为固定的IT管理方式。企业更多考虑的是,如何在保持现有的网络设备投资和监控方式的基础上实施改造。这就要求新的网络解决方案,能够与现有的IT软硬件设备和监控工具无缝对接,并尽可能轻量级的部署,不干扰现有的生产环境。
从部署的角度看,云业务带来了大规模的、弹性的虚拟网络流量,那么云环境下的流量监控方案也需要随云而动,一方面能够在IT异构环境中灵活部署,并随着虚拟机、容器等资源的实时变化而弹性伸缩;另一方面,也需要降低对计算、存储、带宽等资源的占用,不能影响现网中运行的业务。
从安全的角度看,大规模的部署、灵活的虚拟网络变动以及开源组件的应用,都会给内网安全带来隐患,因此新的方案需要考虑安全策略的自动化管理,以保证现有的安全策略被正确执行,满足企业上云安全合规的要求。
从业务的角度看,网络流量监控曾经只是IT部门的运维工作,如今却成为运维、安全、业务审计等多个部门共同的关注。无论是网络故障排查、云端网络告警,还是基于业务视角的网络诊断,都需要对全网流量进行采集和分析。如何针对每个部门的不同需求,对流量进行“统一采集、多次分发消费”,避免“烟囱式”建设和重复投资,也成为企业考量的关键之一。
总体而言,企业对于全网流量采集方案的要求非常高,除了部署的低侵入性、高灵活性、高性能及安全性,还看重采集平台的开放性。
反观目前市场上大多数的解决方案,仍是基于物理交换机镜像对流量进行集中处理,或基于虚拟机大规模安装代理进行流量采集,不仅对现有设备的性能影响太大,也无法适应云环境下的灵活多变。这是由于传统网络厂商或虚拟化厂商,一般基于自身的软硬件设备提供一体化的解决方案,既难以与其他厂商的产品进行融合,也缺乏创新的意愿。
混合云趋势下爆发的全网流量监控痛点,正在转化为国内大中型企业云化进程中的新需求,而这一市场尚待破局。
从网络黑盒到全网监控,行业巨头的云网流量采集探索
刚需之下,市场先行,一些技术领先的行业巨头们已走在了传统解决方案的前面。据不完全统计,目前国内已有超过30家企业级数据中心部署了云环境流量采集系统。
那么,这些巨头企业到底是如何解决云网流量监控难题的呢?我们不妨来看几个代表性的案例。
民生银行:金融监管下的云网流量监控
在民生银行,很早就开始实施云数据中心的转型升级,业务已成功上云并稳定运行。为了响应国家金融监管政策,保障云数据中心的网络安全、交易监控安全,2019年,民生银行引入了云杉网络DeepFlow虚拟网络采集可视化与分析平台,以解决云环境中东西向虚拟流量采集的各类痛点问题。
与传统的网络流量监测方式相比,DeepFlow的优势在于,部署方式简单,无需维护独立虚机。由于DeepFlow采用宿主机模式,即通过在云环境每台物理宿主机上部署独立采集软探针,其天生完全旁路的机制,对虚机、业务网卡、虚机交换机均无侵扰。作为宿主机上的用户态进程,具备轻量、安全、可控等优点。同时,为了规避对宿主机稳定性的影响,DeepFlow针对采集器还设置了过载保护机制。
从管理角度看,DeepFlow也是业内少有的能够同时与OpenStack、VMware等云平台无缝对接的产品,其控制器可以发现云平台中的各类资源,包括区域、用户、VPC、子网、路由器、虚拟机等,并结合流量梳理后直观地展现给网络管理员,实时掌握云环境中的流量采集和资源部署情况。
如今,在民生银行的分行云环境中,DeepFlow已与其现有的流量采集平台完成了无缝对接,不仅成功实现了云环境中东西向虚拟流量的精细采集,还与云管平台形成了联动,能够对云网络进行动态的监控。考虑到生产环境的系统安全性,DeepFlow对云网的监控也能实现与生产系统的零耦合。
总体而言,民生银行是以最小化的部署,获得了大化的灵活采集策略和安全便捷的云网流量监控。既扩大了原有的流量采集能力,又不影响生产系统的性能和稳定性,可谓云网流量采集的最佳实践之一。
河南移动:电信云的精细化运营
河南移动的私有云拥有多个数据中心,其资源池数百台集群规模,承载了数百个业务。作为电信运营商,河南移动的私有云建设,不仅要满足国家等保2.0要求,在核心网的可靠性、高效性,以及对客户隐私保护等方面,也有着比很多行业更为严苛的要求。
一方面,河南移动的私有云内部采用网络虚拟化后,数据中心东西向流量占据了主导,传统网络监测方案已无法适应虚拟流量,系统内的网络行为完全黑盒化;
另一方面,该私有云面向的租户越来越多,从整个省公司各部门到不同省公司之间的跨区用户,从云平台运营到租户业务运营,对云资源和流量数据的使用情况要求更加精细化。
为了更好地运营好电信云,在经过反复的测试和对比后,河南移动引入了云杉网络DeepFlow对私有云网络进行监测,实现了实时分析和故障回溯分析,很好地满足了河南移动精细化运营和管理的需求。
对电信运营商而言,如今在5G、边缘计算、物联网方向的发力,还将产生更多的网络运营场景。对此,河南移动和云杉网络也为即将爆发的实时流量采集和分析需求做好了准备。
混合云时代,如何打造全网流量采集的最佳实践?
不难发现,很多行业头部企业都在云杉网络DeepFlow的助力下,建设了全网流量监控分析平台,在私有云或混合云环境中实现了精准高效的网络流量统一采集和分发的能力。
其实,除了上文提到的企业,国泰君安、平安科技、兴业数金等金融机构,移动、联通、电信三大运营商,及中国航信、深航货运、享道出行、联想IT等大型集团企业,都引入了云杉网络DeepFlow来部署云网流量采集平台。
为什么这么多的行业巨头会选择云杉网络而不是传统网络厂商合作?其根本原因在于云杉网络用自己的技术实力和产品思路,证明了DeepFlow的的确确是对用户有价值的,是真正符合用户需求的。
例如,企业在云环境中获取虚拟网络流量的方式其实有多种,但是用户最关心的指标,如:部署对生产环境零侵扰、灵活性好、性能高等,却很少有解决方案能达到企业的标准。
云杉网络DeepFlow采用的宿主机旁路模式,在KVM环境中仅需运行一个用户态的进程,在公有云和VMware云平台以虚拟机的形式部署。当采集器工作时,所消耗的资源为1核CPU、1G内存。当采集为Flow信息时,对网络带宽的消耗不足实际流量的5%,并且采集器拥有过载保护机制,真正满足了企业对侵入性低、稳定性高且动态化部署的需求。
再比如,针对企业在混合云环境中的流量采集需求,DeepFlow凭借其分布式架构和开放可编程的特性,将采集与分析消费解耦,并与多种云平台对接,实现了大规模异构IT资源池虚拟流量的统一采集和管理。为了确保企业安全策略的一致性,DeepFlow做到了云环境采集策略自动化跟随,并通过持续的机器学习自动生成网络策略建议,在动态环境下持续执行策略。
可以看到,DeepFlow的架构设计和产品功能,天生适合多云及云原生环境,这也与云杉网络诞生于云计算时代有关。其SDN的基因与基础平台的开放性,让DeepFlow打破了传统解决方案在侵入性、性能、灵活性等方面瓶颈,同时也能够原生适配虚拟化、容器、公有云等多种生态,从而满足企业在混合云时代的新需求,而这正是传统网络厂商所不具备的特征。
随着越来越多的企业将步入混合云时代,各行业巨头和云杉网络共同打造的云网流量采集最佳实践,无疑也为其他企业提供了可参考的建设经验。
在部署上,平台建设并非一步到位,而是分期建设,按需扩容。
随着数据中心规模扩大、IT基础设施增多而扩容,企业会逐渐将原有的物理网络监控、虚拟流量监控、安全事件监控等业务,整合到全网流量采集和分析的平台中。但是,平台建设并非一步到位,而是基于企业现有的IT基础设施和业务需求进行阶段性的建设。
第一步,企业通常会选择KVM、容器资源池进行部署实施,以DeepFlow解决虚拟网络环境流量“黑盒”的问题。这是由于企业在传统物理网络上已具备完整的监控方案,因此填补虚拟网络流量监控的空白,并与现有的监控分析工具进行对接,闭合私有云、容器环境中的运维、业务分析工具链,成为企业迫在眉睫的需求。
在虚拟网络环境的部署取得了理想效果后,企业第二步可以选择纳入更多资源池,如物理交换机、专线等流量数据,以实现对整体数据中心的流量采集能力。同时,对接网络中心、安全中心、智能运维等平台,满足各平台对现网流量数据的消费需求。
第三步,企业可以对存在公有云上所运行的Workload或实例流量进行采集,完成对混合云IT环境整体监控流量管理,实现整体网络画像、流量分发、对多平台流量数据分发的服务能力。
如果已经运行了混合云环境,企业也可以在不影响生产环境运行的情况下分批次部署实施,将DeepFlow平台所涉及的管理、监控分发平面复用在已有的网络平面中。
在规划上,从不同的IT环境和网络类型出发,分区域、分资源池进行规划。
在数据中心侧,可以按区域来定义,区域内的网络流量包含可用区的物理网络流量和资源池内的虚拟网络流量。在物理网络中,采集点通常由设备厂商的监控方案实现;在虚拟网络流量采集上,可采用DeepFlow提供的各型号采集器,对接设备厂商方案的标准数据输出。
对于多数据中心、多分支机构的企业,DeepFlow也支持各地数据中心区域、各类资源池的网络流量采集,由相应型号的采集器完成。
在公有云侧,可通过DeepFlow实现公有云VPC内各类资源的网络流量采集。采集器以用户态的软件形式,部署在虚拟机、容器、裸金属设备等Workload上,支持Linux、Windows等主流操作系统。
在控制管理侧,可从控制面设计入手,解决大规模及可管理性的问题。控制器是管理控制采集器及策略下发的控制中枢,分为主控制器、备控制器、从控制器,可按照部署要求进行选择。
在多点的部署环境中,首先指定主区域(Region),主控制器存在于主区域中,为整体流量管理平台提供控制入口。除主区域外,其他区域的控制器作为从控制器,不参与主控制器选举。
在云环境、容器环境中,控制器通过对接虚拟化资源池、配置管理数据库、公有云开放API等,可实现多粒度下发采集、分发策略,更灵活、更贴近业务应用。
在功能上,确保平台的可扩展性、开放性和统一管理能力,实现一次采集、多次分发消费。
在云和云原生的环境中,所有的资源包括网络资源在内,都是可弹性变化的。那么,对应的网络监控平台也需要具备弹性的、可扩展的特性。
尤其在混合云环境中,网络规模宏大且资源池类型多样,虚拟交换机采集点数量,相比传统监控规模多达几个数量级的增长。因此,可采用DeepFlow这类分布式部署来避免单点瓶颈,充分适配逻辑网络跨资源池的场景。
同时,应考虑分发的网络平面、尽量复用已有的网络,以降低监控系统的资源开销,并基于不同的业务视角提供网络分析的全景视图,避免多部门的重复投入,最终为企业混合云IT基础设施环境构建统一的流量监控管理平台。
结语
在混合云时代,网络正在变得更加复杂,企业在不同程度遭遇着虚拟网络黑盒的挑战。随着行业巨头纷纷发力全网流量采集与分析,示范效应将逐渐释放,引导着众多企业在混合云环境中应用新的网络监控管理技术,建设新一代的全网流量监控基础设施。