基础设施监控：挑战和优秀实践_云资讯

基础设施监控是一种软件工具的部署，用于自动诊断整个技术堆栈中的性能和可用性问题。

基础设施监控包括一系列的用途和问题，从网络优化到诊断再到入侵检测。基础设施监控可以告诉工作人员，路由器是否关闭，服务器是否以不寻常的利用率运行，并且在适当的安全性下，它还可以发现正在窃取企业数据的入侵者。

基础设施监控支持基础设施管理，但两者不同。基础设施管理是企业根据监控工具的发现采取的补救措施。基础设施监控可以不断检查IT平台的各种元素，从内部数据中心到私有云再到公共云。

随着网络越来越复杂，由于设备种类越来越多，以及混合云的出现，网络完整性的重要性随之增长。即使在中小企业内部的基本网络上，也应该对基础设施进行监控，但是对于大型企业的复杂系统，它是运营的重要组成部分。

了解基础设施监控

在日常运营方面，基础设施监控是软件工具的部署，用于自动诊断整个技术堆栈中的性能和可用性问题，以在问题变得严重之前捕获问题。

“整个堆栈”是指硬件、操作系统、虚拟化环境、网络、存储、计算和应用程序。由于大多数大型基础设施跨越多个位置，同时包含公共云和私有云，这就给IT部门带来了更大的挑战，因此，自动化将成为关键。

由于具有复杂性，实现自动化至关重要，原因如下：

自动化可以比人类更快地做出响应。它可以比等待人工干预更快地处理问题。假设企业已正确编程响应，自动化可以减少错误。与人类不同，它可以全天候运行，不需要睡眠。

通过自动化技术，企业可以设置阈值，例如服务器利用率或网络带宽，以及当网络高于或低于设定阈值时的程序响应。如果服务器冻结或停止，它也可以自动重启。

基础设施监控包括在出现问题时添加和删除要监控的设备、性能、运行状况监控、网络和数据移动监控、报告/日志以及警报系统。这些通常是实时的，因为对网络瓶颈的警报在被发现6小时后是毫无意义的。

基础设施监控通常通过仪表板完成，仪表板通过视觉布局(如仪表)在一个位置显示企业的所有信息。它们在屏幕上呈现实时更新，并可以在一段时间内生成报告。

为什么需要基础设施监控

基础设施监控为管理者提供了实时了解基础设施状态所需的数据，以及衡量组织目标进度的能力。通过不断收集和审查有关基础设施的数据，监控允许测量当前状态以及网络的进展情况。

例如，如果管理层已经制定了实现一定级别网络响应的目标，那么监控工具可以显示网络在响应性方面的位置。它可以识别延迟的峰值，也许也可以找出原因。

确保网络以高效率运行需要企业了解构成IT基础设施的设备，同时还要关注这些设备的健康状况和性能。对企业的IT系统进行主动分析，意味着有更好的机会在导致严重中断之前捕获即将发生的故障。

有很多例子表明，如果没有适当的基础设施管理会出现什么问题。“僵尸服务器”就是这样一个例子，物理服务器处于空闲状态，没有人使用它。由Anthesis Group和斯坦福大学研究人员于2017年进行的一项研究发现，大型数据中心中多达30%的服务器是僵尸服务器，一直开启却没有做任何工作。这是适当监控的失败，因为基础设施监控器会记录这些服务器没有产生任何流量或根本不使用任何周期。

另一个例子是恶意软件渗透。多年来，有关于恶意软件进入企业网络并使用企业网络交付恶意有效负载、触发垃圾邮件、发起分布式拒绝服务(DDOS)攻击、嗅探网络流量以获取有用信息的故事和研究。同样，这也是监控有帮助的地方，因为它会注意到一个未知的应用程序发送数千封电子邮件或与俄罗斯的服务器通信。

基础设施监控优秀实践

以下是充分利用基础设施监控工具的几个技巧：

确定优先顺序——提前确定哪些是最重要的通知按降序排列，这可能会花费比处理电子邮件稍多一些的时间。

创建警报解决流程——应为每种警报类型提供最佳和最快的解决流程。同样，这也是企业优先考虑的问题，因为需要通知首席执行官让工作人员来处理。

购买而不是建造——建设或购买是一个历史悠久的IT争论。企业是自己建设还是锁定供应商?在这种情况下，由于IT系统日益复杂，企业好购买监控工具。好消息是有很多可供选择。

测试企业的监控和警报系统——因为企业不应该在实际的紧急情况下首次看到其警报系统运行，因为它可能需要对系统进行一些调整。试运行有助于确保企业可以根据需要调整系统。

设置详细全面的警报——当汽车中出现“检查引擎”指示灯，但不知道问题是什么时，这很令人沮丧。这里也同样适用。良好的警报需要全面、详细和可操作。

从多个位置进行监控——如果企业有多个数据中心，则从每个位置监控所有数据中心。如果有三个，则从A监视B和C，从B监视A和C，依此类推。冗余将保护企业业务正常运营。

获得帮助——监控工具供应商有支持人员和顾问为企业提供帮助。

混合使用监控工具——既有内部部署工具，也有基于云计算的工具。同时使用它们，特别是如果企业拥有混合云环境的话。

没有警报并不总是一个好兆头——这可能意味着系统失败。这是不可避免的。它们会阻塞带宽或遭受入侵。有时错过了一些东西。不要以为几周内没有警报意味着没有任何问题。问题可能出在显示器本身。

定期审核指标——设定性能指标并非一劳永逸。企业可能设置的CPU阈值太高或网络带宽警报范围过小。应定期审查指标。

基础设施监控工具

现在有两种类型的监视工具：有内部部署的监视软件工具，以及从网络外部运行的SaaS服务器监视工具。企业的决定应该基于其业务需求，但此时，只剩下很少的本地工具。几乎所有工具都已迁移到云端。

CloudRadar：这会将企业所有服务器、主机和服务置于统一的应用程序中，当出现问题(例如中断、、容量、性能问题)时，软件会通过电子邮件、短信、Slack、WhatsApp、电报、Pushover、Webhook通知用户。

CA Technologies：CA公司为本地和云提供各种企业级、全栈监控和管理解决方案，包括DX应用程序性能管理、DX应用程序体验分析、DX基础设施管理器以及网络运营和分析等。

VMware vRealize Hyperic：从70多种应用程序技术中收集多达50,000个指标的性能数据，以监控硬件、操作系统、应用程序、中间件堆栈中的任何组件。

New Relic：APM和基础设施的两个应用程序，在结合覆盖系统和应用程序性能时，无论是在内部部署数据中心还是在云平台中。

BMC数字企业管理：数字体验监控(DEM)是一套六种全栈监控解决方案，包括IT运营、监控未经授权的IT活动、大型机维护、应用监控和未经授权的应用。

Dynatrace：该公司致力于为绩效管理、运营人工智能、云计算基础设施监控，以及数字体验管理创建监控工具。

Opsview：其旗舰产品Monitor产品提供了对所有IT资产和系统以及基于云计算服务的单一视图。

SolarWinds：其旗舰服务器和应用程序监视器(SAM)工具可让企业监控应用程序和服务器基础设施(包括内部部署和云端)的运行状况、可用性、性能。SAM支持1200多种应用程序和系统模板，或者可以轻松地将监控扩展到任何自定义或自行开发的应用程序。

【凡本网注明来源非中国IDC圈的作品，均转载自其它媒体，目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。】

基础设施监控：挑战和优秀实践

延伸阅读：