云原生基础设施监控要有效，得走好这七步 _云资讯

数字企业继续改造和发展其IT基础设施，以增强与业务目标的一致性。数字服务中断可能会损害销售、收入和公司声誉，因此团队面临着大限度提高整个堆栈的弹性和正常运行时间的压力。组织比以往任何时候都更需要全面的基础设施监控，以保持可见性，并在最终用户受到影响之前帮助工程师识别和解决问题。

基础设施监控的演变

基础设施监控是一个整理和分析来自IT环境所有组件的度量、跟踪、日志和其他遥测数据的过程，以提供对可用性和性能的可操作洞察。然而，随着云环境的复杂性和动态性的增加，实现有效的监控变得更具挑战性。

例如，在多云环境中，每个平台都附带一个来自公共云提供商的原生监控解决方案，该解决方案只提供对其自身基础设施组件的可见性。因此，组织必须拼凑各种工具，这会造成复杂性并妨碍整个堆栈中的端到端可见性。

有了正确的技术和配置，基础设施监控将改变游戏规则。它帮助团队发现和分析趋势，并在潜在问题破坏用户体验或违反服务级别协议(SLA)之前标记它们。它还可以支持A/B测试，这有助于团队确定性能和用户体验的最佳基础设施设置。高度自动化的监控解决方案有助于团队减少手动流程，随着基础设施的发展可以轻松扩展，最重要的是，专注于创新，而不是修复bug。

以下是七个优秀实践，可帮助基础设施团队设置和优化云原生监控功能。

1. 尽可能实现自动化

对于大型动态环境，使用高度自动化的基础设施监控解决方案是关键。监控功能的手动配置和仪表化是令人望而却步的劳动密集型任务。团队发现无法对其基础设施的一些部分进行检测，并且难以保持对代理的监控处于最新状态。

另一方面，自动部署、自动配置和自动基线使组织能够扩大可以捕获的度量范围，消除盲点，并在云原生基础设施堆栈中实现端到端的可观察性。这将带来更高质量的监控，并生成更精确的上下文洞察。通过增强数据，团队可以更快地解决问题，从而获得更好的客户体验。减少人为干预可以腾出时间让团队专注于更高效的任务，从而加快转型和现代化计划。

2. 花时间配置警报

概述需要哪种警报是值得的，这样就可以尽快发现问题。如果没有可靠的警报配置，团队将无法确定问题并确定多个警报是否与同一问题相关。警报特指性可提高准确性并减少误报。周密的警报机制可以缩短响应时间，帮助团队更快地解决根本原因，提高正常运行时间。

为了获得大的效率，自动基线功能可以显著减少警报配置的需要，能够自动消除误报，执行自动根本原因分析，并根据业务影响确定警报优先级。

3. 创建优先级

根据业务影响对警报进行分组有助于团队首先将精力集中在最严重的问题上。这种方法消除了在对通知重要性的猜测，从而节省了团队的时间和压力。还可以将警报定向到不同的频道。

例如，一家公司可以将其IT服务管理(ITSM)系统配置为通过SMS向待命工程师的智能手机发送高优先级警报，并通过电子邮件发送低优先级问题。对于拥有24小时待命工程师的企业，优先顺序可以减少非工作时间的警报疲劳和团队中断。

4. 设置自定义仪表板

通过创建特定于角色的仪表板，确保合适的人员能够访问所需的监控数据。组织内的不同团队可能需要出于不同的目的查看基础设施监控报告。例如，ITOps工程师可能与IT安全团队、营销部门和业务主管拥有不同的关键绩效指标(KPI)。

确定利益相关者认为哪些见解最有价值，哪些见解不必要。为仅显示相关数据的每个组设置自定义仪表板。(但是，关键是所有仪表盘的基础数据都是一致的，并且基于相同的数据模型。)

5. 测试系统

如果不彻底测试系统，大多数企业永远不会启动系统或部署重大更改。基础设施监控也不例外。确定最可能的场景并设计测试框架，以确保基础设施监控解决方案按预期执行。最安全的方法是在指定的测试环境中进行测试，以防止生产和客户受到影响。然后，团队可以微调设置和警报配置，以确保一切正常。

6. 定期检查度量和KPI

目标不断演变，因此定期审查指标以确保基础设施监控解决方案生成每个利益相关者所需的数据和洞察至关重要。评估KPI并与团队合作以确定未来要建立的新基准也是有益的。随着一个组织在数字化转型过程中的进一步发展，新的基础设施盲点将出现。定期的度量审查可以避免无意的疏忽，并确保在整个基础设施堆栈中保持完全的可见性。

7. 利用供应商专有技术和资源

难以完善其监控设置或缺乏内部专有技术或经验的组织可以选择供应商提供支持。供应商专家将具备行业最佳实践方面的专业知识，并熟悉团队正在解决的问题。利用供应商的专业知识可以帮助团队更快地实现其监控目标，同时提高内部技能。

一种可扩展的基础设施监控方法

随着企业继续向现代多云环境过渡，大限度地延长正常运行时间和弹性对于确保业务连续性和客户满意度比以往任何时候都更为重要。将正确的监控解决方案落实到位，以实现基础设施性能的明确战略目标，可以让团队获得大的成功。

对许多人来说，最有效的方法是实现一个统一的平台，该平台可以在一个地方为所有云环境提供可观察性。这有助于团队更有效地协作并充分利用时间。通过将AIOps驱动的自动化与这些功能结合起来，组织可以设计一个可扩展的基础设施监控框架——该框架将随着业务的发展而发展，为创新和进一步转型创造更多空间。