数字企业继续改造和发展其IT基础设施,以增强与业务目标的一致性。数字服务中断可能会损害销售、收入和公司声誉,因此团队面临着大限度提高整个堆栈的弹性和正常运行时间的压力。组织比以往任何时候都更需要全面的基础设施监控,以保持可见性,并在最终用户受到影响之前帮助工程师识别和解决问题。

基础设施监控的演变

基础设施监控是一个整理和分析来自IT环境所有组件的度量、跟踪、日志和其他遥测数据的过程,以提供对可用性和性能的可操作洞察。然而,随着云环境的复杂性和动态性的增加,实现有效的监控变得更具挑战性。

例如,在多云环境中,每个平台都附带一个来自公共云提供商的原生监控解决方案,该解决方案只提供对其自身基础设施组件的可见性。因此,组织必须拼凑各种工具,这会造成复杂性并妨碍整个堆栈中的端到端可见性。

有了正确的技术和配置,基础设施监控将改变游戏规则。它帮助团队发现和分析趋势,并在潜在问题破坏用户体验或违反服务级别协议(SLA)之前标记它们。它还可以支持A/B测试,这有助于团队确定性能和用户体验的最佳基础设施设置。高度自动化的监控解决方案有助于团队减少手动流程,随着基础设施的发展可以轻松扩展,最重要的是,专注于创新,而不是修复bug。

以下是七个优秀实践,可帮助基础设施团队设置和优化云原生监控功能。

1. 尽可能实现自动化

对于大型动态环境,使用高度自动化的基础设施监控解决方案是关键。监控功能的手动配置和仪表化是令人望而却步的劳动密集型任务。团队发现无法对其基础设施的一些部分进行检测,并且难以保持对代理的监控处于最新状态。

另一方面,自动部署、自动配置和自动基线使组织能够扩大可以捕获的度量范围,消除盲点,并在云原生基础设施堆栈中实现端到端的可观察性。这将带来更高质量的监控,并生成更精确的上下文洞察。通过增强数据,团队可以更快地解决问题,从而获得更好的客户体验。减少人为干预可以腾出时间让团队专注于更高效的任务,从而加快转型和现代化计划。

2. 花时间配置警报

概述需要哪种警报是值得的,这样就可以尽快发现问题。如果没有可靠的警报配置,团队将无法确定问题并确定多个警报是否与同一问题相关。警报特指性可提高准确性并减少误报。周密的警报机制可以缩短响应时间,帮助团队更快地解决根本原因,提高正常运行时间。

为了获得大的效率,自动基线功能可以显著减少警报配置的需要,能够自动消除误报,执行自动根本原因分析,并根据业务影响确定警报优先级。

3. 创建优先级

根据业务影响对警报进行分组有助于团队首先将精力集中在最严重的问题上。这种方法消除了在对通知重要性的猜测,从而节省了团队的时间和压力。还可以将警报定向到不同的频道。

例如,一家公司可以将其IT服务管理(ITSM)系统配置为通过SMS向待命工程师的智能手机发送高优先级警报,并通过电子邮件发送低优先级问题。对于拥有24小时待命工程师的企业,优先顺序可以减少非工作时间的警报疲劳和团队中断。

4. 设置自定义仪表板

通过创建特定于角色的仪表板,确保合适的人员能够访问所需的监控数据。组织内的不同团队可能需要出于不同的目的查看基础设施监控报告。例如,ITOps工程师可能与IT安全团队、营销部门和业务主管拥有不同的关键绩效指标(KPI)。

确定利益相关者认为哪些见解最有价值,哪些见解不必要。为仅显示相关数据的每个组设置自定义仪表板。(但是,关键是所有仪表盘的基础数据都是一致的,并且基于相同的数据模型。)

5. 测试系统

如果不彻底测试系统,大多数企业永远不会启动系统或部署重大更改。基础设施监控也不例外。确定最可能的场景并设计测试框架,以确保基础设施监控解决方案按预期执行。最安全的方法是在指定的测试环境中进行测试,以防止生产和客户受到影响。然后,团队可以微调设置和警报配置,以确保一切正常。

6. 定期检查度量和KPI

目标不断演变,因此定期审查指标以确保基础设施监控解决方案生成每个利益相关者所需的数据和洞察至关重要。评估KPI并与团队合作以确定未来要建立的新基准也是有益的。随着一个组织在数字化转型过程中的进一步发展,新的基础设施盲点将出现。定期的度量审查可以避免无意的疏忽,并确保在整个基础设施堆栈中保持完全的可见性。

7. 利用供应商专有技术和资源

难以完善其监控设置或缺乏内部专有技术或经验的组织可以选择供应商提供支持。供应商专家将具备行业最佳实践方面的专业知识,并熟悉团队正在解决的问题。利用供应商的专业知识可以帮助团队更快地实现其监控目标,同时提高内部技能。

一种可扩展的基础设施监控方法

随着企业继续向现代多云环境过渡,大限度地延长正常运行时间和弹性对于确保业务连续性和客户满意度比以往任何时候都更为重要。将正确的监控解决方案落实到位,以实现基础设施性能的明确战略目标,可以让团队获得大的成功。

对许多人来说,最有效的方法是实现一个统一的平台,该平台可以在一个地方为所有云环境提供可观察性。这有助于团队更有效地协作并充分利用时间。通过将AIOps驱动的自动化与这些功能结合起来,组织可以设计一个可扩展的基础设施监控框架——该框架将随着业务的发展而发展,为创新和进一步转型创造更多空间。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-12-11 15:00:57
云资讯 从全球布局到持续创新 Akamai如何获得中企出海的青睐
Akamai未来希望把自己定位为一个‘推理云’,帮助用户更好的在Akamai公有云上做推理。 <详情>
2024-11-05 15:03:54
市场情报 TiDB 助力杭州银行“云原生分布式核心系统”荣膺 2023 金融科技发展奖
杭州银行“云原生分布式核心系统”自投产以来已稳定运行近一年,成功完成双活中心切换演练并采用在线扩缩容应对季度结息高峰场景。 <详情>
2023-11-07 13:52:00
云资讯 青云云易捷带来的企业IT思考:既要脚踏实地 也要仰望星空
凭借“可靠、简单、智能”的特性,云易捷产品已经在医疗、金融、制造业、教育等行业被广泛使用。 <详情>
2023-10-29 10:20:00
云资讯 中国电信打造全国首个3AZ天翼云原生亿级物联网平台
面向未来,天翼物联将持续加大关键核心技术攻关力度,不断强化优质高效的数字化产品和服务供给,加速推进全面感知、安全可信的物联网新型基础设施建设,推动数字技术和实体 <详情>
2023-07-20 17:25:54
云资讯 2023可信云大会·云原生技术与实践分论坛开幕在即
历经多年发展,云原生技术生态已趋于完善,行业接纳度攀升,发展进入深水期。 <详情>
57亿算力大单落地(哈密28、德令哈15、百度8.4)、阿里143亿将交付、润泽238亿港元重仓香港、16项目15智算6备案、中移50亿1.5万P中心封顶
2026-03-11 14:25:00
“算力绿洲”——中东地区数据中心及云项目盘点
2026-03-11 11:33:28
数据中心她力量:AIGC 浪潮下,八位领军者原声解构算力新周期
2026-03-11 11:31:08
深度|泰国算力交付全面提速,AWS、Google、微软、阿里云、TikTok五大巨头押注EEC走廊
2026-03-11 11:23:00
总金额超9.6亿元,同一联合体连中宁夏两大算力项目
2026-03-10 11:40:29
1.2亿,廊坊市云风数据中心机电EPC项目公布中标结果
2026-03-10 11:38:22
Oracle与OpenAI放弃星际之门旗舰数据中心扩建计划
2026-03-10 11:36:30
中兴通讯2025年营收1339亿元,算力营收同比增150%,构筑AI端到端全栈竞争力
2026-03-06 21:37:00
定档 6 月 25 日,2026中国智算产业大会火热招商中~
2026-03-06 10:32:00
维谛技术(Vertiv):雅砻江畔,智算新篇|全国首个高海拔岩洞智算中心如何点亮绿色算力新纪元
2026-03-04 16:52:20
“不明物体撞击” AWS阿联酋数据中心受损起火
2026-03-03 09:50:56
算力租赁行业涨价潮持续 或于2027年缓解
2026-03-03 09:48:36
某银行巨资「爆改」老机房;智算大单惨遭「弃标」;某大厂110亿购AI服务器;某公司高价托管「液冷机柜」丨算力情报局Vol.05
2026-03-03 09:46:00
白宫:AI巨头有义务自行解决电力需求
2026-03-02 10:17:52
4.4亿元,兴业银行上海张江机房改造项目公开招标
2026-03-02 10:10:03