早期的云计算采用者往往被“即用即付”(pay-as-you-go)的灵活性以及云按需扩展性所吸引。然而,数据安全是企业是采用早期云计算的主要担忧的问题之一,因此IT部门采用云技术的速度很慢。
如今,越来越多的IT部门采用云计算。像AT&T、GE、CapitalOne这样的企业已经公开宣布,他们打算将大部分工作负载转移到云端,因为云端的数据安全性已经变得不那么重要了。AWS是调研机构Gartner公司“云基础架构即服务魔力象限”的市场领导者,它是近期IT采纳云趋势的主要受益者。然而,就像任何技术平台一样,组织不可能仅仅注册一个账户,没采用一个谨慎的方法立即获得回报。有兴趣利用AWS的力量的组织应该在构建数据集成解决方案时考虑以下最佳实践。
1.实现最佳带宽和延迟的实现
采用AWS云的第一个最佳实践与性能有关。这种做法假设-特别是对于诸如数据刷新(初始负载)之类的大数据传输,网络限制了性能。两个因素限制了网络数据传输速率:带宽和延迟(往返时间)。大多数人了解带宽限制,因为互联网连接是按可用带宽评估的。
然而,延迟可能会限制网络性能,因为通过线路发送确认。延迟限制数据传输速率的程度取决于如何使用网络通信(通常是TCP/IP)。而通信需要往返以确认数据是否被正确接收,以及(1)往返频率,(2)往返之间的数据量,(3)往返时间之间的更快或后来的延迟将开始限制数据传输速率。要大限度地提高性能,请实施一个架构利用:
数据压缩,因此需要传输更少的数据块,并且每个块都包含更多的数据
大块传输,进一步限制网络传输
通信优化(例如,通过发送集合大批量传送确认的块集)
2.识别感兴趣的信息以提高效率
由于数据传输是一个潜在的瓶颈,所以必须尽量减少必须传输的数据量。为此,请使用更改数据捕获(CDC)技术通过批量提取和后续的数据比较。基于日志的异步数据捕获(CDC)被广泛认为比基于触发器的捕获更为优越,因为基于日志的数据捕获(CDC)不会影响实际的事务,因此,事务性应用程序的开销如果更加明显,则会更少。基于日志的数据捕获(CDC)可以通过在分布式设置中运行进一步优化。许多用例不需要所有数据库更改,甚至在数据库之外,数据库事务日志除了存储表数据更改外还存储额外的数据。从效率角度来看,在发送跨网络的更改前,确定与事务日志相近的信息子集是有意义的。
3.考虑采用除了防火墙以外的数据安全解决方案
组织实施数据安全的一种方法是尽可能严密地锁定防火墙,既限制开放端口,又限制可能通过的网络地址,以防止外部人员访问系统的可能性。由于企业IT不喜欢在他们的网络中开放防火墙,因此尽可能避免使用这种方法。
作为打开防火墙的替代方案,请考虑以下三个选项。
首先,启动内部通信。在云端,使用虚拟私有云(VPC)IP地址进行通信,而不是外部IP地址,以限制暴露。
安全的第二个方面是数据加密。除非企业的数据本质上都不敏感,否则不能对数据进行加密。使用SSL(安全套接字层,加密)通信,或只传递加密的数据。亚马逊密钥管理系统与其许多服务集成在一起,也可以通过API进行客户端加密。
安全性的第三个重要方面是身份验证。AWS云平台中有一个选项可以使用授权的实例配置文件自动管理认证信息的轮换。考虑采用这种能力来简化密码管理。外部身份验证可以通过显式SSL证书来改进,而不是像https调用那样进行协商的证书。
AWS云平台是一个强大的工具-遵循这些最佳实践可以充分发挥其潜力
云计算数据集成可以应用于各种用例:无论是从各种来源到S3数据湖,本地迁移到AWS云,在云端运行实时分析还是集成到各种云系统。不管用例如何,这三个关键的最佳实践将确保企业的云计划取得成功:
性能:如何大限度地提高带宽性能,
效率:在哪里以及如何让“工作”发生,只处理正在发生的变化,
安全:如何确保数据在传输和空闲时的安全。