2019年到处都是过渡。急于使用公共云的企业开始将应用程序带回。他们还开始使用软件定义的技术而不是存储阵列来部署1级工作负载。变化是唯一不变的,因为它与财富1000强的存储部署有关。
在数据中心发生变化的同时,对下一代存储基础架构的关键要求也变得清晰起来。Datera由SDS架构师和前最终用户组成,并与数十家财富1000强公司合作,以了解其存储需求。
尽管它认识到每个组织的应用程序和需求都是不同的,但从这个有利的角度来看,我们开发了一系列通用要求和最佳实践,以帮助组织快速迈向新的,更好的数据基础架构。
《财富》 1000强企业评估的存储类别和目标
入门时,我们建议您首先研究驱动不同需求组的4种主要存储技术类别。
企业闪存阵列:无论是独立部署还是作为融合设备部署,领先厂商的阵列都散布在地板上。企业希望保留阵列的优点-性能水平,可用性的9s,同时又远离缺点-高成本,灵活性,锁定,介质选择的同质性,甚至需要FC实现性能和稳定性。
公共云服务:公共云的影响不可夸大。AWS,Google Cloud和Microsoft Azure(均未使用阵列来构建其超大规模数据中心)向市场表明,可以以新的,更敏捷的和更具成本效益的方式完成基础架构。同样,企业希望了解他们是否也可以以这种方式构建基础架构,以实现相同水平的运营敏捷性和速度,并像云播放器一样在以太网而不是FC上实现,但是他们还希望避免巨额成本每月账单中的通货膨胀率,通常比本地基础架构高5倍。
HCI:HCI的增长仍然强劲,特别是在新兴地区。它为共享的基础结构和软件定义的方法提供了简单的入口,但显示了系统在规模,性能和硬件利用率方面的固有限制。企业希望保留HCI软件供应商提供的简单的部署和采购模型,但要这样做,而不会遇到困扰领先的HCI平台的常见问题,例如“嘈杂的邻居”综合症,其中某些应用程序或租户会使基础架构负担过多并损害其他基础设施。应用程序,并且无法扩展到单个集群内的整体流程之外。
SDS:SDS被视为结合了其他存储选择的最佳属性-阵列的专用性能,公共云的敏捷性以及合并HCI应用程序和租户的潜力-以及自动化的其他好处,同时减少了供应商锁定-自成立以来就已经遍及整个行业。尽管长期以来它的好处显而易见,但重要的是测试多个供应商之间的关系,以了解在启用数据管理服务(例如加密,压缩,重复数据删除)的情况下性能和可用性的差异。同样重要的是测试自动化的可靠性,以提高QoS并量化其在理解管理员资源方面的价值。
《财富》 1000强公司测试了新的存储方法,以维持和扩展他们过去所看到的好处,同时找到消除旧问题并降低成本的新方法。
《财富》 1000在超大规模上对高性能块工作负载的要求
本节包括《财富》 1000应与之进行测试以了解哪些存储类别可以交付的核心要求的列表。您可以根据您的特定用例进一步完善。
延迟:系统必须提供1毫秒以下延迟的一百万或更多IO / s。存储需求可能会立即改变,因此至关重要的是,系统可以快速扩展以实现性能和容量要求。SQL和NoSQL数据库需要高IO / s和低延迟的存储系统,这些系统可以轻松扩展性能和容量。在1毫秒以下测试一百万个IO / s是一个常见的阈值,因此我们建议您从此处开始,并在您的特定工作负载需要时再添加更多。另外,测试是否可以通过支持添加的非对称媒体节点(包括NVMe和Intel Optane等存储类内存(SCM))来扩展此功能。
吞吐量:系统必须支持至少64GB / s的总吞吐量。对于大多数组织而言,吞吐量已变得比原始存储性能更为重要,因为吞吐量是衡量应用程序(而非存储)性能的最终指标,并且在多租户环境中具有很高的价值。数据库和其他工作负载的组合也可能会提高网络的整体性能,这可能需要网络和存储团队就测试达成共识。与复杂的FC网络相比,这已证明对于实现向100GbE和200GbE网络(类似于公共云提供商)的迁移非常有价值,并且可以节省大量的管理时间和成本。
不对称缩放:系统必须能够按粒度(逐个节点)扩展到多个PB的超大规模阈值,并在每个其他节点上产生额外的粒度容量,性能,持久性和弹性。该系统必须能够非对称且快速地从几百TB扩展到几PB,并且无中断地进行扩展而不会造成停机。测试应包括添加各种节点,以证明环境不仅具有新的容量和功能,而且无需手动调整即可重新平衡系统。扩展环境不应占用大量新的管理时间,因为在资本方面实现的节省可能会被人员的额外费用所抵消。这里要特别注意 因为许多企业看到了系统之间扩展的巨大差异。至少要测试在一个机架内进行扩展并在单个数据中心内跨机架和跨通道进行横向扩展的能力,因为横向扩展架构必须实现这种扩展架构才能提供企业寻求的灵活性。
启用数据管理服务的数据性能:即使使用率超过60%,系统也应表现出最小的性能下降。供应商习惯于对理论性能进行非常乐观的描述,通常在不使用存储硬件中利用CPU周期的功能的情况下进行测量。当使用基本的数据管理服务时,企业通常会在所测试的系统中看到整个系统性能的巨大下降,包括压缩,加密,快照和重复数据删除,使这些系统无法启动。当应用程序流量很高时,请务必在负载下测试系统,以了解系统的响应方式。这些测试应同时包含以下要素:数据管理的开和关,流量高和流量低,以提供最佳的实际性能。测试系统的架构师还应该记录监视工具的时间顺序,以显示系统随时间推移的潮起潮落以及其响应方式。否则会在实际部署中引起麻烦。
持续的数据可用性:该系统必须设计为可用,并且可以承受数据中心内的多节点,多机架故障。系统不仅要提供数据持久性或正常运行时间,还必须提供无中断的软件更新,在多个组件故障,断电,机架故障和意外的数据中心事件中生存。使用快照(在本地和远程复制到公共云),扩展群集,故障域和副本数的组合,可以对可用性进行真正的测试。所有供应商经常谈论可用性的9s,但是在这些计算中经常不使用计划内的停机时间。该测试应具有保持完整可用性的能力,同时更改QoS策略以及添加新节点。
云运营:该系统必须通过应用程序所有者的简单配置和自助服务利用来支持应用程序和租户的聚合和合并。术语云对财富1000强有各种不同的需求,并且与服务提供商或SaaS公司相比,一致性要差得多。但是,通用线程需要支持多个编排器,包括VMware,Kubernetes,Openstack和裸机,以便支持各种应用程序以及有状态和无状态事件的速度。重要的是,不仅要针对每个单独的群集对它们进行隔离测试,而且还要针对所有通用群集进行测试。否则,您可能会冒着使新系统独自成为孤岛的风险,该新系统具有搁浅的数据和硬件以及管理开销。进一步,Datera建议该测试包括基于策略的管理的使用,该策略可以允许管理员按类而非单个地设置和管理应用程序组。测试支持多个应用程序编排的能力只是一个基本要求。
自主数据放置:系统必须根据预设要求将工作负载自动分配和重新分配给适当的节点。无论是基于应用程序流量(以使数据尽可能靠近应用程序)还是基于节点上驻留的存储介质(例如,将正确的数据放置在NVMe驱动器上),系统都应自动对系统进行自我优化-广泛的性能和可用性。初始测试应包括评估系统基于策略放置数据的能力,而高级测试应检查工作负载所传递的QoS,以了解系统是否在传递正确的位置以及策略是否与所需的SLA正确匹配。
新技术合并:服务器(CPU)和媒体级别的新技术必须能够被系统快速部署和利用,而又不增加管理时间来使用它们。为了测试此功能,企业从各种服务器类型和媒体类型开始,然后在测试期间添加新的和不同的节点。与自主数据放置的测试相似,随着新节点的合并,管理员应确定是否确实将数据自动移动到新节点,特别是要移动哪些数据以利用新的CPU和可用介质。增长环境可能很容易,但是如果系统没有自动利用新的容量和马力,那么增长会产生不必要的费用。
启用以太网的BGP对等互连:系统应具有使用通过核心L3网络部署的标准iSCSI进行数据操作的能力。该测试应包括将BGP集成到路由结构中的演示,这可以在跨数据中心的数据放置中驱动新的敏捷性层,并且比FC或标准L2网络具有更高的敏捷性。
自我修复:该系统应具有预测分析功能,将系统范围的信息(通常称为遥测)合并到反馈回路中,以不断改进与所需属性的对比。测试系统范围的监视功能应包括了解每个节点的延迟,性能和可用性信息,以及系统将网络和存储层上任何问题通知测试管理员的能力。先进的系统使用遥测技术来帮助所有用户实时进行实际容量/性能计划和最佳实践。测试此功能可确保您选择的系统有潜力向自身学习,并在整个生命周期内改善环境。
锁定:该系统应支持各种硬件配置文件-不同的服务器供应商,不同的服务器型号,不同的服务器gen和各种不同的媒体-以消除供应商锁定的可能性。对于供应商而言,基础设施行业是臭名昭著的,因为它们将客户锁定在人为限制的选择范围内,以丰富客户的收入。经历过购买阵列甚至公共云合同的现象的企业正在寻找能够生成硬件选项而非锁定的开放系统。因此,测试环境应从一开始就寻求纳入各种不同的硬件选项。高级测试应设法将多个变量合并到一个群集中,包括不同的供应商,节点配置文件,媒体类型和服务器类型。
《财富》 1000强客户可以随时随地致电IT行业的每个供应商。选择正确的测试技术并使用上面概述的正确的测试参数,将使他们能够过渡到更加自动化,可扩展和高性能的数据操作未来。
该报告分别由系统工程总监兼技术产品营销高级总监Bill Borsari和Brett Schechter 在Datera公司的博客上撰写,并于2020年2月19日发布。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。