通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure VMware 解决方案的可靠性

Azure VMware 解决方案提供私有云,其中包含从专用裸机Azure基础结构生成的 VMware vSphere 群集。 可以从本地环境迁移工作负荷、部署新虚拟机(VM),以及从私有云使用Azure服务。 可以使用 VMware 和 Azure 本机功能的组合来实现工作负载的高可用性和复原能力。

使用 Azure 时,可靠性是共同的责任。 Microsoft提供了一系列功能来支持复原和恢复。 你负责了解这些功能如何在你使用的所有服务中工作,并选择满足业务目标和运行时间目标所需的功能。

本文介绍如何使Azure VMware 解决方案应对潜在的中断和问题,包括暂时性故障、可用性区域中断和区域中断。 它还介绍了如何使用备份从其他类型的问题中恢复,并重点介绍了有关Azure VMware 解决方案服务级别协议(SLA)的一些关键信息。

生产部署建议

Azure VMware 解决方案部署需要跨一系列区域仔细规划,并且通常需要多个Azure服务。 有关详细信息,请参阅 Azure Well-Architected Framework 中的 Azure VMware 解决方案 工作负荷

可靠性体系结构概述

Azure VMware 解决方案将超融合基础结构(HCI)与 VMware vSphere 群集配合使用。

部署Azure VMware 解决方案时,部署具有一个或多个群集的 private cloud。 每个群集都包含 ESXi 主机,这些主机通过虚拟 SAN(vSAN)提供计算、存储,以及通过 VMware NSX 进行网络。 有两代Azure VMware 解决方案:

  • 第 1 代对节点使用专用裸机硬件,并使用专用网络方法。 有关关键概念的详细信息,请参阅 Azure VMware 解决方案 私有云和群集概念

  • Gen 2使用标准Azure VM 类型和Azure虚拟网络。 此体系结构简化了网络体系结构,提高了数据传输速度,降低了工作负载的延迟,并在访问其他Azure服务时提高性能。

容错

Azure VMware 解决方案提供了多种机制来处理基础结构和应用程序级别的故障:

  • vSphere 高可用性(HA):vSphere HA 监视 ESXi 主机和 VM。 如果主机失败,它会自动重启正常运行的主机上受影响的 VM。 vSphere HA 默认处于打开状态,并保留单个节点故障的计算和内存容量。

  • vSAN 容错:vSAN 存储策略通过跨主机维护多个数据副本来保护存储级暂时性故障。 如果存储路径或磁盘遇到暂时性问题,vSAN 会自动处理切换到正常的存储路径和磁盘。

  • Network 冗余: Azure VMware 解决方案提供网络路径冗余和多个 VMkernel 网络适配器来处理网络层暂时性故障。

暂时性故障的复原能力

暂时性故障是指组件发生短暂的间歇性故障。 这些故障经常出现在云之类的分布式环境中,在运营过程中比较常见。 暂时性故障在短时间内自行纠正。 应用程序通常可以通过重试受影响的请求来处理暂时性故障,这一点很重要。

与任何云托管的 API、数据库和其他组件通信时,所有云托管的应用程序都应遵循Azure暂时性故障处理指南。 有关详细信息,请参阅有关处理暂时性故障的建议

对于在 Azure VMware 解决方案 VM 上运行的应用程序,请实施标准做法来处理暂时性故障:

  • 设置适当的重试策略,使用指数退避方法。

  • 对外部服务调用使用断路器模式。

  • 监视应用程序运行状况并实现正常降级。

  • 尽可能设计无状态应用程序,以减少 VM 重启的影响。

应对可用区故障的弹性

可用性区域 是 Azure 区域内在物理上独立的若干数据中心组。 当某个区域发生故障时,服务可以切换到其他可用的区域。

Azure VMware 解决方案 Gen 1 通过 延伸群集 支持可用性区域的功能,这些群集在一个区域内的两个可用性区域之间分布 ESXi 主机。 Microsoft选择要使用的区域。 群集在两个区域的主动-主动配置中运行,vSAN 也跨多个区域。 可以指定是否将每个工作负荷部署到一个或两个区域。

见证节点会自动部署到第三个可用区,为脑裂场景提供仲裁。 Microsoft自动管理见证节点。

此图显示了一个托管 vSAN 延伸集群,该集群跨越两个可用性区域,并在第三个可用性区域中有一个见证节点。

在关系图顶部,图例显示Microsoft Azure徽标代表Azure平台,标记为双可用区的Azure区域中的位置针图标表示两个可用区,关键图标则表示单个Azure订阅。 该图分为三个主要部分。 在左侧,可用性区域一标记为首选站点。 右侧,可用性区域 2 标记为辅助站点。 在底部,可用区 3 被标记为见证站点。 表示 Azure VMware 解决方案 私有云 A 的一个方框跨越可用性区域一和区域二。 在可用性区域中,四个组件水平排列:服务器机架图标表示Azure裸机 ESXi 主机,堆积层图标表示 VMware vSAN 数据存储首选容错域,服务器图标表示 VMware vCenter 服务器,网络拓扑图标表示 VMware NSX。 拉伸 vSAN 数据存储标签横跨两个区域,链接在可用性区域一中的 VMware vSAN 数据存储首要容错域与可用性区域二中的 VMware vSAN 数据存储次要容错域。 可用性区域的下半部分包含三个水平排列的组件。 圆形徽章图标表示 VMware NSX Edge A。云网络图标表示 VMware HCX。 监视器图标表示金级 SLA 应用程序。 在可用区二中,两行组件水平排列。 顶部行包括Azure裸机 ESXi 主机和 VMware vSAN 数据存储辅助容错域。 底部行包含 VMware NSX Edge B、金 SLA 应用(带虚线框)、表示银 SLA 应用和铜 SLA 应用的监视器图标。 标记为基于策略的虚线同步复制将可用区一的 Gold SLA 应用连接到可用区二的 Gold SLA 应用框。 此行指示跨区域在这些应用程序之间进行同步或复制。 实线将可用性区域 1 和可用性区域 2 连接到标记为可用性区域 3 的框 – 这是图底部的见证站点。 可用性区域三个包含 VMware vSAN 见证设备。

标准群集是一个未跨区域拉伸的群集。 在标准群集中,群集及其所有 ESXi 主机都被视为 非区域区域。 非区域群集可能放置在该区域中的任何可用性区域中,Microsoft选择该区域。 如果区域中的可用性区域遇到服务中断,则非区域群集和主机可能位于受影响的区域中,并且可能会遇到停机。

Azure VMware 解决方案 Gen 2 支持私有云的 zonal 部署。 设置区域私有云时,其每个群集及其所有 ESXi 主机都会部署到你选择的单个可用性区域中。

区域性私有云无法防范可用性区域故障。 可以将多个私有云部署到单独的可用性区域,以实现更高的复原能力,但你负责独立部署和配置每个私有云。

如果未选择可用性区域,则私有云、其群集及其所有 ESXi 主机都被视为 非区域区域。 非区域群集可能放置在该区域中的任何可用性区域中,Microsoft选择该区域。 如果区域中的可用性区域遇到服务中断,受影响区域中的非区域性群集可能会遇到停机。

有关其他版本可用区支持的详细信息,请选择本文开头的相应版本。

要求

  • 区域支持:延伸群集仅在支持拉伸群集配置的Azure区域中可用。 请查看 Azure 地区的可用性区与主机类型的映射表,以获取当前区域的支持信息。

  • 最小主机: 跨两个可用性区域(每个区域的三个主机)至少部署六个主机,以启用拉伸群集配置。 横向收缩或扩展时,必须进行成对缩放,以便每个区域具有相等数量的主机。

  • 主机 SKU: AV36、AV36P 和 AV52 主机类型支持拉伸群集。 AV64 SKU 不支持拉伸群集。

注意事项

区域中的每个可用性区域都可以支持特定的主机类型。 有关每个区域中可用的主机类型的详细列表,请参阅Azure区域可用性区域到主机类型映射表

成本

无论群集的可用性区域配置如何,群集中的每个节点都会产生费用。 有关详细的定价信息,请参阅 Azure VMware 解决方案 定价

配置可用性区域支持

  • 部署新群集:在支持的区域创建新的 Azure VMware 解决方案 私有云时,您可以在部署过程中将其设置为拉伸群集。 此配置自动跨两个可用性区域分配主机。 有关详细信息,请参阅 部署 vSAN 拉伸群集

  • 现有群集: 不能将标准群集转换为拉伸群集,也不能将拉伸群集转换为标准群集。 相反,需要部署新群集并迁移工作负荷。

  • 部署新的 cluster:在受支持的区域中创建新的Azure VMware 解决方案私有云时,可以选择其可用性区域。

  • 现有群集: 无法更改现有群集的可用性区域配置。 相反,需要部署新群集并迁移工作负荷。

所有区域正常时的行为

本部分介绍当集群伸展且所有可用性区域都正常运行时会发生什么情况。

  • 跨区域操作: VM 可以在任一可用性区域中的主机上运行。 可以使用 vSphere 分布式资源计划程序(DRS)相关性和反关联规则来控制 VM 放置,以优化性能或可用性要求。

  • 跨区域数据复制: vSAN 跨可用性区域同步复制数据。 这两个区域在完成之前都确认每个写入操作,以确保数据完整性一致。

本部分介绍在区域私有云中部署群集时会发生什么情况,并且所有可用性区域都正常运行。

  • 跨区域操作: VM 在群集可用性区域中的主机上运行。

  • 跨区域数据复制: 不会将数据复制到另一个区域。

区域故障期间的行为

本部分描述了当群集被拉伸且发生可用性区域中断时可以预期的情况。

  • 检测与响应:Azure VMware 解决方案 管理对区域故障的基础架构级响应。 vSphere HA 会根据需要自动检测区域故障并启动 VM 重启过程。
  • 活动请求: 在失败的可用区中运行的任何 VM 会在正常的可用区主机上重启。 与受影响的 VM 的活动请求和连接终止,客户端负责重试它们。

  • 预期的停机时间: 正常区域中重启失败的 VM 的时间通常为几分钟,具体取决于 VM 配置和启动过程。 拉伸群集在容量减少的情况下仍可正常运行。

    如果失败的可用性区域包含见证节点,则见证节点将无法访问。 只要有足够的数据副本可用,数据主机和正在运行的工作负荷将继续运行,而不会立即丢失数据。 但是,vSAN 在此状态下失去仲裁感知。 法定人数丧失会阻止其安全地做出放置和恢复决策。 它还会阻止某些操作,例如故障后 VM 开机、重新平衡、修复。

  • 预期数据丢失:由于 vSAN 在区域之间使用同步复制,因此在区域故障期间不预计会有数据丢失。

  • 重新分发: vSphere DRS 会自动将 VM 工作负荷重新分发到正常的可用性区域。 通过 VMware NSX 进行的网络流量路由会自动适应新的 VM 放置。

本部分描述当您的群集部署在区域私有云且发生可用性区域中断时预期的情况。

  • 检测和响应: 需要检测可用性区域的丢失。 如有必要,可以启动故障转移到您此前在另一个可用区创建的辅助群集。
  • 活动请求: 与受影响的 VM 的活动请求和连接终止,客户端负责重试它们。

  • 预期的停机时间: 当某个区域不可用时,群集及其工作负荷在可用性区域恢复之前不可用。

  • 预期数据丢失: 受影响区域中的数据在恢复之前不可用。

  • 分配: 如有必要,你负责将流量切换到正常区域中的其他群集。

区域恢复

当可用性区域恢复时,vSphere DRS 可以根据 DRS 配置和关联规则选择性地将 VM 重新分发回恢复的区域。 还可以使用 vMotion 操作手动控制 VM 放置。

当可用性区域恢复时,区域中的群集和主机将再次可用。 你负责工作负荷所需的任何区域恢复过程和数据同步。

测试区域故障

为了应对区域故障,您应测试应用程序在 VM 重启和网络路径变化时的复原能力,特别是在扩展群集或将应用程序部署在不同区域的单独群集时。

由于Azure VMware 解决方案管理对区域故障的基础结构响应,因此你主要需要测试应用程序的 VM 重启响应。

你负责对区域故障的任何基础结构响应,例如故障转移到不同区域或区域中的另一个群集。 确保彻底测试响应过程。

对区域范围的故障的复原能力

每个Azure VMware 解决方案群集部署在单个Azure区域中。 如果区域不可用,则私有云及其中的所有资源都不可用。

但是,还可以设计自定义多区域解决方案,这些解决方案结合了不同的方法或与现有基础结构集成以满足特定的业务需求和恢复目标。

用于复原的自定义多区域解决方案

若要通过Azure VMware 解决方案实现多区域复原,需要在多个区域中部署单独的私有云,并实施故障转移和其他灾难恢复(DR)解决方案。

一系列选项支持不同的复原要求。 有关详细信息,请参阅 适用于 Azure VMware 解决方案 虚拟机的灾难恢复解决方案

备份和还原

Azure VMware 解决方案自动备份管理组件,例如 vCenter Server、NSX Manager 和 HCX Manager(如果已启用)。 若要从这些管理备份还原组件,请创建Azure 支持请求。

对于 VM 工作负荷,Azure VMware 解决方案支持多种备份方法。 有关详细信息,请参阅适用于 Azure VMware 解决方案 VM 的 Backup 解决方案

服务维护期间的系统弹性能力

Azure执行自动平台维护以应用安全更新、部署新功能并提高服务可靠性。

若要了解维护如何影响Azure VMware 解决方案组件,并了解负责维护的组件与Microsoft维护的组件,请参阅 Azure VMware 解决方案私有云维护

可以为群集设置维护时段,以减少维护影响生产工作负荷的可能性。 有关详细信息,请参阅 为 Azure VMware 解决方案 计划自助服务维护

服务级别协议

Azure服务的服务级别协议(SLA)描述了每个服务的预期可用性以及解决方案必须满足的条件,以实现该可用性预期。 有关详细信息,请参阅 SLa for 联机服务

Azure VMware 解决方案为工作负荷基础结构和管理操作提供不同的可用性 SLA。

设置为跨地域群集的群集具有更高的工作负载基础设施可用性 SLA。

但是,若要符合可用性 SLA 的条件,必须以特定方式设置群集。 有关详细信息,请参阅 SLA 文本。