通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 备份的可靠性

Azure 备份是一种内置Azure服务,可安全地保护云和本地工作负荷。 备份可以跨多个工作负荷扩展其保护机制,并与 Azure 工作负荷实现本机集成,其中包括虚拟机(VM)、Azure VM 中的 SAP HANA 和 SQL、Azure 文件、Azure Blob 存储、Azure Data Lake 存储、Azure 托管磁盘、Azure 弹性 SAN 卷和 Azure Kubernetes 服务 (AKS)。 无需管理自动化或基础结构、编写脚本或预配存储。

使用 Azure 时,可靠性是共同的责任。 Microsoft提供了一系列功能来支持复原和恢复。 你负责了解这些功能如何在你使用的所有服务中工作,并选择满足业务目标和运行时间目标所需的功能。

本文介绍如何使备份具有弹性,以抵御多种潜在的中断和问题,包括暂时性故障、可用区中断和区域中断。 它还重点介绍了有关备份服务级别协议(SLA)的一些关键信息。

注释

本文介绍备份服务本身如何应对各种问题以及如何使其更具弹性。 它不介绍如何使用备份来保护 VM、数据或其他资产。 若要了解如何使用备份,请参阅 备份概述

提高可靠性的生产部署建议

若要备份生产工作负荷,建议通过以下方式配置保管库:

  • 使用区域冗余存储(ZRS)作为备份的最低冗余层。 ZRS 跨多个可用性区域复制备份,以便在可用性区域中断期间还原备份。

  • 如果使用异地冗余存储(GRS)将备份复制到配对Azure区域,请为支持的数据源启用跨区域还原(CRR)。 CRR 允许随时将备份还原到配对区域。

本文的以下部分提供了有关这些配置的更多详细信息。

注释

这些存储冗余建议适用于复制备份副本的位置,不适用于备份服务或备份的资源。 备份保护和存储冗余相互补充。 备份可防止数据丢失,冗余可防止基础结构故障。

有关备份的其他建议列表,包括以可靠性为中心的建议,请参阅 将云和本地工作负荷备份到云

可靠性体系结构概述

本部分介绍从可靠性的角度来看,服务工作原理最相关的一些重要方面。 本部分介绍逻辑体系结构,其中包括部署和使用的某些资源和功能。 它还讨论了物理架构,该架构提供了服务内部运作方式的详细信息。

逻辑体系结构

备份可以备份和还原各种 数据源。 根据所使用的数据源,以不同的方式配置备份。 以下数据源很常见:

  • Azure 虚拟机
  • 各种数据库
  • Blob 存储 帐户
  • AKS 群集
  • 通过Microsoft Azure恢复服务(MARS)代理的本地服务器

备份将备份数据存储在 保管库中。 保管库是保存数据的Azure中的联机存储实体,例如备份副本、恢复点和备份策略。 恢复服务保管库备份保管库 是两种类型的保管库。 可以根据需要保护的类型使用一种或两种类型。 有关每个保管库类型支持的数据源的列表,请参阅 有关备份和还原支持的保管库的常见问题解答

作业 表示备份或还原数据的活动。 备份作业包括计划任务或按需操作,用于将数据从源复制到保管库。 还原作业包括将数据从备份存储恢复到目标位置的操作。 每个作业都有唯一标识符和状态跟踪,以便可以监视进度并排查备份和还原操作期间发生的问题。 还可以创建与作业关联的 备份策略 。 策略指定配置,例如备份计划以及要保留数据的时长。

保管库存储备份策略和配置,以及关于作业的元数据,使您能够跟踪作业并进行故障排除。

物理体系结构

Microsoft管理核心备份服务基础结构。 此基础结构负责服务的管理和操作,包括触发和监视作业。

备份存储在保管库中。 保管库建立在 Azure 存储之上。 保管库会自动复制备份数据,备份持久性和复原能力取决于保管库的存储冗余。

  • 本地冗余存储(LRS)在您的保管库内将数据复制到您选择的主要区域中的一个或多个Azure可用性区域。 不能选择首选可用性区域,但Azure可能会跨区域移动或扩展 LRS 帐户,以提高负载均衡。 不能保证你的数据会跨区域分布。 有关详细信息,请参阅 可用性区域的概述

  • ZRS 和 GRS 提供额外的保护。 本文详细介绍了这些选项。

注释

某些数据源支持 操作层 备份,这些备份将数据存储在另一个位置,而不是存储在保管库中。 例如,Azure托管磁盘备份AKS 备份支持存储在磁盘快照中的操作层备份。 本文不讨论操作层备份存储,但可以将本文中的复原指南应用于这些备份类型的备份操作和工作流。

暂时性故障的复原能力

暂时性故障是指组件发生短暂的间歇性故障。 这些故障经常出现在云之类的分布式环境中,在运营过程中比较常见。 暂时性故障在短时间内自行纠正。 应用程序通常可以通过重试受影响的请求来处理暂时性故障,这一点很重要。

与任何云托管的 API、数据库和其他组件通信时,所有云托管的应用程序都应遵循Azure暂时性故障处理指南。 有关详细信息,请参阅 处理暂时性故障的建议

使用备份时,备份和还原工作流都对间歇性故障具有抵抗力。 服务在遇到暂时性网络故障或临时服务中断时自动重试。 未配置任何重试逻辑。 如果多次出现故障,请参阅 排查备份保管库管理操作问题

应对可用区故障的弹性

可用性区域 是 Azure 区域内物理上分开的数据中心组。 当某个区域发生故障时,服务可以切换到其他可用的区域。

备份单独管理服务和数据的可用性区域配置。

  • 服务: 备份服务在受支持的区域中自动进行区域复原。 但是,此内置区域复原能力不适用于备份的数据。

  • 备份存储冗余: 通过配置恢复服务保管库或备份保管库,为备份数据选择所需的冗余级别。 如果选择 ZRS,则备份数据的副本会自动存储在你使用的Azure区域中的多个可用性区域。

    如果不使用 ZRS,则备份数据被视为 非区域数据 ,并可能存储在任何区域中。 如果区域中的任何区域出现问题,则非区域备份数据可能不可用。

此图显示了跨三个可用性区域的备份区域弹性架构。 三列表示可用性区域 1、可用性区域 2 和可用性区域 3。 标记为“备份核心服务”的框跨越所有三个区域。 在此框下方,图表显示了一行标记为 ZRS 的单行,并且该行跨越了所有三个可用区。 在 ZRS 行列下方,另一个框跨越所有三个可用区。 此框包含两个表示备份保管库和恢复服务保管库的云图标。

要求

  • 区域支持: 该服务在 具有可用性区域的所有区域中自动具有区域复原能力。 在这些区域中支持 ZRS 保管库。

  • 仅新保管库: 在第一次备份之前在保管库中配置 ZRS。

成本

启用 ZRS 进行备份时,费用会因额外的复制和存储开销而与 LRS 不同。 有关详细信息,请参阅 备份定价

配置可用性区域支持

  • 创建使用 ZRS 的新保管库: 创建保管库时配置存储冗余。 根据保管库类型执行不同的步骤。 如需了解更多信息,请参阅以下文章:

  • 在现有保管库上配置 ZRS: 对于备份保管库,请在创建保管库时配置存储冗余。 创建备份保管库后,该设置将锁定,无法更改它。

    对于恢复服务保管库,必须先配置存储冗余,然后才能保护任何工作负荷。 保护工作负荷后,设置已锁定,无法更改它。

    可以创建配置为使用 ZRS 的新保管库,并将工作负荷重新分配到新保管库。 但是,此方法需要停机。 有关详细信息,请参阅 “修改默认设置”。 你还负责手动删除现有恢复点和其他数据,因为旧保管库的保留策略不再适用。 有关详细信息,请参阅“删除备份保管库”或删除恢复服务保管库

所有区域正常时的行为

本部分介绍为 ZRS 配置保管库时会发生什么情况,并且所有区域都正常运行。

  • 跨区域操作: 备份作业在跨区域复制的基础结构上运行。 Azure管理来自任何区域的基础设施中的作业。

  • 跨区域数据复制: ZRS 跨区域复制备份的数据。 复制同步发生,这意味着多个区域在完成之前会确认每个写入操作。

区域故障期间的行为

本节介绍为 ZRS(区域冗余存储)配置保管库时需注意的事项,以及当一个分区发生故障时的情况。

  • 检测和响应: 对于备份服务本身,Microsoft负责检测可用区中的故障和响应。 无需执行任何操作即可启动区域故障转移。

    重要

    对于因区域中断而不可用的任何数据或资源,你负责检测中断并采取恢复操作,包括将备份还原到正常的区域。

  • 活动请求: 活动作业的行为取决于哪个区域出现故障。

    • 对于发生故障的可用性区域中的任何数据源,区域故障使数据源不可用。 活动作业可能会暂停或失败。

    • 对于运行活动作业的正常可用性区域中的任何数据源,在平台切换到备份服务正常的可用性区域时,可能会发生少量停机时间(通常几秒钟)。

  • 预期数据丢失:预期的数据丢失量也称为恢复点目标(RPO)。 备份数据的 RPO 取决于多种因素,包括备份计划。 一般情况下,对于区域中断,不会丢失备份的数据,因为所有数据都是跨区域同步复制的。

  • 预期的停机时间:预期的停机时间量也称为恢复时间目标(RTO)。 在以下每个场景中,RTO 是不同的:

    • 对于发生故障的可用性区域中的任何数据源,在区域恢复之前,数据源可能不可用。 备份作业可能无法运行,直到数据源再次可用。 RTO 未定义。

    • 对于正常可用性区域中的任何数据源,在平台切换到备份服务的正常可用性区域时,可能会发生少量停机时间(通常几秒钟)。

  • 再分配: 只要数据源可用,后续作业就会在健康的区域中自动使用基础设施。

    你负责将备份还原到正常区域中的基础结构,并重新配置负载均衡器、客户端和其他系统,以将流量重定向到新区域中的正常基础结构。

区域恢复

当可用性区域恢复时,备份会自动还原可用性区域中的操作,并按正常方式重新路由区域之间的流量。 作业继续运行,数据仍可用。

测试区域故障

备份平台管理流量控制、数据复制、故障转移和故障恢复。 此功能是完全托管的,因此无需启动或验证可用性区域故障流程。

对区域范围的故障的复原能力

备份支持通过 GRS 和 CRR 进行异地冗余和故障转移。

重要

GRS 仅在配对的 Azure 区域内用于备份。

异地冗余存储和跨区域还原

若要实现备份数据的区域冗余,请使用备份通过 GRS 将备份复制到Azure配对区域。 GRS 可保护备份免受区域性中断的影响。

将您部署保管库的区域称为主区域。 数据源必须位于主要区域中。 不能将备份配置到另一个区域的保管库中。

配对区域也称为 次要区域

显示如何使用 GRS 复制数据的关系图。

如果未配置 GRS,且保管库区域中发生中断,则您可能仍能够访问保管库并查看备份项。 但是,如果没有区域冗余,基础备份数据仍无法执行还原作。

跨区域还原

在保管库上配置 GRS 后,一旦主要区域发生中断,Microsoft 会在配对区域提供备份。 如果数据源支持 CRR,即使主要区域中未发生中断,也可以从次要区域恢复点还原。 CRR 还允许运行演练来评估针对区域性中断的复原能力。 启用 CRR 时,Microsoft将备份存储从 GRS 升级到读取访问异地冗余存储(RA-GRS)。

要求

  • 区域支持: GRS 仅适用于成对的 Azure 区域

  • 仅新保管库: 在进行第一次备份之前,必须在保管库上配置 GRS。

注意事项

  • CRR: 启用 CRR 后,备份项最多可能需要 48 小时才能在次要区域中使用。

成本

GRS 保管库对次要区域中的跨区域复制和存储产生额外费用。 Azure区域之间的数据传输根据标准区域间带宽费率收费。 CRR 按不同的费率收费,因为Microsoft将保管库存储从 GRS 升级到 RA-GRS。 有关详细信息,请参阅 备份定价

配置多区域支持

  • 创建使用 GRS 和 CRR 的新保管库: 创建保管库时,还应配置存储冗余。 选择 GRS 后,可以选择性地在保管库上启用 CRR。 执行的步骤取决于保管库类型。 如需了解更多信息,请参阅以下文章:

  • 在现有保管库上配置 GRS 和 CRR: 对于备份保管库,必须在创建保管库时配置存储冗余。

    对于恢复服务保管库,必须先配置存储冗余,然后才能保护任何工作负荷。 在工作负荷受到保护后,该设置将锁定,并且无法更改它。

    可以在现有 GRS 保管库上启用 CRR。 启用 CRR 后,无法禁用它。

当所有区域都正常时的行为

本节将介绍在配置保管库使用 GRS 并且所有区域正常运行时的预期情况。

  • 跨区域操作: 备份始终在主要区域中完成,即部署保管库和数据源的区域。

  • 跨区域数据复制: 将保管库配置为使用 GRS 时,首先使用 LRS 将备份提交到主要区域。 在主要区域中成功完成后,数据将异步复制到次要区域。 次要区域使用 LRS 来存储数据。 备份数据最多可能需要 12 小时才能从主要区域复制到次要区域。

区域故障期间的行为

本部分介绍如果您将保管库配置为使用 GRS,并且在主要区域发生中断时会发生什么情况。

  • 检测和响应: 对于支持 CRR 的数据源以及在保管库中已启用 CRR 的环境,您可以在任何时候(包括在区域中断或灾难期间)启动您自己的 CRR 到配对区域。 你负责检测中断并采取恢复操作,包括将备份还原到正常的区域。

    对于所有其他方案,仅当Azure在主要区域中声明灾难时,才会在次要区域中还原复制到次要区域的数据。 微软负责宣布灾难。 声明灾难所需的时间取决于事件的严重性和评估情况所需的时间。 Microsoft通常仅在长时间后声明灾难。

  • 预期数据丢失: 备份数据的 RPO 取决于多种因素,包括备份计划。 通常,对于区域中断,预计最多 36 小时的数据丢失,因为主要区域中的 RPO 为 24 小时,最多可能需要 12 小时才能将备份数据从主要区域复制到次要区域。

  • 预期的停机时间: 对于以下每种情况,RTO 不同:

    • 在区域恢复之前,故障区域中的数据源和其他资源可能不可用,因此 RTO 未定义。

    • 在区域恢复之前,备份可能无法在失败区域中执行备份或还原操作,因此 RTO 未定义。

    • 如果使用 CRR,启动还原已复制到配对区域的备份的 RTO 为零。 如果不使用 CRR,RTO 取决于 Microsoft 在失败区域中声明灾难需要多长时间。

  • 分配: 主要区域处于脱机状态时,无法运行备份作业。 可以在保管库中恢复数据,但不能添加新数据。

    你负责将备份还原到配对区域中的基础结构,并重新配置负载均衡器、客户端和其他系统,以将流量重定向到配对区域中的正常基础结构。

区域恢复

当主要区域恢复时,备份会自动还原区域中的操作。 作业恢复和数据仍可用。

针对区域故障进行测试

可以使用 CRR 对配对区域执行还原操作。 可以使用此方法来验证还原和其他恢复过程。

备份数据丢失的复原能力

备份提供两项关键恢复功能,以防止意外或恶意删除备份数据:

  • 软删除 允许在可配置的保留期内恢复已删除的对象和保管库。 默认情况下,此时间段为 14 天,但可以对其进行编辑。 将软删除视为备份和保管库的回收站。 有关详细信息,请参阅 通过软删除实现默认安全备份

  • 不可变保管库 可以通过阻止可能导致恢复点丢失的操作来帮助保护备份数据。 您可以将不可变保管库设置锁定,以使其无法被更改。 还可以使用写入一次,读取多次(WORM)存储进行备份,以防止恶意行为体无法更改不可变性并删除备份。 有关详细信息,请参阅 备份的不可变保管库

服务级别协议

Azure服务的服务级别协议(SLA)描述了每个服务的预期可用性以及解决方案必须满足的条件,以实现该可用性预期。 有关详细信息,请参阅 SLa for 联机服务

备份 SLA 涵盖备份和还原操作的服务的可用性。 若要由 SLA 涵盖,需要每隔 30 分钟至少重试一次失败的备份或还原作业。