Freigeben über


Zuverlässigkeit in Azure Managed Grafana

Azure Managed Grafana bietet gehostete Grafana-Arbeitsbereiche zum Erstellen von Dashboards und Visualisierungen. Microsoft verwaltet alle zugrunde liegenden Infrastruktur, einschließlich Compute-, Netzwerk-, Speicher- und Dienstupdates.

Wenn Sie Azure verwenden, ist zustellbarkeit eine gemeinsame Verantwortung. Microsoft bietet eine Reihe von Funktionen zur Unterstützung von Resilienz und Wiederherstellung. Sie sind dafür verantwortlich, zu verstehen, wie diese Funktionen in allen von Ihnen verwendeten Diensten funktionieren, und die Funktionen auswählen, die Sie benötigen, um Ihre Geschäftsziele und Uptime-Ziele zu erfüllen.

In diesem Artikel wird beschrieben, wie Sie Azure Managed Grafana widerstandsfähig für eine Vielzahl potenzieller Ausfälle und Probleme machen, einschließlich vorübergehender Fehler, Ausfall der Verfügbarkeitszone und Regionsausfälle. Außerdem wird beschrieben, wie Sie Backups erstellen und andere Arten von Problemen beheben können, und es hebt wichtige Informationen zum Azure Managed Grafana Service-Level-Agreement (SLA) hervor.

Empfehlungen für die Produktionsimplementierung für Zuverlässigkeit

Um die Zuverlässigkeit von Produktionsbereitstellungen mithilfe von Azure Managed Grafana zu erhöhen, empfehlen wir, die folgenden Aktionen auszuführen:

  • Aktivieren Sie Zonenredundanz , wenn Sie einen Arbeitsbereich erstellen, um Ausfallsicherheit für Verfügbarkeitszonenfehler bereitzustellen.

  • Store-Dashboards und andere Grafana-Ressourcen als Code, z. B. durch Exportieren aus der Grafana-API oder CLI und Speichern in einem Quellcodeverwaltungs-Repository wie GitHub. Verwenden Sie die Pipelines für kontinuierliche Integration und kontinuierliche Übermittlung (CI/CD), um Dashboards für Azure Managed Grafana bereitzustellen. Dieser Ansatz unterstützt Wiederherstellungsszenarien. Es ermöglicht auch die Bereitstellung für mehrere Grafana-Instanzen, einschließlich Instanzen in verschiedenen Azure Regionen, falls erforderlich.

Übersicht über die Zuverlässigkeitsarchitektur

In diesem Abschnitt werden einige der wichtigen Aspekte der Funktionsweise des Diensts beschrieben, die aus Zuverlässigkeitsperspektive am relevantesten sind. Im Abschnitt wird die logische Architektur vorgestellt, die einige der Ressourcen und Features enthält, die Sie bereitstellen und verwenden. Außerdem wird die physische Architektur erläutert, die Details zur Funktionsweise des Diensts unter den Deckeln bereitstellt.

Logische Architektur

Die primäre Azure Ressource, die Sie bereitstellen, ist ein workspace. Nachdem Sie Ihren Arbeitsbereich bereitgestellt haben, verwenden Sie den Grafana-Endpunkt des Arbeitsbereichs, um Datenquellen, Dashboards, Visualisierungen und andere Grafana-Ressourcen zu konfigurieren und zu interagieren.

Physische Architektur

Wenn Sie einen Arbeitsbereich intern erstellen, stellt die Azure Plattform die folgenden zugrunde liegenden Komponenten bereit:

  • Grafana-Server: Dedizierte virtuelle Computer (VMs), die die Grafana-Anwendung ausführen. Standardmäßig werden zwei Server für hohe Verfügbarkeit und Redundanz bereitgestellt. Microsoft verwaltet diese Server vollständig. Sie werden in Ihrem Abonnement nicht angezeigt, Sie können nicht darauf zugreifen, und Sie sind nicht für das Patchen, die Skalierung oder die Wartung verantwortlich.

  • Lastenausgleich: Ein Netzwerklastenausgleich, der eingehende Browseranforderungen über die Grafana-Server verteilt. Der Lastenausgleich überwacht die Serverintegrität und leitet den Datenverkehr automatisch von fehlerhaften Servern ab.

  • Backend-Datenbank: Eine Azure Database for PostgreSQL-Datenbank, die Arbeitsbereichskonfiguration und andere dauerhafte Daten speichert. Alle Grafana-Server im Arbeitsbereich teilen diese Datenbank. Weitere Informationen zur Ausfallsicherheit von Datenbanken finden Sie unter Reliability in Azure Database for PostgreSQL.

Diese Komponenten werden nicht angezeigt oder verwaltet. Microsoft stellt sie in Ihrem Auftrag bereit und verwaltet sie.

Der Load-Balancer verfolgt, welche Grafana-Server verfügbar sind. Wenn ein Server in einem Dualserversetup fehlerhaft wird, sendet der Lastenausgleich alle Anforderungen an den verbleibenden Server. Dieser Server übernimmt die Browsersitzungen, die der fehlerhafte Server zuvor verarbeitet hat, basierend auf Informationen in der freigegebenen Datenbank. Währenddessen repariert oder ersetzt Azure Managed Grafana den fehlerhaften Server.

Diagramm, das einen Azure Managed Grafana-Arbeitsbereich zeigt, der aus zwei virtuellen Maschinen und einem vom Dienst bereitgestellten Lastenausgleichsmodul besteht.

Ein Architekturdiagramm, das einen Azure Managed Grafana Arbeitsbereich hinter einem gemeinsam genutzten Gateway zeigt. Ein Lastverteiler verteilt den Datenverkehr auf zwei Grafana-Server, die mit einer freigegebenen Datenbank verbunden sind.

Resilienz für vorübergehende Fehler

Vorübergehende Fehler sind kurze, zeitweilige Fehler in Komponenten. Sie treten häufig in einer verteilten Umgebung wie der Cloud auf und sind ein normaler Bestandteil von Vorgängen. Vorübergehende Fehler korrigieren sich nach kurzer Zeit. Es ist wichtig, dass Ihre Anwendungen vorübergehende Fehler behandeln können, in der Regel durch Wiederholen betroffener Anforderungen.

Alle in der Cloud gehosteten Anwendungen sollten den Azure richtlinien für die vorübergehende Fehlerbehandlung befolgen, wenn sie mit allen in der Cloud gehosteten APIs, Datenbanken und anderen Komponenten kommunizieren. Weitere Informationen finden Sie unter Empfehlungen zur Behandlung vorübergehender Fehler.

Sie können Clientanwendungen erstellen, um mit Ihrem Grafana-Arbeitsbereich über die Grafana-API zu interagieren. Stellen Sie sicher, dass diese Anwendungen den Azure-Richtlinien für Wiederholungsversuche bei fehlgeschlagenen Anfragen folgen.

Ausfallsicherheit bei Ausfällen von Verfügbarkeitszonen

Verfügbarkeitszonen sind physisch getrennte Gruppen von Rechenzentren innerhalb einer Azure Region. Wenn eine Zone ausfällt, erfolgt ein Failover der Dienste zu einer der verbleibenden Zonen.

Azure Managed Grafana Arbeitsbereiche unterstützen Zonenredundanz in unterstützten Azure Regionen. Wenn Zonenredundanz aktiviert ist, werden die Grafana-Server des Arbeitsbereichs über mehrere Verfügbarkeitszonen verteilt. Microsoft wählt die von Ihrem Arbeitsbereich verwendeten Zonen aus. Andere Ressourcen, wie das Netzwerklastenausgleichsgerät, die Datenbank und das gemeinsame Gateway, sind ebenfalls so konfiguriert, dass sie mehrere Verfügbarkeitszonen nutzen.

Diagramm, das einen Azure Managed Grafana-Workspace mit einem zonenredundanten Load Balancer und zwei Instanzen zeigt, jeweils in separaten Verfügbarkeitszonen.

Architekturdiagramm, das einen Azure Managed Grafana Arbeitsbereich zeigt, der in drei Verfügbarkeitszonen bereitgestellt wird. Ein Load Balancer verteilt den Datenverkehr auf Grafana-Server in Zone 1 und 2 sowie auf eine freigegebene Datenbank, die sich über alle Zonen erstreckt.

Wenn Sie die Zonenredundanz nicht aktivieren, ist der Arbeitsbereich entweder nicht-zonal oder regional, was bedeutet, dass die Server und andere Komponenten in einer beliebigen Verfügbarkeitszone innerhalb der Region oder innerhalb derselben Zone platziert werden können. Wenn eine Verfügbarkeitszone in der Region ein Problem hat, kann es zu Ausfallzeiten in Ihrem Arbeitsbereich kommen.

Anforderungen

Regionsunterstützung: Die Unterstützung für Zonenredundanz ist in den folgenden Regionen verfügbar.

Amerika Europa Asien-Pazifik
East US Nordeuropa Australien (Osten)
Süd-Mittel-USA Ostasien
Westliches USA 3

Kosten

Zonenredundanz erhöht zusätzliche Kosten. Weitere Informationen finden Sie unter Azure Managed Grafana Pricing.

Konfigurieren der Unterstützung von Verfügbarkeitszonen

  • Erstellen Sie einen neuen Arbeitsbereich mit aktivierten Verfügbarkeitszonen: Aktivieren Sie die Zonenredundanz während der Erstellung des Arbeitsbereichs über das Azure-Portal, die Azure CLI, Bicep oder Azure Resource Manager-Vorlagen (ARM-Vorlagen).

    Weitere Informationen finden Sie unter Enable zone redundanz in Azure Managed Grafana.

  • Konfigurieren der Zonenredundanz für einen vorhandenen Arbeitsbereich: Sie können zonenredundanz in einem vorhandenen Arbeitsbereich nicht aktivieren oder deaktivieren. Stattdessen müssen Sie einen neuen Arbeitsbereich erstellen, der Ihre gewünschte Zonenredundanzkonfiguration verwendet, Ihre Dashboards und Konfigurationen migrieren und dann den vorhandenen Arbeitsbereich löschen.

Verhalten, wenn alle Zonen fehlerfrei sind

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Sie einen Arbeitsbereich so konfigurieren, dass er zonenredundant ist, und alle Verfügbarkeitszonen sind betriebsbereit.

  • Datenverkehrsrouting zwischen Zonen: Der zonenredundante Lastenausgleich verteilt eingehende Anforderungen automatisch über die Grafana-Server. Beide Server können Datenverkehr verarbeiten.

  • Datenreplikation zwischen Zonen: Änderungen an den Daten des Arbeitsbereichs werden synchron in mehreren Verfügbarkeitszonen repliziert. Azure Database for PostgreSQL führt die Datenreplikation aus. Weitere Informationen finden Sie unter Reliability in Azure Database for PostgreSQL. Azure Managed Grafana implementiert keine zusätzliche benutzerdefinierte Replikationslogik über das hinaus, was die Datenbankplattform bereitstellt.

Verhalten bei einem Zoneausfall

In diesem Abschnitt wird beschrieben, was Sie erwarten müssen, wenn Sie einen Arbeitsbereich so konfigurieren, dass er zonenredundant ist, und es gibt einen Ausfall in einer der Zonen.

  • Erkennung und Reaktion: Die Azure-Plattform erkennt und reagiert auf einen Fehler in einer Verfügbarkeitszone. Sie müssen kein Zonenfailover initiieren.
  • Notification: Microsoft benachrichtigt Sie nicht automatisch, wenn eine Zone abfällt. Sie können jedoch Azure Resource Health verwenden, um den Status einer einzelnen Ressource zu überwachen, und Sie können Resource Health Alerts einrichten, um Sie über Probleme zu informieren. Sie können auch Azure Service Health verwenden, um den Gesamtstatus des Diensts zu verstehen, einschließlich aller Zonenfehler, und Sie können Service Health Alerts einrichten, um Sie über Probleme zu informieren.
  • Erwarteter Datenverlust: Während eines Ausfalls der Verfügbarkeitszone wird kein Datenverlust erwartet.

  • Erwartete Ausfallzeiten: In Ihrem Arbeitsbereich kann es zu einer geringen Anzahl von Ausfallzeiten kommen, die in der Regel auf ein paar Sekunden beschränkt sind, während der Datenverkehr an fehlerfreie Server umgeleitet wird. Stellen Sie sicher, dass Clientanwendungen vorübergehende Fehler entsprechend verarbeiten können, um die Auswirkungen von Ausfallzeiten zu minimieren.

  • Datenverkehrsumleitung: Eingehender Datenverkehr wird automatisch an den Server in der fehlerfreien Zone weitergeleitet. Der Dienst wird während des Zonenausfalls mit reduzierter Kapazität ausgeführt. Ersatzserver werden während des Ausfalls nicht in fehlerfreien Zonen bereitgestellt.

Zonenwiederherstellung

Microsoft verwaltet die Zonenwiederherstellung automatisch, einschließlich der Wiederherstellung der Dienstkapazität, wenn die betroffene Zone wieder fehlerfrei wird.

Test auf Zonenfehler

Die Azure-Plattform verwaltet Datenverkehrsrouting, Failover und Failback für zonenredundante Arbeitsbereiche. Dieses Feature ist vollständig verwaltet. Deshalb müssen Sie die Prozesse für ausgefallene Verfügbarkeitszonen weder einleiten noch überprüfen.

Widerstandsfähigkeit bei regionalen Ausfällen

Azure Managed Grafana ist ein Einzelregionendienst. Wenn die Region nicht verfügbar ist, ist Ihr Arbeitsbereich ebenfalls nicht verfügbar.

Benutzerdefinierte Lösungen mit mehreren Regionen für Resilienz

Um Ausfallsicherheit für regionale Ausfälle zu erreichen, können Sie mehrere Grafana-Arbeitsbereiche in verschiedenen Regionen bereitstellen. In diesem Lösungstyp sind Sie für Folgendes verantwortlich:

  • Replikation von Dashboards und Konfiguration zwischen Regionen. Sie können beispielsweise eine konsistente Konfiguration für mehrere Arbeitsbereiche anwenden, indem Sie CI/CD und Quellcodeverwaltung verwenden.

  • Implementieren von Netzwerkverkehrsrouting und Failover auf Anwendungs- oder Client-Ebene.

Sichern und Wiederherstellen

Azure Managed Grafana bietet keine integrierten Sicherungs- oder Wiederherstellungsfunktionen für Dashboards oder andere Datenebenenentitäten. So schützen Sie sich vor versehentlicher Löschung oder Beschädigung:

  • Verwenden Sie die Grafana-API oder CLI, um Dashboards und andere Grafana-Konfigurationen zu exportieren.

  • Speichern Sie exportierte Dashboards in einem Quellcodeverwaltungs-Repository, z. B. GitHub.

  • Verwenden Sie Automatisierungs- oder CI/CD-Pipelines, um Dashboards und andere Grafana-Konfigurationen erneut bereitzustellen.

Für die meisten Lösungen sollten Sie sich nicht ausschließlich auf Sicherungen verlassen. Verwenden Sie stattdessen die in diesem Handbuch beschriebenen anderen Funktionen, um Ihre Resilienzanforderungen zu unterstützen. Sicherungen schützen jedoch vor einigen Risiken, die andere Ansätze nicht vermeiden. Weitere Informationen finden Sie unter Was sind Redundanz, Replikation und Sicherung?.

Resilienz gegenüber Wartungsarbeiten an Diensten

Microsoft wendet regelmäßig Dienstupdates an und führt andere Wartungen durch. Die Azure Plattform übernimmt diese Aktivitäten automatisch, um sicherzustellen, dass die Wartung nahtlos und transparent für Sie ist. Bei Wartungsvorgängen können Sie kurze Unterbrechungen beobachten. Diese Unterbrechungen dauern in der Regel einige Sekunden. Stellen Sie sicher, dass Clientanwendungen so konfiguriert sind, dass vorübergehende Fehler behandelt werden, damit sie für kurze Unterbrechungen ausfallsicher sind.

Service-Level-Vereinbarung

Der ServiceLevel-Vertrag (SLA) für Azure-Dienste beschreibt die erwartete Verfügbarkeit der einzelnen Dienste und die Bedingungen, die Ihre Lösung erfüllen muss, um diese Verfügbarkeitserwartungen zu erreichen. Weitere Informationen finden Sie unter SLAs für Online-Dienste.