Freigeben über


Spickzettel für die Compute-Erstellung

Dieser Artikel soll eine klare und meinungsstarke Anleitung für die Berechnungserstellung bieten. Indem Sie die richtigen Compute-Typen für Ihren Workflow verwenden, können Sie die Leistung verbessern und Kosten sparen.

Bewährte Methode Auswirkung Doktoren
Serverloses Berechnen für die meisten Workloads verwenden Azure Databricks verwaltet die Größe, Skalierung und Infrastruktur automatisch. Es ist keine Clusterkonfiguration erforderlich.
Für klassische Berechnung: Verwenden Sie den Standardzugriffsmodus, es sei denn, Ihre erforderliche Funktionalität wird nicht unterstützt. Compute mit Standardzugriffsmodus kann von mehreren Benutzern mit Datenisolation zwischen Benutzern verwendet werden.
Für klassische Berechnungen: Beginnen Sie mit der Verwendung von allgemeinen Allzweckinstanztypen, wenn Sie neu bei Azure Databricks sind. Die Auswahl des geeigneten Instanztyps für die Workload führt zu einer höheren Effizienz.
Für klassische Compute: Verwenden Sie die Instanzentypen der neuesten Generation, wenn genügend Verfügbarkeit vorhanden ist. Die neueste Generation von Instanztypen bietet die beste Leistung und die neuesten Features.
Für klassische Computing-Modelle: Legen Sie Ihr Verhältnis von On-Demand- zu Spot-Instanzen basierend darauf fest, wie schnell Ihre Arbeitslast ausgeführt werden muss. Spot-Instanzen sparen Kosten, können sich aber auf die Gesamtlaufzeit eines Vorgangs auswirken, wenn die Spot-Instanzen erneut beansprucht werden.
Für klassische Berechnung: Wählen Sie die Größe Ihrer Knoten und die Anzahl der Mitarbeiter basierend auf den Arten von Vorgängen aus, die Ihre Workload ausführt. Wenn Sie beispielsweise viele Umschichtungen erwarten, kann es effizienter sein, einen einzelnen großen Knoten anstelle mehrerer kleinerer Knoten zu verwenden.
Für klassische Berechnung: Führen Sie Vakuum auf einem Cluster mit autoskalierungssatz für 1-4 Mitarbeiter aus, wobei jeder Arbeiter 8 Kerne hat.
Wählen Sie einen Treiber mit 8 bis 32 Kernen aus. Erhöhen Sie die Größe des Treibers, wenn Sie OOM (Out-of-Memory)-Fehler erhalten.
VACUUM-Anweisungen erfolgen in zwei Phasen, wobei die zweite stark von Treibern abhängig ist. Wenn Sie den cluster in der richtigen Größe nicht verwenden, kann der Vorgang zu einer Verlangsamung führen und ist möglicherweise nicht erfolgreich.
Im klassischen Computing sollten Sie bewerten, ob Ihr Batch-Workflow von Photon profitieren würde. Photon bietet schnellere Abfragen und reduziert Ihre Gesamtkosten pro Workload.