Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure Databricks bietet viele Optimierungen, die eine Vielzahl von Workloads im Lakehouse unterstützen, von der umfangreichen ETL-Verarbeitung bis hin zu Ad-hoc-, interaktiven Abfragen. Viele dieser Optimierungen werden automatisch durchgeführt. Sie erhalten ihre Vorteile einfach mithilfe von Azure Databricks. Darüber hinaus erfordern die meisten Databricks-Runtime-Features Delta Lake, das Standardformat zum Erstellen von Tabellen in Azure Databricks.
Azure Databricks konfiguriert Standardwerte, die die meisten Workloads optimieren. Das Ändern der Konfigurationseinstellungen verbessert jedoch in einigen Fällen die Leistung.
Leistungsverbesserungen für Databricks Runtime
Hinweis
Verwenden Sie das neueste Databricks Runtime, um die neuesten Leistungsverbesserungen zu nutzen. Alle hier dokumentierten Verhaltensweisen sind in Databricks Runtime 10.4 LTS und höher standardmäßig aktiviert.
- Festplattencaching beschleunigt wiederholte Lesevorgänge bei Parquet-Daten-Dateien, indem Daten auf Datenträgervolumes geladen werden, die an Compute-Cluster angebunden sind.
- Dynamische Dateibeschneidung verbessert die Abfrageleistung, indem Verzeichnisse übersprungen werden, die keine Datendateien enthalten, die Abfragevorzeichen entsprechen.
-
Low Shuffle Merge reduziert die Anzahl der von
MERGE-Vorgängen neu geschriebenen Datendateien und verringert die Notwendigkeit,OPTIMIZEnach dem Zusammenführen erneut auszuführen. - Apache Spark 3.0 hat adaptive Abfrageausführung eingeführt, die eine verbesserte Leistung für viele Vorgänge bietet.
Databricks-Empfehlungen für verbesserte Leistung
- Sie können auf Azure Databricks Tabellen clonen, um vollständige oder inkrementelle Kopien von Quelldatensätzen zu erstellen.
- Der kostenbasierte Optimierer beschleunigt die Abfrageleistung durch die Nutzung von Tabellenstatistiken.
- Sie können Spark SQL verwenden, um mit JSON-Strings zu interagieren, ohne Zeichenfolgen zu analysieren.
- Funktionen höherer Ordnung bieten integrierte, optimierte Leistung für viele Vorgänge, die keine gemeinsamen Spark-Operatoren haben. Funktionen höherer Ordnung bieten einen Leistungsvorteil gegenüber benutzerdefinierten Funktionen.
- Azure Databricks stellt eine Reihe integrierter Operatoren und spezielle Syntax für die Arbeit mit complex-Datentypen bereit, einschließlich Arrays, Strukturen und JSON-Zeichenfolgen.
- Sie können Einstellungen für Bereichsjoins manuell anpassen. Weitere Informationen finden Sie unter Range join optimization.
Opt-In-Verhaltensweisen
- Azure Databricks stellt standardmäßig eine Serialisierbarkeitsisolierungs-Garantie bereit. Das Ändern der isolationsebene auf serialisierbar kann den Durchsatz für gleichzeitige Vorgänge verringern, kann jedoch erforderlich sein, wenn Lese-Serialisierbarkeit erforderlich ist.
- Azure Databricks hat die Bloomfilter-Indizes veraltet. Verwenden Sie stattdessen predictive I/O oder liquid clustering .