Migrieren zu Databricks Connect für Python

In diesem Artikel wird beschrieben, wie Sie von Databricks Connect für Databricks Runtime 12.2 LTS und weiter unten zu Databricks Connect für Databricks Runtime 13.3 LTS und höher für Python migrieren. Databricks Connect ermöglicht es Ihnen, beliebte IDEs, Notizbuchserver und benutzerdefinierte Anwendungen mit Azure Databricks Clustern zu verbinden. Weitere Informationen finden Sie unter Databricks Connect.

Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.

Die Scala-Version dieses Artikels finden Sie unter Migrieren zu Databricks Connect für Scala.

Migrieren Ihres Python Projekts

So migrieren Sie Ihre vorhandene Python Codeprojekt oder Codierungsumgebung von Databricks Connect für Databricks Runtime 12.2 LTS und weiter unten zu Databricks Connect für Databricks Runtime 13.3 LTS und höher:

Installieren Sie die richtige Version von Python, wie in den installationsanforderungen aufgeführt, um ihrem Azure Databricks Cluster zu entsprechen, falls sie noch nicht lokal installiert ist.
Aktualisieren Sie Ihre Python virtuelle Umgebung, um bei Bedarf die richtige Version von Python zu verwenden, um Ihrem Cluster zu entsprechen. Anweisungen finden Sie in der Dokumentation Ihres anbieters für virtuelle Umgebungen.
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark aus Ihrer virtuellen Umgebung:
```
pip3 uninstall pyspark
```
Während Ihre virtuelle Umgebung immer noch aktiviert ist, deinstallieren Sie Databricks Connect für Databricks Runtime bis Version 12.2 LTS:
```
pip3 uninstall databricks-connect
```
Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie Databricks Connect für Databricks Runtime ab Version 13.3 LTS:
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
Hinweis

Databricks empfiehlt, die Notation „Punkt-Sternchen“ anzufügen, um databricks-connect==X.Y.* anstelle von databricks-connect=X.Y anzugeben, um sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.
Aktualisieren Sie den Python Code so, dass die Variable spark initialisiert wird (die eine Instanziierung der DatabricksSession-Klasse darstellt, ähnlich wie SparkSession in PySpark). Siehe Computekonfiguration für Databricks Connect.
Migrieren Sie Ihre RDD-APIs, um DataFrame-APIs zu verwenden, und migrieren Sie Ihre SparkContext, um Alternativen zu verwenden.

Festlegen von Hadoop-Konfigurationen

Auf dem Client können Sie Hadoop-Konfigurationen mithilfe der spark.conf.set-API festlegen, die für SQL- und DataFrame-Vorgänge gilt. Hadoop-Konfigurationen, die für sparkContext festgelegt werden, müssen in der Clusterkonfiguration oder mithilfe eines Notebooks festgelegt werden. Dies liegt daran, dass die für sparkContext festgelegten Konfigurationen nicht an Benutzersitzungen gebunden sind, sondern für den gesamten Cluster gelten.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19

Freigeben über

Migrieren zu Databricks Connect für Python

Migrieren Ihres Python Projekts

Festlegen von Hadoop-Konfigurationen

Feedback

Zusätzliche Ressourcen