Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel wird beschrieben, wie Sie von Databricks Connect für Databricks Runtime 12.2 LTS und weiter unten zu Databricks Connect für Databricks Runtime 13.3 LTS und höher für Python migrieren. Databricks Connect ermöglicht es Ihnen, beliebte IDEs, Notizbuchserver und benutzerdefinierte Anwendungen mit Azure Databricks Clustern zu verbinden. Weitere Informationen finden Sie unter Databricks Connect.
Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.
Die Scala-Version dieses Artikels finden Sie unter Migrieren zu Databricks Connect für Scala.
Migrieren Ihres Python Projekts
So migrieren Sie Ihre vorhandene Python Codeprojekt oder Codierungsumgebung von Databricks Connect für Databricks Runtime 12.2 LTS und weiter unten zu Databricks Connect für Databricks Runtime 13.3 LTS und höher:
Installieren Sie die richtige Version von Python, wie in den installationsanforderungen aufgeführt, um ihrem Azure Databricks Cluster zu entsprechen, falls sie noch nicht lokal installiert ist.
Aktualisieren Sie Ihre Python virtuelle Umgebung, um bei Bedarf die richtige Version von Python zu verwenden, um Ihrem Cluster zu entsprechen. Anweisungen finden Sie in der Dokumentation Ihres anbieters für virtuelle Umgebungen.
Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark aus Ihrer virtuellen Umgebung:
pip3 uninstall pysparkWährend Ihre virtuelle Umgebung immer noch aktiviert ist, deinstallieren Sie Databricks Connect für Databricks Runtime bis Version 12.2 LTS:
pip3 uninstall databricks-connectWenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie Databricks Connect für Databricks Runtime ab Version 13.3 LTS:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Hinweis
Databricks empfiehlt, die Notation „Punkt-Sternchen“ anzufügen, um
databricks-connect==X.Y.*anstelle vondatabricks-connect=X.Yanzugeben, um sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.Aktualisieren Sie den Python Code so, dass die Variable
sparkinitialisiert wird (die eine Instanziierung derDatabricksSession-Klasse darstellt, ähnlich wieSparkSessionin PySpark). Siehe Computekonfiguration für Databricks Connect.Migrieren Sie Ihre RDD-APIs, um DataFrame-APIs zu verwenden, und migrieren Sie Ihre
SparkContext, um Alternativen zu verwenden.
Festlegen von Hadoop-Konfigurationen
Auf dem Client können Sie Hadoop-Konfigurationen mithilfe der spark.conf.set-API festlegen, die für SQL- und DataFrame-Vorgänge gilt. Hadoop-Konfigurationen, die für sparkContext festgelegt werden, müssen in der Clusterkonfiguration oder mithilfe eines Notebooks festgelegt werden. Dies liegt daran, dass die für sparkContext festgelegten Konfigurationen nicht an Benutzersitzungen gebunden sind, sondern für den gesamten Cluster gelten.