Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superiores para Python. O Databricks Connect permite-lhe ligar IDEs populares, servidores de cadernos e aplicações personalizadas a clusters do Azure Databricks. Consulte Databricks Connect.
Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.
Para a versão Scala deste artigo, consulte Migrar para o Databricks Connect for Scala.
Migre o seu projeto em Python
Para migrar o seu projeto de código Python existente ou ambiente de desenvolvimento do Databricks Connect for Databricks Runtime 12.2 LTS ou inferior para Databricks Connect for Databricks Runtime 13.3 LTS ou superior:
Instala a versão correta do Python conforme indicado nos requisitos instalação para corresponder ao teu cluster de Azure Databricks, caso ainda não esteja instalado localmente.
Atualize o seu ambiente virtual em Python para usar a versão correta do Python para corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor do ambiente virtual.
Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
pip3 uninstall pysparkCom seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e abaixo:
pip3 uninstall databricks-connectCom seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.3 LTS e superior:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Nota
O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar
databricks-connect==X.Y.*em vez dedatabricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.Atualize o seu código Python para inicializar a variável
spark(que representa uma instância da classeDatabricksSession, semelhante aSparkSessionno PySpark). Consulte Configuração de computação para Databricks Connect.Migre as suas APIs RDD para usar APIs DataFrame e migre o
SparkContextpara usar alternativas.
Definir configurações do Hadoop
No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas no sparkContext devem ser definidas na configuração do cluster ou usando um bloco de anotações. Isso ocorre porque as configurações definidas no sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.