Migrar para Databricks Connect para Python

Este artigo descreve como migrar do Databricks Connect for Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superiores para Python. O Databricks Connect permite-lhe ligar IDEs populares, servidores de cadernos e aplicações personalizadas a clusters do Azure Databricks. Consulte Databricks Connect.

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Para a versão Scala deste artigo, consulte Migrar para o Databricks Connect for Scala.

Migre o seu projeto em Python

Para migrar o seu projeto de código Python existente ou ambiente de desenvolvimento do Databricks Connect for Databricks Runtime 12.2 LTS ou inferior para Databricks Connect for Databricks Runtime 13.3 LTS ou superior:

  1. Instala a versão correta do Python conforme indicado nos requisitos instalação para corresponder ao teu cluster de Azure Databricks, caso ainda não esteja instalado localmente.

  2. Atualize o seu ambiente virtual em Python para usar a versão correta do Python para corresponder ao seu cluster, se necessário. Para obter instruções, consulte a documentação do provedor do ambiente virtual.

  3. Com o seu ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:

    pip3 uninstall pyspark
    
  4. Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e abaixo:

    pip3 uninstall databricks-connect
    
  5. Com seu ambiente virtual ainda ativado, instale o Databricks Connect for Databricks Runtime 13.3 LTS e superior:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Nota

    O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

  6. Atualize o seu código Python para inicializar a variável spark (que representa uma instância da classe DatabricksSession, semelhante a SparkSession no PySpark). Consulte Configuração de computação para Databricks Connect.

  7. Migre as suas APIs RDD para usar APIs DataFrame e migre o SparkContext para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica a operações SQL e DataFrame. As configurações do Hadoop definidas no sparkContext devem ser definidas na configuração do cluster ou usando um bloco de anotações. Isso ocorre porque as configurações definidas no sparkContext não estão vinculadas a sessões de usuário, mas se aplicam a todo o cluster.