Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Nota
Este artigo aborda o Databricks Connect para o Databricks Runtime 13.3 LTS e superior.
Databricks Connect é uma biblioteca cliente para o Databricks Runtime que lhe permite ligar-se ao Azure Databricks compute a partir de IDEs como Visual Studio Code, PyCharm e IntelliJ IDEA, notebooks e qualquer aplicação personalizada, permitindo novas experiências interativas de utilizador baseadas no seu Azure Databricks Lakehouse.
O Databricks Connect está disponível para os seguintes idiomas:
O que posso fazer com o Databricks Connect?
Usando o Databricks Connect, podes escrever código usando APIs do Spark e executá-los remotamente no Azure Databricks compute em vez de na sessão local do Spark.
Desenvolver e depurar interativamente desde qualquer IDE. O Databricks Connect permite que os desenvolvedores desenvolvam e depurem seu código na computação do Databricks usando qualquer funcionalidade nativa de execução e depuração do IDE. A extensão Databricks Visual Studio Code utiliza o Databricks Connect para fornecer depuração integrada do código do utilizador no Databricks.
Crie aplicativos de dados interativos. Assim como um driver JDBC, a biblioteca Databricks Connect pode ser incorporada em qualquer aplicativo para interagir com o Databricks. O Databricks Connect oferece toda a expressividade do Python através do PySpark, eliminando o desajuste de impedância da linguagem de programação SQL e permitindo executar todas as transformações de dados com o Spark no cálculo escalável e serverless do Databricks.
Como funciona?
O Databricks Connect é construído no Spark Connect de código aberto, que tem uma arquitetura cliente-servidor dissociada para o Apache Spark que permite a conectividade remota com clusters Spark usando a API DataFrame. O protocolo subjacente usa planos lógicos não resolvidos do Spark e a seta Apache sobre o gRPC. A API do cliente foi projetada para ser fina, para que possa ser incorporada em qualquer lugar: em servidores de aplicativos, IDEs, notebooks e linguagens de programação.
- Código geral corre localmente: O código Python e Scala corre do lado do cliente, permitindo a depuração interativa. Todo o código é executado localmente, enquanto todo o código Spark continua a ser executado no cluster remoto.
-
As APIs do DataFrame são executadas na computação do Databricks. Todas as transformações de dados são convertidas em planos do Spark e executadas na computação do Databricks por meio da sessão remota do Spark. Eles são materializados em seu cliente local quando você usa comandos como
collect(),show(),toPandas(). -
O código UDF é executado na computação Databricks: As UDF, quando definidas localmente, são serializadas e transmitidas para o cluster onde são executadas. As APIs que executam código de usuário no Databricks incluem: UDFs,
foreach,foreachBatchetransformWithState. - Para gerenciamento de dependências:
- Instale as dependências do aplicativo em sua máquina local. Estas funcionam localmente e precisam de ser instaladas como parte do seu projeto, como no seu ambiente virtual Python.
- Instale dependências UDF no Databricks. Veja Gerir dependências de UDF.
Como o Databricks Connect e o Spark Connect estão relacionados?
O Spark Connect é um protocolo baseado em gRPC de código aberto dentro do Apache Spark que permite a execução remota de cargas de trabalho do Spark usando a API DataFrame.
Para o Databricks Runtime 13.3 LTS e superior, o Databricks Connect é uma extensão do Spark Connect com adições e modificações para suportar o trabalho com os modos de computação Databricks e o Unity Catalog.
Próximos passos
Consulte os seguintes tutoriais para começar rapidamente a desenvolver soluções Databricks Connect:
- Databricks Connect para Python tutorial clássico de computação
- Tutorial de computação serverless do Databricks Connect para Python
- Tutorial de computação clássica do Databricks Connect for Scala
- Tutorial de computação sem servidor do Databricks Connect for Scala
- Tutorial do Databricks Connect para R
Para ver exemplos de aplicações que utilizam o Databricks Connect, consulte o repositório de exemplos GitHub, que inclui os seguintes exemplos: