Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este tutorial guia-o como configurar a extensão Databricks para Visual Studio Code e depois executar Python num cluster Azure Databricks e como um trabalho Azure Databricks no seu espaço de trabalho remoto. Consulte a extensão Databricks para Visual Studio Code.
Requisitos
Este tutorial requer que:
- Instalaste a extensão Databricks para Visual Studio Code. Veja Instale a extensão Databricks para Visual Studio Code.
- Tens um cluster remoto do Azure Databricks para usar. Anote o nome do cluster. Para visualizar os clusters disponíveis, na barra lateral do seu espaço de trabalho Azure Databricks, clique em Computar. Consulte Computo.
Etapa 1: Criar um novo projeto Databricks
Neste passo, cria um novo projeto Databricks e configura a ligação com o seu espaço de trabalho remoto no Azure Databricks.
- Inicia Visual Studio Code, depois clica em ficheiro > Abrir Pasta e abre uma pasta vazia na tua máquina local de desenvolvimento.
- Na barra lateral, clique no ícone do logotipo do Databricks . Isso abre a extensão Databricks.
- Na visualização Configuração, clique em Criar configuração.
- A Paleta de Comandos para configurar seu espaço de trabalho Databricks é aberta. Para Databricks Host, insira ou selecione sua URL por espaço de trabalho, por exemplo
https://adb-1234567890123456.7.azuredatabricks.net. - Selecione um perfil de autenticação para o projeto. Consulte Configurar autorização para a extensão Databricks para Visual Studio Code.
Etapa 2: Adicionar informações de cluster à extensão Databricks e iniciar o cluster
Com a visualização Configuração já aberta, clique em Selecionar um cluster ou clique no ícone de engrenagem (Configurar cluster).
Na Paleta de comandos, selecione o nome do cluster que você criou anteriormente.
Clique no ícone de reprodução (Iniciar Cluster) caso ainda não tenha sido iniciado.
Passo 3: Criar e executar código Python
Crie um ficheiro de código Python local: na barra lateral, clique no ícone da pasta (Explorer).
No menu principal, clique em Ficheiro > Novo Ficheiro e escolha um ficheiro Python. Nomeie o arquivo demo.py e salve-o na raiz do projeto.
Adicione o seguinte código ao ficheiro e, em seguida, guarde-o. Este código cria e exibe o conteúdo de um DataFrame PySpark básico:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show()# +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+Clique no ícone Executar no Databricks ao lado da lista de guias do editor e, em seguida, clique em Carregar e Executar Arquivo. A saída aparece na vista Debug Console.
Como alternativa, no modo de exibição Explorer, clique com o botão direito do
demo.pyarquivo e, em seguida, clique em Executar no Databricks>Carregar e Executar Arquivo.
Etapa 4: Executar o código como um trabalho
Para executar demo.py como um trabalho, clique no ícone Executar no Databricks ao lado da lista de guias do editor e, em seguida, clique em Executar Arquivo como Fluxo de Trabalho. A saída aparece num separador separado junto do editor de ficheiros demo.py.
Como alternativa, clique com o botão direito do demo.py mouse no arquivo no painel Explorer e selecione Executar no Databricks>Executar arquivo como fluxo de trabalho.
Próximos passos
Agora que usou com sucesso a extensão Databricks para Visual Studio Code para carregar um ficheiro Python local e executá-lo remotamente, também pode:
- Explore os recursos e variáveis do Declarative Automation Bundles usando a interface de extensão. Ver funcionalidades de extensão do Declarative Automation Bundles.
- Execute ou depure código Python com o Databricks Connect. Veja como depurar o código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.
- Executa um ficheiro ou um caderno como um trabalho do Azure Databricks. Veja Execute um ficheiro num cluster ou num ficheiro ou notebook como uma tarefa em Azure Databricks usando a extensão Databricks para Visual Studio Code.
- Executar testes com
pytest. Veja Execute Python testes usando a extensão Databricks para Visual Studio Code.