Tutorial: Executar Python num cluster e como trabalho usando a extensão Databricks para Visual Studio Code

Este tutorial guia-o como configurar a extensão Databricks para Visual Studio Code e depois executar Python num cluster Azure Databricks e como um trabalho Azure Databricks no seu espaço de trabalho remoto. Consulte a extensão Databricks para Visual Studio Code.

Requisitos

Este tutorial requer que:

  • Instalaste a extensão Databricks para Visual Studio Code. Veja Instale a extensão Databricks para Visual Studio Code.
  • Tens um cluster remoto do Azure Databricks para usar. Anote o nome do cluster. Para visualizar os clusters disponíveis, na barra lateral do seu espaço de trabalho Azure Databricks, clique em Computar. Consulte Computo.

Etapa 1: Criar um novo projeto Databricks

Neste passo, cria um novo projeto Databricks e configura a ligação com o seu espaço de trabalho remoto no Azure Databricks.

  1. Inicia Visual Studio Code, depois clica em ficheiro > Abrir Pasta e abre uma pasta vazia na tua máquina local de desenvolvimento.
  2. Na barra lateral, clique no ícone do logotipo do Databricks . Isso abre a extensão Databricks.
  3. Na visualização Configuração, clique em Criar configuração.
  4. A Paleta de Comandos para configurar seu espaço de trabalho Databricks é aberta. Para Databricks Host, insira ou selecione sua URL por espaço de trabalho, por exemplo https://adb-1234567890123456.7.azuredatabricks.net.
  5. Selecione um perfil de autenticação para o projeto. Consulte Configurar autorização para a extensão Databricks para Visual Studio Code.

Etapa 2: Adicionar informações de cluster à extensão Databricks e iniciar o cluster

  1. Com a visualização Configuração já aberta, clique em Selecionar um cluster ou clique no ícone de engrenagem (Configurar cluster).

    Configurar cluster

  2. Na Paleta de comandos, selecione o nome do cluster que você criou anteriormente.

  3. Clique no ícone de reprodução (Iniciar Cluster) caso ainda não tenha sido iniciado.

Passo 3: Criar e executar código Python

  1. Crie um ficheiro de código Python local: na barra lateral, clique no ícone da pasta (Explorer).

  2. No menu principal, clique em Ficheiro > Novo Ficheiro e escolha um ficheiro Python. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o seguinte código ao ficheiro e, em seguida, guarde-o. Este código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Clique no ícone Executar no Databricks ao lado da lista de guias do editor e, em seguida, clique em Carregar e Executar Arquivo. A saída aparece na vista Debug Console.

    Carregar e executar ficheiro a partir do ícone

    Como alternativa, no modo de exibição Explorer, clique com o botão direito do demo.py arquivo e, em seguida, clique em Executar no Databricks>Carregar e Executar Arquivo.

    Carregar e executar ficheiros a partir do menu de contexto

Etapa 4: Executar o código como um trabalho

Para executar demo.py como um trabalho, clique no ícone Executar no Databricks ao lado da lista de guias do editor e, em seguida, clique em Executar Arquivo como Fluxo de Trabalho. A saída aparece num separador separado junto do editor de ficheiros demo.py.

Executar arquivo como fluxo de trabalho a partir do ícone

Como alternativa, clique com o botão direito do demo.py mouse no arquivo no painel Explorer e selecione Executar no Databricks>Executar arquivo como fluxo de trabalho.

Executar arquivo como fluxo de trabalho no menu de contexto

Próximos passos

Agora que usou com sucesso a extensão Databricks para Visual Studio Code para carregar um ficheiro Python local e executá-lo remotamente, também pode: