Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os Pacotes de Automação Declarativa podem ser criados e modificados diretamente no workspace.
Para obter requisitos para usar pacotes no workspace, consulte Pacotes de Automação Declarativa nos requisitos do workspace.
Para obter mais informações sobre pacotes, consulte o que são pacotes de automação declarativa?.
Criar um pacote
Para criar um pacote no workspace do Databricks:
Navegue até a pasta git em que você deseja criar seu pacote.
Clique no botão Criar e, em seguida, clique no conjunto de ativos. Como alternativa, clique com o botão direito do mouse na pasta Git ou no seu kebab associado na árvore de espaço de trabalho e clique em Criar>pacote de ativos:
Na caixa de diálogo Criar um pacote de ativos , dê um nome ao pacote de ativos, como um pacote totalmente incrível. O nome do pacote só pode conter letras, números, traços e sublinhados.
Para o Modelo, escolha se deseja criar um pacote vazio, um pacote que executa um bloco de anotações python de exemplo ou um pacote que executa o SQL. Se você tiver o Editor do Lakeflow Pipelines habilitado, você também verá uma opção para criar um projeto de pipeline de ETL. Todos os modelos personalizados configurados no workspace também estarão disponíveis.
Alguns modelos exigem configuração adicional. Clique em Avançar para concluir a configuração do projeto.
Template Opções de configuração Pipelines Declarativos do Lakeflow Spark - Catálogo padrão a ser usado para os dados do pipeline
- Usar esquema pessoal (recomendado) para cada usuário que colabora neste pacote
- Idioma inicial para os arquivos de código no pipeline
Python padrão - Incluir um bloco de anotações de exemplo
- Incluir um pipeline de exemplo
- Incluir um pacote python de exemplo
- Usar computação sem servidor
SQL padrão - Caminho do sql warehouse
- Catálogo inicial
- Usar esquema pessoal
- Esquema inicial durante o desenvolvimento
Clique em Criar e implantar.
Isso cria um pacote inicial na pasta Git, que inclui os arquivos para o modelo de projeto selecionado, um .gitignore arquivo de configuração git e o arquivo de Pacotes de Automação Declarativa necessários databricks.yml . O databricks.yml arquivo contém a configuração principal do pacote. Para obter detalhes, consulte a configuração de Pacotes de Automação Declarativa.
Todas as alterações feitas nos arquivos dentro do pacote podem ser sincronizadas com o repositório remoto associado à pasta Git. Uma pasta Git pode conter muitos pacotes.
Adicionar novos arquivos a um pacote
Um pacote contém o arquivo databricks.yml que define as configurações de implantação e de workspace, arquivos de origem, como notebooks, arquivos Python e arquivos de teste, assim como as definições e configurações para recursos do Databricks, como Lakeflow Jobs e Lakeflow Spark Declarative Pipelines. Semelhante a qualquer pasta de workspace, você pode adicionar novos arquivos ao seu pacote.
Dica
Para abrir uma nova guia para a exibição de pacote que permite modificar arquivos de pacote, navegue até a pasta de pacote no workspace e clique em Abrir no editor à direita do nome do pacote.
Adicionar arquivos de código-fonte
Para adicionar novos notebooks ou outros arquivos a um pacote na interface do usuário do workspace, navegue até a pasta do pacote e, em seguida:
- Clique em Criar no canto superior direito e escolha um dos seguintes tipos de arquivo a serem adicionados ao seu pacote: Notebook, Arquivo, Consulta, Painel.
- Como alternativa, clique no kebab à esquerda do Share e importe um arquivo.
Observação
Para que o arquivo faça parte da implantação do pacote, depois de adicionar um arquivo à pasta do pacote, você deve adicioná-lo à configuração do databricks.yml pacote ou criar um arquivo de definição de pipeline ou trabalho que o inclua. Consulte Adicionar um recurso existente a um pacote.
Criar uma definição de recurso
Os pacotes contêm definições para recursos como tarefas e pipelines a serem incluídos em uma implantação. Quando o pacote é implantado, os recursos definidos no pacote são criados no workspace (ou atualizados se já foram implantados). Essas definições são especificadas em YAML ou Python e você pode criar e editar essas configurações diretamente na interface do usuário.
Navegue até a pasta de pacote no workspace em que você deseja definir um novo recurso.
Dica
Se você já abriu o pacote no editor no workspace, poderá usar a lista de contextos de criação do navegador do workspace para navegar até a pasta do pacote. Consulte contextos de criação.
À direita do nome do pacote, clique em Abrir no editor para navegar até o modo de exibição do editor do pacote.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do Pacote , clique em Adicionar e escolha uma definição de recurso a ser criada.
Nova definição de trabalho
Para criar um arquivo de configuração de pacote que define um trabalho:
Na seção Pacote de recursos do painel Implantações , clique em Adicionar e, em seguida, nova definição de trabalho.
Digite um nome para o trabalho no campo Nome do trabalho da caixa de diálogo Criar definição de trabalho . Clique em Criar.
Adicione YAML ao arquivo de definição de trabalho que foi criado. O seguinte exemplo YAML define um trabalho que executa um notebook:
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Para obter detalhes sobre como definir um trabalho no YAML, consulte o trabalho. Para sintaxe YAML para outros tipos de tarefa de trabalho com suporte, consulte Adicionar tarefas a trabalhos em Pacotes de Automação Declarativa.
Nova definição de pipeline
Observação
Se você habilitou o Editor de Pipelines do Lakeflow em seu workspace, consulte Novo pipeline de ETL.
Para adicionar uma definição de pipeline ao pacote:
Na seção Recursos do Pacote do painel Implantações, clique em Adicionar e depois em Nova Definição de Pipeline.
Digite um nome para o pipeline no campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente .
Clique em Adicionar e implantar.
Para um pipeline com o nome test_pipeline que executa um notebook, é criado o seguinte YAML em um arquivo test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
Você pode modificar a configuração para executar um notebook existente. Para obter detalhes sobre como definir um pipeline no YAML, consulte o pipeline.
Novo pipeline de ETL
Para adicionar uma nova definição de pipeline ETL:
Na seção Recursos de pacote do painel Implantações, clique em Adicionar e depois em Novo pipeline ETL.
Digite um nome para o pipeline no campo Nome da caixa de diálogo Adicionar pipeline ao pacote existente . O nome deve ser exclusivo dentro do espaço de trabalho.
Para o campo Usar esquema pessoal , selecione Sim para cenários de desenvolvimento e Não para cenários de produção.
Selecione um catálogo padrão e um esquema padrão para o pipeline.
Escolha um idioma para o código-fonte do pipeline.
Clique em Adicionar e implantar.
Revise os detalhes na caixa de diálogo de confirmação Implantar para dev e clique em Implantar.
Um pipeline de ETL é criado com tabelas exemplares de exploração e transformação.
Para um pipeline com o nome rad_pipeline, o YAML a seguir é criado em um arquivo rad_pipeline.pipeline.yml. Esse pipeline está configurado para ser executado na computação sem servidor. Para consultar a configuração do pipeline, veja pipeline.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Nova definição de painel
Para criar um arquivo de configuração de pacote que define um painel:
Na seção Recursos do Pacote do painel Implantações , clique em Adicionar e, em seguida, nova definição de painel.
Digite um nome para o painel no campo Nome do painel da caixa de diálogo Adicionar painel ao pacote existente.
Selecione um Warehouse para o painel de controle. Clique em Adicionar e implantar.
Um novo painel vazio e um arquivo de configuração *.dashboard.yml são criados no pacote. O painel é armazenado no warehouse especificado no arquivo de configuração.
Para obter detalhes sobre dashboards, consulte Dashboards. Para obter a sintaxe YAML para a configuração do painel, consulte o painel.
Adicionar um recurso existente a um pacote
Você pode adicionar recursos existentes ao seu pacote usando a interface do usuário do workspace ou adicionando a configuração de recursos ao seu pacote.
Usar a interface do usuário do pacote de espaço de trabalho
Para adicionar um trabalho, pipeline ou dashboard existente a um conjunto:
Navegue até a pasta de pacote no workspace em que você deseja adicionar um recurso.
Dica
Se você já abriu o pacote no editor no workspace, poderá usar a lista de contextos de criação do navegador do workspace para navegar até a pasta do pacote. Consulte contextos de criação.
À direita do nome do pacote, clique em Abrir no editor para navegar até o modo de exibição do editor do pacote.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do Pacote , clique em Adicionar e, em seguida, clique em Adicionar trabalho existente, Adicionar pipeline existente ou Adicionar painel existente.
Na caixa de diálogo Adicionar... existente , selecione o recurso existente na lista suspensa.
Quando você adiciona um recurso existente a um pacote, o Databricks cria uma definição em um arquivo de configuração de pacote para esse recurso. Como você pode modificar essa definição no pacote, o recurso definido no pacote pode divergir do recurso usado para criá-la.
Escolha uma opção de como lidar com as atualizações para a configuração de recursos do pacote:
-
Atualização nas implantações em produção: o recurso existente é associado ao recurso no pacote, e todas as alterações feitas no recurso do pacote são aplicadas ao recurso existente quando você faz a implantação no
proddestino. -
Atualização sobre implantações de desenvolvimento: o recurso existente é vinculado ao recurso no pacote, e todas as alterações feitas no recurso no pacote são aplicadas ao recurso existente quando você implanta para o
devdestino. - (Avançado) Não atualize: o recurso existente não está vinculado ao pacote. As alterações feitas no recurso no pacote nunca são aplicadas ao recurso existente. Em vez disso, uma cópia é criada. Para obter mais informações sobre como vincular recursos de pacote ao recurso de workspace correspondente, consulte databricks bundle deployment bind.
-
Atualização nas implantações em produção: o recurso existente é associado ao recurso no pacote, e todas as alterações feitas no recurso do pacote são aplicadas ao recurso existente quando você faz a implantação no
Clique em Adicionar ... para adicionar o recurso existente ao pacote.
Adicionar configuração de pacote
Um recurso existente também pode ser adicionado ao seu pacote definindo a configuração do pacote para incluí-lo na implantação do pacote. O exemplo a seguir adiciona um pipeline existente a um pacote.
Supondo que você tenha um pipeline chamado taxifilter que execute o notebook taxifilter.ipynb em seu workspace compartilhado.
Na barra lateral do workspace do Azure Databricks, clique em
Jobs & Pipelines .Opcionalmente, selecione os filtros Pipelines e Owned by me .
Selecione o pipeline existente
taxifilter.Na página do pipeline, clique no kebab à esquerda do botão Modo de implantação desenvolvimento . Em seguida, clique em Exibir configurações YAML.
Clique no ícone de cópia para copiar a configuração do pacote para o pipeline.
Navegue até o pacote no Workspace.
Clique no ícone de implantação do pacote para alternar para o painel Implantações .
Na seção Recursos do Pacote, clique em Adicionar e, em seguida, Nova definição de pipeline.
Observação
Se, em vez disso, você vir um novo item de menu de pipeline ETL , terá o Editor de Pipelines do Lakeflow habilitado. Para adicionar um pipeline ETL a um pacote, consulte Criar um pipeline controlado pela origem.
Digite
taxifilterno campo Nome do pipeline da caixa de diálogo Adicionar pipeline ao pacote existente. Clique em Criar.Cole a configuração do pipeline existente no arquivo. Este pipeline de exemplo é definido para executar o
taxifilternotebook:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
Agora você pode implantar o pacote e, em seguida, executar o recurso de pipeline por meio da interface do usuário.