Referência para desenvolvedores de pipeline

Esta seção contém referência e instruções para desenvolvedores de pipeline.

O carregamento de dados e as transformações são implementados em pipelines por consultas que definem tabelas de streaming e exibições materializadas. Para implementar estas consultas, o Lakeflow Spark Declarative Pipelines suporta interfaces SQL e Python. Como essas interfaces fornecem funcionalidade equivalente para a maioria dos casos de uso de processamento de dados, os desenvolvedores de pipeline podem escolher a interface com a qual se sentem mais confortáveis.

Desenvolvimento em Python

Criar pipelines usando código Python.

Tópico Description
Desenvolver código de pipeline com Python Uma visão geral do desenvolvimento de pipelines em Python.
Lakeflow Spark Declarative Pipelines Python referência de linguagem Documentação de referência do Python para o módulo pipelines.
Gerir dependências do Python para pipelines Instruções para gerir bibliotecas Python em pipelines.
Importar módulos Python de pastas Git ou ficheiros de espaço de trabalho Instruções para usar módulos Python que tem armazenados no Azure Databricks.

Desenvolvimento SQL

Crie pipelines usando código SQL.

Tópico Description
Desenvolver código Lakeflow Spark Declarative Pipelines com SQL Uma visão geral do desenvolvimento de pipelines em SQL.
Referência da linguagem SQL do pipeline Documentação de referência para sintaxe SQL para Lakeflow Spark Declarative Pipelines.
Usar pipelines no Databricks SQL Use o Databricks SQL para trabalhar com pipelines.

Outros tópicos de desenvolvimento

Os tópicos a seguir descrevem outras formas de criar pipelines.

Tópico Description
Converter um pipeline num projeto de bundle Converta um pipeline existente em um pacote, que permite gerenciar sua configuração de processamento de dados em um arquivo YAML controlado pela fonte para facilitar a manutenção e implantações automatizadas em ambientes de destino.
Metaprogramação com Pipelines Declarativos do Lakeflow Spark Cria pipelines com dlt-meta. Use a biblioteca open source dlt-meta para automatizar a criação de pipelines com um framework orientado por metadados.
Tutorial: Crie múltiplos fluxos com parâmetros diferentes. Crie múltiplos fluxos num ciclo em Python.
Desenvolva código de pipeline em seu ambiente de desenvolvimento local Uma visão geral das opções para o desenvolvimento de pipelines localmente.