Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página fornece uma visão geral da funcionalidade e recomendações para disponibilizar os dados geridos e governados pelo Azure Databricks a sistemas externos.
Estes padrões focam-se em cenários em que a sua organização precisa de integrar ferramentas ou sistemas de confiança nos dados do Azure Databricks. Se procura orientação sobre como partilhar dados fora da sua organização, consulte Partilhar dados e ativos de IA de forma segura.
Que acesso externo suporta o Azure Databricks?
O Azure Databricks recomenda usar o Unity Catalog para gerir todos os teus ativos de dados. O Unity Catalog fornece integrações para clientes Delta Lake usando a API REST Unity e clientes Apache Iceberg usando o catálogo REST Iceberg. Para obter uma lista completa das integrações suportadas, consulte Integrações do Catálogo Unity.
A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Catálogo Unity.
| Objeto do Unity Catalog | Formatos suportados | Padrões de acesso |
|---|---|---|
| Tabelas gerenciadas | Lago Delta, Iceberg | API REST Unity, catálogo REST Iceberg, Delta Sharing |
| Tabelas externas | Lago Delta | API REST Unity, catálogo REST Iceberg, Compartilhamento Delta, URIs na nuvem |
| Tabelas externas | CSV, JSON, Avro, Parquet, ORC, texto | API REST Unity, URIs na nuvem |
| Volumes externos | Todos os tipos de dados | URIs de nuvem |
| Tabelas externas | Lago Delta, Iceberg | Unity REST API, catálogo Iceberg REST (Pré-visualização), Delta Sharing |
| Tabelas externas | CSV, JSON, Avro, Parquet, ORC, texto | API REST Unity, URIs na nuvem |
* Somente tabelas estrangeiras federadas usando federação de catálogo são suportadas. Para garantir novas leituras de mecanismos externos em tabelas estrangeiras, os clientes podem atualizar periodicamente os metadados usando trabalhos do Lakeflow.
Para obter mais detalhes sobre esses objetos do Unity Catalog, consulte o seguinte:
- Unity Catalog geriu tabelas em Azure Databricks para Delta Lake e Apache Iceberg
- Trabalhar com tabelas externas
- O que são volumes do Catálogo Unity?
Distribuição de credenciais do Unity Catalog
A venda automática de credenciais do Unity Catalog permite aos utilizadores configurar clientes externos para herdar privilégios em dados governados pelo Azure Databricks. Os clientes Iceberg e Delta podem oferecer suporte à venda de credenciais. Consulte distribuição de credenciais do Unity Catalog para acesso a sistemas externos.
Aceder a tabelas com clientes Delta
Use a API REST do Unity para ler, escrever e criar tabelas geridas e externas do Unity Catalog apoiadas pelo Delta Lake a partir de clientes Delta suportados. Consulte as tabelas Access Databricks dos clientes Delta.
Importante
Criar e escrever tabelas geridas pelo Unity Catalog a partir de clientes do Delta está em Beta.
Para tabelas externas, o Unity Catalog não regula leituras e escritas realizadas diretamente em armazenamento de objetos na cloud a partir de sistemas externos, pelo que deve configurar políticas e credenciais adicionais na sua conta cloud para garantir que as políticas de governação de dados são respeitadas fora do Azure Databricks.
Observação
A documentação do Azure Databricks lista limitações e considerações de compatibilidade com base nas versões do Databricks Runtime e nas funcionalidades da plataforma. Você deve confirmar quais protocolos de leitor e gravador e recursos de tabela seu cliente suporta. Ver delta.io.
Aceder a tabelas com clientes Iceberg
O Azure Databricks fornece aos clientes Iceberg suporte para leitura, escrita e criação de tabelas registadas no Unity Catalog. Os clientes suportados incluem Apache Spark, Apache Flink, Trino e Snowflake. Consulte Aceda a tabelas do Azure Databricks a partir de clientes Apache Iceberg.
Compartilhar tabelas somente leitura entre domínios
Você pode usar o Compartilhamento Delta para conceder acesso somente leitura a tabelas Delta gerenciadas ou externas entre domínios e sistemas suportados. Os sistemas de software que suportam leituras de cópia zero de tabelas Delta Sharing incluem SAP, Amperity e Oracle. Veja Partilhar dados e ativos de IA de forma segura.
Observação
Você também pode usar o Compartilhamento Delta para dar acesso somente leitura a clientes ou parceiros. O Delta Sharing também suporta dados partilhados usando o Databricks Marketplace.
Aceder a dados tabulares não-Delta Lake com tabelas externas
As tabelas externas do Unity Catalog suportam muitos formatos diferentes do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos em nuvem especificado por um URI de nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.
O Unity Catalog não regula leituras e escritas realizadas diretamente em armazenamento de objetos na cloud a partir de sistemas externos, pelo que deve configurar políticas e credenciais adicionais na sua conta cloud para garantir que as políticas de governação de dados são respeitadas fora do Azure Databricks.
Ler e gravar em tabelas externas de vários sistemas pode levar a problemas de consistência e corrupção de dados porque nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.
Unity Catalog pode não detectar novas partições gravadas em tabelas externas suportadas por formatos distintos do Delta Lake. O Databricks recomenda a execução regular de MSCK REPAIR TABLE table_name para garantir que o Unity Catalog tenha registrado todos os arquivos de dados gravados por sistemas externos.
Acessar dados não tabulares com volumes externos
O Databricks recomenda o uso de volumes externos para armazenar ficheiros de dados não tabulares que são lidos ou escritos por sistemas externos, além do Azure Databricks. Consulte Quais são os volumes do Catálogo Unity?.
O Unity Catalog não regula leituras e escritas realizadas diretamente em armazenamento de objetos na cloud a partir de sistemas externos, pelo que deve configurar políticas e credenciais adicionais na sua conta cloud para garantir que as políticas de governação de dados são respeitadas fora do Azure Databricks.
Volumes fornece APIs, SDKs e outras ferramentas para obter arquivos e colocá-los em volumes. Consulte Trabalhar com arquivos em volumes do Catálogo Unity.
Observação
O Delta Sharing permite partilhar volumes com outras contas do Azure Databricks, mas não se integra com sistemas externos.