Conectar-se a fontes de dados e serviços externos

Esta página fornece recomendações para administradores e utilizadores avançados que configuram ligações entre o Azure Databricks e fontes e serviços de dados externos.

Pode ligar a sua conta Azure Databricks a fontes de dados como armazenamento de objetos na cloud, sistemas de gestão de bases de dados relacionais, serviços de streaming de dados e plataformas empresariais como CRMs. Também pode ligar a sua conta Azure Databricks a serviços externos que não são armazenamento.

Configurar conexões com o armazenamento de objetos

A maior parte dos dados usados por cargas de trabalho do Azure Databricks é armazenada em armazenamento de objetos na cloud, como o Azure Data Lake Storage ou o AWS S3. Você pode gerenciar o acesso ao armazenamento de objetos na nuvem usando uma das seguintes opções:

Ligações do Catálogo Unity

Uma ligação ao Unity Catalog é um objeto seguro que armazena o endpoint e as credenciais necessárias para aceder a um sistema externo. As ligações fornecem uma forma governada de gerir autenticação e configuração para sistemas de dados externos, incluindo federação, ingesta gerida, JDBC e HTTP. Para uma visão geral de todos os tipos de ligações e como escolher entre elas, consulte ligações do Catálogo Unity.

Configurar conexões com sistemas de dados externos

O Databricks oferece várias opções para configurar conexões com sistemas de dados externos. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Option Description
Conectores de federação de consulta A Lakehouse Federation fornece acesso somente leitura a dados em sistemas de dados corporativos. A federação de consultas usa conexões JDBC seguras para federar a sistemas de dados externos, como PostgreSQL e MySQL. A federação de catálogos conecta catálogos externos, como um Hive Metastore ou o Snowflake Horizon Catalog, para consultar dados diretamente no armazenamento de arquivos.
Conectores de ingestão gerenciados O Lakeflow Connect permite que os usuários administradores criem uma conexão e um pipeline de ingestão gerenciado ao mesmo tempo na interface do usuário de ingestão de dados. Consulte Conectores gerenciados no Lakeflow Connect.
Se os utilizadores que irão criar pipelines forem utilizadores não administradores ou planearem usar APIs Databricks, SDKs Databricks, a CLI Databricks ou Pacotes de Automação Declarativa, um administrador deve primeiro criar a ligação no Explorador de Catálogos. Essas interfaces exigem que os usuários especifiquem uma conexão existente quando criam um pipeline. Consulte Conectar-se a fontes de ingestão gerenciadas.
Conectores de streaming O Azure Databricks fornece conectores otimizados para muitos sistemas de dados em streaming.
Para todas as fontes de dados em streaming, deve gerar credenciais que proporcionem acesso e carregar essas credenciais no Azure Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.
Todos os conectores de dados para fontes de streaming oferecem suporte à passagem de credenciais usando opções quando você define consultas de streaming. Consulte Conectores padrão no Lakeflow Connect.
Integrações de terceiros Use ferramentas de terceiros para se conectar a fontes de dados externas e automatizar a ingestão de dados para o lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse a partir de sistemas externos. Consulte O que é o Databricks Partner Connect?.
Drivers O Azure Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Ligar a sistemas externos.
Para federação de consultas somente leitura, a Lakehouse Federation é sempre preferida em relação a esses drivers.
JDBC Ligue-se a bases de dados externas usando JDBC com uma ligação ao Unity Catalog para acesso governado, isolamento de credenciais e suporte de computação cruzada. Ver ligação JDBC.
Para configurações JDBC legadas sem governação do Unity Catalog, veja Query databases using JDBC.
Para federação de consultas de leitura apenas, a Lakehouse Federation é sempre preferida.

Configurar conexões com serviços externos

O Unity Catalog controla o acesso a serviços que não são de armazenamento usando um objeto protegível chamado credencial de serviço. Uma credencial de serviço encapsula uma credencial cloud de longo prazo que fornece acesso a um serviço externo ao qual os utilizadores precisam de se ligar a partir do Azure Databricks. Consulte Ligar-se a serviços externos de nuvem usando o Catálogo Unity

Gerenciar e solicitar acesso a fontes de dados e serviços externos

A maioria dos métodos de ligação requer privilégios elevados tanto na fonte ou serviço de dados externo como no espaço de trabalho do Azure Databricks. Em organizações típicas, poucos utilizadores têm privilégios suficientes, seja no Azure Databricks ou em fornecedores externos de dados e armazenamento, para configurarem as ligações de dados por si próprios.

Sua organização pode já ter configurado o acesso a uma fonte de dados ou serviço usando um dos padrões descritos nos artigos vinculados a partir desta página. Se sua organização tem um processo bem definido para solicitar acesso a dados e serviços de terceiros, a Databricks recomenda seguir esse processo. Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudar:

  1. Use o Gerenciador de Catálogos para exibir as tabelas e volumes que você pode acessar. Consulte O que é o Catalog Explorer?.
  2. Pergunte aos seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.
    • A maioria das organizações utiliza grupos sincronizados pelo seu fornecedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerir permissões para os utilizadores do espaço de trabalho. Se outros membros da sua equipe puderem acessar fontes de dados às quais você precisa acessar, peça a um administrador do espaço de trabalho que o adicione ao grupo correto para conceder acesso.
    • Se uma determinada tabela, volume ou fonte de dados tiver sido configurada por um colega de trabalho, essa pessoa deverá ser capaz de conceder acesso aos dados.

Algumas organizações anexam permissões de acesso a dados a clusters de computação específicos e armazéns SQL. Este é um modelo de governança herdado, mas se sua organização o usa e você deseja saber quais fontes de dados estão disponíveis em um recurso de computação específico, entre em contato com o criador de computação listado na guia Computação .