Governança de dados com Azure Databricks

A governança de dados é uma estrutura de políticas, processos, funções e controles técnicos que garante que os dados da sua organização sejam seguros, confiáveis e usados de forma responsável durante todo o seu ciclo de vida. A governança de dados eficaz permite manter a qualidade dos dados, proteger informações confidenciais, atender aos requisitos normativos e maximizar o valor de seus ativos de dados.

Os principais componentes da governança de dados incluem:

  • Controle de acesso e segurança: Implementação de permissões refinadas e medidas de segurança para proteger os dados contra acesso não autorizado e, ao mesmo tempo, permitir o uso apropriado.
  • Linhagem e observabilidade de dados: Rastreando fluxos e transformações de dados para entender as origens, dependências e padrões de uso dos dados.
  • Gestão da qualidade dos dados: Garantir que os dados são precisos, completos, consistentes e fiáveis para a tomada de decisões e análises.
  • Gerenciamento de metadados: captura e manutenção de informações sobre ativos de dados para melhorar a capacidade de descoberta e compreensão.
  • Aplicação da conformidade: Atender aos requisitos normativos e às políticas organizacionais de privacidade, retenção e uso de dados.

Esta página foca-se na governação de dados usando o Unity Catalog no Azure Databricks. Os tópicos de segurança relacionados, como autenticação, configuração de rede, criptografia de dados e conformidade de privacidade, são abordados em Visão geral de segurança e conformidade e conformidade.

O modelo de governança de dados do Unity Catalog

O Unity Catalog é um catálogo de dados centralizado que fornece governança para dados estruturados e não estruturados em vários formatos. Ele oferece controle de acesso refinado e governança de ativos de IA, como modelos de aprendizado de máquina. Unity Catalog é de código aberto e suporta várias plataformas. Está profundamente integrado no Azure Databricks.

O Unity Catalog é uma solução completa de governança de dados que fornece o seguinte:

  • Unificação de dados: uma visão unificada de todos os dados e ativos de IA, entre plataformas, reduzindo a duplicação e a expansão.
  • Controle de acesso a dados: ferramentas para garantir que os dados sejam acessíveis, mas apenas para os usuários certos.
  • Descoberta de dados: ferramentas que facilitam a localização dos dados de que você precisa.
  • Qualidade dos dados: ferramentas para garantir que os dados sejam precisos, completos, consistentes e seguros durante todo o seu ciclo de vida.
  • Colaboração e compartilhamento de dados: ferramentas para compartilhar dados com segurança não apenas dentro da sua organização, mas através dos limites organizacionais e da plataforma.
  • Auditoria: ferramentas que capturam quem usa os dados e como.

Esta página explica como a sua organização pode responder a estas necessidades usando o Unity Catalog no Azure Databricks.

Controlo de acesso aos dados

Para garantir que os usuários acessem apenas os dados que deveriam, o Unity Catalog fornece um modelo de privilégio hierárquico que permite conceder aos usuários, grupos e entidades de serviço acesso a dados e ativos de IA desde o nível da conta até as linhas e colunas da tabela. Pode controlar o acesso a ativos que estão armazenados em armazenamento dedicado do Unity Catalog ou noutras plataformas, como armazenamento na cloud ou sistemas de bases de dados: a chave é que o Unity Catalog dá aos seus utilizadores acesso potencial a todos os seus dados, independentemente de onde estejam, dentro do Azure Databricks, e que o Unity Catalog controla o acesso e acompanha o seu uso de dados.

Tarefa Descrição
Gerenciar privilégios Saiba mais sobre os objetos protegíveis que o Unity Catalog gerencia e como controlar o acesso a eles.
Gerenciar controle de acesso baseado em atributos (ABAC) Aprenda a controlar o acesso a dados usando ABAC no Unity Catalog.
Gerenciar identidades Saiba como gerenciar identidades no contexto do Unity Catalog.
Controle de acesso refinado Saiba como controlar o acesso aos dados da tabela usando filtros de linha e máscaras de coluna.
Gerencie o acesso a plataformas externas de armazenamento e dados Saiba como controlar o acesso ao armazenamento em nuvem, plataformas de dados externas e serviços externos que não sejam de dados usando o Unity Catalog.
Gerir o acesso a partir de plataformas externas Saiba como o Unity Catalog pode gerenciar o acesso aos seus dados de plataformas externas que usam o Apache Iceberg ou APIs de código aberto do Unity Catalog.

Capacidade de descoberta de dados

O Azure Databricks e o Unity Catalog fornecem as seguintes ferramentas para ajudar os utilizadores a encontrar os dados de que necessitam:

Característica Descrição
Explorador de Catálogos Navegue e pesquise dados e ativos de IA usando nomes de ativos e metadados, como comentários e tags.
Navegadores de catálogo Encontre dados e ativos de IA usando navegadores integrados ao bloco de anotações e aos editores de consultas SQL. Consulte Navegar no bloco de anotações e editor de arquivos Databricks e Escrever consultas e explorar dados no novo editor SQL.
Comentários gerados por IA Gere automaticamente documentação de dados e ativos de IA para ajudar na descoberta.
Informações sobre a tabela Use uma interface do usuário integrada ao Catalog Explorer para exibir os usuários e consultas mais frequentes de qualquer tabela no Unity Catalog.
Linhagem de dados Capture e visualize a forma como os dados fluem através da sua organização.
Para linhagem de funcionalidades e modelos, consulte Governança e linhagem de funcionalidades.
Diagramas de relacionamento de entidade (ERD) Exibir relações para tabelas que têm chaves estrangeiras definidas.

Consulte também Descobrir dados.

Monitorização da qualidade dos dados

As ferramentas para garantir a qualidade e integridade dos dados estão profundamente integradas no Delta Lake, Apache Spark e Azure Databricks. Pode aprender sobre eles através da documentação do Azure Databricks.

O Unity Catalog adiciona o seguinte:

Característica Descrição
Monitorização da qualidade dos dados O monitoramento da qualidade dos dados ajuda a garantir a qualidade de todos os seus ativos de dados no Unity Catalog. Ele inclui deteção de anomalias para monitorar a qualidade dos dados de todas as tabelas em um catálogo ou esquema e perfil de dados para monitorar as propriedades estatísticas e a qualidade dos dados de uma tabela individual.
Tags de sistema certificadas e obsoletas (Visualização privada) Rotule objetos protegíveis, como catálogos, esquemas e tabelas, com indicadores de qualidade de dados ou status do ciclo de vida. Essas tags de sistema ajudam as organizações a reforçar a governança, melhorar a capacidade de descoberta de dados e aumentar a confiança em aplicativos de análise e IA.

Colaboração e partilha de dados

O Unity Catalog permite que seus usuários colaborem nos mesmos dados em todos os espaços de trabalho da sua conta na mesma região. Quando você precisa de colaboração entre regiões de espaço de trabalho, entre organizações e entre plataformas, o Unity Catalog fornece a base para as seguintes ferramentas de compartilhamento.

Característica Descrição
Compartilhamento Delta Uma plataforma segura de partilha de dados que lhe permite partilhar dados e ativos de IA no Azure Databricks com utilizadores fora da sua organização, independentemente de esses utilizadores usarem Databricks ou não.
Salas Limpas Um ambiente gerenciado por Databricks onde vários participantes em plataformas Databricks e não-Databricks podem colaborar em projetos sem compartilhar dados subjacentes uns com os outros.
Mercado Databricks Um fórum aberto para o intercâmbio de dados e produtos de IA. Proporciona igualmente um intercâmbio privado de dados.

Auditoria

Os logs de auditoria capturam detalhes refinados sobre quem acessou um determinado conjunto de dados e as ações executadas. O Unity Catalog adiciona tabelas do sistema, a maneira mais fácil de acessar e consultar os logs de auditoria da sua conta.

Veja Referência do Registo de Diagnóstico e Referência das Tabelas do Sistema.

Ferramentas de gestão de dados do legado do Azure Databricks

O Azure Databricks também fornece estas funcionalidades legadas de governação. O Databricks recomenda que você use o Unity Catalog em vez disso.

Característica Descrição
Controle de acesso a tabelas Um modelo de governança de dados herdado que permite conceder e revogar programaticamente o acesso a objetos gerenciados pelo metastore Hive interno do seu espaço de trabalho.
Transmissão de credenciais do Azure Data Lake Storage Uma funcionalidade legada de governação de dados que permite autenticar-se automaticamente no Azure Storage a partir de clusters do Azure Databricks, usando a mesma identidade do Microsoft Entra ID que utiliza para iniciar sessão no Azure Databricks.

Próximos passos