Freigeben über


Zugreifen auf Datenbricks-Daten mithilfe externer Systeme

Auf dieser Seite finden Sie eine Übersicht über Funktionen und Empfehlungen zur Verwaltung und Steuerung von Daten, die von Azure Databricks für externe Systeme verfügbar gemacht werden.

Diese Muster konzentrieren sich auf Szenarien, in denen Ihre Organisation vertrauenswürdige Tools oder Systeme in Azure Databricks Daten integrieren muss. Wenn Sie nach Anleitungen zum Freigeben von Daten außerhalb Ihrer Organisation suchen, lesen Sie "Sicheres Freigeben von Daten und KI-Ressourcen".

Welchen externen Zugriff unterstützt Azure Databricks?

Azure Databricks empfiehlt die Verwendung des Unity-Katalogs, um alle Ihre Datenressourcen zu steuern. Unity Catalog bietet Integrationen in Delta Lake-Clients mithilfe der Unity-REST-API und Apache Iceberg-Clients mithilfe des Iceberg REST-Katalogs. Eine vollständige Liste der unterstützten Integrationen finden Sie unter Unity Catalog-Integrationen.

Die folgende Tabelle enthält eine Übersicht über Unterstützungsformate und Zugriffsmuster für Unity Catalog-Objekte.

Unity Catalog-Objekt Unterstützte Formate Zugriffsmuster
Verwaltete Tabellen Delta Lake, Iceberg Unity-REST-API, Iceberg-REST-Katalog, Delta-Freigabe
Externe Tabellen Deltasee Unity-REST-API, Iceberg-REST-Katalog, Delta-Freigabe, Cloud-URIs
Externe Tabellen CSV, JSON, Avro, Parkett, ORC, Text Unity-REST-API, Cloud-URIs
Externe Speichermedien Alle Datentypen Cloud-URIs
Fremdtabellen* Delta Lake, Iceberg Unity-REST-API, Iceberg REST-Katalog (Vorschau), Delta-Freigabe
Fremdtabellen* CSV, JSON, Avro, Parkett, ORC, Text Unity-REST-API, Cloud-URIs

* Nur Fremdtabellen, die mithilfe des Katalogverbunds verbunden sind, werden unterstützt. Um frische Lesezugriffe von externen Engines auf Fremdtabellen sicherzustellen, können Kunden Metadaten regelmäßig mithilfe von Lakeflow-Aufträgen auffrischen.

Weitere Informationen zu diesen Unity-Katalogobjekten finden Sie in den folgenden Themen:

Unity-Katalog – Anmeldeinformationsautomaten

Unity Catalog Credential Vending ermöglicht Benutzern das Konfigurieren externer Clients, um Berechtigungen für Daten zu erben, die von Azure Databricks gesteuert werden. Sowohl Iceberg- als auch Delta-Clients können die Bereitstellung von Anmeldeinformationen unterstützen. Weitere Informationen finden Sie unter Verkauf von Unity Catalog-Anmeldeinformationen für den Zugriff auf externe Systeme.

Zugriffstabellen mit Delta-Clients

Verwenden Sie die Unity-REST-API, um von unterstützten Delta-Clients verwaltete und externe Tabellen des Unity-Katalogs zu lesen, zu schreiben und zu erstellen, die von Delta Lake unterstützt werden. Siehe Access Databricks-Tabellen von Delta-Clients.

Von Bedeutung

Das Erstellen und das Schreiben in verwaltete Tabellen des Unity-Katalogs durch Delta-Clients ist in der Betaphase.

Bei externen Tabellen steuert Unity Catalog keine Lese- und Schreibvorgänge, die direkt gegen cloudobjektspeicher von externen Systemen ausgeführt werden. Daher müssen Sie zusätzliche Richtlinien und Anmeldeinformationen in Ihrem Cloudkonto konfigurieren, um sicherzustellen, dass Datengovernancerichtlinien außerhalb Azure Databricks beachtet werden.

Hinweis

In der Azure Databricks Dokumentation werden Einschränkungen und Kompatibilitätsüberlegungen basierend auf Databricks-Runtime-Versionen und Plattformfeatures aufgeführt. Sie müssen bestätigen, welche Lese- und Writer-Protokolle und Tabellenfeatures Ihr Client unterstützt. Siehe delta.io.

Zugriff auf Tabellen mit Iceberg-Clients

Azure Databricks bietet Iceberg-Clients Lese-, Schreib- und Erstellungsunterstützung für Tabellen, die im Unity-Katalog registriert sind. Unterstützte Clients sind Apache Spark, Apache Flink, Trino und Snowflake. Siehe Zugriff auf Azure Databricks-Tabellen von Apache Iceberg-Clients.

Freigeben schreibgeschützter Tabellen über Domänen hinweg

Sie können Delta Sharing verwenden, um schreibgeschützten Zugriff auf verwaltete oder externe Delta-Tabellen zwischen Domänen und unterstützten Systemen hinweg zu gewähren. Softwaresysteme, die Nullkopien von Delta Sharing-Tabellen unterstützen, umfassen SAP, Amperity und Oracle. Sehen Sie sich die sicheren Freigaben von Daten und KI-Ressourcen an.

Hinweis

Sie können die Delta-Freigabe auch verwenden, um Kunden oder Partnern schreibgeschützten Zugriff zu gewähren. Delta Sharing sichert auch Daten, die mit dem Databricks Marketplace freigegeben wurden.

Zugreifen auf tabellarische Daten ohne Delta Lake mit externen Tabellen

Externe Tabellen im Unity-Katalog unterstützen viele andere Formate als Delta Lake, einschließlich Parkett, ORC, CSV und JSON. Externe Tabellen speichern alle Datendateien in Verzeichnissen in einem Cloudobjektspeicherort, der von einem Cloud-URI angegeben wird, der während der Tabellenerstellung bereitgestellt wird. Andere Systeme greifen direkt aus dem Cloudobjektspeicher auf diese Datendateien zu.

Unity Catalog steuert keine Lese- und Schreibvorgänge, die direkt gegen cloudobjektspeicher von externen Systemen ausgeführt werden. Daher müssen Sie zusätzliche Richtlinien und Anmeldeinformationen in Ihrem Cloudkonto konfigurieren, um sicherzustellen, dass Datengovernancerichtlinien außerhalb Azure Databricks beachtet werden.

Das Lesen und Schreiben in externe Tabellen aus mehreren Systemen kann zu Konsistenzproblemen und Datenbeschädigungen führen, da keine Transaktionsgarantien für andere Formate als Delta Lake bereitgestellt werden.

Der Unity-Katalog erfasst möglicherweise keine neuen Partitionen, die in externe Tabellen geschrieben wurden, die von anderen Formaten als Delta Lake unterstützt werden. Databricks empfiehlt eine regelmäßige Ausführung MSCK REPAIR TABLE table_name , um sicherzustellen, dass unity Catalog alle Datendateien registriert hat, die von externen Systemen geschrieben wurden.

Zugreifen auf nicht tabellarische Daten mit externen Volumes

Databricks empfiehlt die Verwendung externer Volumes, um nicht tabellarische Datendateien zu speichern, die zusätzlich zu Azure Databricks von externen Systemen gelesen oder geschrieben werden. Weitere Informationen finden Sie unter Was sind Unity Catalog-Volumes?.

Unity Catalog steuert keine Lese- und Schreibvorgänge, die direkt gegen cloudobjektspeicher von externen Systemen ausgeführt werden. Daher müssen Sie zusätzliche Richtlinien und Anmeldeinformationen in Ihrem Cloudkonto konfigurieren, um sicherzustellen, dass Datengovernancerichtlinien außerhalb Azure Databricks beachtet werden.

Volumes stellen APIs, SDKs und andere Tools bereit, um Dateien aus Volumes abzurufen und sie in Volumes abzulegen. Siehe "Arbeiten mit Dateien" in Unity-Katalogvolumes.

Hinweis

Delta Sharing ermöglicht es, Volumes mit anderen Azure Databricks-Konten zu teilen, unterstützt jedoch keine Integration in externe Systeme.