Freigeben über


Sicheres Kopieren von Daten aus Azure Blob-Speicher in eine SQL-Datenbank mithilfe privater Endpunkte

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

In diesem Tutorial erstellen Sie mithilfe der Azure Data Factory Benutzeroberfläche (UI) eine Data Factory. Die Pipeline in dieser Datenfabrik kopiert Daten sicher von Azure Blob Storage in eine Azure SQL-Datenbank, indem private Endpunkte im Azure Data Factory Managed Virtual Network verwendet werden (wobei beide nur den Zugriff auf ausgewählte Netzwerke erlauben). Das Konfigurationsmuster in diesem Tutorial gilt für Kopiervorgänge aus einem dateibasierten Datenspeicher in einen relationalen Datenspeicher. Eine Liste der Datenspeicher, die als Quellen und Senken unterstützt werden, finden Sie in der Tabelle Unterstützte Datenspeicher und Formate. Das Feature für private Endpunkte ist für alle Ebenen von Azure Data Factory verfügbar, sodass keine bestimmte Ebene erforderlich ist, um sie zu nutzen. Weitere Informationen zu Preisen und Tarifen finden Sie auf der Azure Data Factory Preisseite.

Hinweis

Wenn Sie mit Data Factory noch nicht arbeiten, lesen Sie Introduction in Azure Data Factory.

In diesem Tutorial führen Sie die folgenden Schritte aus:

  • Erstellen einer Data Factory.
  • Erstelle eine Pipeline mit einer Kopieraktivität.

Voraussetzungen

  • Azure-Abonnement. Wenn Sie kein Azure-Abonnement haben, erstellen Sie ein free Azure Konto, bevor Sie beginnen.
  • Azure Speicherkonto. Sie verwenden Blob Storage als Quelldatenspeicher. Wenn Sie nicht über ein Speicherkonto verfügen, lesen Sie Erstellen eines Azure-Speicherkontos, um die Schritte zur Erstellung eines solchen Kontos zu erfahren. Stellen Sie sicher, dass das Speicherkonto nur den Zugriff über ausgewählte Netzwerke zulässt.
  • Azure SQL-Datenbank. Sie verwenden die Datenbank als Senkendatenspeicher. Wenn Sie nicht über eine Azure SQL-Datenbank verfügen, lesen Sie Create a SQL database, um Schritte zur Erstellung zu erfahren. Stellen Sie sicher, dass das SQL-Datenbank-Konto nur den Zugriff über ausgewählte Netzwerke zulässt.

Erstellen eines Blobs und einer SQL-Tabelle

Bereiten Sie nun Ihren Blobspeicher und Ihre SQL-Datenbank-Instanz durch Ausführen der folgenden Schritte auf das Tutorial vor.

Erstellen eines Quellblobs

  1. Öffnen Sie Notepad. Kopieren Sie den folgenden Text, und speichern Sie ihn als emp.txt-Datei auf einem Datenträger:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Erstellen Sie in Ihrem Blobspeicher einen Container mit dem Namen adftutorial. Erstellen Sie einen Ordner namens input in diesem Container. Laden Sie anschließend die Datei emp.txt in den Ordner input hoch. Verwenden Sie das Azure Portal oder Tools wie Azure Storage-Explorer, um diese Aufgaben auszuführen.

Erstellen einer SQL-Senkentabelle

Verwenden Sie das folgende SQL-Skript, um die Tabelle dbo.emp in Ihrer SQL-Datenbank zu erstellen:

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO

CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Erstellen einer Data Factory

In diesem Schritt erstellen Sie eine Data Factory und starten die Data Factory-Benutzeroberfläche, um eine Pipeline in der Data Factory zu erstellen.

  1. Öffnen Sie Microsoft Edge oder Google Chrome. Derzeit unterstützen nur Microsoft Edge und Google Chrome-Webbrowser die Data Factory UI.

  2. Klicken Sie im Menü auf der linken Seite auf Ressource erstellen>Analytics>Data Factory.

  3. Geben Sie auf der Seite Neue Data Factory unter Name den Namen ADFTutorialDataFactory ein.

    Der Name der Azure Data Factory muss globally unique sein. Wenn eine Fehlermeldung zum Namenwert angezeigt wird, geben Sie einen anderen Namen für die Datenfabrik ein (z. B. yournameADFTutorialDataFactory). Benennungsregeln für Data Factory-Artefakte finden Sie im Thema Azure Data Factory – Benennungsregeln.

  4. Wählen Sie das Azure Abonnement aus, in dem Sie die Data Factory erstellen möchten.

  5. Führen Sie unter Ressourcengruppe einen der folgenden Schritte aus:

    • Wählen Sie Vorhandene verwenden und dann in der Dropdownliste eine vorhandene Ressourcengruppe aus.
    • Wählen Sie Neu erstellen, und geben Sie den Namen einer Ressourcengruppe ein.

    Weitere Informationen zu Ressourcengruppen finden Sie unter Ressourcengruppen zum Verwalten Ihrer Azure Ressourcen.

  6. Wählen Sie unter Version die Option V2.

  7. Wählen Sie unter Standort einen Standort für die Data Factory aus. In der Dropdownliste werden nur unterstützte Standorte angezeigt. Die Datenspeicher (z. B. Azure Storage und SQL-Datenbank) und Berechnungen (z. B. Azure HDInsight), die von der Datenfactory verwendet werden, können sich in anderen Regionen befinden.

  8. Klicken Sie auf Erstellen.

  9. Nach Abschluss der Erstellung wird der Hinweis im Benachrichtigungscenter angezeigt. Wählen Sie Zu Ressource wechseln aus, um zur Seite Data Factory zu navigieren.

  10. Wählen Sie Öffnen auf der Kachel „Azure Data Factory Studio öffnen“ aus, um die Datenfactory-Benutzeroberfläche in einem separaten Tab zu starten.

Erstellen einer Azure Integrationslaufzeit in von data Factory verwalteten Virtual Network

In diesem Schritt erstellen Sie eine Azure Integration Runtime und aktivieren das verwaltete virtuelle Netzwerk von Data Factory.

  1. Wechseln Sie im Data Factory-Portal zu Manage, und wählen Sie New aus, um eine neue Azure Integrationslaufzeit zu erstellen.

    Screenshot, der das Erstellen einer neuen Azure Integration Runtime zeigt.

  2. Wählen Sie auf der Seite Integration Runtime-Setup basierend auf den erforderlichen Funktionen die Integration Runtime aus, die erstellt werden soll. Wählen Sie in diesem Lernprogramm Azure, Self-Hosted aus, und klicken Sie dann auf Continue.

  3. Wählen Sie Azure aus, und klicken Sie dann auf Continue, um eine Azure Integrationslaufzeit zu erstellen.

    Screenshot mit einer neuen Azure Integration runtime.

  4. Wählen Sie unter Konfiguration des virtuellen Netzwerks (Vorschau) die Option Aktivieren aus.

    Screenshot, der die Aktivierung einer neuen Azure-Integrationslaufzeit zeigt.

  5. Klicken Sie auf Erstellen.

Erstellen einer Pipeline

In diesem Schritt erstellen Sie eine Pipeline mit einer Kopieraktivität im Data Factory. Die Copy-Aktivität kopiert Daten aus Blob Storage in SQL-Datenbank. Im Schnellstarttutorial haben Sie anhand der folgenden Schritte eine Pipeline erstellt:

  1. 1\. Erstellen des verknüpften Diensts
  2. Erstellen von Eingabe- und Ausgabedatasets
  3. Erstellen einer Pipeline.

In diesem Tutorial beginnen Sie mit dem Erstellen einer Pipeline. Verknüpfte Dienste und Datasets erstellen Sie, wenn Sie sie zum Konfigurieren der Pipeline benötigen.

  1. Wählen Sie auf der Startseite die Option Orchestrieren aus.

    Screenshot der Data Factory-Startseite mit hervorgehobener Schaltfläche „Orchestrieren“

  2. Geben Sie im Eigenschaftenbereich der Pipeline als Name der Pipeline CopyPipeline ein.

  3. Erweitern Sie in der Toolbox Aktivitäten die Kategorie Verschieben und transformieren, und ziehen Sie die Aktivität Daten kopieren aus der Toolbox auf die Oberfläche des Pipeline-Designers. Geben Sie CopyFromBlobToSql als Namen ein.

    Screenshot, der die Kopieraktivität zeigt.

Konfigurieren einer Quelle

Tipp

In diesem Tutorial verwenden Sie Kontoschlüssel als Authentifizierungstyp für Ihren Quelldatenspeicher. Sie können bei Bedarf auch andere unterstützte Authentifizierungsmethoden auswählen, z. B. SAS-URI, Dienstprinzipal und Verwaltete Identität. Weitere Informationen finden Sie in den entsprechenden Abschnitten in Copy und Transformieren von Daten in Azure Blob-Speicher mithilfe von Azure Data Factory.

Um geheime Schlüssel für Datenspeicher sicher zu speichern, empfiehlt es sich auch, Azure Key Vault zu verwenden. Weitere Informationen und Abbildungen finden Sie unter Anmeldeinformationen in Azure Key Vault speichern.

Erstellen eines Quelldataset und eines verknüpften Diensts

  1. Wechseln Sie zur Registerkarte Quelle. Klicken Sie auf + Neu, um ein Quelldataset zu erstellen.

  2. Wählen Sie im Dialogfeld Neues DatasetAzure Blob Storage und dann Continue aus. Die Quelldaten werden im Blob-Speicher gespeichert, sodass Sie Azure Blob Storage für das Quelldatenset auswählen.

  3. Wählen Sie im Dialogfeld Format auswählen den Formattyp Ihrer Daten und dann Weiter aus.

  4. Geben Sie im Dialogfeld Eigenschaften definierenSourceBlobDataset für Name ein. Aktivieren Sie das Kontrollkästchen Erste Zeile als Kopfzeile. Klicken Sie unter dem Textfeld Verknüpfter Dienst auf + Neu.

  5. Im Dialogfeld Neuer verknüpfter Dienst (Azure Blob Storage) geben Sie AzureStorageLinkedService als Name ein, und wählen Sie Ihr Speicherkonto aus der Liste Storage-Kontoname aus.

  6. Aktivieren Sie unbedingt Interaktive Erstellung. Die Aktivierung kann ungefähr eine Minute dauern.

    Screenshot, der eine interaktive Erstellung zeigt.

  7. Klicken Sie auf Verbindung testen. Dabei tritt ein Fehler auf, wenn das Speicherkonto ausschließlich Zugriff über Ausgewählte Netzwerke zulässt und Data Factory zur Erstellung eines privaten Endpunkts erforderlich ist, der vor der Verwendung genehmigt werden muss. In der Fehlermeldung sollte ein Link zum Erstellen eines privaten Endpunkts angezeigt werden, dem Sie folgen können, um einen verwalteten privaten Endpunkt zu erstellen. Alternativ dazu können Sie direkt zur Registerkarte Verwalten navigieren und die Anweisungen im nächsten Abschnitt befolgen, um einen verwalteten privaten Endpunkt zu erstellen.

    Hinweis

    Die Registerkarte Verwalten ist möglicherweise nicht für alle Data Factory-Instanzen verfügbar. Wenn Sie diese Option nicht sehen, können Sie auf private Endpunkte zugreifen, indem Sie Autor>Verbindungen>Privater Endpunkt auswählen.

  8. Lassen Sie das Dialogfeld geöffnet, und navigieren Sie dann zu dem Speicherkonto, das Sie oben ausgewählt haben.

  9. Befolgen Sie die Anweisungen in diesem Abschnitt, um die private Verbindung zu genehmigen.

  10. Gehen Sie zurück zum Dialogfeld. Wählen Sie erneut Verbindung testen und anschließend Erstellen aus, um den verknüpften Dienst bereitzustellen.

  11. Nach der Erstellung des verknüpften Diensts wird wieder die Seite Eigenschaften festlegen angezeigt. Klicken Sie neben Dateipfad auf Durchsuchen.

  12. Navigieren Sie zum Ordner adftutorial/input, und wählen Sie die Datei emp.txt und dann OK aus.

  13. Klicken Sie auf OK. Die Pipelineseite wird automatisch aufgerufen. Vergewissern Sie sich, dass auf der Registerkarte Quelle die Option SourceBlobDataset ausgewählt ist. Wenn Sie auf dieser Seite eine Vorschau der Daten anzeigen möchten, klicken Sie auf Datenvorschau.

    Screenshot, der das Quelldataset zeigt.

Erstellen eines verwalteten privaten Endpunkts

Wenn Sie beim Testen der Verbindung nicht den Hyperlink ausgewählt haben, folgen Sie dem Pfad. Jetzt müssen Sie einen verwalteten privaten Endpunkt erstellen, den Sie mit dem erstellten verknüpften Dienst verbinden werden.

  1. Wechseln Sie zur Registerkarte Verwalten.

    Hinweis

    Die Registerkarte Verwalten ist möglicherweise nicht für alle Data Factory-Instanzen verfügbar. Wenn Sie diese Option nicht sehen, können Sie auf private Endpunkte zugreifen, indem Sie Autor>Verbindungen>Privater Endpunkt auswählen.

  2. Navigieren Sie zum Abschnitt Verwaltete private Endpunkte.

  3. Wählen Sie unter Verwaltete private Endpunkte die Option + Neu aus.

    Screenshot, der den Button „Verwaltete private Endpunkte Neu“ zeigt.

  4. Wählen Sie die Kachel Azure Blob Storage aus der Liste aus, und wählen Sie Continue aus.

  5. Geben Sie den Namen des von Ihnen erstellten Speicherkontos ein.

  6. Klicken Sie auf Erstellen.

  7. Nach einigen Sekunden sollten Sie sehen, dass für den erstellten Private Link eine Genehmigung erforderlich ist.

  8. Wählen Sie den zuvor erstellten privaten Endpunkt aus. Ein Link wird angezeigt, über den Sie den privaten Endpunkt auf Speicherkontoebene genehmigen können.

    Screenshot, der den Bereich „Verwalteter privater Endpunkt“ zeigt.

  1. Navigieren Sie im Speicherkonto im Abschnitt Einstellungen zu Verbindungen mit privatem Endpunkt.

  2. Aktivieren Sie das Kontrollkästchen für den privaten Endpunkt, den Sie oben erstellt haben, und wählen Sie Genehmigen aus.

    Screenshot, der die Schaltfläche „Genehmigen“ für den privaten Endpunkt zeigt.

  3. Fügen Sie eine Beschreibung hinzu, und wählen Sie Ja aus.

  4. Gehen Sie zurück zum Abschnitt Verwaltete private Endpunkte der Registerkarte Verwalten in Data Factory.

  5. Nach ungefähr ein oder zwei Minuten sollte die Genehmigung Ihres privaten Endpunkts in der Data Factory-Benutzeroberfläche angezeigt werden.

Senke konfigurieren

Tipp

In diesem Tutorial verwenden Sie SQL-Authentifizierung als Typ der Authentifizierung für Ihren Ziel-Datenspeicher. Sie können bei Bedarf auch andere unterstützte Authentifizierungsmethoden auswählen, z. B. Dienstprinzipal und Verwaltete Identität. Weitere Informationen finden Sie in den entsprechenden Abschnitten in Copy und Transformieren von Daten in Azure SQL-Datenbank mithilfe von Azure Data Factory.

Um geheime Schlüssel für Datenspeicher sicher zu speichern, empfiehlt es sich auch, Azure Key Vault zu verwenden. Weitere Informationen und Abbildungen finden Sie unter Anmeldeinformationen in Azure Key Vault speichern.

Erstellen eines Senkendatasets und eines verknüpften Diensts

  1. Wechseln Sie zur Registerkarte Senke, und klicken Sie auf + Neu, um ein Senkendataset zu erstellen.

  2. Geben Sie im Dialogfeld Neues DatasetSQL in das Suchfeld ein, um die Connectors zu filtern. Wählen Sie Azure SQL-Datenbank und dann Continue aus. In diesem Tutorial kopieren Sie Daten in eine SQL-Datenbank.

  3. Geben Sie im Dialogfeld Eigenschaften festlegen für NameOutputSqlDataset ein. Wählen Sie in der Dropdownliste Verknüpfter Dienst die Option + Neu aus. Ein Dataset muss mit einem verknüpften Dienst verbunden sein. Der verknüpfte Dienst hat die Verbindungszeichenfolge, die Data Factory zur Laufzeit zum Herstellen einer Verbindung mit der SQL-Datenbank verwendet. Das Dataset gibt den Container, den Ordner und (optional) die Datei an, in die die Quelldaten kopiert werden.

  4. Führen Sie im Dialogfeld Neuer verknüpfter Dienst (Azure SQL-Datenbank) die folgenden Schritte aus:

    1. Geben Sie unter Name den Namen AzureSqlDatabaseLinkedService ein.
    2. Wählen Sie unter Servername Ihre SQL Server Instanz aus.
    3. Aktivieren Sie unbedingt Interaktive Erstellung.
    4. Wählen Sie unter Datenbankname Ihre SQL-Datenbank aus.
    5. Geben Sie unter Benutzername den Namen des Benutzers ein.
    6. Geben Sie unter Kennwort das Kennwort für den Benutzer ein.
    7. Klicken Sie auf Verbindung testen. Es sollte fehlschlagen, weil der SQL-Server nur Zugriff von Ausgewählten Netzwerken erlaubt und Data Factory einen privaten Endpunkt dafür erstellen muss, der vor Gebrauch genehmigt werden sollte. In der Fehlermeldung sollte ein Link zum Erstellen eines privaten Endpunkts angezeigt werden, dem Sie folgen können, um einen verwalteten privaten Endpunkt zu erstellen. Alternativ dazu können Sie direkt zur Registerkarte Verwalten navigieren und die Anweisungen im nächsten Abschnitt befolgen, um einen verwalteten privaten Endpunkt zu erstellen.
    8. Lassen Sie das Dialogfeld geöffnet, und navigieren Sie dann zur ausgewählten SQL Server-Instanz.
    9. Befolgen Sie die Anweisungen in diesem Abschnitt, um die private Verbindung zu genehmigen.
    10. Gehen Sie zurück zum Dialogfeld. Wählen Sie erneut Verbindung testen und anschließend Erstellen aus, um den verknüpften Dienst bereitzustellen.
  5. Das Dialogfeld Eigenschaften festlegen wird automatisch geöffnet. Wählen Sie unter Tabelle die Option [dbo].[emp] aus. Klicken Sie anschließend auf OK.

  6. Wechseln Sie zur Registerkarte mit der Pipeline, und überprüfen Sie, ob für Senkendataset die Option OutputSqlDataset ausgewählt ist.

    Screenshot, der die Pipeline-Registerkarte zeigt.

Optional können Sie das Schema der Quelle dem entsprechenden Zielschema zuordnen. Befolgen Sie dazu die Anweisungen unter Schemazuordnung in Kopieraktivität.

Erstellen eines verwalteten privaten Endpunkts

Wenn Sie beim Testen der Verbindung nicht den Hyperlink ausgewählt haben, folgen Sie dem Pfad. Jetzt müssen Sie einen verwalteten privaten Endpunkt erstellen, den Sie mit dem erstellten verknüpften Dienst verbinden werden.

  1. Wechseln Sie zur Registerkarte Verwalten.

  2. Navigieren Sie zum Abschnitt Verwaltete private Endpunkte.

  3. Wählen Sie unter Verwaltete private Endpunkte die Option + Neu aus.

    Screenshot, der den Button „Verwaltete private Endpunkte Neu“ zeigt.

  4. Wählen Sie in der Liste die Kachel Azure SQL-Datenbank aus, und wählen Sie Continue aus.

  5. Geben Sie den Namen der ausgewählten SQL Server-Instanz ein.

  6. Klicken Sie auf Erstellen.

  7. Nach einigen Sekunden sollten Sie sehen, dass für den erstellten Private Link eine Genehmigung erforderlich ist.

  8. Wählen Sie den zuvor erstellten privaten Endpunkt aus. Es wird ein Hyperlink angezeigt, über den Sie den privaten Endpunkt auf der SQL Server-Ebene genehmigen können.

  1. Navigieren Sie in der SQL Server-Instanz im Abschnitt Einstellungen zu Verbindungen mit privatem Endpunkt.
  2. Aktivieren Sie das Kontrollkästchen für den privaten Endpunkt, den Sie oben erstellt haben, und wählen Sie Genehmigen aus.
  3. Fügen Sie eine Beschreibung hinzu, und wählen Sie Ja aus.
  4. Gehen Sie zurück zum Abschnitt Verwaltete private Endpunkte der Registerkarte Verwalten in Data Factory.
  5. Es sollte ein oder zwei Minuten dauern, bis die Genehmigung für Ihren privaten Endpunkt angezeigt wird.

Debuggen und Veröffentlichen der Pipeline

Sie können eine Pipeline debuggen, bevor Sie Artefakte (verknüpfte Dienste, Datasets und Pipeline) in Data Factory oder Ihr eigenes Azure Repos Git-Repository veröffentlichen.

  1. Klicken Sie auf der Symbolleiste auf Debuggen, um die Pipeline zu debuggen. Der Status der Pipelineausführung wird unten im Fenster auf der Registerkarte Ausgabe angezeigt.
  2. Sobald die Pipeline erfolgreich ausgeführt werden kann, wählen Sie in der oberen Symbolleiste Alle veröffentlichen aus. Mit dieser Aktion werden erstellte Entitäten (Datasets und Pipelines) in Data Factory veröffentlicht.
  3. Warten Sie, bis die Meldung Erfolgreich veröffentlicht angezeigt wird. Um Benachrichtigungsmeldungen anzuzeigen, wählen Sie in der oberen rechten Ecke Benachrichtigungen anzeigen (Glockenschaltfläche) aus.

Zusammenfassung

Die Pipeline in diesem Beispiel kopiert Daten aus dem Blob-Speicher in die SQL-Datenbank, indem private Endpunkte im von Data Factory verwalteten virtuellen Netzwerk verwendet werden. Sie haben Folgendes gelernt:

  • Erstellen einer Data Factory.
  • Erstelle eine Pipeline mit einer Kopieraktivität.