Inkrementelles Kopieren neuer Dateien basierend auf dem zeitpartitionierten Dateinamen und mithilfe des Tools „Daten kopieren“

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

In diesem Lernprogramm verwenden Sie das Azure-Portal, um eine Datenfactory zu erstellen. Anschließend verwenden Sie das Tool „Daten kopieren“, um eine Pipeline zu erstellen, die neue Dateien basierend auf dem zeitpartitionierten Dateinamen aus einem Azure-Blobspeicher in einen anderen kopiert.

Hinweis

Wenn Sie neu bei Azure Data Factory sind, lesen Sie Einführung in Azure Data Factory.

In diesem Tutorial führen Sie die folgenden Schritte aus:

Erstellen einer Data Factory.
Erstellen einer Pipeline mithilfe des Tools zum Kopieren von Daten
Überwachen der Pipeline- und Aktivitätsausführungen.

Voraussetzungen

Azure-Abonnement: Wenn Sie kein Azure Abonnement haben, erstellen Sie ein free-Konto bevor Sie beginnen.
Azure Speicherkonto: Blob-Speicher als source und sink Datenspeicher verwenden. Wenn Sie nicht über ein Azure Speicherkonto verfügen, lesen Sie die Anweisungen in Create a storage account.

Erstellen von zwei Containern im Blobspeicher

Bereiten Sie Ihren Blobspeicher folgendermaßen auf das Tutorial vor.

Erstellen Sie einen Container mit dem Namen source (Quelle). Erstellen Sie in Ihrem Container den Ordnerpfad 2021/07/15/06. Erstellen Sie eine leere Textdatei, und nennen Sie sie file1.txt. Laden Sie die Datei „file1.txt“ in den Ordnerpfad source/2021/07/15/06 in Ihrem Speicherkonto hoch. Sie können verschiedene Tools verwenden, um diese Aufgaben auszuführen, z. B. Azure Storage-Explorer.

Hinweis

Passen Sie den Ordnernamen an Ihre UTC-Zeit an. Wenn die aktuelle UTC-Zeit beispielsweise „15. Juli 2021, 06:10 Uhr“ lautet, können Sie gemäß dem Format source/{Jahr}/{Monat}/{Tag}/{Stunde}/ den Ordnerpfad source/2021/07/15/06/ erstellen.
Erstellen Sie einen Container mit dem Namen destination (Ziel). Sie können verschiedene Tools verwenden, um diese Aufgaben auszuführen, z. B. Azure Storage-Explorer.

Erstellen einer Data Factory

Wählen Sie im oberen Menü die Option "Resource>Analytics>Data Factory erstellen" aus:
Geben Sie auf der Seite Neue Data Factory unter Name den Namen ADFTutorialDataFactory ein.

Der Name der Data Factory muss global eindeutig sein. Sie erhalten unter Umständen die folgende Fehlermeldung:

Wenn eine Fehlermeldung zum Namenswert angezeigt wird, geben Sie einen anderen Namen für die Data Factory ein. Verwenden Sie beispielsweise den Namen IhrNameADFTutorialDataFactory. Benennungsregeln für Data Factory-Artefakte finden Sie im Thema Data Factory – Benennungsregeln.
Wählen Sie das Azure-Abonnement aus, in dem die neue Datenfactory erstellt werden soll.
Führen Sie unter Ressourcengruppe einen der folgenden Schritte aus:

a) Wählen Sie die Option Use existing(Vorhandene verwenden) und dann in der Dropdownliste eine vorhandene Ressourcengruppe.

b. Wählen Sie Neu erstellen, und geben Sie den Namen einer Ressourcengruppe ein.

Weitere Informationen zu Ressourcengruppen finden Sie unter Ressourcengruppen zum Verwalten Ihrer Azure Ressourcen.
Wählen Sie unter Version die Option V2.
Wählen Sie unter Standort den Standort für die Data Factory aus. In der Dropdownliste werden nur unterstützte Standorte angezeigt. Die Datenspeicher (z. B. Azure Storage und SQL-Datenbank) und Berechnungen (z. B. Azure HDInsight), die von Ihrer Datenfactory verwendet werden, können sich an anderen Speicherorten und Regionen befinden.
Klicken Sie auf Erstellen.
Nach Abschluss der Erstellung wird die Startseite von Data Factory angezeigt.
Um die Azure Data Factory Benutzeroberfläche (UI) auf einer separaten Registerkarte zu starten, wählen Sie Open auf der Kachel Open Azure Data Factory Studio aus.

Erstellen einer Pipeline mithilfe des Tools zum Kopieren von Daten

Wählen Sie auf der Azure Data Factory Startseite den Titel Ingest aus, um das Tool "Daten kopieren" zu starten.
Gehen Sie auf der Seite Properties (Eigenschaften) wie folgt vor:
1. Wählen Sie unter Task type (Aufgabentyp) Built-in copy task (Integrierte Kopieraufgabe) aus.
2. Wählen Sie unter Task cadence or task schedule (Aufgabenhäufigkeit oder Aufgabenzeitplan) Tumbling window (Rollierendes Fenster) aus.
3. Geben Sie unter Recurrence (Wiederholung) 1 Hour(s) (1 Stunde[n]) ein.
4. Wählen Sie Weiter aus.
Führen Sie auf der Seite Quelldatenspeicher die folgenden Schritte aus:

a) Wählen Sie + New connection (Neue Verbindung) aus, um eine Verbindung hinzuzufügen.

b. Wählen Sie im Katalog Azure Blob Storage und dann Continue aus.

c. Geben Sie auf der Seite Neue Verbindung (Azure Blob Storage) einen Namen für die Verbindung ein. Wählen Sie Ihr Azure-Abonnement und dann Ihr Speicherkonto aus der Liste Storage-Kontoname aus. Testen Sie die Verbindung, und wählen Sie Fertig stellen aus.

d. Wählen Sie auf der Seite Source data store (Quelldatenspeicher) die neu erstellte Verbindung in dem Abschnitt Verbindung aus.

e. Suchen Sie im Abschnitt File or folder (Datei oder Ordner) nach dem Container source (Quelle) und wählen Sie ihn aus. Wählen Sie anschließend OK.

f. Wählen Sie unter File loading behavior (Dateiladeverhalten) die Option Incremental load: time-partitioned folder/file names (Inkrementell laden: zeitpartionierter Ordner/Dateinamen).

g. Schreiben Sie den dynamischen Ordnerpfad im Format source/{Jahr}/{Monat}/{Tag}/{Stunde}/, und ändern Sie das Format wie im folgenden Screenshot.

h. Aktivieren Sie das Kontrollkästchen Binary copy (Binärkopie), und wählen Sie Next (Weiter) aus.
Führen Sie auf der Seite Zieldatenspeicher die folgenden Schritte aus:
1. Wählen Sie AzureBlobStorage aus, bei dem es sich um das gleiche Speicherkonto wie im Datenquellspeicher handelt.
2. Suchen Sie nach dem Ordner destination (Ziel), wählen Sie diesen aus, und wählen Sie anschließend OK.
3. Schreiben Sie den dynamischen Ordnerpfad im Format destination/{Jahr}/{Monat}/{Tag}/{Stunde}/, und ändern Sie das Format wie im folgenden Screenshot.
4. Wählen Sie Weiter aus.
Geben Sie auf der Seite Settings (Einstellungen) unter Taskname den Namen DeltaCopyFromBlobPipeline ein, und klicken Sie dann auf Weiter. Über die Data Factory-Benutzeroberfläche wird eine Pipeline mit dem angegebenen Tasknamen erstellt.
Überprüfen Sie auf der Seite Zusammenfassung die Einstellungen, und klicken Sie anschließend auf Weiter.
Klicken Sie auf der Seite Bereitstellung auf Überwachen, um die Pipeline (Task) zu überwachen.
Beachten Sie, dass die Registerkarte Überwachen auf der linken Seite automatisch ausgewählt ist. Sie müssen auf die Ausführung der Pipeline warten, wenn sie (etwa nach einer Stunde) automatisch ausgelöst wird. Wählen Sie während der Ausführung den Link auf dem Pipelinenamen DeltaCopyFromBlobPipeline, um Details zur Aktivitätsausführung aufzurufen oder die Pipeline erneut auszuführen. Klicken Sie zum Aktualisieren der Liste auf Aktualisieren.
Da die Pipeline nur eine Aktivität (Copy-Aktivität) enthält, wird nur ein Eintrag angezeigt. Passen Sie die Breite der Spalten Quelle und Ziel bei Bedarf an, um weitere Details anzuzeigen. Ihnen wird angezeigt, dass die Quelldatei (file1.txt) mit demselben Dateinamen von source/2021/07/15/06/ nach destination/2021/07/15/06/ kopiert wurde.

Sie können dasselbe auch mithilfe von Azure Storage-Explorer (https://storageexplorer.com/) überprüfen, um die Dateien zu scannen.
Erstellen Sie eine weitere leere Textdatei, und nennen Sie sie file2.txt. Laden Sie die Datei „file2.txt“ in den Ordnerpfad source/2021/07/15/07 in Ihrem Speicherkonto hoch. Sie können verschiedene Tools verwenden, um diese Aufgaben auszuführen, z. B. Azure Storage-Explorer.

Hinweis

Möglicherweise muss ein neuer Ordnerpfad erstellt werden. Passen Sie den Ordnernamen an Ihre UTC-Zeit an. Wenn zum Beispiel die aktuelle koordinierte Weltzeit (UTC) am 15. Juli 2021 7:30 Uhr lautet, können Sie gemäß dem Format {Jahr}/{Monat}/{Tag}/{Stunde}/ den Ordnerpfad source/2021/07/15/07/ erstellen.
Wählen Sie All Pipelines runs (Alle Pipelineausführungen) aus, und warten Sie, bis die gleiche Pipeline nach einer Stunde wiederholt automatisch ausgelöst wird, um zur Ansicht Pipeline Runs (Pipelineausführungen) zurückzukehren.
Klicken Sie für die zweite Pipelineausführung auf den neuen Link DeltaCopyFromBlobPipeline, wenn es soweit ist, und tun Sie dasselbe, um Details anzuzeigen. Ihnen wird angezeigt, dass die Quelldatei (file2.txt) mit demselben Dateinamen von source/2021/07/15/07/ nach destination/2021/07/15/07/ kopiert wurde. Sie können dasselbe auch mithilfe von Azure Storage-Explorer (https://storageexplorer.com/) überprüfen, um die Dateien im Container destination zu scannen.

Wechseln Sie zum folgenden Lernprogramm, um mehr über das Transformieren von Daten mithilfe eines Spark-Clusters auf Azure zu erfahren:

Transform data using Spark cluster in cloud (Transformieren von Daten mit Spark-Cluster in der Cloud).

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-07