Freigeben über


Inkrementelles Kopieren neuer und geänderter Dateien auf Basis von LastModifiedDate und mithilfe des Tools zum Kopieren von Daten

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

In diesem Tutorial verwenden Sie das Azure-Portal, um eine Datenfabrik zu erstellen. Anschließend verwenden Sie das Tool zum Kopieren von Daten, um eine Pipeline zu erstellen, die neue und geänderte Dateien inkrementell von einem in den anderen Azure-Blobspeicher kopiert. Hierbei wird LastModifiedDate verwendet, um die zu kopierenden Dateien zu bestimmen.

Nachdem Sie die hier beschriebenen Schritte ausgeführt haben, überprüft Azure Data Factory alle Dateien im Quellspeicher, wenden Sie den Dateifilter nach LastModifiedDate an, und kopieren Sie in den Zielspeicher nur Dateien, die neu sind oder seit dem letzten Mal aktualisiert wurden. Beachten Sie, dass Data Factory zum Überprüfen einer großen Anzahl von Dateien dennoch sehr viel Zeit benötigt. Die Dateiüberprüfung ist sehr zeitintensiv – selbst dann, wenn die Menge der kopierten Daten verringert wird.

Hinweis

Wenn Sie mit Data Factory noch nicht arbeiten, lesen Sie Introduction in Azure Data Factory.

Dieses Tutorial umfasst folgende Aufgaben:

  • Erstellen einer Data Factory.
  • Verwenden Sie das Werkzeug 'Daten kopieren', um eine Pipeline zu erstellen.
  • Überwachen der Pipeline- und Aktivitätsausführungen.

Voraussetzungen

  • Azure-Abonnement: Wenn Sie kein Azure Abonnement haben, erstellen Sie ein free-Konto bevor Sie beginnen.
  • Azure Storage-Konto: Verwenden Sie Blob Storage für die Quell- und Zieldatenspeicher. Wenn Sie nicht über ein Azure Storage Konto verfügen, folgen Sie den Anweisungen in Create a storage account.

Erstellen von zwei Containern im Blobspeicher

Bereiten Sie Ihren Blobspeicher folgendermaßen für das Tutorial vor:

  1. Erstellen Sie einen Container mit dem Namen source (Quelle). Sie können diese Aufgabe mit verschiedenen Tools wie Azure Storage-Explorer ausführen.

  2. Erstellen Sie einen Container mit dem Namen destination (Ziel).

Erstellen einer Data Factory

  1. Wählen Sie im oberen Menü die Option "Resource>Analytics>Data Factory erstellen" aus:

    Data Factory auswählen

  2. Geben Sie auf der Seite Neue Data Factory unter Name den Namen ADFTutorialDataFactory ein.

    Der Name der Data Factory muss global eindeutig sein. Möglicherweise wird diese Fehlermeldung angezeigt:

    Neue Fehlermeldung der Data Factory wegen doppeltem Namen

    Wenn eine Fehlermeldung zum Namenswert angezeigt wird, geben Sie einen anderen Namen für die Data Factory ein. Verwenden Sie beispielsweise den Namen IhrNameADFTutorialDataFactory. Benennungsregeln für Data Factory-Artefakte finden Sie im Thema Data Factory – Benennungsregeln.

  3. Wählen Sie unter Subscription das Azure-Abonnement aus, in dem Sie die neue Datenfactory erstellen.

  4. Führen Sie unter Ressourcengruppe einen der folgenden Schritte aus:

    • Wählen Sie die Option Vorhandene verwenden und dann in der Liste eine vorhandene Ressourcengruppe aus.

    • Wählen Sie Neu erstellen aus, und geben Sie einen Namen für die Ressourcengruppe ein.

    Weitere Informationen zu Ressourcengruppen finden Sie unter Ressourcengruppen zum Verwalten Ihrer Azure Ressourcen.

  5. Wählen Sie unter Version die Option V2.

  6. Wählen Sie unter Standort den Standort für die Data Factory aus. In der Liste werden nur unterstützte Standorte angezeigt. Die Datenspeicher (z. B. Azure Storage und Azure SQL-Datenbank) und Rechendienste (z. B. Azure HDInsight), die Ihre Datenfabrik verwendet, können sich in anderen Standorten und Regionen befinden.

  7. Klicken Sie auf Erstellen.

  8. Sobald die Data Factory erstellt ist, erscheint die Startseite der Data Factory.

  9. Um die Azure Data Factory Benutzeroberfläche (UI) auf einer separaten Registerkarte zu öffnen, wählen Sie Open im Open Azure Data Factory Studio Kachel aus:

    Startseite für die Azure Data Factory, mit der Kachel

Erstellen Sie eine Pipeline mithilfe des 'Copy Data'-Tools

  1. Wählen Sie auf der Azure Data Factory Startseite die Kachel Ingest aus, um das Tool "Daten kopieren" zu öffnen:

    Screenshot, der die ADF-Startseite zeigt.

  2. Gehen Sie auf der Seite Properties (Eigenschaften) wie folgt vor:

    1. Wählen Sie unter Task type (Aufgabentyp) Built-in copy task (Integrierte Kopieraufgabe) aus.

    2. Wählen Sie unter Task cadence or task schedule (Aufgabenhäufigkeit oder Aufgabenzeitplan) Tumbling window (Rollierendes Fenster) aus.

    3. Geben Sie unter Wiederholung den Wert 15 Minuten ein.

    4. Wählen Sie Weiter aus.

    Bereich „Eigenschaften“ von „Daten kopieren“

  3. Führen Sie auf der Seite Quelldatenspeicher die folgenden Schritte aus:

    1. Wählen Sie + Neue Verbindung aus, um eine Verbindung hinzuzufügen.

    2. Wählen Sie im Katalog Azure Blob Storage und dann Continue aus:

      Select Azure Blog Storage

    3. Wählen Sie auf der Seite Neue Verbindung (Azure Blob Storage) Ihr Azure Abonnement aus der Liste Azure-Abonnement und Ihr Speicherkonto aus der Liste Storage-Kontoname aus. Testen Sie die Verbindung, und klicken Sie auf Erstellen.

    4. Wählen Sie im Block Verbindung die neu erstellte Verbindung aus.

    5. Wählen Sie im Abschnitt File or folder (Datei oder Ordner) Browse (Durchsuchen) und wählen sie den Ordner source (Quelle) aus. Wählen Sie anschließend OK.

    6. Wählen Sie unter File loading behavior (Dateiladeverhalten) Incremental load: LastModifiedDate (Inkrementelles Laden: LastModifiedDate) aus und wählen Sie anschließend Binary copy (Binärkopie) aus.

    7. Wählen Sie Weiter aus.

    Screenshot, der die Seite „Quelldatenspeicher“ zeigt

  4. Führen Sie auf der Seite Destination data store (Zieldatenspeicher) die folgenden Schritte aus:

    1. Wählen Sie die AzureBlobStorage-Verbindung aus, die Sie erstellt haben. Dies ist dasselbe Speicherkonto wie der Quelldatenspeicher.

    2. Suchen Sie im Abschnitt Folder path (Ordnerpfad) nach dem Ordner destination (Ziel), wählen Sie ihn aus und klicken Sie anschließend auf OK.

    3. Wählen Sie Weiter aus.

    Screenshot, der die Seite „Zieldatenspeicher“ zeigt.

  5. Geben Sie auf der Seite Einstellungen unter Taskname den Namen DeltaCopyFromBlobPipeline ein, und klicken Sie dann auf Weiter. Über die Data Factory-Benutzeroberfläche wird eine Pipeline mit dem angegebenen Aufgabennamen erstellt.

    Screenshot, der die Seite „Einstellungen“ zeigt.

  6. Überprüfen Sie auf der Seite Zusammenfassung die Einstellungen, und klicken Sie anschließend auf Weiter.

    Seite „Zusammenfassung“

  7. Wählen Sie auf der Seite Bereitstellung die OptionÜberwachen aus, um die Pipeline (Aufgabe) zu überwachen.

    Bereitstellungsseite

  8. Beachten Sie, dass die Registerkarte Überwachen auf der linken Seite automatisch ausgewählt ist. Die Anwendung wechselt zur Registerkarte Überwachen. Dort wird der Status der Pipeline angezeigt. Klicken Sie zum Aktualisieren der Liste auf Aktualisieren. Klicken Sie auf den Link unter Pipelinename, um Details zur Aktivitätsausführung anzuzeigen oder die Pipeline erneut auszuführen.

    Aktualisieren der Liste und Anzeigen von Details zur Aktivitätsausführung

  9. Da die Pipeline nur eine Aktivität (die Kopieraktivität) enthält, wird nur ein Eintrag angezeigt. Wenn Sie Details zum Kopiervorgang anzeigen möchten, wählen Sie auf der Seite Activity runs (Aktivitätsausführungen) den Link Details (das Brillensymbol) aus der Spalte Activity name (Aktivitätsname) aus. Ausführliche Informationen zu den Eigenschaften finden Sie unter Copy-Aktivität Overview.

    Kopieraktivität in der Pipeline

    Da sich im Quellcontainer in Ihrem Blobspeicherkonto keine Datei befindet, wird in Ihrem Blobspeicherkonto keine Datei angezeigt, die in den Zielcontainer kopiert wurde:

    Keine Dateien in Quell- oder Zielcontainer

  10. Erstellen Sie eine leere Textdatei, und nennen Sie sie file1.txt. Laden Sie diese Textdatei in den Quellcontainer in Ihrem Speicherkonto hoch. Sie können verschiedene Tools verwenden, um diese Aufgaben auszuführen, z. B. Azure Storage-Explorer.

    Erstellen von „file1.txt“ und Hochladen in den Quellcontainer

  11. Wenn Sie zur Ansicht Pipelineausführungen zurückkehren möchten, wählen Sie den Link Alle Pipelineausführungen im Breadcrumb-Menü auf der Seite Aktivitätsausführungen aus, und warten Sie, bis dieselbe Pipeline erneut automatisch ausgelöst wird.

  12. Wenn die zweite Pipeline-Ausführung abgeschlossen ist, befolgen Sie die vorher genannten Schritte, um die Details der Aktivitätsausführung zu überprüfen.

    Sie werden sehen, dass eine Datei („file1.txt“) aus dem Quellcontainer in den Zielcontainer Ihres Blobspeicherkontos kopiert wurde:

    Datei „file1.txt“ wurde aus dem Quellcontainer in den Zielcontainer kopiert

  13. Erstellen Sie eine weitere leere Textdatei, und benennen Sie diese file2.txt. Laden Sie diese Textdatei in den Quellcontainer in Ihrem Blobspeicherkonto hoch.

  14. Wiederholen Sie die Schritte 11 und 12 für die zweite Textdatei. Sie werden bemerken, dass nur die neue Datei („file2.txt“) bei der nächsten Pipelineausführung vom Quellcontainer in den Zielcontainer Ihres Speicherkontos kopiert wurde.

    Sie können auch überprüfen, ob nur eine Datei mithilfe von Azure Storage-Explorer kopiert wurde, um die Dateien zu scannen:

    Scandateien mithilfe von Azure Storage-Explorer

Gehen Sie zum folgenden Lernprogramm, um zu erfahren, wie Sie Daten mithilfe eines Apache Spark-Clusters auf Azure transformieren: