Freigeben über


Copy Data-Tool in Azure Data Factory und Synapse Analytics

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Das Tool „Daten kopieren“ vereinfacht und optimiert den Vorgang der Erfassung von Daten in einem Data Lake. Dies ist normalerweise ein erster Schritt in einem umfassenden Szenario für die Datenintegration. Sie sparen Zeit, insbesondere bei Verwendung des Diensts für die erstmalige Erfassung von Daten aus einer Datenquelle. Die Verwendung dieses Tools ist z.B. mit den folgenden Vorteilen verbunden:

  • Wenn Sie das Tool "Daten kopieren" verwenden, müssen Sie sich nicht mit Dienstdefinitionen für verknüpfte Dienste, Datasets, Pipelines, Aktivitäten und Trigger beschäftigen.
  • Der Fluss des Tools zum Kopieren von Daten ist für das Laden von Daten in einen Data Lake intuitiv. Das Tool erstellt automatisch alle erforderlichen Ressourcen zum Kopieren von Daten aus dem ausgewählten Quelldatenspeicher in den ausgewählten Ziel-/Senkendatenspeicher.
  • Das Tool zum Kopieren von Daten hilft Ihnen dabei, die Daten zu überprüfen, die zum Zeitpunkt der Erstellung des Dokuments erfasst werden, wodurch Sie mögliche Fehler bereits am Anfang vermeiden können.
  • Wenn Sie komplexe Geschäftslogik implementieren müssen, um Daten in einen Data Lake zu laden, können Sie die vom Tool „Daten kopieren“ erstellten Ressourcen mithilfe der Dokumenterstellung pro Aktivität auf der Benutzeroberfläche weiterhin bearbeiten.

In der folgenden Tabelle finden Sie Hinweise dazu, unter welchen Umständen Sie das Tool „Daten kopieren“ bzw. die Dokumenterstellung pro Aktivität auf der Benutzeroberfläche verwenden sollten:

Tool zum Kopieren von Daten Dokumenterstellung pro Aktivität (Kopieraktivität)
Sie möchten einfach einen Datenladetask erstellen, ohne sich mit den Entitäten vertraut zu machen (verknüpfte Dienste, Datasets, Pipelines usw.). Sie möchten komplexe und flexible Logik für das Laden von Daten in den Data Lake implementieren.
Sie möchten schnell eine große Anzahl von Datenartefakten in einen Data Lake laden. Sie möchten die Kopieraktivität mit nachfolgenden Aktivitäten zur Bereinigung oder Verarbeitung von Daten verketten.

Um das Tool "Daten kopieren" zu starten, wählen Sie die Kachel Ingest auf der Startseite der Data Factory oder Synapse Studio UI aus.

Nachdem Sie das Kopierdatentool gestartet haben, werden zwei Arten der Aufgaben angezeigt: eine ist eine integrierte Kopieraufgabe und eine andere ist eine metadatengesteuerte Kopieraufgabe. Die integrierte Kopieraufgabe führt Sie dazu, innerhalb von fünf Minuten eine Pipeline zum Replizieren von Daten zu erstellen, ohne mehr über Entitäten zu erfahren. Die Aufgabe „metadatenbasierte Kopie“ erleichtert Ihnen das Erstellen parametrisierter Pipelines und externer Steuertabellen, um große Mengen von Objekten (z. B. Tausende von Tabellen) im großen Stil zu kopieren. Weitere Einzelheiten erhalten Sie unter metadatenbasiertes Kopieren von Daten.

Intuitiver Fluss zum Laden von Daten in einen Data Lake

Mit diesem Tool können Sie mit einem intuitiven Fluss problemlos Daten in wenigen Minuten aus einer Vielzahl von Quellen an verschiedene Ziele verschieben:

  1. Konfigurieren Sie Einstellungen für die Quelle.

  2. Konfigurieren Sie Einstellungen für das Ziel.

  3. Konfigurieren Sie erweiterte Einstellungen für den Kopiervorgang, z.B. Spaltenzuordnung, Leistungseinstellungen und Fehlertoleranzeinstellungen.

  4. Geben Sie einen Zeitplan für den Datenladetask an.

  5. Überprüfen Sie die Zusammenfassung der zu erstellenden Entitäten.

  6. Bearbeiten Sie die Pipeline, um die Einstellungen für die Kopieraktivität nach Bedarf zu aktualisieren.

    Das Tool wurde von Beginn an für Big Data konzipiert und bietet Unterstützung für verschiedene Daten- und Objekttypen. Sie können es zum Verschieben von Hunderten von Ordnern, Dateien oder Tabellen verwenden. Das Tool unterstützt die automatische Datenvorschau, Schemaerfassung und automatische Zuordnung sowie das Filtern von Daten.

Tool zum Kopieren von Daten

Automatische Datenvorschau

Sie können einen Teil der Daten aus dem ausgewählten Quelldatenspeicher als Vorschau anzeigen. Auf diese Weise können Sie die Daten überprüfen, die kopiert werden. Wenn die Datenquelle eine Textdatei ist, analysiert das Tool zum Kopieren von Daten darüber hinaus diese Datei und erkennt Trennzeichen für Zeilen und Spalten sowie das Schema automatisch.

Dateieinstellungen

Wählen Sie nach der Erkennung Datenvorschau aus:

Erkannte Dateieinstellungen und Vorschau

Schemaerfassung und automatische Zuordnung

Das Schema der Datenquelle ist in vielen Fällen ggf. nicht mit dem Schema des Datenziels identisch. In diesem Szenario müssen die Spalten des Quellschemas den Spalten des Zielschemas zugeordnet werden.

Das Tool zum Kopieren von Daten überwacht und erlernt Ihr Verhalten beim Zuordnen von Spalten zwischen Quell- und Zielspeichern. Nachdem Sie mindestens eine Spalte aus dem Quelldatenspeicher ausgewählt und dem Zielschema zugeordnet haben, beginnt das Tool zum Kopieren von Daten das Muster für Spaltenpaare zu analysieren, die Sie auf beiden Seiten ausgewählt haben. Dann wendet es das gleiche Muster auf den Rest der Spalten an. Daher erkennen Sie bereits nach wenigen Klicks, dass alle Spalten auf die gewünschte Art und Weise dem Ziel zugeordnet wurden. Wenn Sie nicht mit der Auswahl der spaltenzuordnung zufrieden sind, die vom Tool "Daten kopieren" bereitgestellt wird, können Sie sie ignorieren und mit der manuellen Zuordnung der Spalten fortfahren. In der Zwischenzeit erlernt und aktualisiert das Tool zum Kopieren von Daten ständig das Muster und erreicht schließlich das richtige Muster für die gewünschte Spaltenzuordnung.

Hinweis

Beim Kopieren von Daten aus SQL Server oder Azure SQL-Datenbank in Azure Synapse Analytics, wenn die Tabelle nicht im Zielspeicher vorhanden ist, unterstützt das Tool "Daten kopieren" die Automatische Erstellung der Tabelle mithilfe des Quellschemas.

Filtern von Daten

Sie können Quelldaten filtern, wenn nur bestimmte Daten in den Senkendatenspeicher kopiert werden sollen. Durch Filtern wird das Datenvolumen der in den Senkendatenspeicher kopierten Daten verringert. Der Durchsatz des Kopiervorgangs steigt. Das Tool "Daten kopieren" bietet eine flexible Möglichkeit zum Filtern von Daten in einer relationalen Datenbank mithilfe der SQL-Abfragesprache oder dateien in einem Azure BLOB-Ordner.

Filtern von Daten in einer Datenbank

Der folgende Screenshot zeigt eine SQL-Abfrage zum Filtern der Daten.

Filtern von Daten in einer Datenbank

Filtern von Daten in einem Azure BLOB-Ordner

Sie können Variablen im Ordnerpfad verwenden, um Daten aus einem Ordner zu kopieren. Folgende Variablen werden unterstützt: {year} , {month} , {day} , {hour} und {minute} . Beispiel: Eingabeordner/{year}/{month}/{day}.

Angenommen, Sie haben Eingabeordner im folgenden Format:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Wählen Sie die Schaltfläche "Durchsuchen" für "Datei" oder "Ordner", navigieren Sie zu einem dieser Ordner (z. B. 2016-03-01-02>>>), und wählen Sie "Auswählen" aus. Du solltest „2016/03/01/02“ im Textfeld sehen.

Ersetzen Sie nun 2016 durch {year} , 03 durch {month} , 01 durch {day} , 02 durch {hour} , und drücken Sie dann die TAB-TASTE. Wenn Sie Inkrementelles Laden: nach Zeit eingeteilte Ordner-/Dateinamen im Abschnitt Dateiladeverhalten auswählen und Zeitplan oder Rollierendes Fenster auf der Seite Eigenschaften auswählen, sollten Dropdownlisten angezeigt werden, um das Format für diese vier Variablen auszuwählen:

Filtern von Dateien oder Ordnern

Die Tool zum Kopieren von Daten generiert Parameter mit Ausdrücken, Funktionen und Systemvariablen, die verwendet werden können, um {year}, {month}, {day}, {hour} und {minute} beim Erstellen der Pipeline darzustellen.

Planungsoptionen

Sie können den Kopiervorgang einmal oder nach einem Zeitplan (stündlich, täglich usw.) ausführen. Diese Optionen können für die Connectors in verschiedenen Umgebungen verwendet werden, z.B. in lokalen Umgebungen, in der Cloud und auf dem lokalen Desktop.

Ein einmaliger Kopiervorgang ermöglicht nur einmal das Verschieben von Daten aus einer Quelle in ein Ziel. Er gilt für Daten jeder Größe in jedem unterstützten Format. Das geplante Kopieren ermöglicht Ihnen, Daten in einem von Ihnen festgelegten Intervall zu kopieren. Sie können umfangreiche Einstellungen (z. B. Wiederholung, Timeout und Warnungen) verwenden, um die geplante Kopie zu konfigurieren.

Planungsoptionen

Machen Sie sich mit diesen Tutorials vertraut, die das Tool zum Kopieren von Daten verwenden: