Freigeben über


Vorbereiten von Daten mit Datenwrangling

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Das Data-Wrangling in Data Factory ermöglicht es Ihnen, interaktive Power Query Mash-ups nativ in der ADF zu erstellen und diese dann in großem Maßstab innerhalb einer ADF-Pipeline auszuführen.

Erstellen einer Power Query-Aktivität

Es gibt zwei Möglichkeiten zum Erstellen einer Power Query in Azure Data Factory. Eine Möglichkeit besteht darin, auf das Plussymbol zu klicken und Power Query im Bereich "Werksressourcen" auszuwählen.

Screenshot mit Power Query im Bereich

Die andere Möglichkeit befindet sich im Bereich „Aktivitäten“ des Pipeline-Canvas. Öffnen Sie das Accordion-Element Power Query, und ziehen Sie die Power Query-Aktivität auf die Canvas.

Screenshot: Hervorhebung der Option zur Datenaufbereitung.

Erstellen einer Power-Query-Datenaufbereitungsaktivität

Fügen Sie ein Source-Dataset für Ihr Power Query Mash-up hinzu. Wählen Sie entweder ein vorhandenes Dataset aus, oder erstellen Sie ein neues. Nachdem Sie Ihr Mashup gespeichert haben, können Sie dann eine Pipeline erstellen, die Power Query Daten-Wrangling-Aktivität zu Ihrer Pipeline hinzufügen und ein Sink-Dataset auswählen, um ADF mitzuteilen, wo Ihre Daten landen sollen. Sie können zwar ein oder mehrere Quelldatasets auswählen, doch ist derzeit nur eine Senke zulässig. Die Auswahl eines Senkendatasets ist optional, aber es ist mindestens ein Quelldataset erforderlich.

Wrangling

Klicken Sie auf Create, um den Power Query Online-Mashup-Editor zu öffnen.

Zunächst wählen Sie eine Datasetquelle für den Mashup-Editor aus.

Power Query-Quelle.

Nachdem Sie die Erstellung ihrer Power Query abgeschlossen haben, können Sie sie speichern und dann eine Pipeline erstellen. Sie müssen das Mashup als Aktivität Ihrer Pipeline hinzufügen. Dann erstellen/wählen Sie das Senkendataset aus, in das Ihre Daten gelangen sollen. Sie können die Eigenschaften des Senkendatasets auch festlegen, indem Sie auf die zweite Schaltfläche rechts neben dem Senkendataset klicken. Denken Sie daran, die „Partitionsoption“ unter „Optimieren“ in „Einzelne Partition“ zu ändern, wenn Sie nur eine einzelne Ausgabedatei abrufen möchten.

Power Query-Senke.

Erstellen Sie Ihre Wrangling-Power Query mithilfe der codefreien Datenvorbereitung. Die Liste der verfügbaren Funktionen finden Sie unter Transformationsfunktionen. ADF übersetzt das M-Skript in ein Datenflussskript, sodass Sie Ihre Power Query skaliert mithilfe der Azure Data Factory Datenfluss-Spark-Umgebung ausführen können.

Screenshot: Prozess zum Erstellen Ihrer Datenwrangling-Power Query.

Ausführen und Überwachen einer Power Query Daten-Wrangling-Aktivität

Klicken Sie auf Debug im Pipeline-Zeichenbereich, um eine Pipelinedebugausführung einer Power Query-Aktivität auszuführen. Nachdem Sie Ihre Pipeline veröffentlicht haben, können Sie mit Jetzt auslösen eine bedarfsgesteuerte Ausführung der letzten veröffentlichten Pipeline durchführen. Power Query Pipelines können mit allen vorhandenen Azure Data Factory Triggern geplant werden.

Screenshot, der zeigt, wie Sie eine Power Query Daten-Wrangling-Aktivität hinzufügen.

Wechseln Sie zur Registerkarte Monitor, um die Ausgabe eines ausgelösten Power Query Aktivitätslaufs zu visualisieren.

Screenshot: Ausgabe einer ausgelösten Wrangling-Power Query-Aktivitätsausführung.

Erfahren Sie, wie Sie einen Zuordnungsdatenfluss erstellen.