Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gilt für:
Azure Data Factory
Azure Synapse Analytics
Tipp
Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.
Die HDInsight Pig-Aktivität in einer Data Factory-Pipeline wendet Pig-Abfragen auf Ihren eigenen oder bedarfsgesteuerten HDInsight-Cluster an. Dieser Artikel baut auf dem Artikel zu Datentransformationsaktivitäten auf, der eine allgemeine Übersicht über die Datentransformation und die unterstützten Transformationsaktivitäten bietet.
Weitere Informationen finden Sie in der Einführung in Azure Data Factory oder Synapse Analytics und führen Sie die Tutorial: Transformieren von Daten aus, bevor Sie diesen Artikel lesen.
Hinzufügen einer HDInsight Pig-Aktivität zu einer Pipeline über die Benutzeroberfläche
Führen Sie die folgenden Schritte aus, um eine HDInsight Pig-Aktivität in eine Pipeline zu integrieren:
Suchen Sie im Bereich mit den Pipelineaktivitäten nach Pig, und ziehen Sie eine Pig-Aktivität in den Pipelinebereich.
Wählen Sie die neue Pig-Aktivität im Canvas aus, wenn sie noch nicht ausgewählt ist.
Wählen Sie die Registerkarte HDI-Cluster aus, um einen neuen verknüpften Dienst für einen HDInsight-Cluster auszuwählen oder zu erstellen, der zum Ausführen der MapReduce-Aktivität verwendet wird.
Wählen Sie die Registerkarte Script aus, um einen verknüpften Dienst zur Auswahl oder Erstellung eines neuen Skripts mit einem Azure Storage-Speicherort auszuwählen, an dem Ihr Skript gehostet wird. Geben Sie einen Klassennamen, der dort ausgeführt werden soll, und einen Dateipfad innerhalb des Speicherorts an. Sie können auch erweiterte Details konfigurieren, z. B. eine Debugkonfiguration sowie Argumente und Parameter, die an das Skript übergeben werden sollen.
Syntax
{
"name": "Pig Activity",
"description": "description",
"type": "HDInsightPig",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Syntaxdetails
| Eigenschaft | Beschreibung | Erforderlich |
|---|---|---|
| Name | Der Name der Aktivität | Ja |
| Beschreibung | Ein Text, der beschreibt, wofür die Aktivität verwendet wird. | Nein |
| Typ | Für die Hive-Aktivität ist der Aktivitätstyp „HDInsightPig“. | Ja |
| verknüpfterDienstname | Verweis auf den HDInsight-Cluster, der als verknüpfter Dienst registriert ist. Weitere Informationen zu diesem verknüpften Dienst finden Sie im Artikel Verknüpfte Compute-Dienste. | Ja |
| scriptLinkedService | Verweis auf einen Azure Storage verknüpften Dienst, der zum Speichern des zu ausführenden Pig-Skripts verwendet wird. Hier werden nur Azure Blob Storage und ADLS Gen2 verknüpften Dienste unterstützt. Wenn Sie diesen verknüpften Dienst nicht angeben, wird der im HDInsight Linked Service definierte Azure Storage verknüpfter Dienst verwendet. | Nein |
| scriptPath | Geben Sie den Pfad zu der Skriptdatei an, die in der von scriptLinkedService referenzierten Azure Storage gespeichert ist. Der Dateiname ist case-sensitive. | Nein |
| getDebugInfo | Gibt an, wann die Protokolldateien in das von dem HDInsight-Cluster verwendete oder dem scriptLinkedService zugewiesene Azure Storage kopiert werden. Zulässige Werte: „None“, „Always“ oder „Failure“. Standardwert: Keine. | Nein |
| Argumente | Gibt ein Array von Argumenten für einen Hadoop-Auftrag an. Die Argumente werden als Befehlszeilenargumente an jeden Vorgang übergeben. | Nein |
| defines | Geben Sie Parameter als Schlüssel-Wert-Paare für Verweise innerhalb des Pig-Skripts an. | Nein |
Zugehöriger Inhalt
In den folgenden Artikeln erfahren Sie, wie Daten auf andere Weisen transformiert werden: