Transformieren von Daten mithilfe von Hadoop Streaming-Aktivitäten in Azure Data Factory oder Synapse Analytics

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Die HDInsight-Streaming-Aktivität in einer Azure Data Factory oder Synapse Analytics Pipeline führt Hadoop-Streaming-Programme auf ihrem eigenen oder auf Abruf HDInsight-Cluster aus. Dieser Artikel baut auf dem Artikel zu Datentransformationsaktivitäten auf, der eine allgemeine Übersicht über die Datentransformation und die unterstützten Transformationsaktivitäten bietet.

Weitere Informationen finden Sie in den Einführungsartikeln zu Azure Data Factory und Synapse Analytics und führen Sie die Tutorial: Transformieren von Daten aus, bevor Sie diesen Artikel lesen.

Hinzufügen einer HDInsight Streamingaktivität zu einer Pipeline mit Benutzeroberfläche

Führen Sie die folgenden Schritte aus, um eine HDInsight Streamingaktivität in einer Pipeline zu verwenden:

Suchen Sie im Bereich mit den Pipelineaktivitäten nach Streaming, und ziehen Sie eine Streamingaktivität in den Pipelinebereich.
Wählen Sie die neue Streamingaktivität im Canvas aus, wenn sie noch nicht ausgewählt ist.
Wählen Sie die Registerkarte HDI-Cluster aus, um einen neuen verknüpften Dienst für einen HDInsight-Cluster auszuwählen oder zu erstellen, der zum Ausführen der Streamingaktivität verwendet wird.
Wählen Sie die Registerkarte Datei aus, um die Mapper- und Reducernamen für Ihren Streamingauftrag anzugeben, und wählen Oder erstellen Sie einen neuen verknüpften Dienst für ein Azure Storage Konto, das die Zuordnungs-, Reduzierungs-, Eingabe- und Ausgabedateien für den Auftrag enthält. Sie können auch erweiterte Details konfigurieren, z. B. eine Debugkonfiguration sowie Argumente und Parameter, die an den Auftrag übergeben werden sollen.

JSON-Beispiel

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Syntaxdetails

Eigenschaft	Beschreibung	Erforderlich
Name	Der Name der Aktivität	Ja
Beschreibung	Ein Text, der beschreibt, wofür die Aktivität verwendet wird.	Nein
Typ	Für die Hadoop-Streamingaktivität ist der Aktivitätstyp „HDInsightStreaming“.	Ja
verknüpfterDienstname	Verweis auf den HDInsight-Cluster, der als verknüpfter Dienst registriert ist. Weitere Informationen zu diesem verknüpften Dienst finden Sie im Artikel Verknüpfte Compute-Dienste.	Ja
mapper	Gibt den Namen der ausführbaren Zuordnungsdatei (Mapper) an.	Ja
reducer	Gibt den Namen des ausführbaren Reducers an.	Ja
Kombinierer	Gibt den Namen der ausführbaren Kombinierungsdatei (Combiner) an.	Nein
fileLinkedService	Verweis auf einen verknüpften Azure Storage-Dienst, der zum Speichern der Mapper-, Combiner- und Reducer-Programme verwendet wird. Hier werden nur Azure Blob Storage und ADLS Gen2 verknüpften Dienste unterstützt. Wenn Sie diesen verknüpften Dienst nicht angeben, wird der im HDInsight Linked Service definierte Azure Storage verknüpfter Dienst verwendet.	Nein
filePath	Stellen Sie ein Array von Pfaden zu den Programmen Mapper, Combiner und Reducer bereit, die im Azure Storage gespeichert sind, der von fileLinkedService referenziert wird. Der Pfad berücksichtigt die Groß- und Kleinschreibung.	Ja
Eingabe	Gibt den WASB-Pfad zur Eingabedatei für den Mapper an.	Ja
Ausgabe	Gibt den WASB-Pfad zur Ausgabedatei für den Reducer an.	Ja
getDebugInfo	Gibt an, wann die Protokolldateien in das von dem HDInsight-Cluster verwendete oder dem scriptLinkedService zugewiesene Azure Storage kopiert werden. Zulässige Werte: „None“, „Always“ oder „Failure“. Standardwert: Keine.	Nein
Argumente	Gibt ein Array von Argumenten für einen Hadoop-Auftrag an. Die Argumente werden als Befehlszeilenargumente an jeden Vorgang übergeben.	Nein
defines	Geben Sie Parameter als Schlüssel-Wert-Paare für Verweise innerhalb des Hive-Skripts an.	Nein

In den folgenden Artikeln erfahren Sie, wie Daten auf andere Weisen transformiert werden:

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-10

Freigeben über

Transformieren von Daten mithilfe von Hadoop Streaming-Aktivitäten in Azure Data Factory oder Synapse Analytics

Hinzufügen einer HDInsight Streamingaktivität zu einer Pipeline mit Benutzeroberfläche

JSON-Beispiel

Syntaxdetails

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen