Condividi tramite


Trasformare i dati usando l'attività Pig di Hadoop in Azure Data Factory o Synapse Analytics

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

L'attività Hadoop Pig in una pipeline di Data Factory esegue query Pig nel cluster HDInsight personale o su richiesta. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

Per altre informazioni, leggere l'introduzione a Azure Data Factory o Synapse Analytics ed eseguire Tutorial: transform data prima di leggere questo articolo.

Aggiungere un'attività di Pig di HDInsight a una pipeline con l'interfaccia utente

Per usare un'attività Pig di HDInsight in una pipeline, completare la procedura seguente:

  1. Cercare Pig nel riquadro Attività della pipeline, quindi trascinare un'attività Pig nel canvas della pipeline.

  2. Selezionare la nuova attività Pig nell'area di disegno, se non è già selezionata.

  3. Selezionare la scheda Cluster HDI per selezionare o creare un nuovo servizio collegato in un cluster HDInsight che verrà usato per eseguire l'attività MapReduce.

    Mostra l'interfaccia utente per un'attività Pig.

  4. Selezionare la scheda Script per selezionare o creare un nuovo servizio collegato script in un percorso Archiviazione di Azure in cui verrà ospitato lo script. Specificare un nome di classe da eseguire in quella sede e un percorso di file all'interno della posizione di archiviazione. È anche possibile configurare dettagli avanzati, tra cui la configurazione di debug, gli argomenti e i parametri da passare allo script.

    Visualizza l'interfaccia utente della scheda Script per un'attività Pig.

Sintassi

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Dettagli sintassi

Proprietà Descrizione Richiesto
nome Nome dell'attività
descrizione Testo che descrive l'uso dell'attività No
tipo Per l'attività Hive, il tipo di attività è HDInsightPig
nomeServizioCollegato Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo.
scriptLinkedService Riferimento a un servizio collegato Archiviazione di Azure usato per archiviare lo script Pig da eseguire. Sono supportati solo Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. No
scriptPath Specificare il percorso del file di script archiviato nella Archiviazione di Azure a cui fa riferimento scriptLinkedService. Il nome del file distingue tra maiuscole e minuscole. No
getDebugInfo Specifica quando i file di log vengono copiati nel Archiviazione di Azure usato dal cluster HDInsight (o) specificato da scriptLinkedService. Valori consentiti: Nessuno, Sempre o Errore. Valore predefinito: None. No
argomenti Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. No
definisce Specificare i parametri come coppie chiave/valore per i riferimenti all'interno dello script Pig. No

Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: