Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
APPLICABILE A:
Azure Data Factory
Azure Synapse Analytics
Suggerimento
Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.
L'attività Hive di HDInsight in un Azure Data Factory o Synapse Analytics pipeline esegue query Hive su proprio o su richiesta cluster HDInsight. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.
Se non si ha Azure Data Factory e Synapse Analytics, leggere gli articoli introduttivi per Azure Data Factory o Synapse Analytics ed eseguire Tutorial: transform data prima di leggere questo articolo.
Aggiungere un'attività di Hive di HDInsight a una pipeline con l'interfaccia utente
Per usare un'attività Hive di HDInsight per Azure Data Lake Analytics in una pipeline, seguire questa procedura:
Cercare Hive nel riquadro Attività della pipeline, quindi trascinare un'attività Hive nel canvas della pipeline.
Selezionare la nuova attività Hive nell'area di disegno, se non è già selezionata.
Selezionare la scheda HDI Cluster per selezionare o creare un nuovo servizio collegato a un cluster HDInsight che verrà utilizzato per eseguire l'attività Hive.
Selezionare la scheda Script per selezionare o creare un nuovo servizio collegato di archiviazione e un percorso all'interno del percorso di archiviazione, che ospiterà lo script.
Sintassi
{
"name": "Hive Activity",
"description": "description",
"type": "HDInsightHive",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Dettagli sintassi
| Proprietà | Descrizione | Richiesto |
|---|---|---|
| nome | Nome dell'attività | Sì |
| descrizione | Testo che descrive l'uso dell'attività | No |
| tipo | Per l'Attività Hive, il tipo di attività è HDinsightHive | Sì |
| nomeServizioCollegato | Riferimento al cluster HDInsight registrato come servizio collegato. Per informazioni su questo servizio collegato, vedere l'articolo Servizi collegati di calcolo. | Sì |
| scriptLinkedService | Riferimento a un servizio collegato Archiviazione di Azure usato per archiviare lo script Hive da eseguire. Sono supportati solo Archiviazione BLOB di Azure e ADLS Gen2. Se non si specifica questo servizio collegato, viene usato il servizio collegato Archiviazione di Azure definito nel servizio collegato HDInsight. | No |
| scriptPath | Specificare il percorso del file di script archiviato nella Archiviazione di Azure a cui fa riferimento scriptLinkedService. Il nome del file distingue tra maiuscole e minuscole. | Sì |
| getDebugInfo | Specifica quando i file di log vengono copiati nel Archiviazione di Azure usato dal cluster HDInsight (o) specificato da scriptLinkedService. Valori consentiti: Nessuno, Sempre o Errore. Valore predefinito: None. | No |
| argomenti | Specifica una matrice di argomenti per un processo Hadoop. Gli argomenti vengono passati a ogni attività come argomenti della riga di comando. | No |
| definisce | Specificare i parametri come coppie chiave/valore per fare riferimento a essi nello script Hive. | No |
| queryTimeout | Valore di timeout di query (in minuti). Applicabile se il cluster HDInsight è abilitato per Enterprise Security Package. | No |
Nota
Il valore predefinito per queryTimeout è 120 minuti.
Contenuto correlato
Vedere gli articoli seguenti, che illustrano altre modalità di trasformazione dei dati: