Condividi tramite


Trasformare i dati in Azure Data Factory e Azure Synapse Analytics

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

Importante

Il supporto per Azure Machine Learning Studio (versione classica) terminerà il 31 agosto 2024. È consigliabile passare a Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021, non è possibile creare nuove risorse di Machine Learning Studio (versione classica) (area di lavoro e piano di servizio Web). Fino al 31 agosto 2024, è possibile continuare a usare gli esperimenti e i servizi Web di Machine Learning Studio (classici) esistenti. Per altre informazioni, vedi:

La documentazione di Machine Learning Studio (classica) sta per essere ritirata e potrebbe non essere aggiornata in futuro.

Panoramica

Questo articolo illustra le attività di trasformazione dei dati nelle pipeline di Azure Data Factory e Synapse che è possibile usare per trasformare ed elaborare i dati non elaborati in stime e informazioni dettagliate su larga scala. Un'attività di trasformazione viene eseguita in un ambiente di elaborazione, ad esempio Azure Databricks o Azure HDInsight. Vengono forniti i collegamenti ad articoli con informazioni dettagliate su ciascuna attività di trasformazione.

Il servizio supporta le seguenti attività di trasformazione dei dati che possono essere aggiunte a pipeline singolarmente o con un'altra attività concatenata.

Effettuare trasformazioni nativamente in Azure Data Factory e Azure Synapse Analytics con flussi di dati

Mappatura dei flussi di dati

I flussi di dati di mapping sono trasformazioni dei dati progettate visivamente in Azure Data Factory e Azure Synapse. I flussi di dati consentono agli ingegneri dei dati di sviluppare graficamente la logica delle trasformazioni dei dati senza scrivere codice. I flussi di dati risultanti vengono eseguiti come attività all'interno di pipeline che usano cluster Spark con scalabilità orizzontale. Le attività del flusso di dati possono essere operazionalizzate tramite funzionalità esistenti di pianificazione, controllo, flusso e monitoraggio all'interno del servizio. Per altre informazioni, vedere mappatura dei flussi di dati.

manipolazione dei dati

Power Query in Azure Data Factory consente il wrangling dei dati su scala cloud, che consente di eseguire operazioni di preparazione dei dati senza codice su scala cloud in modo iterativo. Data wrangling si integra con Power Query Online e rende disponibili le funzioni M di Power Query per il data wrangling tramite l'esecuzione di Spark su scala cloud. Per altre informazioni, vedere data wrangling in Azure Data Factory.

Nota

Power Query è attualmente supportato solo in Azure Data Factory e non in Azure Synapse. Per un elenco di funzionalità specifiche supportate in ogni servizio, vedere Funzionalità disponibili in Azure Data Factory e Azure Synapse Analytics pipeline.

Trasformazioni esterne

Facoltativamente è possibile trasformare manualmente il codice e gestire manualmente l'ambiente di calcolo esterno.

Attività Hive di HDInsight

L'attività Hive di HDInsight in una pipeline esegue query Hive sul proprio cluster HDInsight basato su Windows/Linux o su richiesta. Per i dettagli su questa attività, vedere l'articolo Attività Hive.

Attività Pig di HDInsight

L'attività Pig di HDInsight in una pipeline esegue query Pig sul proprio cluster HDInsight basato su Windows o Linux, oppure su richiesta. Per i dettagli su questa attività, vedere l'articolo Attività Pig.

Attività MapReduce di HDInsight

L'attività MapReduce di HDInsight in una pipeline esegue programmi MapReduce sul proprio cluster HDInsight basato su Windows/Linux o su richiesta. Per i dettagli su questa attività, vedere l'articolo Attività MapReduce.

Attività di streaming di HDInsight

L'attività HDInsight Streaming in una pipeline esegue programmi Hadoop Streaming in un cluster HDInsight personalizzato o su richiesta Windows/Linux. Vedere l' attività di streaming di HDInsight per i dettagli.

Attività HDInsight Spark

L'attività Spark di HDInsight in una pipeline esegue programmi Spark nel cluster HDInsight personale. Per informazioni dettagliate, consultare Invocare programmi Spark con Azure Data Factory o Azure Synapse Analytics.

Attività di ML Studio (versione classica)

Importante

Il supporto per Azure Machine Learning Studio (versione classica) terminerà il 31 agosto 2024. È consigliabile passare a Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021, non è possibile creare nuove risorse di Machine Learning Studio (versione classica) (area di lavoro e piano di servizio Web). Fino al 31 agosto 2024, è possibile continuare a usare gli esperimenti e i servizi Web di Machine Learning Studio (classici) esistenti. Per altre informazioni, vedi:

La documentazione di Machine Learning Studio (classica) sta per essere ritirata e potrebbe non essere aggiornata in futuro.

Il servizio consente di creare facilmente pipeline che usano un servizio Web di ML Studio (versione classica) pubblicato per l'analisi predittiva. Usando l'attività Batch Execution in una pipeline, è possibile richiamare un servizio Web di Studio (versione classica) per eseguire stime sui dati in batch.

Nel corso del tempo è necessario ripetere il training dei modelli predittivi negli esperimenti di assegnazione dei punteggi di Studio (versione classica) usando nuovi set di dati di input. Una volta ripetuto il training, aggiornare il servizio Web di assegnazione dei punteggi con il modello Machine Learning di cui è stato ripetuto il training. È possibile usare l'attività di aggiornamento della risorsa per aggiornare il web service con il modello appena addestrato.

Vedere Usare le attività di ML Studio (versione classica) per informazioni dettagliate su queste attività di Studio (versione classica).

Attività di procedura memorizzata

È possibile usare l'attività stored procedure SQL Server in una pipeline di Data Factory per richiamare una stored procedure in uno degli archivi dati seguenti: database SQL di Azure, Azure Synapse Analytics, SQL Server Database nell'organizzazione o in una macchina virtuale di Azure. Per i dettagli, vedere l'articolo Attività stored procedure.

Attività U-SQL di Data Lake Analytics

Un'attività U-SQL di Data Lake Analytics esegue uno script U-SQL in un cluster Azure Data Lake Analytics. Per i dettagli, vedere l'articolo Attività U-SQL di Analisi dei dati.

attività Azure Synapse notebook

L'attività di un notebook Synapse in una pipeline di Synapse esegue un notebook Synapse nell'area di lavoro Azure Synapse. Consultare Trasformare i dati eseguendo un notebook di Azure Synapse.

Attività sui notebook di Databricks

L'attività notebook Azure Databricks in una pipeline esegue un notebook di Databricks nell'area di lavoro Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un notebook di Databricks.

Attività JAR di Databricks

L'attività Jar di Azure Databricks in una pipeline esegue un Jar Spark nel cluster di Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Consultare Trasformare i dati eseguendo un'attività Jar in Azure Databricks.

Attività di Databricks Python

L'attività Azure Databricks Python in una pipeline esegue un file Python nel cluster Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività Python in Azure Databricks.

Attività personalizzata

Se è necessario trasformare i dati in una modalità non supportata da Data Factory, è possibile creare un'attività personalizzata contenente la logica di elaborazione dei dati richiesta e usarla nella pipeline. È possibile configurare l'attività di .NET personalizzata per l'esecuzione usando un servizio Azure Batch o un cluster Azure HDInsight. Vedere l'articolo Usare le attività personalizzate per i dettagli.

È possibile creare un'attività personalizzata per eseguire gli script R nel cluster HDInsight con R installato. Consulta Esegui script R utilizzando Azure Data Factory e pipeline Synapse.

Ambienti di calcolo

Creare un servizio collegato per l'ambiente di calcolo e quindi usare il servizio collegato quando si definisce un'attività di trasformazione. Esistono due tipi supportati di ambienti di calcolo.

  • Su richiesta: in questo caso l'ambiente informatico è completamente gestito dal servizio. Viene automaticamente creato dal servizio prima che un processo venga inviato per l’elaborazione dati e rimosso quando il processo viene completato. È possibile configurare e controllare le impostazioni granulari dell'ambiente di elaborazione su richiesta per l'esecuzione del processo, la gestione del cluster e azioni di avvio automatico.
  • BYO (Bring Your Own): in questo caso è possibile registrare il proprio ambiente di elaborazione, ad esempio cluster HDInsight, come servizio collegato. L'ambiente di elaborazione viene gestito dall'utente e il servizio lo usa per eseguire le attività.

Per informazioni sui servizi di calcolo supportati, vedere l'articolo Servizi di calcolo collegati.

Per un esempio di uso di un'attività di trasformazione, vedere l'esercitazione seguente: Tutorial: transform data using Spark (Esercitazione: Trasformare dati tramite Spark)