Set di dati in Azure Data Factory e Azure Synapse Analytics

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

Questo articolo descrive quali set di dati sono, come vengono definiti in formato JSON e come vengono usati nelle pipeline di Azure Data Factory e Synapse.

Se non si ha familiarità con Data Factory, vedere Introduzione a Azure Data Factory per una panoramica. Per altre informazioni sulle Azure Synapse, vedere What is Azure Synapse

Panoramica

Un'area di lavoro Azure Data Factory o Synapse può avere una o più pipeline. Una pipeline è un raggruppamento logico di attività che insieme eseguono un compito. Le attività in una pipeline definiscono le azioni da eseguire sui dati. Un set di dati è una visualizzazione dati denominata che punta o fa riferimento ai dati usati come input e output nelle attività. I set di dati identificano i dati all'interno dei diversi archivi dati, come tabelle, file, cartelle e documenti. Ad esempio, un set di dati BLOB Azure specifica il contenitore BLOB e la cartella in gestione rete virtuale di Azure da cui l'attività deve leggere i dati.

Prima di creare un set di dati, è necessario creare un servizio collegato per collegare l'archivio dati al servizio. I servizi collegati sono molto simili a stringhe di connessione e definiscono le informazioni necessarie per la connessione del servizio a risorse esterne. In altre parole, il set di dati rappresenta la struttura dei dati all'interno degli archivi dati collegati e il servizio collegato definisce la connessione all'origine dati. Ad esempio, un servizio collegato Archiviazione di Azure collega un account di archiviazione. Un insieme di dati Blob di Azure rappresenta il contenitore blob e la cartella all'interno di quell'account Archiviazione di Azure che contiene i blob di input destinati all'elaborazione.

Ecco uno scenario di esempio. Per copiare dati dall'archivio BLOB a un database SQL, creare due servizi collegati: Archiviazione BLOB di Azure e database SQL di Azure. Creare quindi due set di dati: set di dati Delimited Text (che fa riferimento al servizio collegato Archiviazione BLOB di Azure, presupponendo che siano presenti file di testo come origine) e Azure SQL set di dati Table (che fa riferimento al servizio collegato database SQL di Azure). I servizi collegati Archiviazione BLOB di Azure e database SQL di Azure contengono le stringhe di connessione usate dal servizio in fase di esecuzione per connettersi rispettivamente al Archiviazione di Azure e al database SQL di Azure. Il set di dati Delimited Text specifica il contenitore BLOB e la cartella BLOB che contiene i BLOB di input nella gestione rete virtuale di Azure, insieme alle impostazioni relative al formato. Il dataset Azure SQL Table specifica la tabella SQL nel tuo database SQL a cui i dati devono essere copiati.

Il diagramma seguente illustra le relazioni tra pipeline, attività, set di dati e servizi collegati:

Relazione tra pipeline, attività, set di dati, i servizi collegati

Creare un set di dati con l'interfaccia utente

Azure Data Factory
Synapse Analytics

Per creare un set di dati con Azure Data Factory Studio, selezionare la scheda Autore (con l'icona a forma di matita) e quindi l'icona del segno più per scegliere Dataset.

Visualizza la scheda Autore di Azure Data Factory Studio con il nuovo pulsante del set di dati selezionato.

Verrà visualizzata la nuova finestra del set di dati per scegliere uno dei connettori disponibili in Azure Data Factory, per configurare un servizio collegato esistente o nuovo.

Mostra la nuova finestra del set di dati in cui è possibile scegliere il tipo di servizio collegato a uno dei connettori di data factory supportati.

Verrà quindi richiesto di scegliere il formato del set di dati.

Mostra la finestra del formato del set di dati che consente di scegliere un formato per il nuovo set di dati.

Infine, è possibile scegliere un servizio collegato esistente del tipo selezionato per il set di dati oppure crearne uno nuovo se non è già definito.

Mostra la finestra delle proprietà del set in cui è possibile scegliere un set di dati esistente del tipo selezionato in precedenza o crearne uno nuovo.

Dopo aver creato il set di dati, è possibile usarlo all'interno di qualsiasi pipeline nel Azure Data Factory.

JSON del set di dati

Un set di dati è definito nel formato JSON seguente:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

La tabella seguente descrive le proprietà nel codice JSON precedente:

Proprietà	Descrizione	Richiesto
nome	Nome del set di dati. Consulta Regole di denominazione.	Sì
tipo	Tipo del set di dati. Specificare uno dei tipi supportati da Data Factory, ad esempio DelimitedText, AzureSqlTable. Per informazioni dettagliate, vedere Tipi di set di dati.	Sì
schema	Lo schema del set di dati rappresenta il tipo di dati fisico e la forma.	No
typeProperties	Le proprietà del tipo sono diverse per ogni tipo. Per informazioni dettagliate sui tipi supportati e le relative proprietà, vedere la sezione Tipo di set di dati.	Sì

Quando si importa lo schema del set di dati, selezionare il pulsante Importa schema e scegliere di importare dall'origine o da un file locale. Nella maggior parte dei casi, lo schema verrà importato direttamente dall'origine. Tuttavia, se si dispone già di un file di schema locale (un file Parquet o CSV con intestazioni), è possibile indirizzare il servizio a basare lo schema su tale file.

Nell'attività di copia, i set di dati vengono usati nell'origine e nel sink. Lo schema definito nel set di dati è facoltativo come riferimento. Per applicare il mapping di colonne/campi tra origine e sink, fare riferimento a Schema e mapping dei tipi.

In Flusso di dati i set di dati vengono usati nelle trasformazioni di origine e sink. I set di dati definiscono gli schemi di base dei dati. Se i dati non hanno uno schema, è possibile usare la deviazione dello schema per l'origine e il sink. I metadati dei set di dati vengono visualizzati nella trasformazione di origine come proiezione della sorgente. La proiezione nella trasformazione di origine rappresenta i dati Flusso di dati con nomi e tipi definiti.

Tipo di set di dati

Il servizio supporta molti tipi diversi di set di dati, a seconda degli archivi dati usati. È possibile trovare l'elenco degli archivi dati supportati dall'articolo Panoramica del connettore. Selezionare un archivio dati per informazioni su come creare un servizio collegato e un set di dati.

Ad esempio, per un set di dati Delimited Text, il tipo di set di dati è impostato su DelimitedText , come illustrato nell'esempio JSON seguente:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Nota

Il valore dello schema viene definito usando la sintassi JSON. Per informazioni più dettagliate sul mapping dello schema e sul mapping dei tipi di dati, vedere la documentazione Mapping dello schema e dei tipi nell'attività di copia di Azure Data Factory.

Creare i set di dati

È possibile creare set di dati usando uno di questi strumenti o SDK: .NET API, PowerShell, APIREST, modello di Azure Resource Manager e Azure portale

Set di dati della versione corrente e set di dati della versione 1

Ecco alcune differenze tra i set di dati nella versione corrente di Data Factory (e Azure Synapse) e la versione legacy di Data Factory versione 1:

La proprietà esterna non è supportata nella versione corrente. Viene sostituita da un trigger.
I criteri e le proprietà di disponibilità non sono supportati nella versione corrente. L'ora di inizio di una pipeline dipende da trigger.
I set di dati con ambito (set di dati definiti in una pipeline) non sono supportati nella versione corrente.

Avvi rapidi

Vedere le esercitazioni seguenti per istruzioni dettagliate sulla creazione di pipeline e set di dati tramite uno di questi strumenti o SDK.

Quickstart: creare una data factory usando .NET
Quickstart: create a data factory using PowerShell (Avvio rapido: Creare una data factory tramite PowerShell)
Quickstart: create a data factory using REST API (Avvio rapido: Creare una data factory tramite API REST)
Guida rapida: creare una data factory usando il portale di Azure

Riferimenti allo schema del set di dati

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-07