Condividi tramite


Copiare in modo incrementale nuovi file in base al nome file partizionato in base al tempo usando lo strumento Copia dati

APPLICABILE A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Data Factory in Microsoft Fabric è la nuova generazione di Azure Data Factory, con un'architettura più semplice, un'intelligenza artificiale predefinita e nuove funzionalità. Se non si ha familiarità con l'integrazione dei dati, iniziare con Fabric Data Factory. I carichi di lavoro di Azure Data Factory esistenti possono eseguire l'aggiornamento a Fabric per accedere a nuove funzionalità tra data science, analisi in tempo reale e creazione di report.

In questa esercitazione si usa il portale di Azure per creare una data factory. Quindi, usa lo strumento Copia dati per creare una pipeline che copia nuovi file in modo incrementale basandosi sul nome di file partizionati in base al tempo, da Azure Blob Storage ad Azure Blob Storage.

Nota

Se non si ha familiarità con Azure Data Factory, vedere Introduzione a Azure Data Factory.

In questa esercitazione si segue questa procedura:

  • Creare una fabbrica di dati.
  • Usare lo strumento Copia dati per creare una pipeline.
  • Monitorare le esecuzioni di pipeline e attività.

Prerequisiti

  • Sottoscrizione di Azure: Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
  • Account di archiviazione di Azure: utilizzare l'archivio BLOB come archivio dati di origine e destinazione. Se non si ha un account di archiviazione Azure, vedere le istruzioni in Creare un account di archiviazione.

Creare due contenitori nell'archivio BLOB

Preparare la memorizzazione BLOB per il tutorial eseguendo questi passaggi.

  1. Creare un contenitore denominato source. Crea un percorso di cartella come 2021/07/15/06 nel contenitore. Creare un file di testo vuoto e denominarlo come file1.txt. Caricare il file1.txt nel percorso della cartella source/2021/07/15/06 nel tuo account di archiviazione. È possibile usare vari strumenti per eseguire queste attività, ad esempio Azure Storage Explorer.

    caricamento dei file

    Nota

    Si prega di modificare il nome della cartella includendo il proprio fuso orario UTC. Ad esempio, se l'ora UTC corrente è 06:10 il 15 luglio 2021, è possibile creare il percorso della cartella come origine/2021/07/15/06/ dalla regola di origine/{Anno}/{Mese}/{Giorno}/{Ora}/.

  2. Creare un contenitore denominato destination. È possibile usare vari strumenti per eseguire queste attività, ad esempio Azure Storage Explorer.

Creare una data factory

  1. Nel menu in alto selezionare Crea una risorsa>Data Factory>:

    Selezione di Data Factory nel pannello

  2. Nella pagina Nuova data factory, sotto Nome, immettere ADFTutorialDataFactory.

    Il nome della data factory deve essere univoco a livello globale. Potrebbe essere visualizzato il messaggio di errore seguente:

    Messaggio di errore che indica che il nome della nuova data factory esiste già.

    Se viene visualizzato un messaggio di errore relativo al valore del nome, immettere un nome diverso per la data factory. Ad esempio, usare il nome nomeutenteADFTutorialDataFactory. Per informazioni sulle regole di denominazione per gli elementi di Data Factory, vedere Azure Data Factory - Regole di denominazione.

  3. Selezionare l'abbonamento di Azure Subscription in cui creare la nuova Data Factory.

  4. In Gruppo di risorse eseguire una di queste operazioni:

    a) Selezionare Usa esistentee scegliere un gruppo di risorse esistente dall'elenco a discesa.

    b. Selezionare Crea nuovoe immettere un nome per il gruppo di risorse.

    Per informazioni sui gruppi di risorse, vedere Usare i gruppi di risorse per gestire le risorse Azure.

  5. In Versione selezionare la versione V2.

  6. Nella sezione Località, selezionare la località per la fabbrica di dati. Nell'elenco a discesa vengono visualizzate solo le località supportate. Gli archivi dati (ad esempio, Archiviazione di Azure e il database SQL) e i calcoli (ad esempio, Azure HDInsight) usati dalla data factory possono trovarsi in altre posizioni e aree.

  7. Seleziona Crea.

  8. Al termine della creazione verrà visualizzata la home page Data factory.

  9. Per avviare l'interfaccia utente di Azure Data Factory in una scheda separata, selezionare Opri nel riquadro Aprire Azure Data Factory Studio.

    pagina principale di Azure Data Factory, con il riquadro Apri Azure Data Factory Studio.

Usare lo strumento Copia dati per creare una pipeline

  1. Nella home page Azure Data Factory selezionare il titolo Ingest per avviare lo strumento Copia dati.

    Screenshot che mostra la home page di Azure Data Factory.

  2. Nella pagina Proprietà seguire questa procedura:

    1. In Tipo di attività scegliere Attività di copia predefinita.

    2. In Frequenza attività o pianificazione attività, selezionare la finestra a cascata.

    3. In Ricorrenza immettere 1 ora/e.

    4. Selezionare Avanti.

    Pagina Proprietà

  3. Nella pagina Archivio dati di origine completare la procedura seguente:

    a) Selezionare + Nuova connessione per aggiungere una connessione.

    b. Selezionare Archiviazione BLOB di Azure dalla raccolta e quindi selezionare Continue.

    c. Nella pagina Nuova connessione (Archiviazione BLOB di Azure) immettere un nome per la connessione. Selezionare la sottoscrizione Azure e selezionare l'account di archiviazione dall'elenco Nome account di archiviazione. Testare la connessione e quindi selezionare Crea.

    Pagina Archivio dati di origine

    d. Nella pagina Archivio dati di origine selezionare la connessione appena creata nella sezione Connessione.

    e. Nella sezione File o cartella individuare e selezionare il contenitore di origine, quindi selezionare OK.

    f. Nel comportamento di caricamento file, selezionare Caricamento incrementale: nomi di file/cartelle partizionati nel tempo.

    g. Scrivere il percorso della cartella dinamica come source/{year}/{month}/{day}/{hour}/e modificare il formato come illustrato nello screenshot seguente.

    h. Controllare Copia binaria e selezionare Avanti.

    Screenshot che mostra la configurazione della pagina Archivio dati di origine.

  4. Nella pagina Archivio dati di destinazione completare la procedura seguente:

    1. Selezionare AzureBlobStorage, ovvero lo stesso account di archiviazione dell'archivio origine dati.

    2. Sfogliare e selezionare la cartella di destinazione , quindi selezionare OK.

    3. Scrivere il percorso della cartella dinamica come destinazione/{anno}/{mese}/{day}/{hour}/e modificare il formato come illustrato nello screenshot seguente.

    4. Selezionare Avanti.

    Screenshot che mostra la configurazione della pagina Archivio dati di destinazione.

  5. Nella pagina Impostazioni, in Nome attività immettere DeltaCopyFromBlobPipeline e quindi selezionare Avanti. L'interfaccia utente di Data Factory crea una pipeline con il nome di attività specificato.

    Screenshot che mostra la configurazione della pagina delle impostazioni.

  6. Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti.

    Pagina Riepilogo

  7. Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività). Pagina Distribuzione

  8. Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente. È necessario attendere l'esecuzione della pipeline quando viene attivata automaticamente (circa dopo un'ora). Quando viene eseguita, selezionare il collegamento deltaCopyFromBlobPipeline del nome della pipeline per visualizzare i dettagli dell'esecuzione dell'attività o rieseguire la pipeline. Selezionare Aggiorna per aggiornare l'elenco.

    Screenshot che mostra il riquadro Esecuzioni pipeline.

  9. Dato che la pipeline contiene una sola attività (attività di copia), viene visualizzata una sola voce. Modificare la larghezza delle colonne Origine e Destinazione (se necessario) per visualizzare altri dettagli, è possibile vedere che il file di origine (file1.txt) è stato copiato dall'origine /2021/07/07/15/06/ alla destinazione/2021/07/15/06/ con lo stesso nome file.

    Screenshot che mostra i dettagli dell'esecuzione della pipeline.

    È anche possibile verificare lo stesso usando Azure Storage Explorer (https://storageexplorer.com/) per analizzare i file.

    Screenshot che mostra i dettagli dell'esecuzione della pipeline per la destinazione.

  10. Creare un altro file di testo vuoto con il nuovo nome come file2.txt. Carica il file file2.txt nel percorso della cartella source/2021/07/15/07 nel tuo account di archiviazione. È possibile usare vari strumenti per eseguire queste attività, ad esempio Azure Storage Explorer.

    Nota

    È possibile tenere presente che è necessario creare un nuovo percorso di cartella. Si prega di modificare il nome della cartella includendo il proprio fuso orario UTC. Ad esempio, se l'ora UTC corrente è 7:30 del mese di luglio. Il 15 luglio 2021, puoi creare il percorso della cartella come source/2021/07/15/07/ seguendo la regola di {Anno}/{Mese}/{Giorno}/{Ora}/.

  11. Per tornare alla visualizzazione delle esecuzioni della pipeline, selezionare Tutte le esecuzioni della pipeline e attendere che la stessa pipeline venga attivata di nuovo automaticamente dopo un'ora.

    Screenshot che mostra il collegamento Tutte le esecuzioni della pipeline per tornare a tale pagina.

  12. Selezionare il nuovo collegamento DeltaCopyFromBlobPipeline per la seconda esecuzione della pipeline quando arriva, e fare lo stesso per esaminare i dettagli. Si noterà che il file di origine (file2.txt) è stato copiato dall'origine /2021/07/15/07/ alla destinazione/2021/07/15/07/ con lo stesso nome file. È anche possibile verificare lo stesso usando Azure Storage Explorer (https://storageexplorer.com/) per analizzare i file nel contenitore destination.

Passare all'esercitazione seguente per informazioni sulla trasformazione dei dati usando un cluster Spark in Azure: