Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa esercitazione illustra uno scenario di integrazione dei dati completo in circa un'ora. Verranno illustrate le funzionalità principali di Data Factory in Microsoft Fabric e come applicarle ai flussi di lavoro dei dati comuni.
Cosa costruirai
Questa esercitazione include un'introduzione e tre moduli:
- Modulo 1- Inserire dati con un processo di copia: creare un processo di copia autonomo per inserire dati non elaborati dall'archivio BLOB in una tabella bronze in una lakehouse.
- Modulo 2- Trasformare i dati con un flusso di dati: Elaborare i dati grezzi dalla tabella bronze e spostarli in una tabella gold nel Lakehouse.
- Modulo 3- Orchestrare e automatizzare con una pipeline: creare una pipeline per orchestrare il processo di copia e il flusso di dati, inviare una notifica tramite posta elettronica al termine dei processi e pianificare l'intero flusso.
Data Factory di Microsoft Fabric
Microsoft Fabric è una piattaforma di analisi unificata che copre lo spostamento dei dati, i data lake, l'ingegneria dei dati, l'integrazione dei dati, l'analisi scientifica dei dati, l'analisi in tempo reale e la business intelligence. Non è necessario unire i servizi di più fornitori.
Data Factory in Fabric combina la facilità d'uso di Power Query con la scala di Azure Data Factory. Offre una preparazione dei dati supportata da intelligenza artificiale a basso livello di codice, trasformazioni a livello di petabyte e centinaia di connettori con connettività ibrida e multicloud.
Funzionalità principali
Data Factory offre tre funzionalità di base per le esigenze di integrazione dei dati:
- Inserimento dati con processo di copia: un processo di copia è il punto di partenza consigliato per l'inserimento dati. Sposta i dati su scala petabyte da centinaia di origini dati in Lakehouse, con supporto nativo per la copia bulk, incrementale e basata su CDC, senza dover compilare una pipeline.
- Trasformazione dei dati: Dataflow Gen2 offre un'interfaccia a basso codice per trasformare i dati con più di 300 trasformazioni. È possibile caricare i risultati in più destinazioni, ad esempio Azure SQL Database, Lakehouse e altro ancora.
- Automazione end-to-end: le pipeline orchestrano le attività, tra cui processo di copia, flusso di dati, notebook e altro ancora. Concatenare le attività per l'esecuzione sequenziale o in parallelo. Monitorare l'intero flusso di integrazione dei dati in un'unica posizione.
Architettura del tutorial
Verranno esaminate tutte e tre le funzionalità principali completando uno scenario di integrazione dei dati end-to-end.
Lo scenario include tre moduli:
- Inserire dati con un processo di copia: creare un processo di copia autonomo per inserire dati non elaborati dall'archivio BLOB in una tabella bronze in una lakehouse.
- Trasforma i dati con un flusso di dati: Elabora i dati non elaborati dalla tabella bronze e spostali in una tabella gold.
- Orchestrare e automatizzare con una pipeline: creare una pipeline per orchestrare il processo di copia e il flusso di dati, inviare una notifica tramite posta elettronica e pianificare l'intero flusso.
Questa esercitazione usa il set di dati di esempio NYC-Taxi . Al termine, è possibile analizzare gli sconti giornalieri sulle tariffe dei taxi per un periodo di tempo specifico usando Data Factory in Microsoft Fabric.