Condividi tramite


Scenario end-to-end di Data Factory: introduzione e architettura

Questa esercitazione illustra uno scenario di integrazione dei dati completo in circa un'ora. Verranno illustrate le funzionalità principali di Data Factory in Microsoft Fabric e come applicarle ai flussi di lavoro dei dati comuni.

Cosa costruirai

Questa esercitazione include un'introduzione e tre moduli:

Data Factory di Microsoft Fabric

Microsoft Fabric è una piattaforma di analisi unificata che copre lo spostamento dei dati, i data lake, l'ingegneria dei dati, l'integrazione dei dati, l'analisi scientifica dei dati, l'analisi in tempo reale e la business intelligence. Non è necessario unire i servizi di più fornitori.

Data Factory in Fabric combina la facilità d'uso di Power Query con la scala di Azure Data Factory. Offre una preparazione dei dati supportata da intelligenza artificiale a basso livello di codice, trasformazioni a livello di petabyte e centinaia di connettori con connettività ibrida e multicloud.

Funzionalità principali

Data Factory offre tre funzionalità di base per le esigenze di integrazione dei dati:

  • Inserimento dati con processo di copia: un processo di copia è il punto di partenza consigliato per l'inserimento dati. Sposta i dati su scala petabyte da centinaia di origini dati in Lakehouse, con supporto nativo per la copia bulk, incrementale e basata su CDC, senza dover compilare una pipeline.
  • Trasformazione dei dati: Dataflow Gen2 offre un'interfaccia a basso codice per trasformare i dati con più di 300 trasformazioni. È possibile caricare i risultati in più destinazioni, ad esempio Azure SQL Database, Lakehouse e altro ancora.
  • Automazione end-to-end: le pipeline orchestrano le attività, tra cui processo di copia, flusso di dati, notebook e altro ancora. Concatenare le attività per l'esecuzione sequenziale o in parallelo. Monitorare l'intero flusso di integrazione dei dati in un'unica posizione.

Architettura del tutorial

Verranno esaminate tutte e tre le funzionalità principali completando uno scenario di integrazione dei dati end-to-end.

Lo scenario include tre moduli:

  1. Inserire dati con un processo di copia: creare un processo di copia autonomo per inserire dati non elaborati dall'archivio BLOB in una tabella bronze in una lakehouse.
  2. Trasforma i dati con un flusso di dati: Elabora i dati non elaborati dalla tabella bronze e spostali in una tabella gold.
  3. Orchestrare e automatizzare con una pipeline: creare una pipeline per orchestrare il processo di copia e il flusso di dati, inviare una notifica tramite posta elettronica e pianificare l'intero flusso.

Diagramma che mostra il flusso di dati e i moduli trattati in questa esercitazione.

Questa esercitazione usa il set di dati di esempio NYC-Taxi . Al termine, è possibile analizzare gli sconti giornalieri sulle tariffe dei taxi per un periodo di tempo specifico usando Data Factory in Microsoft Fabric.

Passo successivo