Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Annotazioni
Il calcolo partizionato è attualmente in anteprima e disponibile solo in Dataflow Gen2 con CI/CD.
Il calcolo partizionato è una funzionalità del motore Dataflow Gen2 che consente l'esecuzione in parallelo di parti della logica del flusso di dati, riducendo il tempo necessario per completare le valutazioni.
Scenari di destinazioni di calcolo con partizionamento in cui il motore di flusso di dati può ottimizzare in modo efficiente le operazioni che possono partizionare la sorgente dati ed elaborare ogni partizione in parallelo. Ad esempio, in uno scenario in cui ci si connette a più file archiviati in un Azure Data Lake Storage Gen2, è possibile partizionare l'elenco di file dall'origine, recuperare in modo efficiente l'elenco partizionato di file usando il query folding, utilizzare l'opzione di combinazione dei file, ed elaborare tutti i file in parallelo.
Annotazioni
Solo i connettori per Azure Data Lake Storage Gen2, Cartella e Azure Blob Storage generano lo script corretto per usare il calcolo partizionato. I connettori per SharePoint e Fabric Lakehouse non lo supportano oggi.
Come impostare il calcolo partizionato
Per usare questa funzionalità, seguire questa procedura:
Abilitare le impostazioni del flusso di dati
Nella scheda Home della barra multifunzione selezionare il pulsante Opzioni per visualizzarne la finestra di dialogo. Passare alla sezione Ridimensiona e attivare l'impostazione che legge Consenti l'uso di calcolo partizionato.
L'abilitazione di questa opzione ha due scopi:
Consente a Dataflow di usare il calcolo partizionato se individuato mediante gli script di query
Esperienze come i file di combinazione creeranno automaticamente chiavi di partizione che possono essere usate per il calcolo partizionato
È anche necessario attivare l'impostazione nella sezione Privacy per consentire la combinazione di dati da più origini.
Query con chiave di partizione
Annotazioni
Per usare il calcolo partizionato, assicurarsi che la query sia impostata per il staging.
Dopo aver attivato l'impostazione, è possibile utilizzare l'esperienza di unione dei file per un'origine dati che utilizza la vista del file system, come Azure Data Lake Storage Gen2. Quando l'operazione di combinazione dei file viene completata, noterai che la tua query ha un passaggio Aggiunto personalizzato, che include uno script simile a questo:
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Questo script, e in particolare il withPartitionKey componente, determina la logica su come il flusso di dati tenta di partizionare i dati e come tenta di valutare gli elementi in parallelo.
È possibile usare la funzione Table.PartitionKey nella fase Aggiunto personalizzato. Questa funzione restituisce la chiave di partizione della tabella specificata. Nel caso precedente, si tratta della colonna RelativePath. È possibile ottenere un elenco distinto dei valori in tale colonna per apprendere tutte le partizioni usate durante l'esecuzione del flusso di dati.
Importante
È importante che la colonna della chiave di partizione rimanga nella query per poter applicare il calcolo partizionato.
Considerazioni e raccomandazioni
Calcolo partizionato vs. copia rapida: se l'origine dati non supporta l'applicazione delle trasformazioni per i file, è consigliabile scegliere il calcolo partizionato rispetto alla copia rapida.
Lakehouse file access : Per connettersi ai file nel Lakehouse, è consigliabile usare il connettore Azure Data Lake Storage Gen2 passando l'URL del nodo. Prestazioni ottimali: utilizzare questo metodo per caricare i dati direttamente nella staging come destinazione o in un Fabric Warehouse.
Conservazione dei dati: solo l'esecuzione della partizione più recente viene archiviata in Dataflow Staging Lakehouse e restituita dal connettore di flussi di dati. Prendere in considerazione l'uso di una destinazione dati per conservare i dati per ogni partizione separata.
Trasformazioni di file: usare il file di trasformazione di esempio dalla funzione Combina file per introdurre trasformazioni che si devono applicare in ogni file.
Trasformazioni supportate: il calcolo partizionato supporta solo un subset di trasformazioni. Le prestazioni possono variare a seconda dell'origine e del set di trasformazioni usate.
Fatturazione: La fatturazione per l'esecuzione del dataflow si basa sul consumo di unità di capacità (CU).