Del via


Brug partitioneret beregning i Dataflow Gen2 (prøveversion)

Notat

Partitioneret beregning er i øjeblikket tilgængelig som prøveversion og er kun tilgængelig i Dataflow Gen2 med CI/CD.

Partitioneret beregning er en funktion i Dataflow Gen2-motoren, der gør det muligt for dele af din dataflow-logik at køre parallelt, hvilket reducerer tiden til at færdiggøre evalueringerne.

Partitioneret beregning er rettet mod scenarier, hvor dataflowprogrammet effektivt kan folde handlinger, der kan partitionere datakilden og behandle hver partition parallelt. For eksempel, i et scenarie hvor du forbinder til flere filer gemt i en Azure Data Lake Storage Gen2, kan du partitionere listen over filer fra din kilde, effektivt hente den partitionerede liste ved hjælp af query folding, bruge combine files experience og behandle alle filer parallelt.

Notat

Kun connectors til Azure Data Lake Storage Gen2, Folder og Azure Blob Storage udsender det korrekte script til at bruge partitioneret compute. Connectorerne til SharePoint og Fabric Lakehouse understøtter det ikke i dag.

Sådan indstilles partitioneret beregning

For at bruge denne funktion skal du følge disse trin:

Aktivér indstillinger for dataflow

Inde i fanen Hjem på båndet skal du vælge Options-knappen for at vise dens dialog. Gå til Scale-sektionen og slå indstillingen til, der lyder Tillad brug af partitioneret compute.

Skærmbillede af den opdelte compute-indstilling inde i Skaler-sektionen i Options-dialogen.

Aktivering af denne indstilling har to formål:

  • Lader dit Dataflow bruge partitioneret compute, hvis det opdages gennem dine forespørgselsscripts

  • Oplevelser som mejetærskerfilerne vil nu automatisk oprette partitionsnøgler, der kan bruges til partitioneret beregning

Du skal også slå indstillingen til i Privatlivssektionen for at tillade at kombinere data fra flere kilder.

Forespørg med partitionsnøgle

Notat

Hvis du vil bruge partitioneret beregning, skal du sørge for, at forespørgslen er indstillet til at være faseinddelt.

Efter at have slået indstillingen til, kan du bruge combine files-oplevelsen til en datakilde, der bruger filsystemvisningen som Azure Data Lake Storage Gen2. Når oplevelsen med at kombinere filer er fuldført, kan du se, at forespørgslen har et brugerdefineret trin tilføjet, som har et script, der ligner dette:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Dette script, og specifikt komponenten withPartitionKey , styrer logikken for, hvordan dit dataflow forsøger at partitionere dine data, og hvordan det forsøger at evaluere tingene parallelt.

Du kan bruge funktionen Table.PartitionKey i forhold til det brugerdefinerede trin Tilføjet . Denne funktion returnerer partitionsnøglen for den angivne tabel. I ovenstående tilfælde er det kolonnen RelativePath. Du kan få en særpræget liste over værdierne i den kolonne for at lære alle de partitioner, der bruges under dataflow-kørslen.

Vigtigt!

Det er vigtigt, at partitionsnøglekolonnen forbliver i forespørgslen, for at partitioneret beregning kan anvendes.

Overvejelser og anbefalinger

  • Partitioneret compute vs. hurtig kopi: Hvis din datakilde ikke understøtter foldning af transformationerne for dine filer, anbefaler vi, at du vælger partitioneret compute frem for hurtig kopi.

  • Lakehouse filadgang: For at forbinde til filer i Lakehouse anbefaler vi at bruge Azure Data Lake Storage Gen2-connectoren ved at sende URL'en til Files-noden.

  • Bedste ydeevne: Brug denne metode til at indlæse data direkte til staging som destination eller til et Fabric Warehouse.

  • Dataopbevaring: Kun den seneste partitionskørsel gemmes i Dataflow Staging Lakehouse og returneres af Dataflow Connector. Overvej at bruge en datadestination til at gemme data for hver separat partition.

  • Filtransformationer: Brug Sample-transform-filen fra Combine-filer-oplevelsen til at introducere transformationer, der bør ske i alle filer.

  • Understøttede transformationer: Partitioneret beregning understøtter kun et delmængde af transformationer. Ydeevnen kan variere afhængigt af kilden og det anvendte sæt transformeringer.

  • Fakturering: Fakturering for dataflowet er baseret på forbruget af kapacitetsenheden (CU).