Del via


Integrate OneLake with Azure Synapse Analytics

Azure Synapse er en ubegrænset analysetjeneste, der samler enterprise data warehousing og Big Data-analyse. Denne vejledning viser, hvordan man forbinder til OneLake ved hjælp af Azure Synapse Analytics.

Forudsætninger

Før du begynder, skal du sikre dig, at du har følgende ting:

  • Adgang til et Synapse-arbejdsområde, hvor du kan oprette eller bruge en Apache Spark-pool og køre SQL-scripts.
  • Adgang til et søhus i Fabric.
  • ABFS-stien for lakehouse Tables-mappen eller den tabel, du vil forespørge.

Skriv data fra Synapse ved hjælp af Apache Spark

Følg disse trin for at bruge Apache Spark til at skrive sample data til OneLake fra Azure Synapse Analytics.

  1. Åbn dit Synapse-arbejdsområde og opret en Apache Spark-pool med dine foretrukne parametre.

    Skærmbillede, der viser, hvor man vælger Ny i Apache Spark pool-skærmen.

  2. Opret en ny Apache Spark-notesbog.

  3. Åbn notesbogen, sæt sproget til PySpark (Python), og forbind det til din nyoprettede Spark-pool.

  4. I en separat fane navigerer du til dit Microsoft Fabric søhus og finder mappen på øverste niveau Tables.

  5. Højreklik på mappen Tables og vælg Egenskaber.

    Skærmbillede, der viser, hvor man åbner Properties-panelet i lakehouse explorer.

  6. Kopier ABFS-stien fra egenskabspanelet.

    Skærmbillede, der viser, hvor man skal kopiere ABFS-stien.

  7. Tilbage i Azure Synapse-notebooken, i den første nye kodecelle, angiver du lakehouse-stien. Denne sti peger til mappen Tables i lakehouse, hvor du senere skriver prøvedataene. Kør cellen.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. I en ny kodecelle indlæses data fra et åbent Azure-datasæt i en dataframe. Dette datasæt er det, du indlæser i dit søhus. Kør cellen.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. I en ny kodecelle skal du filtrere, transformere eller forberede dine data. I dette scenarie kan du trimme dit datasæt ned for hurtigere indlæsning, joinforbinde med andre datasæt eller filtrere ned til bestemte resultater. Kør cellen.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. I en ny kodecelle, ved at bruge din OneLake-sti, skriver du din filtrerede dataframe til en ny Delta-Parquet-tabel i dit Fabric lakehouse. Kør cellen.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Endelig, i en ny kodecelle, test at dine data er skrevet succesfuldt ved at læse den nye Delta-tabel fra OneLake. Kør cellen.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Tillykke. Du kan nu læse og skrive data i OneLake ved hjælp af Apache Spark i Azure Synapse Analytics.

Læs data fra Synapse ved hjælp af SQL

Følg disse trin for at bruge SQL serverless til at læse data fra OneLake fra Azure Synapse Analytics.

  1. Åbn et Fabric lakehouse og find en tabel, du gerne vil forespørge fra Synapse.

  2. Højreklik på tabellen og vælg Egenskaber.

  3. Kopier ABFS-stien for tabellen.

    Skærmbillede, der viser, hvor man skal kopiere ABFS-stien.

  4. Åbn dit Synapse-arbejdsområde i Synapse Studio.

  5. Opret et nyt SQL-script.

  6. I SQL-forespørgselseditoren indtaster du følgende forespørgsel og erstatter ABFS_PATH_HERE den sti, du kopierede tidligere.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Kør forespørgslen for at se de øverste 10 rækker i din tabel.

Tillykke. Du kan nu læse data fra OneLake ved hjælp af SQL serverless i Azure Synapse Analytics.