Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure Synapse ist ein unbegrenzter Analysedienst, der Enterprise Data Warehouse und Big Data Analytics zusammenführt. In diesem Lernprogramm wird gezeigt, wie Sie mithilfe von Azure Synapse Analytics eine Verbindung mit OneLake herstellen.
Voraussetzungen
Bevor Sie beginnen, stellen Sie sicher, dass Sie über die folgenden Elemente verfügen:
- Zugriff auf einen Synapse-Arbeitsbereich, in dem Sie einen Apache Spark-Pool erstellen oder verwenden und SQL-Skripts ausführen können.
- Zugang zu einem Seehaus in Fabric.
- Der ABFS-Pfad für den Ordner "Lakehouse Tables " oder die Tabelle, die Sie abfragen möchten.
Schreiben von Daten aus Synapse mithilfe von Apache Spark
Führen Sie die folgenden Schritte aus, um Apache Spark zum Schreiben von Beispieldaten aus Azure Synapse Analytics in OneLake zu verwenden.
Öffnen Sie Ihren Synapse-Arbeitsbereich, und erstellen Sie einen Apache Spark-Pool mit Ihren bevorzugten Parametern.
Erstellen Sie ein neues Apache Spark-Notebook.
Öffnen Sie das Notizbuch, legen Sie die Sprache auf PySpark (Python) fest, und verbinden Sie es mit Ihrem neu erstellten Spark-Pool.
Navigieren Sie zu Ihrem Microsoft Fabric Lakehouse auf einer separaten Registerkarte und suchen Sie den Ordner der obersten Ebene Tables.
Klicken Sie mit der rechten Maustaste auf den Ordner "Tabellen ", und wählen Sie "Eigenschaften" aus.
Kopieren Sie den ABFS-Pfad aus dem Eigenschaftenbereich.
Zurück im Azure Synapse-Notizbuch, geben Sie in der ersten neuen Codezelle den Lakehouse-Pfad an. Dieser Pfad verweist auf den Ordner "Tabellen" im Seehaus, in dem Sie die Beispieldaten später schreiben. Führen Sie die Zelle aus.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'Laden Sie in einer neuen Codezelle Daten aus einem Azure geöffnetem Dataset in einen Datenframe. Dieses Dataset ist der Datensatz, den Sie in Ihr Seehaus laden. Führen Sie die Zelle aus.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))Filtern, transformieren oder bereiten Sie Ihre Daten in einer neuen Codezelle vor. In diesem Szenario können Sie Das Dataset zum schnelleren Laden, Zum Verbinden mit anderen Datasets oder zum Filtern nach bestimmten Ergebnissen kürzen. Führen Sie die Zelle aus.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))In einer neuen Codezelle schreiben Sie mithilfe Ihres OneLake-Pfads den gefilterten Dataframe in eine neue Delta-Parquet-Tabelle in Ihrem Fabric-Lakehouse. Führen Sie die Zelle aus.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')Testen Sie schließlich in einer neuen Codezelle, ob Ihre Daten erfolgreich geschrieben wurden, indem Sie die neue Delta-Tabelle aus OneLake lesen. Führen Sie die Zelle aus.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Glückwunsch. Sie können jetzt Daten in OneLake mithilfe von Apache Spark in Azure Synapse Analytics lesen und schreiben.
Lesen von Daten aus Synapse mit SQL
Führen Sie die folgenden Schritte aus, um SQL Serverless zum Lesen von Daten aus OneLake aus Azure Synapse Analytics zu verwenden.
Öffnen Sie ein Fabric Lakehouse und identifizieren Sie eine Tabelle, die Sie mit Synapse abfragen möchten.
Klicken Sie mit der rechten Maustaste auf die Tabelle, und wählen Sie "Eigenschaften" aus.
Kopieren Sie den ABFS-Pfad für die Tabelle.
Öffnen Sie Ihren Synapse-Arbeitsbereich in Synapse Studio.
Erstellen Sie ein neues SQL-Skript.
Geben Sie im SQL-Abfrage-Editor die folgende Abfrage ein und ersetzen Sie
ABFS_PATH_HEREdabei durch den zuvor kopierten Pfad.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;Führen Sie die Abfrage aus, um die obersten 10 Zeilen der Tabelle anzuzeigen.
Glückwunsch. Sie können jetzt Daten aus OneLake mithilfe von SQL Serverless in Azure Synapse Analytics lesen.