Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Diese Seite bietet eine Übersicht über die Referenz für PySpark, eine Python-API für Spark. Weitere Informationen zu PySpark finden Sie unter PySpark auf Azure Databricks.
Datentypen
Eine vollständige Liste der PySpark-Datentypen finden Sie unter PySpark-Datentypen.
Klassen
| Reference | Description |
|---|---|
| Katalog | Schnittstelle zum Verwalten von Datenbanken, Tabellen, Funktionen und anderen Katalogmetadaten. |
| Spalte | Vorgänge zum Arbeiten mit DataFrame-Spalten, einschließlich Transformationen und Ausdrücken. |
| Datentypen | Verfügbare Datentypen in PySpark SQL, einschließlich primitiver Typen, komplexer Typen und benutzerdefinierter Typen. |
| DataFrame | Verteilte Sammlung von Daten, die in benannte Spalten organisiert sind, ähnlich einer Tabelle in einer relationalen Datenbank. |
| DataFrameNaFunctions | Funktionalität zum Arbeiten mit fehlenden Daten in einem DataFrame. |
| DataFrameReader | Schnittstelle, die zum Laden eines DataFrames aus externen Speichersystemen verwendet wird. |
| DataFrameStatFunctions | Funktionalität für statistische Funktionen mit einem DataFrame. |
| DataFrameWriter | Schnittstelle, die zum Schreiben eines DataFrame in externe Speichersysteme verwendet wird. |
| DataFrameWriterV2 | Schnittstelle zum Schreiben eines DataFrame in externen Speicher (Version 2). |
| Datenquelle | APIs für die Implementierung benutzerdefinierter Datenquellen zum Lesen aus externen Systemen. Informationen zu benutzerdefinierten Datenquellen finden Sie unter PySpark benutzerdefinierte Datenquellen. |
| DataSourceArrowWriter | Eine Basisklasse für Datenquellenautoren, die Daten mithilfe von PyArrow verarbeiten RecordBatch. |
| DataSourceRegistration | Ein Wrapper für die Datenquellenregistrierung. |
| DataSourceReader | Eine Basisklasse für Datenquellenleser. |
| DataSourceStreamArrowWriter | Eine Basisklasse für Datenstromautoren, die Daten mithilfe von PyArrow verarbeiten RecordBatch. |
| DataSourceStreamReader | Eine Basisklasse für Streamingdatenquellenleser. |
| DataSourceStreamWriter | Eine Basisklasse für Datenstromautoren. |
| DataSourceWriter | Eine Basisklasse für Datenquellenautoren, die für das Speichern von Daten in einer benutzerdefinierten Datenquelle im Batchmodus verantwortlich sind. |
| DataStreamReader | Schnittstelle, die zum Laden eines Streaming-DataFrames von externen Speichersystemen verwendet wird. |
| DataStreamWriter | Schnittstelle, die zum Schreiben eines Streaming-DataFrames in externe Speichersysteme verwendet wird. |
| Geografie | Eine Klasse, die einen Geography-Wert in Python darstellt. |
| Geometrie | Eine Klasse, die einen Geometry-Wert in Python darstellt. |
| GroupedData | Methoden zum Gruppieren von Daten und Durchführen von Aggregationsvorgängen für gruppierte DataFrames. |
| InputPartition | Eine Basisklasse, die eine von der partitions() Methode zurückgegebene DataSourceReaderEingabepartition darstellt. |
| Beobachtung | Erfasst Metriken und beobachtet DataFrames während der Abfrageausführung zur Überwachung und Zum Debuggen. |
| PlotAccessor | Accessor für DataFrame-Darstellungsfunktionen in PySpark. |
| ProtoBuf | Unterstützung für die Serialisierung und Deserialisierung von Daten mithilfe des Protokollpufferformats. |
| Row | Stellt eine Datenzeile in einem DataFrame dar, die den Zugriff auf einzelne Feldwerte ermöglicht. |
| RuntimeConfig | Laufzeitkonfigurationsoptionen für Spark SQL, einschließlich Ausführungs- und Optimierereinstellungen. Informationen zur Konfiguration, die nur für Databricks verfügbar ist, finden Sie unter Set Spark-Konfigurationseigenschaften für Azure Databricks. |
| SimpleDataSourceStreamReader | Eine Basisklasse für vereinfachte Streamingdatenquellenleser, die Daten und Pläne für den neuesten Offset gleichzeitig lesen. |
| SparkSession- | Der Einstiegspunkt zum Lesen von Daten und Ausführen von SQL-Abfragen in PySpark-Anwendungen. |
| Zustandsbehafteter Prozessor | Verwaltet den Zustand über Streamingbatches hinweg für komplexe zustandsbehaftete Vorgänge im strukturierten Streaming. |
| StreamingQuery | Ein Handle für eine Abfrage, die kontinuierlich im Hintergrund ausgeführt wird, wenn neue Daten eingehen. |
| StreamingQueryListener | Abstrakte Klasse zum Überwachen von Streamingabfragelebenszyklusereignissen. |
| StreamingQueryManager | Verwaltet alle aktiven StreamingQuery Instanzen, die einer SparkSession. |
| UserDefinedFunction (UDF) | Benutzerdefinierte Funktionen zum Anwenden benutzerdefinierter Python Logik auf DataFrame-Spalten. |
| UDFRegistration | Wrapper für die registrierung benutzerdefinierter Funktionen. Auf diese Instanz kann zugegriffen werden.spark.udf |
| UserDefinedTableFunction (UDTF) | Benutzerdefinierte Tabellenfunktionen, die für jede Eingabezeile mehrere Zeilen zurückgeben. |
| UDTFRegistration | Wrapper für die Registrierung benutzerdefinierter Tabellenfunktionen. Auf diese Instanz kann zugegriffen werden.spark.udtf |
| VariantVal | Stellt halbstrukturierte Daten mit flexiblem Schema dar, die dynamische Typen und geschachtelte Strukturen unterstützen. |
| Fenster | Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile. |
| WindowSpec | Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile. |
| WriterCommitMessage | Eine commit-Nachricht, die von DataSourceWriter.write dem Treiber als Eingabeparameter oder DataSourceWriter.commitals Eingabeparameter DataSourceWriter.abort zurückgegeben und an den Treiber zurückgesendet wird. |
Funktionen
Eine vollständige Liste der verfügbaren integrierten Funktionen finden Sie unter PySpark-Funktionen.