PySpark-Referenz

Diese Seite bietet eine Übersicht über die Referenz für PySpark, eine Python-API für Spark. Weitere Informationen zu PySpark finden Sie unter PySpark auf Azure Databricks.

Datentypen

Eine vollständige Liste der PySpark-Datentypen finden Sie unter PySpark-Datentypen.

Klassen

Reference	Description
Katalog	Schnittstelle zum Verwalten von Datenbanken, Tabellen, Funktionen und anderen Katalogmetadaten.
Spalte	Vorgänge zum Arbeiten mit DataFrame-Spalten, einschließlich Transformationen und Ausdrücken.
Datentypen	Verfügbare Datentypen in PySpark SQL, einschließlich primitiver Typen, komplexer Typen und benutzerdefinierter Typen.
DataFrame	Verteilte Sammlung von Daten, die in benannte Spalten organisiert sind, ähnlich einer Tabelle in einer relationalen Datenbank.
DataFrameNaFunctions	Funktionalität zum Arbeiten mit fehlenden Daten in einem DataFrame.
DataFrameReader	Schnittstelle, die zum Laden eines DataFrames aus externen Speichersystemen verwendet wird.
DataFrameStatFunctions	Funktionalität für statistische Funktionen mit einem DataFrame.
DataFrameWriter	Schnittstelle, die zum Schreiben eines DataFrame in externe Speichersysteme verwendet wird.
DataFrameWriterV2	Schnittstelle zum Schreiben eines DataFrame in externen Speicher (Version 2).
Datenquelle	APIs für die Implementierung benutzerdefinierter Datenquellen zum Lesen aus externen Systemen. Informationen zu benutzerdefinierten Datenquellen finden Sie unter PySpark benutzerdefinierte Datenquellen.
DataSourceArrowWriter	Eine Basisklasse für Datenquellenautoren, die Daten mithilfe von PyArrow verarbeiten `RecordBatch`.
DataSourceRegistration	Ein Wrapper für die Datenquellenregistrierung.
DataSourceReader	Eine Basisklasse für Datenquellenleser.
DataSourceStreamArrowWriter	Eine Basisklasse für Datenstromautoren, die Daten mithilfe von PyArrow verarbeiten `RecordBatch`.
DataSourceStreamReader	Eine Basisklasse für Streamingdatenquellenleser.
DataSourceStreamWriter	Eine Basisklasse für Datenstromautoren.
DataSourceWriter	Eine Basisklasse für Datenquellenautoren, die für das Speichern von Daten in einer benutzerdefinierten Datenquelle im Batchmodus verantwortlich sind.
DataStreamReader	Schnittstelle, die zum Laden eines Streaming-DataFrames von externen Speichersystemen verwendet wird.
DataStreamWriter	Schnittstelle, die zum Schreiben eines Streaming-DataFrames in externe Speichersysteme verwendet wird.
Geografie	Eine Klasse, die einen Geography-Wert in Python darstellt.
Geometrie	Eine Klasse, die einen Geometry-Wert in Python darstellt.
GroupedData	Methoden zum Gruppieren von Daten und Durchführen von Aggregationsvorgängen für gruppierte DataFrames.
InputPartition	Eine Basisklasse, die eine von der `partitions()` Methode zurückgegebene `DataSourceReader`Eingabepartition darstellt.
Beobachtung	Erfasst Metriken und beobachtet DataFrames während der Abfrageausführung zur Überwachung und Zum Debuggen.
PlotAccessor	Accessor für DataFrame-Darstellungsfunktionen in PySpark.
ProtoBuf	Unterstützung für die Serialisierung und Deserialisierung von Daten mithilfe des Protokollpufferformats.
Row	Stellt eine Datenzeile in einem DataFrame dar, die den Zugriff auf einzelne Feldwerte ermöglicht.
RuntimeConfig	Laufzeitkonfigurationsoptionen für Spark SQL, einschließlich Ausführungs- und Optimierereinstellungen. Informationen zur Konfiguration, die nur für Databricks verfügbar ist, finden Sie unter Set Spark-Konfigurationseigenschaften für Azure Databricks.
SimpleDataSourceStreamReader	Eine Basisklasse für vereinfachte Streamingdatenquellenleser, die Daten und Pläne für den neuesten Offset gleichzeitig lesen.
SparkSession-	Der Einstiegspunkt zum Lesen von Daten und Ausführen von SQL-Abfragen in PySpark-Anwendungen.
Zustandsbehafteter Prozessor	Verwaltet den Zustand über Streamingbatches hinweg für komplexe zustandsbehaftete Vorgänge im strukturierten Streaming.
StreamingQuery	Ein Handle für eine Abfrage, die kontinuierlich im Hintergrund ausgeführt wird, wenn neue Daten eingehen.
StreamingQueryListener	Abstrakte Klasse zum Überwachen von Streamingabfragelebenszyklusereignissen.
StreamingQueryManager	Verwaltet alle aktiven `StreamingQuery` Instanzen, die einer `SparkSession`.
UserDefinedFunction (UDF)	Benutzerdefinierte Funktionen zum Anwenden benutzerdefinierter Python Logik auf DataFrame-Spalten.
UDFRegistration	Wrapper für die registrierung benutzerdefinierter Funktionen. Auf diese Instanz kann zugegriffen werden.`spark.udf`
UserDefinedTableFunction (UDTF)	Benutzerdefinierte Tabellenfunktionen, die für jede Eingabezeile mehrere Zeilen zurückgeben.
UDTFRegistration	Wrapper für die Registrierung benutzerdefinierter Tabellenfunktionen. Auf diese Instanz kann zugegriffen werden.`spark.udtf`
VariantVal	Stellt halbstrukturierte Daten mit flexiblem Schema dar, die dynamische Typen und geschachtelte Strukturen unterstützen.
Fenster	Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile.
WindowSpec	Fensterfunktionen zum Ausführen von Berechnungen über eine Reihe von Tabellenzeilen im Zusammenhang mit der aktuellen Zeile.
WriterCommitMessage	Eine commit-Nachricht, die von `DataSourceWriter.write` dem Treiber als Eingabeparameter oder `DataSourceWriter.commit`als Eingabeparameter `DataSourceWriter.abort` zurückgegeben und an den Treiber zurückgesendet wird.

Funktionen

Eine vollständige Liste der verfügbaren integrierten Funktionen finden Sie unter PySpark-Funktionen.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-19