Informazioni di riferimento su PySpark

Questa pagina offre una panoramica dei riferimenti disponibili per PySpark, un'API Python per Spark. Per altre informazioni su PySpark, vedere PySpark in Azure Databricks.

Tipi di dati

Per un elenco completo dei tipi di dati PySpark, vedere Tipi di dati PySpark.

Classi

Reference	Description
catalogo	Interfaccia per la gestione di database, tabelle, funzioni e altri metadati del catalogo.
Colonna	Operazioni per l'uso delle colonne del dataframe, incluse trasformazioni ed espressioni.
Tipi di dati	Tipi di dati disponibili in PySpark SQL, inclusi tipi primitivi, tipi complessi e tipi definiti dall'utente.
DataFrame	Raccolta distribuita di dati organizzati in colonne denominate, analogamente a una tabella in un database relazionale.
DataFrameNaFunctions	Funzionalità per l'uso di dati mancanti in un dataframe.
DataFrameReader	Interfaccia usata per caricare un dataframe da sistemi di archiviazione esterni.
DataFrameStatFunctions	Funzionalità per le funzioni statistiche con un dataframe.
DataFrameWriter	Interfaccia usata per scrivere un dataframe in sistemi di archiviazione esterni.
DataFrameWriterV2	Interfaccia usata per scrivere un dataframe in un archivio esterno (versione 2).
Origine dati	API per l'implementazione di origini dati personalizzate da leggere da sistemi esterni. Per informazioni sulle origini dati personalizzate, vedere Origini dati personalizzate pySpark.
DataSourceArrowWriter	Classe di base per i writer di origini dati che elaborano i dati usando pyArrow.`RecordBatch`
DataSourceRegistration	Wrapper per la registrazione dell'origine dati.
DataSourceReader	Classe di base per i lettori dell'origine dati.
DataSourceStreamArrowWriter	Classe di base per i writer di flussi di dati che elaborano i dati usando pyarrow.`RecordBatch`
DataSourceStreamReader	Classe di base per i lettori dell'origine dati di streaming.
DataSourceStreamWriter	Classe di base per i writer di flussi di dati.
DataSourceWriter	Classe di base per i writer di origini dati responsabili del salvataggio dei dati in un'origine dati personalizzata in modalità batch.
DataStreamReader	Interfaccia usata per caricare un dataframe di streaming da sistemi di archiviazione esterni.
DataStreamWriter	Interfaccia usata per scrivere un dataframe di streaming in sistemi di archiviazione esterni.
Geografia	Classe per rappresentare un valore Geography in Python.
geometria	Classe per rappresentare un valore Geometry in Python.
GroupedData	Metodi per raggruppare i dati ed eseguire operazioni di aggregazione su dataframe raggruppati.
InputPartition	Classe base che rappresenta una partizione di input restituita dal `partitions()` metodo di `DataSourceReader`.
Osservazione	Raccoglie le metriche e osserva i dataframe durante l'esecuzione delle query per il monitoraggio e il debug.
PlotAccessor	Funzione di accesso per la funzionalità di tracciamento dei dataframe in PySpark.
ProtoBuf	Supporto per la serializzazione e la deserializzazione dei dati tramite il formato Buffer di protocollo.
Fila	Rappresenta una riga di dati in un dataframe, fornendo l'accesso ai singoli valori di campo.
RuntimeConfig	Opzioni di configurazione di runtime per Spark SQL, incluse le impostazioni di esecuzione e ottimizzazione. Per informazioni sulla configurazione disponibile solo in Databricks, vedere Set delle proprietà di configurazione di Spark in Azure Databricks.
SimpleDataSourceStreamReader	Classe di base per i lettori semplificati dell'origine dati di streaming che legge i dati e pianifica l'offset più recente contemporaneamente.
SparkSession	Punto di ingresso per la lettura dei dati e l'esecuzione di query SQL nelle applicazioni PySpark.
Processore con stato	Gestisce lo stato tra batch di streaming per operazioni complesse con stato in streaming strutturato.
StreamingQuery	Handle per una query che viene eseguita in modo continuo in background man mano che arrivano nuovi dati.
StreamingQueryListener	Classe astratta per l'ascolto degli eventi del ciclo di vita delle query di streaming.
StreamingQueryManager	Gestisce tutte le istanze attive `StreamingQuery` associate a un oggetto `SparkSession`.
UserDefinedFunction (UDF)	Funzioni definite dall'utente per l'applicazione della logica di Python personalizzata alle colonne del dataframe.
UDFRegistration	Wrapper per la registrazione di funzioni definite dall'utente. È possibile accedere a questa istanza da `spark.udf`.
UserDefinedTableFunction (UDTF)	Funzioni di tabella definite dall'utente che restituiscono più righe per ogni riga di input.
UDTFRegistration	Wrapper per la registrazione della funzione di tabella definita dall'utente. È possibile accedere a questa istanza da `spark.udtf`.
VariantVal	Rappresenta dati semistrutturati con schema flessibile, che supporta tipi dinamici e strutture annidate.
Finestra	Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente.
WindowSpec	Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente.
WriterCommitMessage	Messaggio di commit restituito da `DataSourceWriter.write` e inviato al driver come parametro di input di `DataSourceWriter.commit` o `DataSourceWriter.abort`.

Funzioni

Per un elenco completo delle funzioni predefinite disponibili, vedere Funzioni PySpark.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-19