Condividi tramite


Informazioni di riferimento su PySpark

Questa pagina offre una panoramica dei riferimenti disponibili per PySpark, un'API Python per Spark. Per altre informazioni su PySpark, vedere PySpark in Azure Databricks.

Tipi di dati

Per un elenco completo dei tipi di dati PySpark, vedere Tipi di dati PySpark.

Classi

Reference Description
catalogo Interfaccia per la gestione di database, tabelle, funzioni e altri metadati del catalogo.
Colonna Operazioni per l'uso delle colonne del dataframe, incluse trasformazioni ed espressioni.
Tipi di dati Tipi di dati disponibili in PySpark SQL, inclusi tipi primitivi, tipi complessi e tipi definiti dall'utente.
DataFrame Raccolta distribuita di dati organizzati in colonne denominate, analogamente a una tabella in un database relazionale.
DataFrameNaFunctions Funzionalità per l'uso di dati mancanti in un dataframe.
DataFrameReader Interfaccia usata per caricare un dataframe da sistemi di archiviazione esterni.
DataFrameStatFunctions Funzionalità per le funzioni statistiche con un dataframe.
DataFrameWriter Interfaccia usata per scrivere un dataframe in sistemi di archiviazione esterni.
DataFrameWriterV2 Interfaccia usata per scrivere un dataframe in un archivio esterno (versione 2).
Origine dati API per l'implementazione di origini dati personalizzate da leggere da sistemi esterni. Per informazioni sulle origini dati personalizzate, vedere Origini dati personalizzate pySpark.
DataSourceArrowWriter Classe di base per i writer di origini dati che elaborano i dati usando pyArrow.RecordBatch
DataSourceRegistration Wrapper per la registrazione dell'origine dati.
DataSourceReader Classe di base per i lettori dell'origine dati.
DataSourceStreamArrowWriter Classe di base per i writer di flussi di dati che elaborano i dati usando pyarrow.RecordBatch
DataSourceStreamReader Classe di base per i lettori dell'origine dati di streaming.
DataSourceStreamWriter Classe di base per i writer di flussi di dati.
DataSourceWriter Classe di base per i writer di origini dati responsabili del salvataggio dei dati in un'origine dati personalizzata in modalità batch.
DataStreamReader Interfaccia usata per caricare un dataframe di streaming da sistemi di archiviazione esterni.
DataStreamWriter Interfaccia usata per scrivere un dataframe di streaming in sistemi di archiviazione esterni.
Geografia Classe per rappresentare un valore Geography in Python.
geometria Classe per rappresentare un valore Geometry in Python.
GroupedData Metodi per raggruppare i dati ed eseguire operazioni di aggregazione su dataframe raggruppati.
InputPartition Classe base che rappresenta una partizione di input restituita dal partitions() metodo di DataSourceReader.
Osservazione Raccoglie le metriche e osserva i dataframe durante l'esecuzione delle query per il monitoraggio e il debug.
PlotAccessor Funzione di accesso per la funzionalità di tracciamento dei dataframe in PySpark.
ProtoBuf Supporto per la serializzazione e la deserializzazione dei dati tramite il formato Buffer di protocollo.
Fila Rappresenta una riga di dati in un dataframe, fornendo l'accesso ai singoli valori di campo.
RuntimeConfig Opzioni di configurazione di runtime per Spark SQL, incluse le impostazioni di esecuzione e ottimizzazione.
Per informazioni sulla configurazione disponibile solo in Databricks, vedere Set delle proprietà di configurazione di Spark in Azure Databricks.
SimpleDataSourceStreamReader Classe di base per i lettori semplificati dell'origine dati di streaming che legge i dati e pianifica l'offset più recente contemporaneamente.
SparkSession Punto di ingresso per la lettura dei dati e l'esecuzione di query SQL nelle applicazioni PySpark.
Processore con stato Gestisce lo stato tra batch di streaming per operazioni complesse con stato in streaming strutturato.
StreamingQuery Handle per una query che viene eseguita in modo continuo in background man mano che arrivano nuovi dati.
StreamingQueryListener Classe astratta per l'ascolto degli eventi del ciclo di vita delle query di streaming.
StreamingQueryManager Gestisce tutte le istanze attive StreamingQuery associate a un oggetto SparkSession.
UserDefinedFunction (UDF) Funzioni definite dall'utente per l'applicazione della logica di Python personalizzata alle colonne del dataframe.
UDFRegistration Wrapper per la registrazione di funzioni definite dall'utente. È possibile accedere a questa istanza da spark.udf.
UserDefinedTableFunction (UDTF) Funzioni di tabella definite dall'utente che restituiscono più righe per ogni riga di input.
UDTFRegistration Wrapper per la registrazione della funzione di tabella definita dall'utente. È possibile accedere a questa istanza da spark.udtf.
VariantVal Rappresenta dati semistrutturati con schema flessibile, che supporta tipi dinamici e strutture annidate.
Finestra Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente.
WindowSpec Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente.
WriterCommitMessage Messaggio di commit restituito da DataSourceWriter.write e inviato al driver come parametro di input di DataSourceWriter.commit o DataSourceWriter.abort.

Funzioni

Per un elenco completo delle funzioni predefinite disponibili, vedere Funzioni PySpark.