Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina offre una panoramica dei riferimenti disponibili per PySpark, un'API Python per Spark. Per altre informazioni su PySpark, vedere PySpark in Azure Databricks.
Tipi di dati
Per un elenco completo dei tipi di dati PySpark, vedere Tipi di dati PySpark.
Classi
| Reference | Description |
|---|---|
| catalogo | Interfaccia per la gestione di database, tabelle, funzioni e altri metadati del catalogo. |
| Colonna | Operazioni per l'uso delle colonne del dataframe, incluse trasformazioni ed espressioni. |
| Tipi di dati | Tipi di dati disponibili in PySpark SQL, inclusi tipi primitivi, tipi complessi e tipi definiti dall'utente. |
| DataFrame | Raccolta distribuita di dati organizzati in colonne denominate, analogamente a una tabella in un database relazionale. |
| DataFrameNaFunctions | Funzionalità per l'uso di dati mancanti in un dataframe. |
| DataFrameReader | Interfaccia usata per caricare un dataframe da sistemi di archiviazione esterni. |
| DataFrameStatFunctions | Funzionalità per le funzioni statistiche con un dataframe. |
| DataFrameWriter | Interfaccia usata per scrivere un dataframe in sistemi di archiviazione esterni. |
| DataFrameWriterV2 | Interfaccia usata per scrivere un dataframe in un archivio esterno (versione 2). |
| Origine dati | API per l'implementazione di origini dati personalizzate da leggere da sistemi esterni. Per informazioni sulle origini dati personalizzate, vedere Origini dati personalizzate pySpark. |
| DataSourceArrowWriter | Classe di base per i writer di origini dati che elaborano i dati usando pyArrow.RecordBatch |
| DataSourceRegistration | Wrapper per la registrazione dell'origine dati. |
| DataSourceReader | Classe di base per i lettori dell'origine dati. |
| DataSourceStreamArrowWriter | Classe di base per i writer di flussi di dati che elaborano i dati usando pyarrow.RecordBatch |
| DataSourceStreamReader | Classe di base per i lettori dell'origine dati di streaming. |
| DataSourceStreamWriter | Classe di base per i writer di flussi di dati. |
| DataSourceWriter | Classe di base per i writer di origini dati responsabili del salvataggio dei dati in un'origine dati personalizzata in modalità batch. |
| DataStreamReader | Interfaccia usata per caricare un dataframe di streaming da sistemi di archiviazione esterni. |
| DataStreamWriter | Interfaccia usata per scrivere un dataframe di streaming in sistemi di archiviazione esterni. |
| Geografia | Classe per rappresentare un valore Geography in Python. |
| geometria | Classe per rappresentare un valore Geometry in Python. |
| GroupedData | Metodi per raggruppare i dati ed eseguire operazioni di aggregazione su dataframe raggruppati. |
| InputPartition | Classe base che rappresenta una partizione di input restituita dal partitions() metodo di DataSourceReader. |
| Osservazione | Raccoglie le metriche e osserva i dataframe durante l'esecuzione delle query per il monitoraggio e il debug. |
| PlotAccessor | Funzione di accesso per la funzionalità di tracciamento dei dataframe in PySpark. |
| ProtoBuf | Supporto per la serializzazione e la deserializzazione dei dati tramite il formato Buffer di protocollo. |
| Fila | Rappresenta una riga di dati in un dataframe, fornendo l'accesso ai singoli valori di campo. |
| RuntimeConfig | Opzioni di configurazione di runtime per Spark SQL, incluse le impostazioni di esecuzione e ottimizzazione. Per informazioni sulla configurazione disponibile solo in Databricks, vedere Set delle proprietà di configurazione di Spark in Azure Databricks. |
| SimpleDataSourceStreamReader | Classe di base per i lettori semplificati dell'origine dati di streaming che legge i dati e pianifica l'offset più recente contemporaneamente. |
| SparkSession | Punto di ingresso per la lettura dei dati e l'esecuzione di query SQL nelle applicazioni PySpark. |
| Processore con stato | Gestisce lo stato tra batch di streaming per operazioni complesse con stato in streaming strutturato. |
| StreamingQuery | Handle per una query che viene eseguita in modo continuo in background man mano che arrivano nuovi dati. |
| StreamingQueryListener | Classe astratta per l'ascolto degli eventi del ciclo di vita delle query di streaming. |
| StreamingQueryManager | Gestisce tutte le istanze attive StreamingQuery associate a un oggetto SparkSession. |
| UserDefinedFunction (UDF) | Funzioni definite dall'utente per l'applicazione della logica di Python personalizzata alle colonne del dataframe. |
| UDFRegistration | Wrapper per la registrazione di funzioni definite dall'utente. È possibile accedere a questa istanza da spark.udf. |
| UserDefinedTableFunction (UDTF) | Funzioni di tabella definite dall'utente che restituiscono più righe per ogni riga di input. |
| UDTFRegistration | Wrapper per la registrazione della funzione di tabella definita dall'utente. È possibile accedere a questa istanza da spark.udtf. |
| VariantVal | Rappresenta dati semistrutturati con schema flessibile, che supporta tipi dinamici e strutture annidate. |
| Finestra | Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente. |
| WindowSpec | Funzioni window per l'esecuzione di calcoli in un set di righe di tabella correlate alla riga corrente. |
| WriterCommitMessage | Messaggio di commit restituito da DataSourceWriter.write e inviato al driver come parametro di input di DataSourceWriter.commit o DataSourceWriter.abort. |
Funzioni
Per un elenco completo delle funzioni predefinite disponibili, vedere Funzioni PySpark.