Referência do PySpark

Esta página fornece uma visão geral das referências disponíveis para o PySpark, uma API Python para o Spark. Para mais informações sobre o PySpark, consulte PySpark em Azure Databricks.

Tipos de dados

Para uma lista completa dos tipos de dados PySpark, veja Tipos de dados PySpark.

Aulas

Reference	Description
Catálogo	Interface para gerir bases de dados, tabelas, funções e outros metadados de catálogo.
Coluna	Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
tipos de dados	Tipos de dados disponíveis em PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo utilizador.
DataFrame	Coleção distribuída de dados organizada em colunas nomeadas, semelhante a uma tabela numa base de dados relacional.
DataFrameNaFunctions	Funcionalidade para trabalhar com dados em falta num DataFrame.
DataFrameReader	Interface usada para carregar um DataFrame a partir de sistemas de armazenamento externos.
DataFrameStatFunctions	Funcionalidade para funções estatísticas com um DataFrame.
DataFrameWriter	Interface usada para escrever um DataFrame para sistemas de armazenamento externos.
DataFrameWriterV2	Interface usada para escrever um DataFrame para armazenamento externo (versão 2).
Fonte de dados	APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para informações sobre fontes de dados personalizadas, consulte PySpark fontes de dados personalizadas.
DataSourceArrowWriter	Uma classe base para escritores de fontes de dados que processam dados usando o `RecordBatch`arquivo do PyArrow.
DataSourceRegistration	Um wrapper para o registo da fonte de dados.
DataSourceReader	Uma classe base para leitores de fontes de dados.
DataSourceStreamArrowWriter	Uma classe base para escritores de fluxos de dados que processam dados usando o `RecordBatch`arquivo do PyArrow.
DataSourceStreamReader	Uma classe base para streaming de leitores de fontes de dados.
DataSourceStreamWriter	Uma classe base para escritores de fluxos de dados.
DataSourceWriter	Uma classe base para escritores de fontes de dados responsáveis por guardar dados numa fonte de dados personalizada em modo batch.
DataStreamReader	Interface usada para carregar um DataFrame em streaming a partir de sistemas de armazenamento externos.
DataStreamWriter	Interface usada para escrever um DataFrame em streaming para sistemas de armazenamento externos.
Geografia	Uma classe para representar um valor de Geografia em Python.
Geometria	Uma classe para representar um valor de Geometria em Python.
GroupedData	Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.
InputPartition	Uma classe base que representa uma partição de entrada devolvida pelo `partitions()` método de `DataSourceReader`.
Observação	Recolhe métricas e observa DataFrames durante a execução da consulta para monitorização e depuração.
PlotAccessor	Acessório para funcionalidade de plotamento DataFrame no PySpark.
ProtoBuf	Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Linha	Representa uma linha de dados num DataFrame, fornecendo acesso a valores individuais de campo.
RuntimeConfig	Configurações em tempo de execução para Spark SQL, incluindo definições de execução e de otimização. Para informações sobre configurações que só estão disponíveis em Databricks, veja as propriedades de configuração Set Spark em Azure Databricks.
SimpleDataDataSourceStreamReader	Uma classe base para leitores simplificados de fontes de dados em streaming que lê dados e planeia o deslocamento mais recente em simultâneo.
SparkSession	O ponto de entrada para ler dados e executar consultas SQL em aplicações PySpark.
Processador com estado	Gere o estado entre lotes de streaming para operações complexas dentro de streaming estruturado.
StreamingQuery	Um handle para uma consulta que está a ser executada continuamente em segundo plano à medida que novos dados chegam.
StreamingQueryListener	Classe de resumo para ouvir eventos do ciclo de vida da consulta em streaming.
StreamingQueryManager	Gere todas as instâncias ativas `StreamingQuery` associadas a um `SparkSession`.
UserDefinedFunction (UDF)	Funções definidas pelo utilizador para aplicar lógica Python personalizada a colunas DataFrame.
UDFRegistration	Wrapper para registo de funções definidas pelo utilizador. Esta instância pode ser acedida por `spark.udf`.
UserDefinedTableFunction (UDTF)	Funções de tabela definidas pelo utilizador que retornam várias linhas para cada linha de entrada.
UDTFRegistração	Wrapper para registo de funções de tabela definidas pelo utilizador. Esta instância pode ser acedida por `spark.udtf`.
VariantVal	Representa dados semi-estruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas.
Janela	Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual.
WindowSpec	Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual.
WriterCommitMessage	Uma mensagem de commit devolvida por `DataSourceWriter.write` e enviada de volta ao driver como parâmetro de entrada de `DataSourceWriter.commit` ou `DataSourceWriter.abort`.

Funções

Para uma lista completa das funções incorporadas disponíveis, veja Funções PySpark.

Comentários

Esta página foi útil?

Last updated on 2026-04-23