KDE

Gera um gráfico de Estimativa de Densidade de Núcleo (KDE) usando núcleos gaussianos.

Em estatística, a estimação da densidade kernel é uma forma não paramétrica de estimar a função densidade de probabilidade (PDF) de uma variável aleatória. Esta função utiliza núcleos Gaussiano e inclui determinação automática de largura de banda.

Sintaxe

kde(bw_method, column=None, ind=None, **kwargs)

Parâmetros

Parâmetro	Tipo	Descrição
`bw_method`	int ou float	O método utilizado para calcular a largura de banda do estimador. Consulte `KernelDensity` no PySpark para mais informações.
`column`	Str ou lista de STR, opcional	Nome da coluna ou lista de nomes a usar para criar o gráfico KDE. Se `None` (por defeito), todas as colunas numéricas são usadas.
`ind`	lista de float, array NumPy ou int, opcional	Pontos de avaliação para o PDF estimado. Se `None` (por defeito), são usados 1000 pontos espaçados igualmente. Se for um array NumPy, o KDE é avaliado nesses pontos. Se for um inteiro, são usados tantos pontos igualmente espaçados.
`**kwargs`	optional	Argumentos adicionais sobre palavras-chave.

Devoluções

plotly.graph_objs.Figure

Exemplos

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)

Comentários

Esta página foi útil?

Last updated on 2026-04-19