kde

Genera un tracciato di stima della densità del kernel usando kernel gaussian.

Nelle statistiche, la stima della densità del kernel è un modo non parametrico per stimare la funzione densità di probabilità (PDF) di una variabile casuale. Questa funzione usa kernel Gaussian e include la determinazione automatica della larghezza di banda.

Sintassi

kde(bw_method, column=None, ind=None, **kwargs)

Parametri

Parametro	Tipo	Descrizione
`bw_method`	int o float	Metodo utilizzato per calcolare la larghezza di banda dello strumento di stima. Per altre informazioni, vedere `KernelDensity` in PySpark.
`column`	str o elenco di str, facoltativo	Nome di colonna o elenco di nomi da utilizzare per la creazione del tracciato DI TRACCIA. Se `None` (impostazione predefinita), vengono utilizzate tutte le colonne numeriche.
`ind`	elenco di valori float, matrice NumPy o int, facoltativo	Punti di valutazione per il PDF stimato. Se `None` (impostazione predefinita), vengono usati 1000 punti con spaziatura uniforme. Se una matrice NumPy viene valutata in corrispondenza di tali punti. Se viene utilizzato un numero intero, vengono usati molti punti ugualmente spaziati.
`**kwargs`	opzionale	Argomenti di parole chiave aggiuntivi.

Restituzioni

plotly.graph_objs.Figure

Examples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-19