Condividi tramite


kde

Genera un tracciato di stima della densità del kernel usando kernel gaussian.

Nelle statistiche, la stima della densità del kernel è un modo non parametrico per stimare la funzione densità di probabilità (PDF) di una variabile casuale. Questa funzione usa kernel Gaussian e include la determinazione automatica della larghezza di banda.

Sintassi

kde(bw_method, column=None, ind=None, **kwargs)

Parametri

Parametro Tipo Descrizione
bw_method int o float Metodo utilizzato per calcolare la larghezza di banda dello strumento di stima. Per altre informazioni, vedere KernelDensity in PySpark.
column str o elenco di str, facoltativo Nome di colonna o elenco di nomi da utilizzare per la creazione del tracciato DI TRACCIA. Se None (impostazione predefinita), vengono utilizzate tutte le colonne numeriche.
ind elenco di valori float, matrice NumPy o int, facoltativo Punti di valutazione per il PDF stimato. Se None (impostazione predefinita), vengono usati 1000 punti con spaziatura uniforme. Se una matrice NumPy viene valutata in corrispondenza di tali punti. Se viene utilizzato un numero intero, vengono usati molti punti ugualmente spaziati.
**kwargs opzionale Argomenti di parole chiave aggiuntivi.

Restituzioni

plotly.graph_objs.Figure

Examples

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)