Freigeben über


kde

Generiert ein KDE-Plot (Kernel Density Estimate) mit gaussischen Kerneln.

In der Statistik ist die Kerneldichteschätzung eine nicht parametrische Methode, um die Wahrscheinlichkeitsdichtefunktion (PDF) einer Zufallsvariablen zu schätzen. Diese Funktion verwendet gaussische Kernel und umfasst die automatische Bandbreitenermittlung.

Syntax

kde(bw_method, column=None, ind=None, **kwargs)

Parameter

Parameter Typ Beschreibung
bw_method int oder float Die Zum Berechnen der Schätzbandbreite verwendete Methode. Weitere Informationen finden Sie KernelDensity in PySpark.
column str oder liste von str, optional Spaltenname oder Liste der Namen, die zum Erstellen des KDE-Plots verwendet werden sollen. Wenn None (Standard) werden alle numerischen Spalten verwendet.
ind Liste der Float-, NumPy-Array- oder Int-Arrays, optional Auswertungspunkte für die geschätzte PDF. Wenn None (Standard) werden 1000 gleichmäßige Leerzeichen verwendet. Wenn ein NumPy-Array vorhanden ist, wird die KDE an diesen Punkten ausgewertet. Wenn eine ganze Zahl verwendet wird, werden diese vielen gleichmäßigen Leerzeichen verwendet.
**kwargs optional Zusätzliche Schlüsselwortargumente.

Rückkehr

plotly.graph_objs.Figure

Beispiele

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)