Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Generiert ein KDE-Plot (Kernel Density Estimate) mit gaussischen Kerneln.
In der Statistik ist die Kerneldichteschätzung eine nicht parametrische Methode, um die Wahrscheinlichkeitsdichtefunktion (PDF) einer Zufallsvariablen zu schätzen. Diese Funktion verwendet gaussische Kernel und umfasst die automatische Bandbreitenermittlung.
Syntax
kde(bw_method, column=None, ind=None, **kwargs)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
bw_method |
int oder float | Die Zum Berechnen der Schätzbandbreite verwendete Methode. Weitere Informationen finden Sie KernelDensity in PySpark. |
column |
str oder liste von str, optional | Spaltenname oder Liste der Namen, die zum Erstellen des KDE-Plots verwendet werden sollen. Wenn None (Standard) werden alle numerischen Spalten verwendet. |
ind |
Liste der Float-, NumPy-Array- oder Int-Arrays, optional | Auswertungspunkte für die geschätzte PDF. Wenn None (Standard) werden 1000 gleichmäßige Leerzeichen verwendet. Wenn ein NumPy-Array vorhanden ist, wird die KDE an diesen Punkten ausgewertet. Wenn eine ganze Zahl verwendet wird, werden diese vielen gleichmäßigen Leerzeichen verwendet. |
**kwargs |
optional | Zusätzliche Schlüsselwortargumente. |
Rückkehr
plotly.graph_objs.Figure
Beispiele
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)