ガウスカーネルを使用してカーネル密度推定 (KDE) プロットを生成します。
統計では、カーネル密度推定は、ランダム変数の確率密度関数 (PDF) を推定する非パラメトリックな方法です。 この関数は、ガウスカーネルを使用し、自動帯域幅決定を含みます。
構文
kde(bw_method, column=None, ind=None, **kwargs)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
bw_method |
int または float | 推定帯域幅の計算に使用されるメソッド。 詳細については、PySpark の KernelDensity を参照してください。 |
column |
str または str のリスト(省略可能) | KDE プロットの作成に使用する列名または名前の一覧。
None (既定値) の場合は、すべての数値列が使用されます。 |
ind |
float、NumPy 配列、または int のリスト (省略可能) | 推定 PDF の評価ポイント。
None (既定値) の場合は、等間隔の 1000 ポイントが使用されます。 NumPy 配列の場合、KDE はそれらのポイントで評価されます。 整数の場合は、その多数の等間隔ポイントが使用されます。 |
**kwargs |
任意 | 追加のキーワード引数。 |
返品
plotly.graph_objs.Figure
例示
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)