kde

ガウスカーネルを使用してカーネル密度推定 (KDE) プロットを生成します。

統計では、カーネル密度推定は、ランダム変数の確率密度関数 (PDF) を推定する非パラメトリックな方法です。 この関数は、ガウスカーネルを使用し、自動帯域幅決定を含みます。

構文

kde(bw_method, column=None, ind=None, **kwargs)

パラメーター

パラメーター タイプ 説明
bw_method int または float 推定帯域幅の計算に使用されるメソッド。 詳細については、PySpark の KernelDensity を参照してください。
column str または str のリスト(省略可能) KDE プロットの作成に使用する列名または名前の一覧。 None (既定値) の場合は、すべての数値列が使用されます。
ind float、NumPy 配列、または int のリスト (省略可能) 推定 PDF の評価ポイント。 None (既定値) の場合は、等間隔の 1000 ポイントが使用されます。 NumPy 配列の場合、KDE はそれらのポイントで評価されます。 整数の場合は、その多数の等間隔ポイントが使用されます。
**kwargs 任意 追加のキーワード引数。

返品

plotly.graph_objs.Figure

例示

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
data = [(5.1, 3.5, 0), (4.9, 3.0, 0), (7.0, 3.2, 1), (6.4, 3.2, 1), (5.9, 3.0, 2)]
columns = ["length", "width", "species"]
df = spark.createDataFrame(data, columns)
df.plot.kde(bw_method=0.3, ind=100)