サンプル

この DataFrame のサンプリングされたサブセットを返します。

構文

sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)

パラメーター

パラメーター タイプ 説明
withReplacement bool、省略可能 置き換えの有無を示すサンプル (既定の False)。
fraction float、省略可能 生成する行の比率 。範囲は [0.0, 1.0]。
seed int、省略可能 サンプリングのシード (既定ではランダム シード)。

返品

DataFrame: 指定された DataFrame からサンプリングされた行。

メモ

これは、指定された DataFrame の合計数で指定された分数を正確に提供する保証はありません。

fraction は必須であり、 withReplacementseed は省略可能です。

例示

df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10