この DataFrame のサンプリングされたサブセットを返します。
構文
sample(withReplacement: Optional[Union[float, bool]] = None, fraction: Optional[Union[int, float]] = None, seed: Optional[int] = None)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
withReplacement |
bool、省略可能 | 置き換えの有無を示すサンプル (既定の False)。 |
fraction |
float、省略可能 | 生成する行の比率 。範囲は [0.0, 1.0]。 |
seed |
int、省略可能 | サンプリングのシード (既定ではランダム シード)。 |
返品
DataFrame: 指定された DataFrame からサンプリングされた行。
メモ
これは、指定された DataFrame の合計数で指定された分数を正確に提供する保証はありません。
fraction は必須であり、 withReplacement と seed は省略可能です。
例示
df = spark.range(0, 10, 1, 1)
df.sample(0.5, 3).count()
# 7
df.sample(fraction=0.5, seed=3).count()
# 4
df.sample(withReplacement=True, fraction=0.5, seed=3).count()
# 2
df.sample(1.0).count()
# 10
df.sample(fraction=1.0).count()
# 10
df.sample(False, fraction=1.0).count()
# 10