Freigeben über


sampleBy (DataFrameStatFunctions)

Gibt eine gestazierte Probe ohne Ersatz basierend auf dem Bruch zurück, der auf den einzelnen Schichten angegeben ist.

Syntax

sampleBy(col, fractions, seed=None)

Parameter

Parameter Typ Beschreibung
col str Die Spalte, die Strata definiert.
fractions Wörterbuch Die Stichprobenfraktion für jede Schicht. Strata nicht angegeben werden als Bruch null behandelt.
seed int, optional Zufälliger Ausgangswert.

Rückkehr

DataFrame

Beispiele

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+