Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gibt eine gestazierte Probe ohne Ersatz basierend auf dem Bruch zurück, der auf den einzelnen Schichten angegeben ist.
Syntax
sampleBy(col, fractions, seed=None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
col |
str | Die Spalte, die Strata definiert. |
fractions |
Wörterbuch | Die Stichprobenfraktion für jede Schicht. Strata nicht angegeben werden als Bruch null behandelt. |
seed |
int, optional | Zufälliger Ausgangswert. |
Rückkehr
DataFrame
Beispiele
from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# | 0| 4|
# | 1| 9|
# +---+-----+