Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Teilt diesen DataFrame zufällig mit den bereitgestellten Gewichtungen auf.
Syntax
randomSplit(weights: List[float], seed: Optional[int] = None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
weights |
liste | Liste der Doppelten als Gewichtungen, mit denen der DataFrame geteilt werden soll. Gewichtungen werden normalisiert, wenn sie nicht auf 1,0 summieren. |
seed |
int, optional | Der Samen für die Probenahme. |
Rückkehr
list: List of DataFrames.
Beispiele
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80, name="Alice"),
Row(age=5, height=None, name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=None, name=None),
])
splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2