Freigeben über


randomSplit

Teilt diesen DataFrame zufällig mit den bereitgestellten Gewichtungen auf.

Syntax

randomSplit(weights: List[float], seed: Optional[int] = None)

Parameter

Parameter Typ Beschreibung
weights liste Liste der Doppelten als Gewichtungen, mit denen der DataFrame geteilt werden soll. Gewichtungen werden normalisiert, wenn sie nicht auf 1,0 summieren.
seed int, optional Der Samen für die Probenahme.

Rückkehr

list: List of DataFrames.

Beispiele

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80, name="Alice"),
    Row(age=5, height=None, name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=None, name=None),
])

splits = df.randomSplit([1.0, 2.0], 24)
splits[0].count()
# 2
splits[1].count()
# 2