SampleBy (DataFrameStatFunctions)

Devolve uma amostra estratificada sem substituição com base na fração dada em cada estrato.

Sintaxe

sampleBy(col, fractions, seed=None)

Parâmetros

Parâmetro Tipo Descrição
col str A coluna que define estratos.
fractions dicionário A fração de amostragem para cada estrato. Camadas não especificadas são tratadas como tendo uma fração de zero.
seed int, opcional Semente aleatória.

Devoluções

DataFrame

Exemplos

from pyspark.sql import functions as sf
dataset = spark.range(0, 100, 1, 5).select((sf.col("id") % 3).alias("key"))
sampled = dataset.stat.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()
# +---+-----+
# |key|count|
# +---+-----+
# |  0|    4|
# |  1|    9|
# +---+-----+