Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Devolve uma nova DataFrame particionada pelas expressões de partição dadas. O DataFrame resultante é particionado por intervalo.
Sintaxe
repartitionByRange(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
numPartitions |
int | pode ser um int para especificar o número alvo de partições ou uma Coluna. Se for uma Coluna, será usada como a primeira coluna de particionamento. Se não especificado, é usado o número padrão de partições. |
cols |
str ou Column | particionar colunas. |
Devoluções
DataFrame: DataFrame reparticionado.
Notes
Pelo menos uma expressão particionada deve ser especificada. Quando não é especificada uma ordem de ordenação explícita, assume-se "nulos ascendentes primeiro".
Por razões de desempenho, este método utiliza a amostragem para estimar os intervalos. Assim, a saída pode não ser consistente, uma vez que a amostragem pode devolver valores diferentes. O tamanho da amostra pode ser controlado pela configuração spark.sql.execution.rangeExchange.sampleSizePerPartition.
Exemplos
from pyspark.sql import functions as sf
spark.createDataFrame(
[(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"]
).repartitionByRange(2, "age").select(
"age", "name", sf.spark_partition_id()
).show()
# +---+-----+--------------------+
# |age| name|SPARK_PARTITION_ID()|
# +---+-----+--------------------+
# | 14| Tom| 0|
# | 16| Bob| 0|
# | 23|Alice| 1|
# +---+-----+--------------------+