sortWithinPartitions

Devolve um novo DataFrame com cada partição ordenada pelo(s) coluna(s) especificada(s).

Sintaxe

sortWithinPartitions(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)

Parâmetros

Parâmetro Tipo Descrição
cols int, str, list ou Column, opcional lista de nomes de colunas ou ordinais de coluna para ordenar.
ascending bool ou list, opcional, por defeito Verdadeiro Booleano ou lista de booleanos. Separar ascendência vs. descida. Especifique a lista para múltiplas ordens de ordenação. Se uma lista for especificada, o comprimento da lista deve ser igual ao comprimento do cols.

Devoluções

DataFrame: DataFrame ordenado por partições.

Notes

Um ordinal de coluna começa em 1, que é diferente do ordinal baseado __getitem__em 0 . Se um ordinal de coluna for negativo, significa ordenação descendente.

Exemplos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.sortWithinPartitions("age", ascending=False)
# DataFrame[age: bigint, name: string]

df.coalesce(1).sortWithinPartitions(1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  2|Alice|
# |  5|  Bob|
# +---+-----+

df.coalesce(1).sortWithinPartitions(-1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+