Condividi tramite


sortWithinPartitions

Restituisce un nuovo dataframe con ogni partizione ordinata in base alle colonne specificate.

Sintassi

sortWithinPartitions(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)

Parametri

Parametro Tipo Descrizione
cols int, str, list o Column, facoltativo elenco di nomi di colonna o ordinali di colonna per l'ordinamento.
ascending bool o list, facoltativo, true predefinito booleano o elenco di valori booleani. Ordinare in ordine crescente o decrescente. Specificare l'elenco per più ordini di ordinamento. Se viene specificato un elenco, la lunghezza dell'elenco deve essere uguale alla lunghezza di cols.

Restituzioni

DataFrame: dataframe ordinato per partizioni.

Note

Un ordinale di colonna inizia da 1, che è diverso da quello basato su __getitem__0. Se un ordinale di colonna è negativo, significa decrescente.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.sortWithinPartitions("age", ascending=False)
# DataFrame[age: bigint, name: string]

df.coalesce(1).sortWithinPartitions(1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  2|Alice|
# |  5|  Bob|
# +---+-----+

df.coalesce(1).sortWithinPartitions(-1).show()
# +---+-----+
# |age| name|
# +---+-----+
# |  5|  Bob|
# |  2|Alice|
# +---+-----+