Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Restituisce un nuovo dataframe con ogni partizione ordinata in base alle colonne specificate.
Sintassi
sortWithinPartitions(*cols: Union[int, str, Column, List[Union[int, str, Column]]], **kwargs: Any)
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
cols |
int, str, list o Column, facoltativo | elenco di nomi di colonna o ordinali di colonna per l'ordinamento. |
ascending |
bool o list, facoltativo, true predefinito | booleano o elenco di valori booleani. Ordinare in ordine crescente o decrescente. Specificare l'elenco per più ordini di ordinamento. Se viene specificato un elenco, la lunghezza dell'elenco deve essere uguale alla lunghezza di cols. |
Restituzioni
DataFrame: dataframe ordinato per partizioni.
Note
Un ordinale di colonna inizia da 1, che è diverso da quello basato su __getitem__0. Se un ordinale di colonna è negativo, significa decrescente.
Examples
from pyspark.sql import functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
df.sortWithinPartitions("age", ascending=False)
# DataFrame[age: bigint, name: string]
df.coalesce(1).sortWithinPartitions(1).show()
# +---+-----+
# |age| name|
# +---+-----+
# | 2|Alice|
# | 5| Bob|
# +---+-----+
df.coalesce(1).sortWithinPartitions(-1).show()
# +---+-----+
# |age| name|
# +---+-----+
# | 5| Bob|
# | 2|Alice|
# +---+-----+