Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Restituisce un nuovo dataframe partizionato dalle espressioni di partizionamento indicate. Il dataframe risultante è un hash partizionato.
Sintassi
repartition(numPartitions: Union[int, "ColumnOrName"], *cols: "ColumnOrName")
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
numPartitions |
int | può essere un valore int per specificare il numero di partizioni di destinazione o una colonna. Se si tratta di una colonna, verrà usata come prima colonna di partizionamento. Se non specificato, viene utilizzato il numero predefinito di partizioni. |
cols |
str o Column | partizionamento delle colonne. |
Restituzioni
DataFrame: dataframe ripartizionato.
Examples
from pyspark.sql import functions as sf
df = spark.range(0, 64, 1, 9).withColumn(
"name", sf.concat(sf.lit("name_"), sf.col("id").cast("string"))
).withColumn(
"age", sf.col("id") - 32
)
df.repartition(10).select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 9|
# +---------+
df.repartition(7, "age").select(
sf.spark_partition_id().alias("partition")
).distinct().sort("partition").show()
# +---------+
# |partition|
# +---------+
# | 0|
# ...
# | 6|
# +---------+