groupingSets

Creare un'aggregazione multidimensionale per il dataframe corrente usando i set di raggruppamento specificati, in modo da poter eseguire l'aggregazione su di essi.

Sintassi

groupingSets(groupingSets: Sequence[Sequence["ColumnOrName"]], *cols: "ColumnOrName")

Parametri

Parametro	Tipo	Descrizione
`groupingSets`	sequenza di colonne o str	Singolo set di colonne su cui eseguire il raggruppamento.
`cols`	Colonna o str	Colonne di raggruppamento aggiuntive specificate dagli utenti. Tali colonne vengono visualizzate come colonne di output dopo l'aggregazione.

Restituzioni

GroupedData: raggruppamento di set di dati in base alle colonne specificate.

Examples

from pyspark.sql import functions as sf
df = spark.createDataFrame([
    (100, 'Fremont', 'Honda Civic', 10),
    (100, 'Fremont', 'Honda Accord', 15),
    (100, 'Fremont', 'Honda CRV', 7),
    (200, 'Dublin', 'Honda Civic', 20),
    (200, 'Dublin', 'Honda Accord', 10),
    (200, 'Dublin', 'Honda CRV', 3),
    (300, 'San Jose', 'Honda Civic', 5),
    (300, 'San Jose', 'Honda Accord', 8)
], schema="id INT, city STRING, car_model STRING, quantity INT")

df.groupingSets(
    [("city", "car_model"), ("city",), ()],
    "city", "car_model"
).agg(sf.sum(sf.col("quantity")).alias("sum")).sort("city", "car_model").show()
# +--------+------------+---+
# |    city|   car_model|sum|
# +--------+------------+---+
# |    NULL|        NULL| 78|
# |  Dublin|        NULL| 33|
# |  Dublin|Honda Accord| 10|
# |  Dublin|   Honda CRV|  3|
# |  Dublin| Honda Civic| 20|
# | Fremont|        NULL| 32|
# | Fremont|Honda Accord| 15|
# | Fremont|   Honda CRV|  7|
# | Fremont| Honda Civic| 10|
# |San Jose|        NULL| 13|
# |San Jose|Honda Accord|  8|
# |San Jose| Honda Civic|  5|
# +--------+------------+---+

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-19