Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Agrupa o DataFrame pelas colunas especificadas para que a agregação possa ser realizada sobre elas. Consulte GroupedData todas as funções agregadas disponíveis.
Sintaxe
groupBy(*cols: "ColumnOrNameOrOrdinal")
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
cols |
list, str, int ou Column | As colunas a agrupar. Cada elemento pode ser um nome de coluna (string), uma expressão (Column), um ordinal de coluna (int, baseado em 1) ou uma lista deles. |
Devoluções
GroupedData: Um objeto GroupedData que representa os dados agrupados pelas colunas especificadas.
Notes
Um ordinal de coluna começa em 1, que é diferente do ordinal baseado __getitem__em 0 .
Exemplos
df = spark.createDataFrame([
("Alice", 2), ("Bob", 2), ("Bob", 2), ("Bob", 5)], schema=["name", "age"])
df.groupBy().avg().show()
# +--------+
# |avg(age)|
# +--------+
# | 2.75|
# +--------+
df.groupBy("name").agg({"age": "sum"}).sort("name").show()
# +-----+--------+
# | name|sum(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 9|
# +-----+--------+
df.groupBy(df.name).max().sort("name").show()
# +-----+--------+
# | name|max(age)|
# +-----+--------+
# |Alice| 2|
# | Bob| 5|
# +-----+--------+
df.groupBy(["name", df.age]).count().sort("name", "age").show()
# +-----+---+-----+
# | name|age|count|
# +-----+---+-----+
# |Alice| 2| 1|
# | Bob| 2| 2|
# | Bob| 5| 1|
# +-----+---+-----+