Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gruppiert die Daten nach den angegebenen Spalten, um die Abfrageleistung zu optimieren.
Syntax
clusterBy(*cols)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
*cols |
str oder list | Namen der Spalten, nach der gruppiert werden soll. |
Rückkehr
DataFrameWriter
Beispiele
Schreiben Sie einen DataFrame in eine Parkettdatei mit Clustering.
import tempfile
with tempfile.TemporaryDirectory(prefix="clusterBy") as d:
spark.createDataFrame(
[{"age": 100, "name": "Alice"}, {"age": 120, "name": "Ruifeng Zheng"}]
).write.clusterBy("name").mode("overwrite").format("parquet").save(d)