Freigeben über


sortBy

Sortiert die Ausgabe in jedem Bucket nach den angegebenen Spalten im Dateisystem.

Syntax

sortBy(col, *cols)

Parameter

Parameter Typ Beschreibung
col str, tupel oder liste Ein Spaltenname oder eine Liste von Namen.
*cols str, optional Zusätzliche Spaltennamen. Muss leer sein, wenn col es sich um eine Liste handelt.

Rückkehr

DataFrameWriter

Beispiele

Schreiben Sie einen DataFrame in eine sortierte zusammengefasste Tabelle, und lesen Sie ihn zurück.

spark.sql("DROP TABLE IF EXISTS sorted_bucketed_table")
spark.createDataFrame([
    (100, "Alice"), (120, "Alice"), (140, "Bob")],
    schema=["age", "name"]
).write.bucketBy(1, "name").sortBy("age").mode(
    "overwrite").saveAsTable("sorted_bucketed_table")

spark.read.table("sorted_bucketed_table").sort("age").show()
# +---+------------+
# |age|        name|
# +---+------------+
# |100|Alice|
# |120|Alice|
# |140| Bob|
# +---+------------+

spark.sql("DROP TABLE sorted_bucketed_table")