Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Partiziona l'output in base alle colonne specificate nel file system. L'output è disposto in modo simile allo schema di partizionamento di Hive.
Sintassi
partitionBy(*cols)
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
*cols |
str o list | Nomi delle colonne in base a cui partizionare. |
Restituzioni
DataStreamWriter
Examples
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>
Partizionare un flusso di origine rate per timestamp e scrivere in Parquet:
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
q = df.writeStream.partitionBy(
"timestamp").format("parquet").option("checkpointLocation", cp).start(d)
time.sleep(5)
q.stop()
spark.read.schema(df.schema).parquet(d).show()