Condividi tramite


Persistono

Imposta il livello di archiviazione per rendere persistente il contenuto del dataframe tra le operazioni dopo la prima volta che viene calcolato. Questa opzione può essere usata solo per assegnare un nuovo livello di archiviazione se il dataframe non dispone ancora di un livello di archiviazione. Se non viene specificato alcun livello di archiviazione, il valore predefinito è (MEMORY_AND_DISK_DESER).

Sintassi

persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)

Parametri

Parametro Tipo Descrizione
storageLevel StorageLevel Livello di archiviazione da impostare per la persistenza. Il valore predefinito è MEMORY_AND_DISK_DESER.

Restituzioni

DataFrame: dataframe persistente.

Note

Il livello di archiviazione predefinito è stato modificato in modo che corrisponda a MEMORY_AND_DISK_DESER Scala nella versione 3.0.

I dati memorizzati nella cache vengono condivisi in tutte le sessioni Spark nel cluster.

Examples

df = spark.range(1)
df.persist()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...

from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]