persistir

Define o nível de armazenamento para persistir o conteúdo do DataFrame entre operações após a primeira vez que é calculado. Isto só pode ser usado para atribuir um novo nível de armazenamento se o DataFrame ainda não tiver um nível de armazenamento definido. Se não for especificado o nível de armazenamento, por defeito é (MEMORY_AND_DISK_DESER).

Sintaxe

persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)

Parâmetros

Parâmetro Tipo Descrição
storageLevel StorageLevel Nível de armazenamento a definir para persistência. O padrão é MEMORY_AND_DISK_DESER.

Devoluções

DataFrame: DataFrame persistente.

Notes

O nível de armazenamento padrão mudou para MEMORY_AND_DISK_DESER corresponder ao Scala na 3.0.

Os dados em cache são partilhados por todas as sessões Spark no cluster.

Exemplos

df = spark.range(1)
df.persist()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...

from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]