保持

最初に計算された後に、操作間で DataFrame の内容を保持するようにストレージ レベルを設定します。 これは、DataFrame にストレージ レベルがまだ設定されていない場合にのみ、新しいストレージ レベルを割り当てるために使用できます。 ストレージ レベルが指定されていない場合、既定値は (MEMORY_AND_DISK_DESER)。

構文

persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)

パラメーター

パラメーター タイプ 説明
storageLevel StorageLevel 永続化のために設定するストレージ レベル。 既定値は MEMORY_AND_DISK_DESER です。

返品

DataFrame: 永続化された DataFrame。

メモ

既定のストレージ レベルは、3.0 で Scala と一致するように MEMORY_AND_DISK_DESER に変更されました。

キャッシュされたデータは、クラスター上のすべての Spark セッションで共有されます。

例示

df = spark.range(1)
df.persist()
# DataFrame[id: bigint]

df.explain()
# == Physical Plan ==
# InMemoryTableScan ...

from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]