最初に計算された後に、操作間で DataFrame の内容を保持するようにストレージ レベルを設定します。 これは、DataFrame にストレージ レベルがまだ設定されていない場合にのみ、新しいストレージ レベルを割り当てるために使用できます。 ストレージ レベルが指定されていない場合、既定値は (MEMORY_AND_DISK_DESER)。
構文
persist(storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_DESER)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
storageLevel |
StorageLevel | 永続化のために設定するストレージ レベル。 既定値は MEMORY_AND_DISK_DESER です。 |
返品
DataFrame: 永続化された DataFrame。
メモ
既定のストレージ レベルは、3.0 で Scala と一致するように MEMORY_AND_DISK_DESER に変更されました。
キャッシュされたデータは、クラスター上のすべての Spark セッションで共有されます。
例示
df = spark.range(1)
df.persist()
# DataFrame[id: bigint]
df.explain()
# == Physical Plan ==
# InMemoryTableScan ...
from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
# DataFrame[id: bigint]