partitionedBy

指定した列または変換を使用して、 create、 createOrReplace、または replace によって作成された出力テーブルをパーティション分割します。指定すると、効率的な読み取りのためにテーブルデータがこれらの値によって格納されます。

たとえば、テーブルが日単位でパーティション分割されている場合、次のようなディレクトリレイアウトに格納される場合があります。

table/day=2019-06-01/
table/day=2019-06-02/

パーティション分割は、物理データレイアウトを最適化するために最も広く使用されている手法の 1 つです。パーティション分割された列に対してクエリに述語がある場合に、不要なデータ読み取りをスキップするための粒度の粗いインデックスが提供されます。パーティション分割を適切に機能させるには、通常、各列の個別の値の数が数万未満である必要があります。

col と cols は、次の変換関数のみをサポートします。

pyspark.sql.functions.years
pyspark.sql.functions.months
pyspark.sql.functions.days
pyspark.sql.functions.hours
pyspark.sql.functions.bucket

構文

partitionedBy(col, *cols)

パラメーター

パラメーター	タイプ	説明
`col`	Column または str	最初のパーティション分割列または変換。
`*cols`	Column または str(省略可能)	追加のパーティション分割列または変換。

返品

DataFrameWriterV2

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-19

partitionedBy

構文

パラメーター

返品

フィードバック

その他のリソース