partitionedBy

指定した列または変換を使用して、 createcreateOrReplace、または replace によって作成された出力テーブルをパーティション分割します。 指定すると、効率的な読み取りのためにテーブル データがこれらの値によって格納されます。

たとえば、テーブルが日単位でパーティション分割されている場合、次のようなディレクトリ レイアウトに格納される場合があります。

  • table/day=2019-06-01/
  • table/day=2019-06-02/

パーティション分割は、物理データ レイアウトを最適化するために最も広く使用されている手法の 1 つです。 パーティション分割された列に対してクエリに述語がある場合に、不要なデータ読み取りをスキップするための粒度の粗いインデックスが提供されます。 パーティション分割を適切に機能させるには、通常、各列の個別の値の数が数万未満である必要があります。

colcols は、次の変換関数のみをサポートします。

  • pyspark.sql.functions.years
  • pyspark.sql.functions.months
  • pyspark.sql.functions.days
  • pyspark.sql.functions.hours
  • pyspark.sql.functions.bucket

構文

partitionedBy(col, *cols)

パラメーター

パラメーター タイプ 説明
col Column または str 最初のパーティション分割列または変換。
*cols Column または str(省略可能) 追加のパーティション分割列または変換。

返品

DataFrameWriterV2