transform (DataFrame)

新しい DataFrame を返します。 カスタム変換を連結するための簡潔な構文。

構文

transform(func: Callable[..., "DataFrame"], *args: Any, **kwargs: Any)

パラメーター

パラメーター タイプ 説明
func 関数 DataFrame を受け取って返す関数。
*args いかなる/どれでも/任意の func に渡す位置引数。
**kwargs いかなる/どれでも/任意の func に渡すキーワード引数。

返品

DataFrame: 変換されたデータフレーム。

例示

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1, 1.0), (2, 2.0)], ["int", "float"])
def cast_all_to_int(input_df):
    return input_df.select([sf.col(c).cast("int") for c in input_df.columns])

def sort_columns_asc(input_df):
    return input_df.select(*sorted(input_df.columns))

df.transform(cast_all_to_int).transform(sort_columns_asc).show()
# +-----+---+
# |float|int|
# +-----+---+
# |    1|  1|
# |    2|  2|
# +-----+---+

def add_n(input_df, n):
    cols = [(sf.col(c) + n).alias(c) for c in input_df.columns]
    return input_df.select(cols)

df.transform(add_n, 1).transform(add_n, n=10).show()
# +---+-----+
# |int|float|
# +---+-----+
# | 12| 12.0|
# | 13| 13.0|
# +---+-----+