drop (DataFrameNaFunctions)

null または NaN 値を持つ行を省略する新しい DataFrame を返します。 DataFrame.dropnaDataFrameNaFunctions.drop は互いのエイリアスです。

構文

drop(how='any', thresh=None, subset=None)

パラメーター

パラメーター タイプ 説明
how str、省略可能 行に null が含まれている場合、またはすべての値が null の場合にのみ、行を削除するかどうか。 使用できる値は、 'any' (既定値) と 'all'です。 threshを指定した場合、howは無視されます。
thresh int、省略可能 指定した場合、null 以外の値 thresh 未満の行を削除します。 howを上書きします。
subset str、tuple、または list、省略可能 null 値または NaN 値をチェックするときに考慮する列名。

返品

DataFrame

例示

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

null または NaN 値が含まれている場合は、行を削除します。

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

すべての値が null または NaN の場合にのみ、行を削除します。

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

null 以外の値と NaN 以外の値 thresh 未満の行を削除します。

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

指定した列に null 値と NaN 値を持つ行を削除します。

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+