null または NaN 値を持つ行を省略する新しい DataFrame を返します。
DataFrame.dropna と DataFrameNaFunctions.drop は互いのエイリアスです。
構文
drop(how='any', thresh=None, subset=None)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
how |
str、省略可能 | 行に null が含まれている場合、またはすべての値が null の場合にのみ、行を削除するかどうか。 使用できる値は、 'any' (既定値) と 'all'です。
threshを指定した場合、howは無視されます。 |
thresh |
int、省略可能 | 指定した場合、null 以外の値 thresh 未満の行を削除します。
howを上書きします。 |
subset |
str、tuple、または list、省略可能 | null 値または NaN 値をチェックするときに考慮する列名。 |
返品
DataFrame
例示
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
null または NaN 値が含まれている場合は、行を削除します。
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
すべての値が null または NaN の場合にのみ、行を削除します。
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
null 以外の値と NaN 以外の値 thresh 未満の行を削除します。
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+
指定した列に null 値と NaN 値を持つ行を削除します。
df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+