dropna

null または NaN 値を持つ行を省略する新しい DataFrame を返します。 DataFrame.dropnaDataFrameNaFunctions.drop は互いのエイリアスです。

構文

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

パラメーター

パラメーター タイプ 説明
how str、省略可能、既定の 'any' 'any' または 'all' の値を指定します。 'any' の場合は、null が含まれている場合は行を削除します。 'all' の場合は、すべての値が null の場合にのみ行を削除します。
thresh int、省略可能、既定値なし 指定した場合は、null 以外の値 thresh 未満の行を削除します。 これにより、 how パラメーターが上書きされます。
subset str、タプル、またはリスト、省略可能 考慮する列名の省略可能なリスト。

返品

DataFrame: null 行のみが除外された DataFrame。

例示

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+