Freigeben über


dropna

Gibt einen neuen DataFrame zurück, der Zeilen mit Null- oder NaN-Werten weggelassen. DataFrame.dropna und DataFrameNaFunctions.drop sind Aliase voneinander.

Syntax

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parameter

Parameter Typ Beschreibung
how str, optional, Standard "any" die Werte, die "beliebig" oder "alle" sein können. Wenn 'any', legen Sie eine Zeile ab, wenn sie Nullen enthält. Wenn "alle" festgelegt ist, legen Sie eine Zeile nur ab, wenn alle zugehörigen Werte null sind.
thresh int, optional, Default None Wenn angegeben, legen Sie Zeilen ab, die weniger als thresh Nullwerte aufweisen. Dadurch wird der how Parameter überschrieben.
subset str, tupel oder liste, optional optionale Liste der zu berücksichtigenden Spaltennamen.

Rückkehr

DataFrame: DataFrame mit nur null ausgeschlossenen Zeilen.

Beispiele

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+