Freigeben über


drop (DataFrameNaFunctions)

Gibt eine neue DataFrame Auslassung von Zeilen mit Null- oder NaN-Werten zurück. DataFrame.dropna und DataFrameNaFunctions.drop sind Aliase voneinander.

Syntax

drop(how='any', thresh=None, subset=None)

Parameter

Parameter Typ Beschreibung
how str, optional Gibt an, ob eine Zeile abzulegen ist, wenn sie Nullen enthält oder nur, wenn alle zugehörigen Werte null sind. Akzeptierte Werte sind 'any' (Standard) und 'all'. Wenn thresh angegeben, how wird ignoriert.
thresh int, optional Wenn angegeben, legen Sie Zeilen ab, die weniger als thresh Nullwerte aufweisen. Überschreibt how.
subset str, tupel oder liste, optional Spaltennamen, die bei der Überprüfung auf Null- oder NaN-Werte berücksichtigt werden sollen.

Rückkehr

DataFrame

Beispiele

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Legen Sie die Zeile ab, wenn sie einen Null- oder NaN-Wert enthält.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Legen Sie die Zeile nur ab, wenn alle zugehörigen Werte null oder NaN sind.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Legen Sie Zeilen ab, die weniger als thresh Null- und Nicht-NaN-Werte aufweisen.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Legen Sie Zeilen mit Null- und NaN-Werten in den angegebenen Spalten ab.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+