Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Gibt einen neuen DataFrame zurück, der Zeilen mit Null- oder NaN-Werten weggelassen.
DataFrame.dropna und DataFrameNaFunctions.drop sind Aliase voneinander.
Syntax
dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
how |
str, optional, Standard "any" | die Werte, die "beliebig" oder "alle" sein können. Wenn 'any', legen Sie eine Zeile ab, wenn sie Nullen enthält. Wenn "alle" festgelegt ist, legen Sie eine Zeile nur ab, wenn alle zugehörigen Werte null sind. |
thresh |
int, optional, Default None | Wenn angegeben, legen Sie Zeilen ab, die weniger als thresh Nullwerte aufweisen. Dadurch wird der how Parameter überschrieben. |
subset |
str, tupel oder liste, optional | optionale Liste der zu berücksichtigenden Spaltennamen. |
Rückkehr
DataFrame: DataFrame mit nur null ausgeschlossenen Zeilen.
Beispiele
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+