Condividi tramite


drop (DataFrameNaFunctions)

Restituisce una nuova DataFrame omessa riga con valori Null o NaN. DataFrame.dropna e DataFrameNaFunctions.drop sono alias l'uno dell'altro.

Sintassi

drop(how='any', thresh=None, subset=None)

Parametri

Parametro Tipo Descrizione
how str, facoltativo Se eliminare una riga se contiene valori Null o solo se tutti i relativi valori sono Null. I valori accettati sono 'any' (impostazione predefinita) e 'all'. Se thresh viene specificato, how viene ignorato.
thresh int, facoltativo Se specificato, eliminare righe con meno di thresh valori non Null. Sovrascrive how.
subset str, tuple o list, facoltativo Nomi di colonna da considerare durante il controllo dei valori Null o NaN.

Restituzioni

DataFrame

Examples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Eliminare la riga se contiene un valore Null o NaN.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Eliminare la riga solo se tutti i relativi valori sono Null o NaN.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Eliminare righe con meno di thresh valori non Null e non NaN.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Eliminare le righe con valori Null e NaN nelle colonne specificate.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+