dropna

Devolve um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são pseudónimos entre si.

Sintaxe

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parâmetros

Parâmetro Tipo Descrição
how STR, opcional, por defeito 'qualquer' os valores que podem ser 'qualquer' ou 'todos'. Se 'algum', elimina uma linha se houver nulos. Se for 'todos', só elimina uma linha se todos os seus valores forem nulos.
thresh int, opcional, padrão Nenhum Se especificado, elimine linhas que tenham valores inferiores a thresh não nulos. Isto sobrescrive o how parâmetro.
subset str, tupla ou lista, opcional Lista opcional de nomes de colunas a considerar.

Devoluções

DataFrame: DataFrame com apenas linhas nulas excluídas.

Exemplos

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+