aproxQuantile (DataFrame)

Calcula os quantículos aproximados das colunas numéricas de um DataFrame.

Sintaxe

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parâmetros

Parâmetro Tipo Descrição
col str, tupla ou lista Pode ser um nome de uma única coluna, ou uma lista de nomes para várias colunas.
probabilities Lista ou tupla de carros alegóricos Uma lista de probabilidades quantíceis. Cada número deve ser um flutuante no intervalo [0, 1]. Por exemplo, 0,0 é o mínimo, 0,5 é a mediana, 1,0 é o máximo.
relativeError float A precisão relativa do alvo a alcançar (>= 0). Se definido para zero, são calculados os quantiles exatos, o que pode ser muito dispendioso. Note-se que valores superiores a 1 são aceites, mas dão o mesmo resultado que 1.

Devoluções

lista: os quantiles aproximados nas probabilidades dadas. Se a entrada col for uma cadeia, a saída é uma lista de flutuadores. Se a entrada col for uma lista ou tupla de cadeias, a saída também é uma lista, mas cada elemento nela é uma lista de flutuantes.

Notes

Os valores nulos serão ignorados nas colunas numéricas antes do cálculo. Para colunas que contêm apenas valores nulos, é devolvida uma lista vazia.

Exemplos

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]