Condividi tramite


circaQuantile (DataFrame)

Calcola i quantili approssimativi delle colonne numeriche di un dataframe.

Sintassi

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parametri

Parametro Tipo Descrizione
col str, tuple o list Può essere un nome di colonna singola o un elenco di nomi per più colonne.
probabilities list o tupla di float elenco di probabilità quantile. Ogni numero deve essere un valore float nell'intervallo [0, 1]. Ad esempio, 0,0 è il valore minimo, 0,5 è la median, 1,0 è il valore massimo.
relativeError galleggiare Precisione di destinazione relativa da ottenere (>= 0). Se impostato su zero, vengono calcolati i quantili esatti, che potrebbero essere molto costosi. Si noti che i valori maggiori di 1 vengono accettati ma danno lo stesso risultato di 1.

Restituzioni

list: quantili approssimativi in corrispondenza delle probabilità indicate. Se l'input col è una stringa, l'output è un elenco di valori float. Se l'input col è un elenco o una tupla di stringhe, l'output è anche un elenco, ma ogni elemento in esso è un elenco di valori float.

Note

I valori Null verranno ignorati nelle colonne numeriche prima del calcolo. Per le colonne contenenti solo valori Null, viene restituito un elenco vuoto.

Examples

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]