Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Calcola i quantili approssimativi delle colonne numeriche di un dataframe.
Sintassi
approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)
Parametri
| Parametro | Tipo | Descrizione |
|---|---|---|
col |
str, tuple o list | Può essere un nome di colonna singola o un elenco di nomi per più colonne. |
probabilities |
list o tupla di float | elenco di probabilità quantile. Ogni numero deve essere un valore float nell'intervallo [0, 1]. Ad esempio, 0,0 è il valore minimo, 0,5 è la median, 1,0 è il valore massimo. |
relativeError |
galleggiare | Precisione di destinazione relativa da ottenere (>= 0). Se impostato su zero, vengono calcolati i quantili esatti, che potrebbero essere molto costosi. Si noti che i valori maggiori di 1 vengono accettati ma danno lo stesso risultato di 1. |
Restituzioni
list: quantili approssimativi in corrispondenza delle probabilità indicate. Se l'input col è una stringa, l'output è un elenco di valori float. Se l'input col è un elenco o una tupla di stringhe, l'output è anche un elenco, ma ogni elemento in esso è un elenco di valori float.
Note
I valori Null verranno ignorati nelle colonne numeriche prima del calcolo. Per le colonne contenenti solo valori Null, viene restituito un elenco vuoto.
Examples
data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]
data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]