Freigeben über


caQuantile (DataFrame)

Berechnet die ungefähren Quantiles numerischer Spalten eines DataFrames.

Syntax

approxQuantile(col: Union[str, List[str], Tuple[str]], probabilities: Union[List[float], Tuple[float]], relativeError: float)

Parameter

Parameter Typ Beschreibung
col str, tupel oder liste Kann ein einzelner Spaltenname oder eine Liste mit Namen für mehrere Spalten sein.
probabilities Liste oder Tupel von Floats eine Liste der Quantile-Wahrscheinlichkeiten. Jede Zahl muss ein Gleitkomma im Bereich [0, 1] sein. Beispielsweise ist 0,0 das Minimum, 0,5 ist der Median, 1,0 ist das Maximum.
relativeError Schweben Die relative Zielgenauigkeit, die erreicht werden soll (>= 0). Bei Festlegung auf Null werden die genauen Quantiles berechnet, was sehr teuer sein könnte. Beachten Sie, dass Werte, die größer als 1 sind, akzeptiert werden, aber dasselbe Ergebnis wie 1 erhalten.

Rückkehr

list: die ungefähren Quantiles an den gegebenen Wahrscheinlichkeiten. Wenn es sich bei der Eingabe col um eine Zeichenfolge handelt, handelt es sich bei der Ausgabe um eine Liste von Floats. Wenn es sich bei der Eingabe col um eine Liste oder ein Tupel von Zeichenfolgen handelt, handelt es sich bei der Ausgabe auch um eine Liste von Floats.

Hinweise

Nullwerte werden vor der Berechnung in numerischen Spalten ignoriert. Bei Spalten, die nur Nullwerte enthalten, wird eine leere Liste zurückgegeben.

Beispiele

data = [(1,), (2,), (3,), (4,), (5,)]
df = spark.createDataFrame(data, ["values"])
quantiles = df.approxQuantile("values", [0.0, 0.5, 1.0], 0.05)
quantiles
# [1.0, 3.0, 5.0]

data = [(1, 10), (2, 20), (3, 30), (4, 40), (5, 50)]
df = spark.createDataFrame(data, ["col1", "col2"])
quantiles = df.approxQuantile(["col1", "col2"], [0.0, 0.5, 1.0], 0.05)
quantiles
# [[1.0, 3.0, 5.0], [10.0, 30.0, 50.0]]