Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Definieren (benannter) Metriken, die im DataFrame beobachtet werden sollen. Diese Methode gibt einen "beobachteten" DataFrame zurück, der dasselbe Ergebnis wie die Eingabe zurückgibt, mit den folgenden Garantien: Es berechnet die definierten Aggregate (Metriken) für alle Daten, die an diesem Punkt durch das Dataset fließen. Er meldet den Wert der definierten Aggregatspalten, sobald wir einen Abschlusspunkt erreichen.
Syntax
observe(observation: Union["Observation", str], *exprs: Column)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
observation |
Beobachtung oder Str |
str um den Namen oder eine Observation Instanz anzugeben, um die Metrik abzurufen. |
exprs |
Kolumne | Spaltenausdrücke (Column). |
Rückkehr
DataFrame: der beobachtete DataFrame.
Hinweise
Wenn observation dies der Fall ist Observation, unterstützt diese Methode nur Batchabfragen. Wenn observation es sich um eine Zeichenfolge handelt, funktioniert diese Methode sowohl für Batch- als auch für Streamingabfragen. Die kontinuierliche Ausführung wird derzeit noch nicht unterstützt.
Beispiele
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}