DataFrame で観察する (名前付き) メトリックを定義します。 このメソッドは、入力と同じ結果を返す 'observed' DataFrame を返します。次の保証があります。このメソッドは、その時点でデータセットを通過しているすべてのデータに対して定義された集計 (メトリック) を計算します。 完了ポイントに達するとすぐに、定義された集計列の値が報告されます。
構文
observe(observation: Union["Observation", str], *exprs: Column)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
observation |
監視または str |
str を使用して名前を指定するか、メトリックを取得する Observation インスタンスを指定します。 |
exprs |
コラム | column 式 (Column)。 |
返品
DataFrame: 観察されたデータフレーム。
メモ
observationがObservationされている場合、このメソッドはバッチ クエリのみをサポートします。
observationが文字列の場合、このメソッドはバッチ クエリとストリーミング クエリの両方で機能します。 現在、継続的な実行はまだサポートされていません。
例示
from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}