観察

DataFrame で観察する (名前付き) メトリックを定義します。このメソッドは、入力と同じ結果を返す 'observed' DataFrame を返します。次の保証があります。このメソッドは、その時点でデータセットを通過しているすべてのデータに対して定義された集計 (メトリック) を計算します。完了ポイントに達するとすぐに、定義された集計列の値が報告されます。

構文

observe(observation: Union["Observation", str], *exprs: Column)

パラメーター

パラメーター	タイプ	説明
`observation`	監視または str	`str` を使用して名前を指定するか、メトリックを取得する `Observation` インスタンスを指定します。
`exprs`	コラム	column 式 (Column)。

返品

DataFrame: 観察されたデータフレーム。

メモ

observationがObservationされている場合、このメソッドはバッチクエリのみをサポートします。 observationが文字列の場合、このメソッドはバッチクエリとストリーミングクエリの両方で機能します。現在、継続的な実行はまだサポートされていません。

例示

from pyspark.sql import Observation, functions as sf
df = spark.createDataFrame([(2, "Alice"), (5, "Bob")], schema=["age", "name"])
observation = Observation("my metrics")
observed_df = df.observe(observation,
    sf.count(sf.lit(1)).alias("count"), sf.max("age"))
observed_df.count()
# 2
observation.get
# {'count': 2, 'max(age)': 5}

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-19

観察

構文

パラメーター

返品

メモ

例示

フィードバック

その他のリソース