数値列と文字列列の基本統計を計算します。
構文
describe(*cols: Union[str, List[str]])
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
cols |
str、list、省略可能 | 説明する列名または列名の一覧 (既定では[すべての列])。 |
返品
DataFrame: 指定された DataFrame を記述 (統計を提供) する新しい DataFrame。
メモ
この関数は探索的なデータ分析を目的としているため、結果の DataFrame のスキーマの下位互換性については保証されません。
拡張された統計の概要を使用し、計算する統計を制御します。
例示
df = spark.createDataFrame(
[("Bob", 13, 40.3, 150.5), ("Alice", 12, 37.8, 142.3), ("Tom", 11, 44.1, 142.2)],
["name", "age", "weight", "height"],
)
df.describe(['age']).show()
# +-------+----+
# |summary| age|
# +-------+----+
# | count| 3|
# | mean|12.0|
# | stddev| 1.0|
# | min| 11|
# | max| 13|
# +-------+----+
df.describe(['age', 'weight', 'height']).show()
# +-------+----+------------------+-----------------+
# |summary| age| weight| height|
# +-------+----+------------------+-----------------+
# | count| 3| 3| 3|
# | mean|12.0| 40.73333333333333| 145.0|
# | stddev| 1.0|3.1722757341273704|4.763402145525822|
# | min| 11| 37.8| 142.2|
# | max| 13| 44.1| 150.5|
# +-------+----+------------------+-----------------+