DataFrame の 2 つの列の相関関係を二重値として計算します。 現在、ピアソン相関係数のみがサポートされています。
DataFrame.corr と DataFrameStatFunctions.corr は互いのエイリアスです。
構文
corr(col1: str, col2: str, method: Optional[str] = None)
パラメーター
| パラメーター | タイプ | 説明 |
|---|---|---|
col1 |
str | 最初の列の名前。 |
col2 |
str | 2 番目の列の名前。 |
method |
str、省略可能 | 関連付け方法。 現在サポートされているのは "pearson" のみです。 |
返品
float: 2 つの列のピアソン相関係数。
例示
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0