Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Berechnet die Korrelation von zwei Spalten eines DataFrame als doppelten Werts. Unterstützt derzeit nur den Pearson-Korrelationskoeffizient.
DataFrame.corr und DataFrameStatFunctions.corr sind Aliase voneinander.
Syntax
corr(col1, col2, method=None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
col1 |
str | Der Name der ersten Spalte. |
col2 |
str | Der Name der zweiten Spalte. |
method |
str, optional | Die Korrelationsmethode. Derzeit wird nur "pearson" unterstützt. |
Rückkehr
float
Beispiele
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.stat.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.stat.corr("small", "bigger")
# 1.0