Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Berechnet die Korrelation von zwei Spalten eines DataFrames als doppelten Wert. Unterstützt derzeit nur den Pearson-Korrelationskoeffizient.
DataFrame.corr und DataFrameStatFunctions.corr sind Aliase voneinander.
Syntax
corr(col1: str, col2: str, method: Optional[str] = None)
Parameter
| Parameter | Typ | Beschreibung |
|---|---|---|
col1 |
str | Der Name der ersten Spalte. |
col2 |
str | Der Name der zweiten Spalte. |
method |
str, optional | Die Korrelationsmethode. Derzeit unterstützt nur "pearson". |
Rückkehr
float: Pearson Korrelationskoeffizient von zwei Spalten.
Beispiele
df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0