Freigeben über


corr (DataFrame)

Berechnet die Korrelation von zwei Spalten eines DataFrames als doppelten Wert. Unterstützt derzeit nur den Pearson-Korrelationskoeffizient. DataFrame.corr und DataFrameStatFunctions.corr sind Aliase voneinander.

Syntax

corr(col1: str, col2: str, method: Optional[str] = None)

Parameter

Parameter Typ Beschreibung
col1 str Der Name der ersten Spalte.
col2 str Der Name der zweiten Spalte.
method str, optional Die Korrelationsmethode. Derzeit unterstützt nur "pearson".

Rückkehr

float: Pearson Korrelationskoeffizient von zwei Spalten.

Beispiele

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.corr("c1", "c2")
# -0.3592106040535498
df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.corr("small", "bigger")
# 1.0