corr (DataFrameStatFunctions)

Calcula a correlação de duas colunas de a DataFrame como um valor duplo. Atualmente, suporta apenas o Coeficiente de Correlação de Pearson. DataFrame.corr e DataFrameStatFunctions.corr são pseudónimos entre si.

Sintaxe

corr(col1, col2, method=None)

Parâmetros

Parâmetro Tipo Descrição
col1 str O nome da primeira coluna.
col2 str O nome da segunda coluna.
method STR, opcional O método de correlação. Atualmente só suporta "pearson".

Devoluções

float

Exemplos

df = spark.createDataFrame([(1, 12), (10, 1), (19, 8)], ["c1", "c2"])
df.stat.corr("c1", "c2")
# -0.3592106040535498

df = spark.createDataFrame([(11, 12), (10, 11), (9, 10)], ["small", "bigger"])
df.stat.corr("small", "bigger")
# 1.0