Eu tenho o seguinte quadro de dados de pandas Top15
:
Crio uma coluna que estima o número de documentos citáveis por pessoa:
Top15['PopEst'] = Top15['Energy Supply'] / Top15['Energy Supply per Capita']
Top15['Citable docs per Capita'] = Top15['Citable documents'] / Top15['PopEst']
Quero conhecer a correlação entre o número de documentos citáveis per capita e o suprimento de energia per capita. Então, eu uso o .corr()
método (correlação de Pearson):
data = Top15[['Citable docs per Capita','Energy Supply per Capita']]
correlation = data.corr(method='pearson')
Quero retornar um único número, mas o resultado é:
.corr
diretamente ao seu quadro de dados, ele retornará todas as correlações aos pares; é por isso que você observa 1s na diagonal de sua matriz (cada coluna está perfeitamente correlacionada com ela mesma). Veja minha edição abaixo.