Medição da correlação de redes neurais treinadas

Estou treinando uma rede neural artificial (retropropagação, feed-forward) com dados distribuídos não normais. Além do erro quadrático médio da raiz, a literatura sugere frequentemente o coeficiente de correlação de Pearson para avaliar a qualidade da rede treinada. Mas, o coeficiente de correlação de Pearson é razoável, se os dados de treinamento não forem normalmente distribuídos? Não seria mais razoável usar uma medida de correlação baseada em classificação, por exemplo, Spearman rho?

correlation neural-networks spearman-rho

— Julian
fonte

Você pode elaborar como exatamente alguém o usaria ou forneceria uma referência?

— bayerj

O coeficiente de correlação de Pearson mede a associação linear. Baseada em segundos momentos centrais empíricos, é influenciada por valores extremos. Portanto:

Evidências de não linearidade em um gráfico de dispersão de valores reais versus previstos sugeririam o uso de uma alternativa como o coeficiente de correlação de classificação (Spearman);
- Se o relacionamento parecer monotônico em média (como na linha superior da ilustração), um coeficiente de correlação de classificação será efetivo;
- Caso contrário, a relação é curvilínea (como em alguns exemplos da linha inferior da ilustração, como a mais à esquerda ou a média em forma de u) e provavelmente qualquer medida de correlação será uma descrição inadequada; o uso de um coeficiente de correlação de classificação não corrigirá isso.
A presença de dados externos no gráfico de dispersão indica que o coeficiente de correlação de Pearson pode estar exagerando a força da relação linear. Pode ou não estar correto; use-o com o devido cuidado. O coeficiente de correlação de classificação pode ou não ser melhor, dependendo da confiabilidade dos valores externos.

Exemplos de gráficos de dispersão e suas correlações de Pearson

(Imagem copiada do artigo da Wikipedia sobre o coeficiente de correlação produto-momento da Pearson .)

— whuber
fonte

Você pode fornecer algumas fontes para sua declaração sobre o uso da correlação de classificação para medir o desempenho da regressão?

— Simon Kuang