Posso testar a correlação entre variáveis antes de padronizá-las? Não tenho muita certeza do que devo fazer primeiro.
A correlação será a mesma, independentemente de você calculá-la antes ou depois da padronização. Para ver isso, basta saber que a correlação é invariante em escala. Tomab ∈ R e a > 0, então
Corr ( um X- b , Y)=Cov ( um X- b , Y)Var ( um X- b )----------√( Var ( Y)-------√=Cov ( um X, Y)Var ( um X)-------√Var ( Y)------√=um Cov ( X, Y)uma2Var ( X)--------√Var ( Y)------√=um Cov ( X, Y)umaVar ( X)------√Var ( Y)------√=Cov ( X, Y)Var ( X)------√Var ( Y)------√= Corr ( X, Y)
A primeira igualdade é uma definição.
O segundo usa a propriedade de que covariância e variação são invariantes a mudanças de local.
O terceiro usa as propriedades de covariância e variância em relação à multiplicação por uma constante.
O quarto usa o fato de quea > 0.
O quinto apenas cancela os multiplicadores.
O sexto é novamente uma definição.
Isso abrange a padronização, que está subtraindo a média e dividindo pelo desvio padrão (um número positivo).