Explicando a variação de um modelo de regressão

13

Esta pode ser uma explicação simples (espero mesmo assim).

Fiz algumas análises de regressão no Matlab usando a caixa de ferramentas de regressão. No entanto, encontrei um estudo que afirma isso:

"Usando a análise de regressão, foi possível estabelecer um modelo preditivo usando apenas quatro recursos sônicos que explicam 60% da variação"

O link para o artigo está aqui, se necessário: Artigo

Não tenho 100% de certeza do que isso significa, mas espero que seja algo simples. Também é 60% uma coisa boa? Eu tentei procurar por isso, mas como sempre há uma porcentagem antes da palavra 'variação', é difícil encontrar resposta.

variance

— user1574598
fonte

9

Vou tentar explicar isso em termos simples.

O modelo de regressão enfoca o relacionamento entre uma variável dependente e um conjunto de variáveis independentes . A variável dependente é o resultado que você está tentando prever, usando uma ou mais variáveis independentes.

Suponha que você tenha um modelo como este:

Peso_i = 3,0 + 35 * Altura_i + ε

Agora, uma das perguntas óbvias é: quão bem esse modelo funciona? Em outras palavras, quão bem a altura de uma pessoa prevê com precisão - ou explica - o peso dessa pessoa?

Antes de respondermos a essa pergunta, precisamos primeiro entender quanta flutuação observamos no peso das pessoas. Isso é importante, porque o que estamos tentando fazer aqui é explicar a flutuação (variação) de pesos entre pessoas diferentes, usando suas alturas. Se a altura das pessoas é capaz de explicar essa variação de peso, temos um bom modelo.

A variação é uma boa métrica a ser usada para esse fim, pois mede a distância em que um conjunto de números é distribuído (a partir do valor médio).

Isso nos ajuda a reformular nossa pergunta original: Quanta variação no peso de uma pessoa pode ser explicada pela sua altura ?

É daí que vem a “% de variação explicada”. A propósito, para análise de regressão, é igual ao coeficiente de correlação R ao quadrado .

Para o modelo acima, podemos ser capazes de fazer uma declaração como: Usando a análise de regressão, foi possível configurar um modelo preditivo usando a altura de uma pessoa que explica 60% da variação no peso ”.

Agora, quão bom é 60%? É difícil fazer um julgamento objetivo sobre isso. Mas se você tiver outros modelos concorrentes - digamos, outro modelo de regressão que use a idade de uma pessoa para prever seu peso - você poderá comparar diferentes modelos com base em quanta variação é explicada por eles e decidir qual modelo é melhor. (Existem algumas ressalvas a esse respeito, consulte 'Interpretação e uso de regressão' - Christopher H. Achen http://www.sagepub.in/books/Book450/authors )

— Vishal
fonte

1

Isso certamente respondeu a uma grande proporção da minha pergunta. Em termos de por que os autores estão afirmando isso como de enorme importância, eu não sei. Portanto, se esse é o valor de R-sqaured e voltamos ao seu exemplo: digamos que usamos um modelo para 'idade' com variação de 80% e, em seguida, modelo para 'altura' com variação de 85 % para prever o peso de uma pessoa, considero que o último modelo seria mais significativo? Obrigado pelo link do livro, eu o comprei ontem à noite, pois usarei bastante a regressão nos próximos meses.

— user1574598

1

Sim, você pode concluir que o último modelo é melhor em sua capacidade de prever (ou explicar) o peso de uma pessoa, ceteris paribus. BTW, você declarou isso como "o modelo teve uma variação de 80%", mas deve ser "o modelo explica 80% da variação".

— Vishal 28/03

4

$R^2$

\frac{\sum_{Eu = 1}^{n} ({\hat{y}}_{Eu} - \bar{y})^{2}}{\sum_{Eu = 1}^{n} (y_{Eu} - \bar{y})^{2}}

$\frac{\sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

Onde $y_i$ é o valor observado, $\hat{y}_i$ o valor ajustado de mínimos quadrados para o $i^\text{th}$ ponto de dados e $\bar{y}$ é a média geral. Às vezes pensamos em $R^2$ como proporção da variação explicada pelo modelo devido à decomposição da soma total dos quadrados

\sum_{Eu = 1}^{n} (y_{Eu} - \bar{y})^{2} = \sum_{Eu = 1}^{n} ({\hat{y}}_{Eu} - \bar{y})^{2} + \sum_{Eu = 1}^{n} (y_{Eu} - {\hat{y}}_{Eu})^{2},

$\sum_{i=1}^{n} (y_i - \bar{y})^2 = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2 + \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 ,$

sendo o último termo um erro residual que não é contabilizado pelo modelo. o $R^2$ basicamente nos diz quanto da variação geral foi "absorvida" pelos valores ajustados.

— dsaxton
fonte