Nas estatísticas, estamos fazendo regressões lineares, o próprio começo delas. Em geral, sabemos que quanto maior o , melhor, mas existe um cenário em que um alto seria um modelo inútil?
Nas estatísticas, estamos fazendo regressões lineares, o próprio começo delas. Em geral, sabemos que quanto maior o , melhor, mas existe um cenário em que um alto seria um modelo inútil?
Respostas:
Sim. Os critérios para avaliar um modelo estatístico dependem do problema específico em questão e não são funções mecânicas de ou significância estatística (embora o assunto). A questão relevante é: "o modelo ajuda a entender os dados?"
A maneira mais simples de obter alto é fazer o equivalente a regredir os sapatos direitos nos sapatos esquerdos. Diga-me o tamanho do seu sapato direito, e posso prever o tamanho do seu sapato esquerdo com grande precisão. R 2 enorme ! Que ótimo modelo estatístico! Exceto que isso significa cocô diddly. Você pode obter um ótimo R 2 colocando a mesma variável no lado esquerdo e direito de uma regressão, mas esse enorme Rregressão 2 quase certamente seria inútil.
Há outros casos em que incluir uma variável no lado direito é conceitualmente a coisa errada a se fazer (mesmo que aumente ). Digamos que você esteja tentando estimar se algum grupo minoritário é discriminado e tem menos probabilidade de conseguir um emprego. Você não deve controlar se a empresa retornou a chamada após o pedido de emprego, porque a menor probabilidade de responder a pedidos de emprego de minorias pode ser o canal pelo qual a discriminação ocorre! Adicionar o controle errado pode tornar sua regressão sem sentido.
Você sempre pode aumentar adicionando mais regressores! Eu posso continuar a acrescentar regressores para o lado direito até eu conseguir o que quer que R 2 I like. Para prever os ganhos trabalhistas, eu poderia adicionar controles educacionais, controles de idade, efeitos fixos trimestrais, efeitos fixos de CEP, efeitos fixos de ocupação, efeitos fixos firmes, efeitos fixos familiares, efeitos fixos para animais de estimação, efeitos fixos para animais de estimação, comprimento do cabelo etc ... em algum momento dos controles deixam de fazer sentido, mas R 2 continua a subir. Adicionar tudo como um regressor é conhecido como regressão "pia da cozinha". Você pode obter R 2 alto mas pode superestimar enormemente os dados: seu modelo prediz perfeitamente a amostra usada para estimar o modelo (possui R alto ) mas o modelo estimado falha horrivelmente em novos dados.
A mesma idéia pode aparecer no ajuste da curva polinomial. Dê-me dados aleatórios, e provavelmente consigo obter um ótimo ajustando um polinômio de 200 graus. Porém, em novos dados, o polinômio estimado não funcionaria por causa do ajuste excessivo. Novamente, R 2 alto para o modelo estimado, mas o modelo estimado é inútil.
Ponto (3-4) é por isso que temos ajustado , que fornece alguma penalidade para adicionar mais regressores, mas ajustado R 2 geralmente pode ainda ser espremido por overfitting os dados. Ele também tem a característica maravilhosamente absurda de que pode ser negativa.
Eu também poderia dar exemplos onde a baixa é apenas multa (por exemplo, a estimativa de betas em modelos de precificação de ativos), mas este post já recebeu bastante longo. Para resumir, a pergunta geral deve ser algo como "sabendo o que sei sobre o problema e as estatísticas, esse modelo me ajuda a entender / explicar os dados?" R 2 pode ser uma ferramenta de resposta ajuda a esta pergunta, mas não é tão simples como modelos com maior R 2 são sempre melhores.
"Maior é melhor" é uma regra de ouro ruim para o quadrado R.
Don Morrison escreveu alguns artigos famosos alguns anos atrás, demonstrando que os quadrados R aproximando-se de zero ainda podiam ser acionáveis e lucrativos, dependendo da indústria. Por exemplo, no marketing direto, prevendo a resposta a uma assinatura de revista que envia para 10 milhões de residências, os quadrados R nos dígitos de um dígito baixo podem produzir campanhas lucrativas (com base no ROI) se a correspondência for baseada nos 2 ou 3 principais critérios de resposta probabilidade.
Outro sociólogo (cujo nome me escapa) segmentou os quadrados R por tipo de dados, observando que a pesquisa por escrito, os quadrados R na faixa de 10 a 20% eram a norma, enquanto que para dados comerciais, os quadrados R na faixa de 40 a 60% eram de se esperar. Eles observaram que os quadrados R de 80-90% ou mais provavelmente estavam violando os pressupostos fundamentais da regressão. No entanto, esse autor não possuía experiência com mix de marketing, dados de séries temporais ou modelos contendo um conjunto completo de recursos "causais" (por exemplo, os 4 Ps clássicos de preço, promoção, local e produto) que podem e produzirão R- quadrados se aproximando de 100%.
Dito isso, mesmo sensatas, regras práticas de benchmarking como essas não são muito úteis quando se lida com analfabetos tecnicamente cuja primeira pergunta sobre um modelo preditivo sempre será: "O que é o quadrado-R?"
As outras respostas oferecem ótimas explicações teóricas das várias maneiras pelas quais os valores do quadrado R podem ser corrigidos / falsificados / enganosos / etc. Aqui está uma demonstração prática que sempre ficou comigo, codificada em r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Isso pode fornecer valores ao quadrado R> 0,90. Adicione regressores suficientes e até valores aleatórios podem "prever" valores aleatórios.
set.seed(1)
e set.seed(2)
.