Qual medida para verificar a análise (valores p ou $ R ^ 2 $)?


0

Numa análise, e. Regressão OLS qual medida você veria?

$ R ^ 2 $, $ ajustado-R ^ 2 $ ou $ p-valor $?

Como você consideraria uma regressão com valores de p & gt; 0,15, mas com um r $ 2 ^ de 40%? Em geral, em economia, o que você viu?


6
Quando alguém faz essa pergunta, eu sempre penso que a resposta mais importante é que eles realmente não deveriam estar fazendo nenhuma regressão até que tenham aprendido porque essas medidas são tão problemáticas e enganosas.
EnergyNumbers

Respostas:


6

Os quadrados − R e os valores p fornecem informações diferentes. Por exemplo, suponha que você regride o peso ao nascer no tabagismo da mãe. O p-valor nos diz se a associação é realmente diferente de zero (no sentido estatístico), e o R-quadrado nos diz o quanto da variação no peso ao nascer é explicado pelo tabagismo da mãe.

p-valor & gt; 15 e R-40% significaria que (1) não podemos dizer que a associação é diferente de zero (2), mas o poder explicativo da amostra dada é bastante grande. Os dois não reforçam um ao outro nem são contraditórios.


1
Muito obrigado. Eu sei de um ponto de vista teórico econométrico e matemático como eles são definidos. Eu teria gostado de saber em pesquisa prática no campo econômico em que casos você olha para um e quando você olha para outro e se em papéis, geralmente, não é incomum encontrar resultados com alto R ^ 2 e alto p- valores. (Por exemplo, nas previsões você olha mais para pvalues ​​ou R ^ 2?)
Klapaucius

Consegui. Obrigado. Quando estamos interessados ​​em relações causais, olhamos para valores p. Para previsões e previsões, os R-squareds parecem receber mais atenção. Mas a utilidade de rsq e adj rsq é mais ou menos limitada até mesmo para previsões (por exemplo, econometria financeira) por causa da questão do excesso de ajuste. Aqui eu não conto o rsq como um meio de calcular estatísticas de teste.
chan1142

3

Se você estiver executando uma análise de regressão, eu diria que você deve procurar primeiro os valores de p para verificar se as variáveis ​​explicativas adicionadas fazem sentido. Quero dizer, se você tem uma hipótese sobre uma relação entre duas variáveis ​​e você acha que a explicação não é significativa (grande valor-p), eu verificaria possíveis erros ou explicações alternativas.

Faz sentido dar uma olhada em $ R ^ 2 $ se você estiver comparando duas especificações diferentes, não faz sentido olhar para isso sozinho. Eu vi muitos documentos, dê uma olhada Nunn, Wantcheckon, (2011) como exemplo, que foram publicados nos principais periódicos (AER, neste caso), mesmo com $ R ^ 2 $ em torno de 16%, não realmente um valor alto.


3
A única coisa que gostaria de acrescentar aqui é que uma limitação de $ R ^ 2 $ é que eles geralmente aumentam à medida que você lança mais variáveis ​​no modelo, e é por isso que o $ R ^ 2 $ ajustado é "melhor", já que leva em consideração conta o número de covariáveis ​​do modelo
marquisdecarabas

1
Faz sentido inspecionar $ R ^ 2 $ de apenas um modelo, pois $ R ^ 2 $ estima a fração de variância explicada pelo modelo. Então $ R ^ 2 $ é uma medida significativa por si só.
Richard Hardy

3

Há, de fato, uma resposta teórica para isso e pode ser importante para você a longo prazo. Existem três escolas principais de pensamento estatístico e várias escolas menores. Os três são, na ordem da descoberta, o Bayesiano, o Likelihoodista e o Frequentista. As diferenças importam porque podem fornecer respostas diferentes usando exatamente os mesmos dados e executando a mesma fórmula.

A partir do idioma de sua postagem, você não está usando a metodologia bayesiana. Os métodos bayesianos não possuem uma hipótese nula, portanto, eles não podem ter um valor p. Em vez de computar uma probabilidade de que o nulo seja tão extremo ou mais extremo do que você esperaria se o nulo fosse verdadeiro, os métodos bayesianos calculam a probabilidade positiva de que cada hipótese separada é verdadeira. Não falsifica um nulo, atribui uma probabilidade positiva a cada hipótese possível concorrente. Não se limita a duas hipóteses, embora você possa ter duas.

O segundo é o modelo Likelihoodist e é aí que a linguagem em sua postagem parece ir. O modelo probabilístico tem valores p, mas nenhum valor de corte, $ \ alpha $, enquanto a escola Frequentista é um valor de corte $ \ alpha $, mas não existe um valor p. Ambas as escolas fazem parte de um esquema mais amplo chamado método da hipótese nula.

No método de hipótese nula, você escolhe um nulo e concede 100% de probabilidade de ser verdadeiro, ex ante. A estatística é um ramo da retórica e não um ramo da matemática. Como a física, usa a matemática intensivamente, mas não faz parte do campo da matemática. Pelo contrário, é sobre como decidir argumentos. O nulo comum usado na estatística é a hipótese "sem efeito". Você argumenta que todas as $ \ beta = 0 $, ou seja, as variáveis ​​independentes, não têm nenhum efeito na variável dependente. Se você falsificá-lo, então você está argumentando que ele tem um efeito e o nulo é falsificado.

No caso da escola probabilística, não há valor de corte mágico para o valor p. Você acabou de denunciá-lo. É o peso da evidência contra o nulo. Um p-valor menor que 0,15 deixa muito espaço para o acaso, mas se você está bem com esse nível, então é significativo para você . Esta é uma discussão ou-ou. Ou é bom o suficiente, ou não é bom o suficiente.

Se você acredita que é bom o suficiente, use os valores da equação OLS porque eles são o valor mais provável com base em seus dados. A partir desse ponto, o $ R ^ 2 $ ajustado dá a melhor medida da quantidade de variabilidade que seu modelo fornece.

Se você não acredita que um p-value é bom o suficiente, então você se depara com um problema peculiar. Você precisa jogar fora sua equação OLS, de acordo com a teoria. Se o nulo não for falsificado, nenhuma nova informação existe e você ignora seus resultados. É como se você nunca tivesse realizado a análise em primeiro lugar. A escola probabilística é epistemológica, ou seja, é uma ferramenta de busca de conhecimento. Se o valor-p não é adequado para seus propósitos, então não há conhecimento adicional e você precisa gastar sua vida olhando para outra coisa, em vez de desperdiçar seu tempo com esse tópico.

Por outro lado, se você usar a escola Frequentista, os resultados terão uma interpretação diferente. Na escola freqüentista, as equações OLS não são o estimador de máxima verossimilhança (MLE), pois são com os likelihoodistas, mas as equações são os estimadores não-vieses de mínima variância (MVUE). Acontece que funciona bem que as duas escolas tenham as mesmas respostas para os problemas simples, como a regressão.

A escola frequentista é comportamental. Diz-lhe como se comportar. Por exemplo, se você estava fazendo a garantia de qualidade em lotes que saem de uma fábrica e obteve resultados indicando baixa qualidade, falsificando o valor nulo de boa qualidade, então você destruiu o lote, caso contrário você aceita o lote. Você não sabe o lote é ruim só porque ele testa mal. Você não sabe se um lote é bom, só porque ele é bom. Isto não é sobre o conhecimento, é sobre como você deve se comportar. Você destrói o lote quando você rejeita o nulo e aceita o lote quando aceita o nulo? Sim.

Para criar isso, antes de coletar os dados, você define um valor chamado $ \ alpha $, que é o seu limite. Este valor é definido em relação à importância dos falsos positivos e à importância dos falsos negativos. Se a estatística de teste estiver na região de rejeição, você comporte-se como se os parâmetros do OLS fossem os parâmetros verdadeiros. O $ R ^ 2 $ ajustado fornece o grau de variabilidade explicado pelo modelo. Se a estatística de teste estiver na região de aceitação, você aceitou o nulo. O nulo foi que todos $ \ beta = 0 $, então você é obrigado a se comportar como se não houvesse qualquer relação entre qualquer uma das variáveis ​​independentes e a variável dependente e o $ R ^ 2 $ não importa, porque é o $ R ^ 2 $ de um modelo que você não está usando.

É difícil determinar o que está acontecendo com o seu modelo usando os métodos de hipótese nula. Podem ser correlações espúrias que explicam grande parte da variabilidade da sua amostra, mas não a variabilidade que você descobriria da amostra. Pode ser que os efeitos estejam próximos de zero, mas não de zero, mas o tamanho do efeito é muito pequeno para ser claramente significativo. Ou seja, sua amostra não tem o poder de detectar o efeito. O problema com os métodos de hipótese nula, em geral, é que não há como distinguir um nulo que é verdadeiramente falso de um em que o resultado foi devido a uma amostra estranha. É impossível distinguir os efeitos da verdade e do acaso.

Se você tem um professor ao redor que usa métodos Bayesianos, e eles são incomuns em economia, você poderia tê-los executados como um modelo bayesiano. As hipóteses bayesianas são combinatórias, de modo que, se você tiver três regressores, $ x_1, x_2, x_3 $, o pesquisador deve executar todas as combinações possíveis de variáveis ​​dependentes e testar cada submodelo para a probabilidade de ser o modelo verdadeiro. Isso pode ajudar a distinguir entre as várias partes e as coisas que podem dar errado com modelos MLE e MVUE, como multicolinearidade, efeitos pequenos e assim por diante.


3
(+1) Embora eu concorde largamente com as explicações dadas das várias abordagens possíveis, acho que alguma confusão de terminologia possivelmente enganosa. Por exemplo, "equacionar" a abordagem freqüentista à probabilidade com a teoria da decisão deve ser evitada, uma vez que todos precisam e realmente tomam decisões - e os aficionados bayesianos e da probabilidade têm desenvolvido metodologias para chegar a decisões com base em sua abordagem de inferência.
Alecos Papadopoulos

1

Bem, R2 ajustado tem mais mérito que R2. R2 sempre aumentará (ou pelo menos permanecerá o mesmo) à medida que você adicionar mais variáveis ​​(mesmo que as variáveis ​​não sejam estatisticamente significativas). Assim, em teoria, você poderia obter um R2 muito alto simplesmente colocando uma carga de variáveis ​​sem sentido em sua regressão. O R2 ajustado compensa isso ajustando o R2 por um fator de penalização que aumenta à medida que o número de variáveis ​​aumenta - portanto, adicionar uma nova variável sempre aumentará r2, mas aumentará a r2 ajustada apenas com base em seu poder explicativo. Critérios de informação, como o critério de informação bayesiano (também chamado de critério de Schwarz) ou o critério de informação da Akike, podem ser usados ​​para escolher entre modelos concorrentes. Intuitivamente, eles medem o poder explicativo, mas penalizam os modelos "maiores", que são mais propensos ao overfitting e a outros problemas. O BIC penaliza parâmetros adicionais mais pesados ​​que o AIC, por exemplo. Você preferiria o modelo que minimiza a pontuação do critério de informação. Note que, diferente de R2, os valores dos critérios de informação não são inerentemente muito significativos - você não pode dizer "este é um bom modelo porque tem um BIC de -50", mas você pode usá-los para escolher entre eles.

O que importa mais do que valores de P ou medidas de adequação é que o modelo é teoricamente sensato e que as suposições de Gauss-Markov são válidas. Isto é o que faz um modelo "bom" - capacidade de explicar uma alta proporção da variância é a cereja no topo do bolo, nada mais. Se eu regredir as chuvas no Reino Unido sobre o PIB dos EUA, por exemplo, obterei um valor P próximo a zero e um R2 acima de 0,95 - ainda que obviamente não haja uma relação econômica genuína aqui.

Portanto, um modelo sensato com sólidos fundamentos teóricos que satisfaça as suposições do OLS é um bom modelo, mesmo que seu poder explicativo seja limitado. Inversamente, um modelo com altos valores de r2 / low p que não satisfaçam as premissas econométricas ou carecem de credibilidade teórica nunca pode ser um modelo "bom".


0

Se você quiser prever, é uma prática comum dividir sua amostra em duas partes - a "amostra de estimativa" e a "amostra de previsão". A amostra de estimativa é usada para, você adivinhou, estimar seu modelo, que você usa para prever os dados para os quais você já possui valores verdadeiros contidos em sua amostra de previsão. Você, então, compara suas previsões de previsão a dados conhecidos e aos de outras previsões.

Você pode fazer isso usando r2 ou r2 ajustado sobre a amostra de previsão. Também comumente usamos medidas como erro quadrático médio, erro percentual absoluto médio, U de Theil, etc. etc.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.