Quando você pode usar critérios baseados em dados para especificar um modelo de regressão?

20

Ouvi dizer que quando muitas especificações de modelo de regressão (por exemplo, no OLS) são consideradas como possibilidades para um conjunto de dados, isso causa vários problemas de comparação e os valores de p e os intervalos de confiança não são mais confiáveis. Um exemplo extremo disso é a regressão gradual.

Quando posso usar os dados para ajudar a especificar o modelo e quando isso não é uma abordagem válida? Você sempre precisa ter uma teoria baseada no assunto para formar o modelo?

regression frequentist multiple-comparisons

— Estatísticas
fonte

9

As técnicas de seleção variável, em geral (seja passo a passo, para trás, para frente, todos os subconjuntos, AIC etc.), capitalizam o acaso ou padrões aleatórios nos dados da amostra que não existem na população. O termo técnico para isso é excessivo e é especialmente problemático para conjuntos de dados pequenos, embora não seja exclusivo deles. Ao usar um procedimento que seleciona variáveis com base no melhor ajuste, todas as variações aleatórias que se parecem com esse exemplo específico contribuem para estimativas e erros padrão. Este é um problema para a previsão e a interpretação do modelo.

Especificamente, o quadrado r é muito alto e as estimativas de parâmetros são enviesadas (estão muito longe de 0), os erros padrão dos parâmetros são muito pequenos (e, portanto, os valores de p e os intervalos em torno dos parâmetros são muito pequenos / estreitos).

A melhor linha de defesa contra esses problemas é construir modelos cuidadosamente e incluir os preditores que fazem sentido com base na teoria, lógica e conhecimento anterior. Se um procedimento de seleção de variáveis for necessário, você deve selecionar um método que penalize as estimativas de parâmetros (métodos de encolhimento) ajustando os parâmetros e os erros padrão para levar em consideração o ajuste excessivo. Alguns métodos comuns de encolhimento são a regressão de cume, a regressão de menor ângulo ou o laço. Além disso, a validação cruzada usando um conjunto de dados de treinamento e um conjunto de dados de teste ou média do modelo pode ser útil para testar ou reduzir os efeitos do ajuste excessivo.

Harrell é uma ótima fonte para uma discussão detalhada desses problemas. Harrell (2001). "Estratégias de modelagem de regressão."

— Brett
fonte

Aceitando, muito tempo depois! Obrigado por esta visão geral detalhada dos problemas técnicos, e darei uma olhada no livro de Harrell.

— Statisfactions

7

No contexto das ciências sociais de onde eu venho, a questão é se você está interessado em (a) previsão ou (b) testar uma questão de pesquisa focada. Se o objetivo é a previsão, as abordagens orientadas a dados são apropriadas. Se o objetivo é examinar uma questão de pesquisa focada, é importante considerar qual modelo de regressão testa especificamente sua pergunta.

Por exemplo, se sua tarefa era selecionar um conjunto de testes de seleção para prever o desempenho do trabalho, o objetivo pode, em certo sentido, ser visto como um de maximizar a previsão do desempenho do trabalho. Assim, abordagens orientadas a dados seriam úteis.

Por outro lado, se você quiser entender o papel relativo das variáveis de personalidade e variáveis de capacidade em influenciar o desempenho, uma abordagem específica de comparação de modelos pode ser mais apropriada.

Normalmente, ao explorar questões de pesquisa focadas, o objetivo é elucidar algo sobre os processos causais subjacentes que estão operando em oposição ao desenvolvimento de um modelo com previsão ideal.

Quando estou no processo de desenvolvimento de modelos sobre processos baseados em dados transversais, fico desconfiado: (a) incluindo preditores que teoricamente poderiam ser considerados conseqüências da variável de resultado. Por exemplo, a crença de uma pessoa de que ela é uma boa executora é um bom indicador do desempenho no trabalho, mas é provável que isso seja pelo menos parcialmente causado pelo fato de ter observado seu próprio desempenho. (b) incluindo um grande número de preditores que refletem os mesmos fenômenos subjacentes. Por exemplo, incluindo 20 itens, todos medindo a satisfação com a vida de maneiras diferentes.

Assim, as perguntas de pesquisa focadas dependem muito mais do conhecimento específico do domínio. Isso provavelmente explica de alguma maneira por que abordagens orientadas a dados são usadas com menos frequência nas ciências sociais.

— Jeromy Anglim
fonte

4

Não acho que seja possível fazer Bonferoni ou correções semelhantes para ajustar a seleção de variáveis na regressão, porque todos os testes e etapas envolvidos na seleção de modelos não são independentes.

Uma abordagem é formular o modelo usando um conjunto de dados e fazer inferência em um conjunto diferente de dados. Isso é feito na previsão o tempo todo em que temos um conjunto de treinamento e um conjunto de testes. Não é muito comum em outros campos, provavelmente porque os dados são tão preciosos que queremos usar todas as observações para seleção de modelos e inferência. No entanto, como você observa na sua pergunta, a desvantagem é que a inferência é realmente enganosa.

Existem muitas situações em que uma abordagem baseada na teoria é impossível, pois não existe uma teoria bem desenvolvida. Na verdade, acho que isso é muito mais comum do que os casos em que a teoria sugere um modelo.

— Rob Hyndman
fonte

4

Richard Berk tem um artigo recente em que ele demonstra, através de simulação, os problemas de tais bisbilhoteiros de dados e inferência estatística. Como Rob sugeriu , é mais problemático do que simplesmente corrigir vários testes de hipóteses.

Inferência estatística após a seleção do modelo por: Richard Berk, Lawrence Brown, Linda Zhao Jornal de Quantitative Criminology, vol. 26, n ° 2. (1 de junho de 2010), pp. 217-236.

Versão em PDF aqui

— Andy W
fonte

(+1) Obrigado pelo link! Você pode estar interessado nesta pergunta relacionada, stats.stackexchange.com/questions/3200/… . Sinta-se livre para contribuir.

— chl

@chl, acho que não posso acrescentar nada às respostas já excelentes para essa pergunta. Na verdade, acho que a resposta de Brendan é muito comovente, porque suspeito que o pôster original esteja realmente interessado em inferência causal, não apenas em previsão baseada no contexto da pergunta.

— 21710 Andy As

Sim, eu estava pensando em sua resposta. Iniciei uma reflexão sobre a questão da dragagem de dados (não exatamente sobre questões de seleção de modelo / variável ou inferência causal), mas até agora recebo poucas respostas. Se você gostaria de adicionar suas próprias idéias, seria interessante: stats.stackexchange.com/questions/3252/…

— chl

2

Se entendi bem a sua pergunta, a resposta para o seu problema é corrigir os valores de p de acordo com o número de hipóteses.

Por exemplo, correções de Holm-Bonferoni, nas quais você classifica a hipótese (= seus diferentes modelos) pelo valor de p e rejeita aqueles com uma amostra igual a (valor de p / índice desejado).

Mais sobre o tópico pode ser encontrado na Wikipedia

— Peter Smit
fonte

1

Você pode ler esta resposta para uma pergunta separada e ver por que o ajuste de valores-p dessa maneira pode não ser a melhor solução, stats.stackexchange.com/questions/3200/…

— Andy W