Qual é o ponto da regressão univariada antes da regressão multivariada?


13

Atualmente, estou trabalhando em um problema no qual temos um pequeno conjunto de dados e estamos interessados ​​no efeito causal de um tratamento no resultado.

Meu orientador me instruiu a realizar uma regressão univariada em cada preditor com o resultado como resposta e, em seguida, a atribuição do tratamento como resposta. Ou seja, me pedem para ajustar uma regressão com uma variável de cada vez e fazer uma tabela dos resultados. Perguntei "por que deveríamos fazer isso?", E a resposta foi algo para o efeito de "estamos interessados ​​em quais preditores estão associados à atribuição do tratamento e ao resultado, pois isso provavelmente indicaria um fator de confusão". Meu orientador é um estatístico treinado, não um cientista em um campo diferente, por isso estou inclinado a confiar neles.

Isso faz sentido, mas não está claro como usar o resultado da análise univariada. Fazer escolhas de seleção de modelo a partir disso resultaria em viés significativo das estimativas e intervalos de confiança estreitos? Por que alguém deveria fazer isso? Estou confuso e meu consultor está sendo bastante opaco sobre o assunto quando eu o levantei. Alguém tem recursos sobre essa técnica?

(NB: meu orientador disse que NÃO estamos usando valores-p como ponto de corte, mas que queremos considerar "tudo".)


6
Se por "regressão univariada" seu instrutor incluir um desenho de um gráfico de dispersão, é um conselho sábio. E já que não regressão com a qual você se preocupa deve ser realizada sem plotagem, você obterá algumas informações úteis. Faça tudo de uma vez, se puder, com uma matriz de gráficos de dispersão e mostre algumas suavizações robustas com elas. As vantagens serão óbvias quando você observar as várias maneiras pelas quais suas variáveis ​​podem se afastar da exibição de relacionamentos lineares.
whuber

1
E se os dados de resposta forem binários e estivermos usando um glm com um link de logit? Sua explicação é certamente esclarecedora para o caso linear e, agora que penso nisso, o uso de gráficos de dispersão seria natural
Marcel

5
Eu estava preocupado que você pudesse perguntar isso :-). Na verdade, uma boa suavização ainda pode fornecer uma ótima percepção. Ajuda a tremer a resposta para que você possa determinar sua distribuição. Aqui está um exemplo de tal plot: stats.stackexchange.com/a/14501/919 . Ilustro outra solução em stats.stackexchange.com/a/138660/919 .
whuber

3
Essa regressão univariada antes da técnica de regressão multivariável é chamada "seleção de variável proposital" no livro de Hosmer e Lemeshow "Regressão logística aplicada"
Great38

7
Cuidado - uma variável pode não mostrar relação em uma regressão não variável, mas ser importante na relação multivariada.
Glen_b

Respostas:


3

O contexto causal da sua análise é um qualificador chave na sua pergunta. Na previsão, a execução de regressões univariadas antes de várias regressões no espírito do "método de seleção proposital" sugerido por Hosmer e Lemenshow tem um objetivo. No seu caso, em que você está construindo um modelo causal, a execução de regressões univariadas antes de executar a regressão múltipla tem um objetivo completamente diferente. Deixe-me expandir sobre o último.

Você e seu instrutor devem ter em mente um determinado gráfico causal. Gráficos causais têm implicações testáveis. Sua missão é começar com o conjunto de dados que você possui e retornar ao modelo causal que pode ter gerado. As regressões univariadas que ele sugeriu que você execute constituem provavelmente o primeiro passo no processo de testar as implicações do gráfico causal que você tem em mente. Suponha que você acredite que seus dados foram gerados pelo modelo causal mostrado no gráfico abaixo. Suponha que você esteja interessado no efeito causal de D em E. O gráfico abaixo sugere uma série de implicações testáveis, como:

  • E são D provavelmente dependentes
  • E e A provavelmente dependem
  • E e C provavelmente dependem
  • E e B são prováveis dependem
  • E e N são provavelmente independentes

insira a descrição da imagem aqui

Mencionei que este é apenas o primeiro passo no processo de busca causal porque a verdadeira diversão começa quando você começa a executar várias regressões, condicionando diferentes variáveis ​​e testando se o resultado da regressão é consistente com a implicação do gráfico. Por exemplo, o gráfico acima sugere que E e A devem ser independentes quando você condicionar em D. Em outras palavras, se você regredir E em D e A e descobrir que o coeficiente em A não é igual a zero, você concluirá que E depende de A, depois da condição de D e, portanto, que o gráfico causal deve estar errado. Ele ainda fornece dicas de como alterar seu gráfico causal, porque o resultado dessa regressão sugere que deve haver um caminho entre A e E que não seja separado por D.


1

Antes de tentar responder, gostaria de salientar que o tipo de dados e sua distribuição podem afetar a maneira como você os avalia / regride / classifica.

Você também pode querer procurar aqui o método que seu orientador pode querer que você use.

Um pouco de fundo. Embora seja possível usar uma ferramenta de seleção de modelos, você ainda precisa saber por que um preditor foi usado ou deixado de fora. Essas ferramentas podem ser uma caixa preta. Você deve entender completamente seus dados e poder declarar por que um determinado preditor foi selecionado. (Especialmente, estou assumindo um projeto de tese / mestrado.)

Por exemplo, observe o preço das casas e a idade. O preço das casas geralmente diminui com a idade. Portanto, quando você vê uma casa antiga com um preço alto em seus dados, pareceria um valor externo a ser removido, mas esse não é o caso.

Quanto a (NB: meu orientador disse que NÃO estamos usando valores-p como ponto de corte, mas que queremos considerar "tudo".) . Os algoritmos / programas de recall são limitados e não podem exibir a imagem inteira.

Por que você pode fazer regressão univariada em cada atribuição de preditor / tratamento.

Isso poderia ajudar na seleção dos preditores a serem incluídos no modelo multivariado básico. A partir desse modelo básico, você procuraria ver se esses preditores são significativos e devem permanecer ou se devem ser removidos com o objetivo de obter um modelo parcimonioso.

Ou pode ser melhor você entender melhor os dados.


1
Minha esposa e eu compramos uma casa antiga, mas não podíamos comprar uma casa histórica; portanto, seu exemplo tem um contra-exemplo fácil.
Nick Cox

Verdade. Eu pretendia falar sobre o preço das casas, na verdade. Como os preços das casas geralmente diminuem com a idade. Portanto, quando você vê uma casa antiga com um preço alto, parece que ela deve ser removida. Eu vou editar esse ponto. Valeu.
Apócrifo

0

Eu acho que seu supervisor está pedindo para você realizar uma primeira análise dos dados com o objetivo de identificar se alguma das variáveis ​​pode explicar uma fração significativa da variação nos dados.

Depois de concluir se alguma das variáveis ​​pode explicar parte da variabilidade, você poderá avaliar como elas funcionam juntas, se são colineares ou se correlacionam entre si, etc. Em uma fase puramente exploratória, para se fazer uma análise multivariada poderia dificultar uma primeira avaliação, porque, construindo cada variável, você removeria o efeito das outras. Poderia ser mais difícil avaliar se alguma das variáveis ​​poderia explicar alguma variação.


0

Essa pode ser uma abordagem para entender os dados, mas a experiência mostra que as previsões variarão quando você usar todos os preditores combinados e cada um deles, um por um. Isso é apenas algo que entendemos a previsibilidade dos dados e o que precisa ser feito para etapas futuras.
Eu já vi muitas vezes quando, com todas as variáveis, o valor p diz que algumas variáveis ​​não são significativas, mas apenas com essas variáveis ​​não significativas, elas foram significativas o suficiente. Isso se deve ao efeito misto: não é que seu supervisor esteja errado, mas para entender os dados, precisamos fazer isso.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.