Noções básicas sobre regressões

46

Como um modelo de regressão pode ser útil se você não conhece a função para a qual está tentando obter os parâmetros?

Vi uma pesquisa que dizia que as mães que amamentavam seus filhos eram menos propensas a sofrer de diabetes mais tarde na vida. A pesquisa foi realizada a partir de uma pesquisa com cerca de 1000 mães e controlada por fatores diversos e foi utilizado um modelo loglinear.

Agora, isso significa que eles calculam que todos os fatores que determinam a probabilidade de diabetes se encaixam em uma função agradável (presumivelmente exponencial) que se traduz nitidamente em um modelo linear com registros e que se a mulher que foi amamentada se mostrou estatisticamente significativa?

Estou sentindo falta de algo, tenho certeza, mas como diabos eles conhecem o modelo?

— Jonathan Andrews
fonte

Muito obrigado a todos. Quero dedicar um pouco de tempo a pensar em suas respostas e, talvez, se você não se importa, tente escrevê-las nos meus termos para suas opiniões. Gosto dessa descrição do processo como proveniente da série Taylor. Eu tive que pegar meu conhecimento de regressão ao acaso e através de Economia e Matemática para Economistas e o vínculo com Taylor é notável por sua ausência.

— Jonathan Andrews

Mesclei suas contas. mas registre-o aqui stats.stackexchange.com/users/login para não perdê-lo novamente.

43

Ajuda a visualizar a regressão como uma aproximação linear da forma verdadeira. Suponha que o verdadeiro relacionamento seja

y = f (x_{1}, . . ., x_{k})

$y=f(x_1,...,x_k)$

$x_1,...,x_k$ $y$ $f$

f (x_{1}, . . ., x_{k}) = f (0, . . ., 0) + \sum_{i = 1}^{k} \frac{\partial f (0)}{\partial x_{k}} x_{k} + ε,

$f(x_1,...,x_k)=f(0,...,0)+\sum_{i=1}^{k}\frac{\partial f(0)}{\partial x_k}x_k+\varepsilon,$

$\varepsilon$ $\alpha_0=f(0,...,0)$ $\alpha_k=\frac{\partial{f}(0)}{\partial x_k}$

y = α_{0} + α_{1} x_{1} + . . . + α_{k} x_{k} + ε

$y=\alpha_0+\alpha_1 x_1+...+\alpha_k x_k + \varepsilon$

$\varepsilon$

— mpiktas
fonte

1

Olá, explicação muito boa, mas não consigo entender a parte "sigma" da expansão da série Taylor. Como você reduz essa equação encontrada aqui: mathworld.wolfram.com/TaylorSeries.html em "Uma série de Taylor de uma função real em duas variáveis" para a sua?

— Arun

1

n = 1

$n=1$

18

O outro lado da resposta, complementar à resposta de mpiktas, mas não mencionado até agora, é:

"Eles não, mas assim que assumem alguma estrutura de modelo, eles podem compará-la com os dados".

As duas coisas básicas que podem dar errado são: A forma da função, por exemplo, nem é linear nos logs. Então você começaria plotando um resíduo apropriado em relação aos valores esperados. Ou a escolha da distribuição condicional , por exemplo, as contagens observadas superdispersas em relação a Poisson. Portanto, você testaria uma versão do Binomial negativo do mesmo modelo ou veria se as covariáveis extras representam a variação extra.

Você também gostaria de verificar discrepâncias, observações influentes e uma série de outras coisas. Um lugar razoável para ler sobre como verificar esses tipos de problemas de modelo é o capítulo 5 de Cameron e Trivedi 1998. (Há certamente um lugar melhor para o início de pesquisadores epidemiologicamente orientados - talvez outras pessoas possam sugerir isso).

Se esses diagnósticos indicassem que o modelo falhou em ajustar os dados, você alteraria o aspecto relevante do modelo e iniciaria todo o processo novamente.

— conjugado
fonte

1

+1 Esta é a chave que impede que tudo seja acenado com a mão: você não sabe, mas tenta algo e depois analisa quão bem corresponde e de que forma os dados são incompatíveis.

— Wayne

15

Uma excelente primeira pergunta! Concordo com a resposta de mpiktas, ou seja, a resposta curta é "eles não, mas esperam ter uma aproximação ao modelo certo que dê aproximadamente a resposta certa".

No jargão da epidemiologia, esse modelo de incerteza é uma fonte do que é conhecido como ' confusão residual '. Veja a página de Steve Simon 'O que é confusão residual?' para uma boa descrição curta, ou o artigo de Heiko Becher, de 1992, em Statistics in Medicine (requer assinatura), para um tratamento mais longo e matemático, ou o artigo mais recente de Fewell, Davey Smith & Sterne no American Journal of Epidemiology (assinatura solicitada )

Essa é uma das razões pelas quais a epidemiologia dos pequenos efeitos é difícil e os resultados geralmente controversos - se o tamanho do efeito medido for pequeno, é difícil descartar confusão residual ou outras fontes de viés como explicação.

— uma parada
fonte

1

Eu diria que a especificação incorreta do modelo - que parece ser o que o OP está falando, é um pouco distinta da confusão residual. Confundir exige uma covariável. Você pode estragar uma regressão apenas com a especificação incorreta de uma exposição e resultado.

— Fomite 01/07

13

Existe a famosa citação "Essencialmente, todos os modelos estão errados, mas alguns são úteis" de George Box . Ao ajustar modelos como esse, tentamos (ou devemos) pensar sobre o processo de geração de dados e as relações físicas, no mundo real, entre a resposta e as covariáveis. Tentamos expressar esses relacionamentos em um modelo que se encaixa nos dados. Ou, dito de outra maneira, é consistente com os dados. Como tal modelo empírico é produzido.

Se é útil ou não, é determinado mais tarde - fornece previsões boas e confiáveis, por exemplo, para mulheres que não estão acostumadas ao modelo? Os coeficientes do modelo são interpretáveis e de uso científico? Os tamanhos dos efeitos são significativos?

— Restabelecer Monica - G. Simpson
fonte

3

As respostas que você já obteve são excelentes, mas vou dar uma resposta (espero) complementar da perspectiva de um epidemiologista. Eu realmente tenho três pensamentos sobre isso:

Primeiro, eles não. Veja também: Todos os modelos estão errados, alguns modelos são úteis. O objetivo não é produzir um número único e definitivo, considerado a "verdade" de uma função subjacente. O objetivo é produzir uma estimativa dessa função, com uma quantificação da incerteza em torno dela, que é uma aproximação razoável e útil da função subjacente.

Isto é especialmente verdade para medidas de efeito grande. A mensagem "retirar" de um estudo que considera um risco relativo de 3,0 não é realmente diferente se o relacionamento "verdadeiro" for 2,5 ou 3,2. Como a @onestop mencionou, isso fica mais difícil com pequenas estimativas de medidas de efeito, porque a diferença entre 0,9, 1,0 e 1,1 pode ser enorme do ponto de vista de saúde e política.

Segundo, há um processo oculto na maioria dos trabalhos de Epidemiologia. Esse é o processo de seleção de modelo real . Tendemos a relatar o modelo com o qual acabamos, não todos os modelos que consideramos (porque isso seria cansativo, se nada mais). Existem várias etapas de construção de modelos, diagramas conceituais, diagnósticos, estatísticas de ajuste, análise de sensibilidade, xingamentos em computadores e rabiscos em quadros brancos envolvidos na análise de pequenos estudos observacionais.

Porque enquanto você está fazendo suposições, muitas delas também são suposições que você pode verificar.

Terceiro, às vezes não. E então vamos a conferências e discutimos sobre isso;)

Se você está interessado nos detalhes da Epidemiologia como um campo e em como realizamos pesquisas, o melhor lugar para começar é provavelmente a Modern Epidemiology 3rd Edition de Rothman, Greenland and Lash. É uma visão geral moderadamente técnica e muito boa de como a pesquisa Epi é conduzida.

— Fomite
fonte

1

+1, este é um bom complemento para o que está aqui. É bom ver que uma contribuição útil ainda pode ser feita, mesmo depois de tantas outras boas.

— gung - Restabelece Monica

Noções básicas sobre regressões - o papel do modelo