Escolha entre regressão logística e testes de Mann Whitney / t


8

Eu tenho uma variável dicotômica , que não possui uma proporção determinada a priori de 0 e 1 e uma variável contínua b .Ab

No cenário 1, decido para designar como a independente variável X , e b como a dependente variel y . Em seguida, testei X contra y usando testes como Mann Whitney (sem distribuição), teste t (distribuição normal) etc.AXbyXy

No cenário 2, decido para designar como o dependente variável Y , e b como a independente variel x . Então testo x contra Y usando regressão logística.AYbxxY

  1. Qual modelo devo escolher quando não souber a direcionalidade do relacionamento entre e b , ou seja, não consigo decidir se A é a variável independente ou b é a variável independente?AbAb

  2. Se não tiver certeza de quais são as variáveis ​​dependentes ou independentes, seria inválido usar o teste t / Mann-Whitney em primeira instância como uma espécie de análise univariada e depois usar a regressão logística como uma análise multivariada?

Respostas:


6

A resposta à pergunta 1 dependerá da sua pergunta de pesquisa e de quem é o público para o resultado.

Se sua pergunta de pesquisa aponta para falar sobre diferenças em b com base no perfil de A, isso obviamente ajudará a estruturar seu resumo. Em um estudo epidemiológico, mesmo se você não fizer amostragem com base em A (variável independente como status exposto / não exposto), ainda faria sentido usar essa classificação como uma variável independente [exposição] e a variável contínua como uma variável dependente [resultado ] Parece que você já sabe a resposta para isso.

Você também deve considerar como pode interpretar o resultado em termos de apresentação dos resultados a outras pessoas (e de sua interpretação). Um modelo de variável contínua como variável dependente [resultado] teria uma diferença média (ou similar) como um resumo; um modelo de variável dicotômica como resultado teria uma razão de chances (razão de chances aumentadas por uma unidade da variável contínua, que poderia ser escalada para fornecer, por exemplo, aumento relativo por cinco quilos de peso adicional para a probabilidade de diabetes tipo II).

Minha experiência com as configurações de consultoria e a explicação para as pessoas é que a primeira (diferença de médias) geralmente é mais fácil de explicar para outras pessoas que a segunda (razão de chances por diferença de uma unidade da variável independente contínua).

Para sua pergunta 2 , se você deseja executar um modelo multivariável, no qual controla covariáveis, ajudará a escolher variáveis ​​dependentes / independentes no início. Provavelmente, é melhor seguir o mesmo método da análise univariada para a multivariável, em vez de mudar entre as duas abordagens, apenas pela facilidade de explicação.

Nota final sobre este último ponto: do ponto de vista do teste de hipóteses, uma regressão logística com uma variável independente contínua [exposição] e uma variável dependente dicotômica deve retornar o mesmo valor p de um teste t não pareado, assumindo uma variação desigual com as variáveis invertido (da memória - não tenho muita certeza se isso sempre é verdade.)


2
Respondendo a essa pergunta ( stats.stackexchange.com/questions/48381/… ), encontrei o artigo a seguir que discute formalmente a equivalência de potência entre a regressão logística binária e um teste t não pareado ncbi.nlm.nih.gov/pubmed/9699234
James Stanley

6

O teste de Wilcoxon-Mann-Whitney é um caso especial do modelo logístico ordinal de chances proporcionais; portanto, você poderia dizer que não há necessidade de mudar o modelo para usar a regressão logística. Mas a questão fundamental na escolha do modelo é determinar para quais variáveis ​​faz sentido ajustar.


2
A sua é uma noção muito interessante e afiada, @Frank, mas não é detalhada. Por favor, elabore para mim: qual é esse "caso especial" quando a regressão logística ordinal de uma variável quantitativa em uma variável dicotômica é exatamente equivalente ao teste de Mann-Whitney?
ttnphns

1
Um modelo de chances proporcionais com apenas uma série de variáveis ​​fictícias como preditores, representando k grupos, é equivalente a uma ANOVA de Kruskal-Wallis com k grupos (k = 2 -> Wilcoxon). O numerador da estatística de pontuação é a estatística ANOVA de classificação (Wilcoxon).
precisa

1
@Frank, você pode encontrar tempo para demonstrar (provar) a equivalência em alguns pequenos dados diretamente na sua resposta? Seria interessante e importante. Uma referência, se houver, também pode ser legal. Muito Obrigado.
ttnphns

1
Consulte Whitehead, John: cálculos de tamanho de amostra para obter dados categóricos ordenados. Statistics in Medicine 12 : 2257-2271; 1993. Veja a carta ao editor SM 15: 1065-6 para o caso binário; veja a errata no SM 13: 871 1994
Frank Harrell

2
Você poderia expandir sua última frase na resposta? Obrigado.
jetistat001

1

Essa é uma tentativa de resposta parcial:

YXY=1Y=0

Por outro lado, Mann Whitney não parece ter problemas com isso, ou seja, sustenta se é ou não um estudo de caso-controle.


1
YY

Bem, a regressão logística foi projetada especificamente para trabalhar com estudos de caso-controle, veja stats.stackexchange.com/questions/67903/…
kjetil b halvorsen

0

Como em muitas perguntas, a resposta depende do seu objetivo subjacente na realização da análise. Se você estiver interessado não apenas em mostrar que existe uma associação significativa entre uma variável dicotômica A e uma variável contínua b, mas também em poder calcular a probabilidade esperada do evento registrado na variável A, você deseja usar o método logístico regressão, pois essa abordagem fornece uma equação de regressão. Além disso, a regressão logística no caso bivariado de A e b pode ser estendida ao caso multivariado de prever A de be numerosas outras variáveis ​​independentes com o objetivo de controlar covariáveis, testar modelos de mediação, examinar interações e todas as variáveis. outras coisas boas que podemos fazer com regressão múltipla. Tendo dito isto, você provavelmente deve considerar a função de link que relaciona a variável dicotômica A com a variável contínua B. A regressão logística usou um link logit, que é mais apropriado quando a probabilidade do resultado é muito alta ou baixa, enquanto um link probit pode ser mais apropriado quando a probabilidade do evento está mais próxima de .5 A escolha da função de link apropriada para seus dados é importante para a construção de um bom modelo de regressão. Algumas informações adicionais sobre as funções de link podem ser encontradas nos seguintes links: 5 A escolha da função de link apropriada para seus dados é importante para a construção de um bom modelo de regressão. Algumas informações adicionais sobre as funções de link podem ser encontradas nos seguintes links: 5 A escolha da função de link apropriada para seus dados é importante para a construção de um bom modelo de regressão. Algumas informações adicionais sobre as funções de link podem ser encontradas nos seguintes links:

http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf


2
Eu não acho que a escolha entre usar o link logit e probit tenha muito a ver com se as probabilidades estão próximas de 0,5. Eu escrevi sobre a escolha do link aqui: diferença entre modelos de logit e probit . Ouvi pessoas sugerindo cloglogquando as categorias de resposta são desequilibradas, mas existem outras opções.
gung - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.