Como lidar com a pergunta da pesquisa com resposta múltipla?


10

Eu tenho um conjunto de dados perguntando às pessoas se elas já estiveram em um determinado local (por exemplo, A, B, C, D) e podem fazer mais de uma escolha. Depois, um espécime é retirado do nariz para ver se estão infectados com algum vírus. doença.

Preciso descobrir o risco relativo de ser infectado por alguém que esteja indo para um determinado local; só consigo pensar em regressão logística agora, existem outras sugestões?

Obrigado.

Respostas:


2

Você ainda pode usar a regressão logística porque seu resultado é dicotômico, infectado versus não infectado. Eu simplesmente adotaria uma abordagem de variável fictícia e não usaria nenhuma viagem como categoria de referência (ou seja, para cada um de seus lugares, você tem uma variável codificada como 1 se ele visitou aquele lugar e codificada como 0 se não o visitou). Assim, se você transformar seus coeficientes beta em probabilidades (ou seja, exponenciar as probabilidades de log), a interpretação da variável fictícia para o local A seria a razão de chances do local de visita A sobre o local de não visita A, controlando outros locais visitados. Observe também que, nessa abordagem, a multicolinearidade é uma preocupação (por exemplo, se muitas das pessoas que viajam para A também viajam para B, isso pode influenciar cada um de seus coeficientes).


5
Este modelo assume que a resposta é uma função adicional de viajar para cada local, o que é altamente improvável. Ainda é possível fazer o trabalho incluindo termos de interação. Pode ser necessário um conjunto completo de todas as interações possíveis (além das interações bidirecionais). (Isso seria matematicamente idêntica à prestação de um manequim separado para cada combinação possível de destinos.)
whuber

4
Melhor ter um monte de dados se você usar todas as interações (15 parâmetros) em vez de apenas os principais efeitos (4 parâmetros) ...
Stephan Kolassa

@whuber e @Stephen, obrigado pelas respostas e concordo totalmente com cada um de vocês. Pessoalmente, eu ficaria bem com a abordagem de variáveis ​​fictícias dos principais efeitos se várias respostas não fossem tão comuns, o que pode não ser uma suposição sustentável, considerando as preocupações dos pôsteres originais. Talvez eu proponha outros projetos se o pôster original estivesse interessado no risco de viajar para A vs B (como algum tipo de procedimento de correspondência). E eu concordo que o risco aditivo não faz sentido, exceto se algum viés de seleção estiver ocorrendo.
Andy W
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.