Introdução
Eu tenho uma tabela de contingência categórica com muitas linhas e um resultado binário, que conto:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Tudo bem, porque as duas categorias (nome e resultado) são independentes uma da outra, ou seja , a pessoa A não pode ser a pessoa B ao mesmo tempo e o resultado1 não ocorre ao mesmo tempo que o resultado2.
Adicionando problemas
No entanto, agora quero enriquecer meu conjunto de dados atribuindo classes aos agentes. As aulas não são exclusivas e algumas podem até depender umas das outras. Para o exemplo acima, com quatro classes C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Agora, quero descobrir se existe uma dependência de uma classe no resultado do experimento.
Solução possível (ingênua)
Minha ideia era inicialmente agregar com base na classe e depois executar os testes de independência, para que a tabela ficasse assim:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
No entanto, ocorreu-me que ocultei a influência das outras classes com esse método, porque me isolo com base na classe, o que pode me dar maus resultados se algumas das classes dependem fortemente uma da outra.
Além disso, meu conjunto de dados real contém cerca de 200 agentes e 30 categorias, portanto, meu método daria muitos resultados que agora eu sei interpretar.
A questão
Com isso em mente, dirijo-me a você: Que método estatístico é aplicável para testar a (in) dependência de um conjunto de dados com uma variável categórica não exclusiva e uma variável categórica binária?
Eu gostaria de obter algum resultado na linha de "Categoria 1 é o preditor mais forte para o resultado ( p <0,01). Ele também se correlaciona com a Categoria 2."
Soluções usando Python ou R são bem-vindas, mas não preciso de código. Eu preciso saber qual método é aplicável.