Sou formado em ciências e meu conhecimento de estatística é bastante superficial.
Problema
Eu tive que encontrar um conjunto de dados e analisá-lo da melhor maneira possível, como tarefa para o meu curso de estatística. Isso não é mais uma tarefa, só preciso de ajuda para interpretar por que fiz mal minha análise e o que deveria ter feito.
Usei um conjunto de dados categóricos de taxas de emprego na Nova Zelândia, planejando organizá-lo em uma tabela de contingência 2x2 e use o teste do qui-quadrado de Pearson e o teste exato de Fisher para testar se o gênero se correlaciona com o emprego.
O que eu quero responder
- Entenda por que não posso usar o teste do qui-quadrado e o teste exato de Fisher para esse problema e aprenda o que eu deveria ter usado. "Odds-ratio em função do tempo", presumo? Algum link útil sobre como fazer isso, perfeitamente em R?
- Entenda o comentário de "correlação sequencial" referente à primeira parte da tarefa e o que exatamente eu deveria ter feito.
Maneira de me ajudar # 1 (mais curto)
É assim que nossos dados são exibidos (com base em um censo):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
Fiz um teste do qui-quadrado e um teste exato de Fisher em R, assumindo que o valor p obtido me diga a probabilidade de tal distribuição de empregos (ou mais um extremo), uma vez que o nulo é verdadeiro (homens e mulheres) têm chances iguais de conseguir um emprego). Eu obtive um valor p muito pequeno, e o teste de Fisher me deu uma razão de chances de 1,16, o que significa que há uma correlação, e especificamente os homens têm 16% mais chances de encontrar um emprego na Nova Zelândia.
No entanto, de acordo com meu professor, usei esses testes de forma inadequada. Eu não entendi direito o porquê, mas acho que ele estava dizendo que esses testes assumem independência e, como há uma certa quantidade de empregos disponíveis na Nova Zelândia, nossas amostras não são independentes ... Mas não tenho certeza. pode ver seus comentários citados abaixo).
Maneira de me ajudar # 2 (mais)
Se você tiver algum tempo livre, eu apreciaria muito se você pudesse examinar toda a tarefa. Também fornecerei o feedback do professor, portanto, se você pudesse interpretá-lo para mim, seria ótimo! A tarefa é muito fácil para um matemático / estatístico, há apenas duas perguntas, é apenas preenchimento, onde tentei demonstrar que sei o que estou fazendo, você pode pular a maior parte.
Aqui está o link para um arquivo PDF com a tarefa na qual não obtive sucesso: statistics assignment.pdf .
Feedback do professor
Sua figura 1 exibe correlação sequencial, que é a verdadeira razão pela qual a regressão linear não funciona. Nem o teste de Fisher nem o chi ao quadrado são bons para a sua mesa 2x2. Isso ocorre porque você deseja testar a homogeneidade, mas está rejeitando o nulo devido à não independência (o que não é interessante). A distinção entre os dois é irrelevante aqui (eles são assintoticamente idênticos em qualquer caso). Você poderia ter plotado o odds ratio em função do tempo.