Estou tentando encontrar a correlação entre uma variável dicotômica e uma variável contínua.
Do meu trabalho de base sobre isso, descobri que tenho que usar o teste t independente e a pré-condição para isso é que a distribuição da variável tenha que ser normal.
Realizei o teste de Kolmogorov-Smirnov para testar a normalidade e descobri que a variável contínua não é normal e está inclinada (para cerca de 4.000 pontos de dados).
Fiz o teste de Kolmogorov-Smirnov para toda a gama de variáveis. Devo dividi-los em grupos e fazer o teste? Ou seja, diga se eu tenho risk level
( 0
= Não arriscado, 1
= Arriscado) e níveis de colesterol, então devo:
Divida-os em dois grupos, como
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Levá-los juntos e aplicar o teste? (Eu o executei apenas em todo o conjunto de dados.)
Depois disso, que teste devo fazer se ainda não estiver normal?
EDIT: O cenário acima foi apenas uma descrição que tentei fornecer para o meu problema. Eu tenho um conjunto de dados que contém mais de 1000 variáveis e cerca de 4000 amostras. Eles são contínuos ou categóricos por natureza. Minha tarefa é prever uma variável dicotômica com base nessas variáveis (talvez venha com um modelo de regressão logística). Por isso, pensei que a investigação inicial envolveria encontrar a correlação entre dicotômica e uma variável contínua.
Eu estava tentando ver como a distribuição das variáveis é e, portanto, tentei fazer o teste t. Aqui eu encontrei a normalidade como um problema. O teste de Kolmogorov-Smirnov deu um valor de significância de 0,00 na maioria dessas variáveis.
Devo assumir a normalidade aqui? A assimetria e curtose dessas variáveis também mostram que os dados são inclinados (> 0) em quase todos os casos.
De acordo com a nota abaixo, investigarei a correlação ponto-biserial ainda mais. Mas sobre a distribuição de variáveis ainda não tenho certeza.