Como lidar com dados de contagem (dados categóricos), quando foram convertidos para uma taxa?

9

Estou trabalhando nos dados de infecção por doenças e estou intrigado com a possibilidade de lidar com os dados como "categóricos" ou "contínuos".

"Contagem de infecções"
- o número de casos de infecção encontrados em um período específico de tempo, a contagem é gerada a partir de dados categóricos (ou seja, número de pacientes marcados como "infectados")
"Dias da cama do paciente"
- soma do número total de dias de permanência na enfermaria por todos os pacientes dessa enfermaria, novamente, a contagem é gerada a partir de dados categóricos (ou seja, número de pacientes marcados como "permanecendo nessa enfermaria específica")
"infecção por dia de cama do paciente"
- "contagem de infecção" / "dias de cama do paciente" eram originalmente dados de contagem, mas agora se torna uma taxa

Questão:

Posso usar o Chi-Square aqui para avaliar se a diferença em "infecções por dia de cama do paciente" é estatisticamente significativa ou não?

Atualizações

Descobri que posso comparar a taxa de incidência (ou chamá-la de taxa de infecção), mas fazendo algo como "diferença na taxa de incidência" (IRD) ou "taxa de incidência" (IRR). (Eu encontrei a partir daqui )

Qual é a diferença entre IRD e teste t?
Existe algum teste estatístico complementar para a TIR?

categorical-data count-data

— lokheart
fonte

1

Acho que fazer outra pergunta separadamente é muito melhor do que atualizar sua pergunta anterior.

4

Para mim, não parece apropriado usar aqui um teste do qui-quadrado.

Acho que o que você quer fazer é o seguinte: Você tem diferentes enfermarias ou tratamentos ou qualquer outro tipo de variável nominal (ou seja, grupos) que divide seus dados. Para cada um destes grupos que recolheu o conde infecção e os pacientes dia de cama para calcular a infecção por dias de cama do paciente . Sabe que você quer verificar as diferenças entre os grupos, certo?

Nesse caso, uma análise de variância (ANOVA, no caso de mais de dois grupos) ou um teste t (no caso de dois grupos) provavelmente é apropriado, dado pelos motivos do post de Srikant Vadali (e se as premissas homogeneidade de variâncias e tamanhos de grupos comparáveis também são atendidos) e a beginnertag deve ser adicionada.

— Henrik
fonte

7

Não sei ao certo qual é a aparência dos seus dados ou qual é o seu problema preciso, mas presumo que você tenha uma tabela com os seguintes títulos e tipos:

enfermaria (categórica), infecções (número inteiro), dias-leito-paciente (inteiro ou contínuo).

e você quer saber se a taxa de infecção é estatisticamente diferente para diferentes enfermarias?

Uma maneira de fazer isso é usar um modelo de Poisson:

Infecções ~ Poisson (dias de cama do paciente * taxa de infecção na enfermaria)

Isso pode ser conseguido usando um Poisson glm, com a função de link de log e o log de pacientes-leito-dia na compensação. Em R, o código seria algo como:

glm(infections ~ ward + offset(log(patient-bed-days)), family=poisson())

— Simon Byrne
fonte

2

Se você estava pensando em realizar Poisson ou regressões relacionadas a esses dados (com sua variável de resultado como uma taxa), lembre-se de incluir um termo de compensação para os dias de cama do paciente, pois tecnicamente se torna a "exposição" às suas contagens.

No entanto, nesse caso, você também pode considerar usar apenas a contagem de infecções (não a taxa) como sua variável dependente e incluir os dias de cama do paciente como covariável. Estou trabalhando em um conjunto de dados com uma decisão semelhante de contagem versus taxa e parece que converter sua variável dependente em uma taxa leva a uma diminuição na variabilidade, um aumento na assimetria e um desvio padrão proporcionalmente maior. Isso dificulta a detecção de efeitos significativos.

Observe também se seus dados estão com truncamento zero ou inflado com zero e faça os ajustes apropriados.

— Iris Tsui
fonte

Acho que essa resposta está mais diretamente relacionada à pergunta no título do post "Como lidar com dados de contagem (dados categóricos), quando foram convertidos em uma taxa?"

— N Brouwer

1

Do ponto de vista técnico purista, você não pode, pois a proporção "infecção por dia de cama do paciente" não é uma variável contínua. Por exemplo, um valor irracional nunca aparecerá no seu conjunto de dados. No entanto, você pode ignorar esse problema técnico e fazer os testes que forem apropriados para o seu contexto. Por analogia, os níveis de renda são discretos, mas quase todos os tratam como contínuos.

A propósito, não está totalmente claro por que você deseja fazer um qui-quadrado, mas estou assumindo que existe algum contexto de fundo por que isso faz sentido para você.

1

Os testes de qui-quadrado não parecem adequados. Como outros disseram, desde que haja um número razoável de taxas diferentes, você pode tratar os dados como contínuos e fazer regressão ou ANOVA. Você gostaria de examinar a distribuição dos resíduos.

— Peter Flom
fonte

0

Uma maneira de proceder é construir vários modelos nulos, cada um dos quais assume que os fatores são independentes um do outro. A suposição de independência muitas vezes facilita a construção. Então as densidades conjuntas previstas são os produtos das densidades marginais. Na medida em que os dados reais são consistentes com esses, você sabe que os fatores são independentes. Se elas forem maiores ou menores que a previsão conjunta, você poderá inferir que elas co-variam positiva ou negativamente. Tenha cuidado ao considerar o número de observações em cada caso, e você poderá fazer isso formalmente tratando as populações como hipergeométricas estendidas. Tudo isso está dentro do espírito do Teste Exato de Fisher, mas Fisher o formulou para que situações mais gerais pudessem ser modeladas. Veja, por exemplo, Análise Multivariada Discreta: Teoria e Prática, de Yvonne M. Bishop,

— Jan Galkowski
fonte