O estudo de baixo peso ao nascer
Este é um dos conjuntos de dados no livro de Hosmer e Lemeshow sobre Regressão Logística Aplicada (2000, Wiley, 2ª ed.). O objetivo deste estudo prospectivo foi identificar os fatores de risco associados ao parto de um bebê de baixo peso (pesando menos de 2.500 gramas). Os dados foram coletados em 189 mulheres, 59 das quais tiveram bebês com baixo peso ao nascer e 130 das quais tiveram bebês com peso normal ao nascer. Quatro variáveis consideradas importantes foram: idade, peso do sujeito no último período menstrual, raça e número de consultas médicas durante o primeiro trimestre da gravidez.
Está disponível em R como data(birthwt, package="MASS")
ou em Stata com webuse lbw
. Uma versão em texto aparece aqui: lowbwt.dat ( descrição ). É importante notar que existem várias versões desse conjunto de dados, pois ele foi estendido a um estudo de caso-controle (1-1 ou 1-3, com a mesma idade), conforme ilustrado por Hosmer e Lemeshow no capítulo 7 do ALR.
Eu costumava ministrar cursos introdutórios com base nesse conjunto de dados pelos seguintes motivos:
- É interessante do ponto de vista histórico e epidemiológico (os dados foram coletados em 1986); nenhum conhecimento prévio em medicina ou estatística é necessário para entender as idéias principais e quais perguntas podem ser feitas nesse estudo.
- Várias variáveis de tipos mistos (contínuas, ordinais e nominais) estão disponíveis, o que facilita a apresentação de testes básicos de associação (teste t, ANOVA, χ2teste para tabelas bidirecionais, odds ratio, teste de tendência Cochrane e Armitage, etc.). Além disso, o peso ao nascer está disponível como uma medida contínua e também como um indicador binário (acima ou abaixo de 2,5 kg): Podemos começar a construir modelos lineares simples, seguidos de regressão múltipla (com preditores de interesse selecionados na análise exploratória anterior) e, em seguida, mude para GLM (regressão logística), possivelmente discutindo a escolha de um ponto de corte.
- Permite discutir diferentes perspectivas de modelagem (abordagens explicativas ou preditivas) e a implicação do esquema de amostragem no desenvolvimento de modelos (estratificação / casos correspondentes).
Outros pontos que podem ser enfatizados, dependendo do público e do nível de experiência com o software estatístico, ou estatísticas em geral.
Quanto ao conjunto de dados disponível em R, os preditores categóricos são pontuados como números inteiros (por exemplo, para a etnia da mãe, temos '1' = branco, '2' = preto, '3' = outro), apesar do pedido natural para alguns preditores (por exemplo, número de trabalhos prematuros anteriores ou número de consultas médicas) ou o uso de rótulos explícitos (é sempre uma boa ideia usar 'yes' / 'no' em vez de 1/0 para variáveis binárias, mesmo que isso não ocorra ' mudar qualquer coisa na matriz de design!) está simplesmente ausente. Como tal, é fácil discutir quais questões podem ser levantadas ignorando níveis ou unidades de medida na análise de dados.
Variáveis de tipos mistos são interessantes quando se trata de fazer uma análise exploratória e discutir que tipo de exibições gráficas são apropriadas para resumir relacionamentos univariados, bivariados ou trivariados. Da mesma forma, produzir boas tabelas de resumo e gerar relatórios de maneira mais geral é outro aspecto interessante desse conjunto de dados (mas o Hmisc::summary.formula
comando facilita com o R).
Hosmer e Lemeshow relataram que os dados reais foram modificados para proteger a confidencialidade dos sujeitos (p. 25). Pode ser interessante discutir questões de confidencialidade dos dados, como foi feito em um de nosso Journal Club anterior , mas ver sua transcrição . (Devo admitir que nunca entrei em muitos detalhes com isso.)
É fácil introduzir alguns valores ausentes ou errôneos (que são problemas comuns na vida real de um estatístico), que levam a discutir (a) sua detecção por meio do livro de códigos ( Hmisc::describe
ou do Stata codebook
) ou de gráficos exploratórios (sempre plote seus dados primeiro!) e (b) possível reparação (imputação de dados, exclusão em lista ou medida de associação em pares, etc.).