Eu tenho uma pergunta metodológica e, portanto, nenhum conjunto de dados de amostra está anexado.
Estou planejando fazer uma regressão de Cox ajustada no escore de propensão que visa examinar se um determinado medicamento reduzirá o risco de um resultado. O estudo é observacional, composto por 10.000 indivíduos.
O conjunto de dados contém 60 variáveis. Eu acho que 25 deles podem afetar a alocação do tratamento. Eu nunca ajustaria todos os 25 deles em uma regressão de Cox, mas ouvi dizer que você pode incluir muitas variáveis como preditores em um escore de propensão e incluir apenas a subclasse do escore de propensão e a variável de tratamento na regressão de Cox.
(covariáveis que não serão iguais após o ajuste do escore de props obviamente teriam que ser incluídas na regressão de Cox).
Resumindo, é realmente inteligente incluir tantos preditores no escore de prop?
@ Dimitriy V. Masterov Obrigado por compartilhar esses fatos importantes. Ao contrário dos livros e artigos que consideram outras estruturas de regressão, não vejo nenhuma (lendo o livro de Rosenbaums) diretrizes sobre a seleção de modelos nas análises de pontuação de propensão. Embora os livros-texto / artigos de revisão padrão pareçam sempre recomendar seleção rigorosa de variáveis e manter o número de preditores baixo, não vi muito dessa discussão nas análises de pontuação de prop. Você escreve: (1) "Visão teórica, conhecimento institucional e boa pesquisa devem orientar a seleção de Xs". Concordo, mas há circunstâncias em que temos uma variável em mãos e realmente não sabemos (mas pode ser possível) se a variável afeta a alocação ou o resultado do tratamento. Por exemplo: devo incluir a função renal, medida pela taxa de filtração, em um escore de suporte com o objetivo de ajustar o tratamento com estatina. O tratamento com estatina não tem nada a ver com a função renal e eu já incluí uma série de variáveis que afetarão o tratamento com estatina. Mas ainda é tentador incluir a função renal; pode se ajustar ainda mais. Agora, alguns diriam que deve ser incluído porque afeta o resultado, mas eu poderia dar outro exemplo (como a variável binária vida urbana / rural) de uma variável que não afeta o tratamento nem o resultado, tanto quanto sabemos. Mas eu gostaria de incluí-lo, desde que não t afeta a precisão da pontuação do suporte. 2)"A inclusão de X afetados pelo tratamento, ex post ou ex ante, em antecipação ao tratamento, invalidará a suposição". Não sei o que você quer dizer aqui. Mas se eu estudar o efeito das estatinas no resultado cardiovascular, incluirei várias medidas de lipídios no sangue no escore de propensão. Os lipídios no sangue são afetados pelo tratamento. Acho que não entendi bem essa afirmação.
@statsRus, obrigado por compartilhar os fatos, principalmente o que você chama de "uma observação sobre a seleção de entradas". Acho que raciocino da mesma maneira que você.
Infelizmente, os métodos de pontuação prop discutem várias estratégias de ajuste em vez de estratégias de seleção de modelo. Talvez o ajuste do modelo não seja importante. Se for esse o caso, eu ajustaria para cada variável disponível que possa afetar o resultado e a alocação de tratamento o menor. Eu não sou um estatístico, mas se o ajuste do modelo não for importante, gostaria de ajustar todas as variáveis que possam afetar a alocação e o resultado do tratamento. Em muitos casos, isso significaria incluir variáveis que serão efetuadas pelo tratamento.
Além disso, algumas pessoas sugerem que a regressão subsequente de Cox deve incluir apenas a variável de tratamento e a subclasse de escore de prop. Enquanto outros sugerem que o ajuste cox deve incluir a pontuação adicional adicionalmente a todas as outras variáveis pelas quais você ajustaria.