A censura é frequentemente descrita em comparação com o truncamento . Uma boa descrição dos dois processos é fornecida por Gelman et al (2005, p. 235):
Os dados truncados diferem dos dados censurados, pois nenhuma contagem de observações além do ponto de truncamento está disponível. Com a censura, os
valores das observações além do ponto de truncamento são perdidos, mas seu número é observado.
A censura ou truncamento pode ocorrer para valores acima de algum nível (censura à direita), abaixo de algum nível (censura à esquerda) ou ambos.
Abaixo, você pode encontrar um exemplo de distribuição normal padrão que é censurada no ponto 2.0 (meio) ou truncado em 2.0(certo). Se a amostra estiver truncada, não temos dados além do ponto de truncamento, com valores de amostra censurados acima do ponto de truncagem são "arredondados" para o valor limite, portanto, eles são super-representados na sua amostra.
Um exemplo intuitivo de censura é que você pergunta a seus entrevistados sobre a idade deles, mas registra apenas até algum valor e todas as idades acima desse valor, digamos 60 anos, são registradas como "60+". Isso leva a ter informações precisas para valores não censurados e nenhuma informação sobre valores censurados.
Não é tão típico, o exemplo da vida real de censura foi observado nas notas do exame matura polonês que chamaram muita atenção na internet . O exame é realizado no final do ensino médio e os alunos devem ser aprovados para poder se inscrever no ensino superior. Você consegue adivinhar na trama abaixo qual é a quantidade mínima de pontos que os alunos precisam para passar no exame? Não é de surpreender que a "lacuna" na distribuição normal possa ser facilmente "preenchida" se você tomar uma fração apropriada das pontuações super-representadas logo acima do limite da censura.
Em caso de análise de sobrevivência
a censura ocorre quando temos algumas informações sobre o tempo de sobrevivência individual, mas não sabemos exatamente o tempo de sobrevivência
(Kleinbaum e Klein, 2005, p. 5). Por exemplo, você trata pacientes com algum medicamento e os observa até o final do estudo, mas não sabe o que acontece com eles após o término do estudo (houve recaídas ou efeitos colaterais?), A única coisa que você sabe é que eles " sobreviveu " pelo menos até o final do estudo.
Abaixo, você encontra exemplos de dados gerados a partir da distribuição Weibull modelada usando o estimador Kaplan – Meier. Modelo de marca de curva azul estimado no conjunto de dados completo; no gráfico do meio, você pode ver amostra censurada e modelo estimado em dados censurados (curva vermelha); à direita, você vê amostra truncada e modelo estimado nessa amostra (curva vermelha). Como você pode ver, a falta de dados (truncamento) tem um impacto significativo nas estimativas, mas a censura pode ser facilmente gerenciada usando modelos padrão de análise de sobrevivência.
Isso não significa que você não pode analisar amostras truncadas, mas nesses casos é necessário usar modelos para dados ausentes que tentam "adivinhar" as informações desconhecidas.
Kleinbaum, DG e Klein, M. (2005). Análise de sobrevivência: um texto de auto-aprendizagem. Springer.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2005). Análise Bayesiana de Dados. Chapman & Hall / CRC.