Descritivamente, eu ofereceria "uma amostra de dados é censurada se algumas observações nela assumirem, ou constituírem, os valores extremos da amostra, mas seu verdadeiro valor estiver fora do intervalo de amostra observado". Mas isso é enganosamente direto.
Então, vamos discutir primeiro como podemos concluir que um conjunto de dados é censurado, o que naturalmente nos levará a discutir os casos apresentados na pergunta.
Suponha que recebamos o seguinte conjunto de dados de uma variável aleatória discreta , para a qual a única coisa que sabemos é que ela não é negativa:X
{0,1,1,2,2,2,2,2,2,2}
Podemos dizer que o conjunto de dados é censurado? Bem, temos o direito de pensar que pode ser, mas não é necessariamente assim:
1) pode ter o intervalo { 0 , 1 , 2 } e uma distribuição de probabilidade { 0,1 , 0,1 , 0,8 } . Se esse for realmente o caso, parece que não há censura aqui, apenas uma amostra "antecipada" de uma variável tão aleatória, com suporte limitado e distribuição altamente assimétrica. X{0,1,2}{0.1,0.1,0.8}
2) Mas pode ser o caso que tem a faixa { 0 , 1 , . . . , 9 } com distribuição de probabilidade uniforme { 0,1 , 0,1 , . . .0 .1 } , caso em que nossa amostra de dados provavelmente é censurada. X{0,1,...,9}{0.1,0.1,...0.1}
Como podemos saber? Não podemos, exceto se possuirmos conhecimento ou informação prévia , que nos permita argumentar a favor de um ou outro caso. Os três casos apresentados na pergunta representam conhecimento prévio para o efeito de censurar? Vamos ver:
O caso A) descreve uma situação em que, para algumas observações, temos apenas informações qualitativas como "muito grande", "muito pequeno" etc., o que nos leva a atribuir à observação um valor extremo. Observe que apenas o desconhecimento do valor real realizado não justifica atribuir um valor extremo. Portanto, precisamos ter algumas informações para que, para essas observações, seu valor exceda ou esteja abaixo de todos os observados. Nesse caso, o alcance real da variável aleatória é desconhecido, mas nossas informações qualitativas nos permitem criar uma amostra censurada (é outra discussão sobre por que não descartamos apenas as observações para as quais não possuímos o valor real realizado )
O caso B) não é um caso de censura, se bem entendi, mas um caso de amostra contaminada: nossas informações a priori nos dizem que o valor máximo da variável aleatória não pode exceder (devido a uma lei física ou direito social - suponha que sejam dados de notas de um sistema de classificação que use apenas os valores 1 , 2 , 3 ). Mas também observamos o valor 4 e o valor 5 . Como isso pode ser? Erro na gravação dos dados. Mas, nesse caso, não sabemos ao certo que os 4 e 5 devem ser todos os 331,2,345453(na verdade, olhando para o teclado lateral de um computador, é mais provável que os sejam 1 e os 5 sejam 2 !). "Corrigindo" de qualquer maneira a amostra, não a tornamos censurada, porque a variável aleatória não deve variar no intervalo registrado em primeiro lugar (portanto, não há probabilidades verdadeiras atribuídas aos valores 4 e 5 ) 415245
O caso C) refere-se a uma amostra conjunta, na qual temos uma variável dependente e preditores. Aqui, podemos ter uma amostra em que os valores da variável dependente estão concentrados em um ou nos dois extremos, devido à estrutura do fenômeno em estudo: No exemplo usual das "horas trabalhadas", os desempregados não trabalham, mas teriam funcionou (pense com cuidado: este caso realmente se enquadra na "definição" descritiva no início desta resposta?). Portanto, incluí-los na regressão com horas gravadas "zero" cria viés. No outro extremo, pode-se argumentar que o número máximo de horas trabalhadas seja capaz de atingir, digamos 16/ dia, e pode haver funcionários que estariam dispostos a trabalhar tantos por um determinado salário. Mas o quadro jurídico não o permite e, portanto, não observamos essas "horas trabalhadas". Aqui, estamos tentando estimar a " função de oferta de trabalho pretendida " - e é com relação a essa variável que a amostra é caracterizada como censurada.
Mas se declarássemos que o que queremos fazer é estimar "a função da oferta de trabalho, dado o fenômeno do desemprego e a estrutura legal", a amostra não seria censurada, pois refletiria o efeito desses dois aspectos, algo que queremos fazer.
Então, vemos que caracterizar uma amostra de dados como censurada
a) pode vir de diferentes situações
eb) requer algum cuidado,
apenas o fato de poder ser confundido com o caso de truncamento .