O que exatamente são dados censurados?

14

Eu li diferentes descrições de dados censurados:

A) Conforme explicado neste tópico, dados não quantificados abaixo ou acima de um determinado limite são censurados. Não quantificado significa que os dados estão acima ou abaixo de um determinado limite, mas não sabemos o valor exato. Os dados são marcados no valor limite baixo ou alto no modelo de regressão. Ele corresponde à descrição desta apresentação , que eu achei muito clara (segundo slide na primeira página). Em outras palavras, $Y$ é limitado a um valor mínimo, máximo ou ambos, porque não sabemos o valor real fora desse intervalo.

B) Um amigo me disse que eu posso aplicar um modelo de dados censurados a parcialmente desconhecidos $Y$ observações, desde que tenhamos pelo menos alguma informação limite sobre o desconhecido $Y_i$ resultados. Por exemplo, queremos estimar o preço final de uma combinação de leilões abertos e silenciosos com base em alguns critérios qualitativos (tipo de mercadoria, país, riqueza dos licitantes, etc.). Enquanto nos leilões abertos conhecemos todos os preços finais $Y_i$ , nos leilões silenciosos conhecemos apenas o primeiro lance (por exemplo, US $ 1.000), mas não o preço final. Disseram-me que, neste caso, os dados são censurados de cima e um modelo de regressão censurado deve ser aplicado.

C) Finalmente, há a definição dada pela Wikipedia, onde $Y$ está ausente, mas os preditores estão disponíveis. Não tenho certeza de como este exemplo é diferente dos dados truncados.

Então, o que exatamente são dados censurados?

regression terminology censoring

— Robert Kubrick
fonte

6

O artigo mais relevante da Wikipedia está em en.wikipedia.org/wiki/Censoring_%28statistics%29 . Embora não seja abrangente, pelo menos descreve a censura Tipo I e Tipo II e reconhece a censura por intervalo junto com a censura esquerda e direita.

— whuber

8

Considere os seguintes dados sobre um resultado e um covariável : $y$ $x$

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Para o usuário 1, temos os dados completos. Para todos os outros, temos dados incompletos. Os usuários 2, 3 e 4 são todos censurados: o resultado correspondente aos valores conhecidos da covariável não é observado ou não é observado exatamente (censurado à esquerda, à direita e com intervalo). Às vezes, esse é um artefato de considerações de privacidade no design da pesquisa. Em outros momentos, isso acontece por outros motivos. Por exemplo, não observamos salários abaixo do salário mínimo ou a demanda real de ingressos para shows acima da capacidade da arena.

O usuário 5 está truncado: o resultado e a covariável estão ausentes. Isso geralmente acontece porque só coletamos dados de pessoas que fizeram alguma coisa. Por exemplo, pesquisamos apenas pessoas que compraram algo ( ); portanto, excluímos qualquer pessoa com junto com seus s. Talvez nem tenhamos uma linha para esse tipo de usuário na saída de dados, embora saibamos que eles existem porque sabemos a regra que foi usada para gerar nossa amostra. Outro exemplo é o truncamento incidental : só observamos ofertas salariais para pessoas que estão na força de trabalho, porque assumimos que a oferta salarial é o salário quando você está trabalhando. O truncamento é incidental, pois não depende de $y>0$ $y=0$ $x$ $y$ , mas em outra variável.

Em resumo, o truncamento implica uma perda maior de informações do que a censura (pontos A e B). Ambos os tipos de "falta" são sistemáticos.

Trabalhar com esse tipo de dados geralmente envolve fazer uma forte suposição de distribuição sobre o erro e modificar a probabilidade de levar isso em consideração. Abordagens semi-paramétricas mais flexíveis também são possíveis. Isso está implícito no seu ponto B.

— Dimitriy V. Masterov
fonte

2

Dois aspectos dessa resposta me confundem. Primeiro, valores puramente ausentes não refletem necessariamente o truncamento. Segundo, a maneira de censurar ("aleatória" vs. "informativa") é freqüentemente tão importante quanto o fato de censurar, indicando que há mais na censura do que na mera gravação de dados com valor de intervalo.

— whuber

Este é um exemplo muito bom. Isso significa que diferentes "limites de censura" podem ser aplicados a cada

? Como formulamos o modelo neste caso? Isso validaria minha declaração de amigo em B).

y

$y$

— Robert Kubrick

1

Se você está disposto a assumir homocedásticos, os erros normalmente distribuídos, a probabilidade pode ser escrito como este e você pode usar MLE com limiares de censura específicas de observação.

— precisa saber é o seguinte

3

@ Peter Isso não é (certo) censurar? O truncamento ocorreria quando todas essas pessoas fossem excluídas e nem contadas na amostra. Consulte en.wikipedia.org/wiki/Truncation_(statistics) .

— whuber

1

@ Peter O que é confuso é que você escreve "então sabemos que o IMC dessa pessoa está acima de 30": como você pode se referir a alguém que nem está na sua amostra ("não foi contado")? Uma observação da forma "IMC> 30" é censuradora, enquanto a exclusão completa de todas essas observações da sua análise, mesmo quando elas podem existir na população, é truncamento. Neste último caso, tudo o que você pode dizer é "pessoas com IMC acima de 30 foram excluídas da amostra".

— whuber

9

Descritivamente, eu ofereceria "uma amostra de dados é censurada se algumas observações nela assumirem, ou constituírem, os valores extremos da amostra, mas seu verdadeiro valor estiver fora do intervalo de amostra observado". Mas isso é enganosamente direto.

Então, vamos discutir primeiro como podemos concluir que um conjunto de dados é censurado, o que naturalmente nos levará a discutir os casos apresentados na pergunta.

Suponha que recebamos o seguinte conjunto de dados de uma variável aleatória discreta , para a qual a única coisa que sabemos é que ela não é negativa: $X$

{0, 1, 1, 2, 2, 2, 2, 2, 2, 2}

$\{0,1,1,2,2,2,2,2,2,2\}$

Podemos dizer que o conjunto de dados é censurado? Bem, temos o direito de pensar que pode ser, mas não é necessariamente assim:

1) pode ter o intervalo e uma distribuição de probabilidade . Se esse for realmente o caso, parece que não há censura aqui, apenas uma amostra "antecipada" de uma variável tão aleatória, com suporte limitado e distribuição altamente assimétrica. $X$ $\{0,1,2\}$ $\{0.1,0.1,0.8\}$

2) Mas pode ser o caso que tem a faixa com distribuição de probabilidade uniforme , caso em que nossa amostra de dados provavelmente é censurada. $X$ $\{0,1,...,9\}$ $\{0.1,0.1,...0.1\}$

Como podemos saber? Não podemos, exceto se possuirmos conhecimento ou informação prévia , que nos permita argumentar a favor de um ou outro caso. Os três casos apresentados na pergunta representam conhecimento prévio para o efeito de censurar? Vamos ver:

O caso A) descreve uma situação em que, para algumas observações, temos apenas informações qualitativas como "muito grande", "muito pequeno" etc., o que nos leva a atribuir à observação um valor extremo. Observe que apenas o desconhecimento do valor real realizado não justifica atribuir um valor extremo. Portanto, precisamos ter algumas informações para que, para essas observações, seu valor exceda ou esteja abaixo de todos os observados. Nesse caso, o alcance real da variável aleatória é desconhecido, mas nossas informações qualitativas nos permitem criar uma amostra censurada (é outra discussão sobre por que não descartamos apenas as observações para as quais não possuímos o valor real realizado )

O caso B) não é um caso de censura, se bem entendi, mas um caso de amostra contaminada: nossas informações a priori nos dizem que o valor máximo da variável aleatória não pode exceder (devido a uma lei física ou direito social - suponha que sejam dados de notas de um sistema de classificação que use apenas os valores ). Mas também observamos o valor e o valor . Como isso pode ser? Erro na gravação dos dados. Mas, nesse caso, não sabemos ao certo que os e devem ser todos os $3$ $1,2,3$ $4$ $5$ $4$ $5$ $3$ (na verdade, olhando para o teclado lateral de um computador, é mais provável que os sejam e os sejam !). "Corrigindo" de qualquer maneira a amostra, não a tornamos censurada, porque a variável aleatória não deve variar no intervalo registrado em primeiro lugar (portanto, não há probabilidades verdadeiras atribuídas aos valores e ) $4$ $1$ $5$ $2$ $4$ $5$

O caso C) refere-se a uma amostra conjunta, na qual temos uma variável dependente e preditores. Aqui, podemos ter uma amostra em que os valores da variável dependente estão concentrados em um ou nos dois extremos, devido à estrutura do fenômeno em estudo: No exemplo usual das "horas trabalhadas", os desempregados não trabalham, mas teriam funcionou (pense com cuidado: este caso realmente se enquadra na "definição" descritiva no início desta resposta?). Portanto, incluí-los na regressão com horas gravadas "zero" cria viés. No outro extremo, pode-se argumentar que o número máximo de horas trabalhadas seja capaz de atingir, digamos $16$ / dia, e pode haver funcionários que estariam dispostos a trabalhar tantos por um determinado salário. Mas o quadro jurídico não o permite e, portanto, não observamos essas "horas trabalhadas". Aqui, estamos tentando estimar a " função de oferta de trabalho pretendida " - e é com relação a essa variável que a amostra é caracterizada como censurada.
Mas se declarássemos que o que queremos fazer é estimar "a função da oferta de trabalho, dado o fenômeno do desemprego e a estrutura legal", a amostra não seria censurada, pois refletiria o efeito desses dois aspectos, algo que queremos fazer.

Então, vemos que caracterizar uma amostra de dados como censurada
a) pode vir de diferentes situações
eb) requer algum cuidado,
apenas o fato de poder ser confundido com o caso de truncamento .

— Alecos Papadopoulos
fonte

6

Esta parece ser uma perspectiva econométrica. Observe que é comum na pesquisa biomédica ter durações (possivelmente literalmente sobrevivência) como resposta, e ter pacientes censurados por não terem experimentado o evento até o final do período de observação. Mas também ter pacientes que desistiram ou perderam o acompanhamento durante o período de observação. (Talvez eles se afastaram e o contato foi perdido.) Podemos saber que o tempo de sobrevivência é o último contato, mas pode ser mais curto que o final do período de observação.

— gung - Restabelece Monica

O caso B não é para dados errados ou contaminados. Suponha que desejemos estimar o preço final de uma mistura de leilões abertos e silenciosos com base em alguns critérios qualitativos (tipo de mercadoria, país, riqueza dos licitantes, ...). Para os leilões silenciosos, conhecemos apenas o primeiro lance (por exemplo, US $ 1.000), mas não o preço final. Foi-me dito que podemos usar os dados de leilões silenciosos usando alguma forma de modelagem censurada.

— Robert Kubrick

1

@gung, essa é certamente uma abordagem econométrica, dado quem escreveu a resposta!

— Alecos Papadopoulos

1

@RobertKunrick O que você descreve não corresponde ao caso B. Da maneira como o Caso B é descrito, observamos uma série de valores e, depois, somos informados de que alguns dos valores observados são, na realidade, impossíveis. Como isso corresponde ao exemplo dos leilões?

— Alecos Papadopoulos

Por favor, não leve isso como uma crítica, @AlecosPapadopoulos. Eu não acho que haja algo incorreto. Eu só quero salientar que os termos são usados de maneira diferente em diferentes campos, e essa não é a convenção é stat / biostat.

— gung - Restabelece Monica

2

Para mim, censurar significa que observamos informações parciais sobre uma observação . O que quer dizer com isto é que, em vez de observar observamos onde é a realização de , que é cerca de engrossamento aleatória do espaço de amostragem. Podemos imaginar que primeiro selecionamos uma partição do espaço de amostra , depois é gerado e relatamos o modo que $Z_i$ $Z_i = z_i$ $Z_i \in a_i$ $a_i$ $A_i$ $\mathcal A_i$ $\mathcal Z$ $Z_i$ $A_i \in \mathcal A_i$ . (equivalentemente, relatamos para todos os ). A censura não informativa de , por exemplo, significa que é independente de $Z_i \in A_i$ $I(Z_i \in A)$ $A \in \mathcal A_i$ $Z_i$ $\mathcal A_i$ $Z_i$

$[Z_i \mid Z_i \in a_i]$ $Z_i$ $Z_i = (X_i, Y_i)$ $Y_i$ $a_i = \{x\} \times \mathcal Y$ $\mathcal Y$ $Y$ $Z_i$ $a_i = \mathcal Z$ $Z_i$ $Z_i$

— cara
fonte

1

É importante distinguir censurado contra truncado , bem como falta de dados.

A censura se aplica especificamente à questão da análise de sobrevivência e aos resultados de tempo para evento, em que se supõe que o evento em questão ocorreu em algum momento após o ponto em que você parou de observar esse indivíduo . Um exemplo é homens que fazem sexo com homens (HSH) e o risco de ocorrência de HIV em um estudo prospectivo que move e deixa de entrar em contato com os coordenadores do estudo.

O truncamento se aplica a uma variável contínua que é avaliada para um ponto específico no qual se sabe que o valor real é maior ou menor que esse ponto. Um exemplo é o monitoramento de indivíduos com HIV e o desenvolvimento de AIDS total, as contagens de células CD4 abaixo de 300 são avaliadas até o limite inferior de detecção 300.

Por fim, dados ausentes são dados que possuem valores reais que não são observados em nenhum sentido. Os dados censurados não estão perdendo dados de tempo para evento nem são truncados.

— AdamO
fonte

1

Há outro uso de "truncamento": descrever um processo de geração de dados em que as observações acima / abaixo dos pontos de corte não são possíveis. Um exemplo clássico envolve contar os no.eggs encontrados nos ninhos de uma espécie de ave em particular, onde as espécies só podem ser identificadas a partir do ovo; ninhos vazios podem ser de qualquer espécie, então o não. zeros é desconhecido. Se não. ovos segue uma distribuição de Poisson, a contagem de ovos de ninhos não vazios segue um Poisson truncado. Portanto, o truncamento produz dados ausentes de acordo com um mecanismo bem definido específico.

— Scortchi - Reinstate Monica

1

... Seus dados de contagem de células são realmente censurados de acordo com o entendimento de muitas pessoas sobre o termo, que não se restringe às medições de tempo até o evento, porque você sabe tudo sobre cada assunto, exceto o quão abaixo de 300 a contagem de células está; "truncamento" aqui (alternativamente "Winsorization") descreve o método de análise, ou seja, o tratamento de valores abaixo de 300 como se fossem iguais a 300.

— Scortchi - Reinstate Monica

Uma referência clara ao conceito de análise de sobrevivência de censura: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .

— Eric O Lebigot

-1

Censurado: Este é um termo usado para indicar que o período de observação foi cortado antes que o evento de interesse ocorresse. Portanto, '' dados censurados '' indicam que o período de um evento específico como ocorreu ou nunca ocorreu

— Abdulfatah Lawal
fonte

3

Bem vindo ao site. Se isso for copiado de alguma fonte, cite a fonte.

— gung - Restabelece Monica

3

A censura se aplica a muito mais que observações dependentes do tempo. Por exemplo, medições de concentrações químicas que estão abaixo do limite de detecção também são censuradas.

— whuber

@ whuber: Posso oferecer uma emenda amigável a essa observação. As concentrações químicas que caem abaixo do limite de detecção são de fato censuradas, mas, como não podem ser negativas, as análises devem considerá-las truncadas em zero. Meu próprio entendimento da distinção censura de truncamento é que o truncamento se aplica ao intervalo de parâmetros possíveis para a distribuição subjacente.

— DWin

@ DWin Obrigado por esse esclarecimento. Só posso concordar com o primeiro ponto. Na grande maioria dos conjuntos de dados que analisei, porém, era necessário reexprimir as concentrações como logaritmos - e aí a distinção desaparece. Em outros conjuntos de dados em que o fundo foi subtraído (como medições radiológicas), também não há um ponto final definido. Seu segundo ponto me parece incomum: nunca vi "truncamento" usado para se referir à criação de um subconjunto de uma família de distribuição.

— whuber