Análise de dados dados como intervalos em vez de pontos

7

Eu tenho um conjunto de dados que não é fornecido como $\boldsymbol{x} = x_1, \dots, x_n,$ mas como pares $\boldsymbol{x}_{interval} = (x^{(start)}_1, x^{(end)}_1), \dots, (x^{(start)}_n, x^{(end)}_n).$ Para cada par $(x^{(start)}_i, x^{(end)}_i),$ o verdadeiro $x_i$ está no intervalo $(x^{(start)}_i, x^{(end)}_i),$ mas não se sabe onde.

No contexto, isso significa que temos intervalos nos quais sabemos que um evento $x_i$ ocorreu, o que nos diz que ocorreu após $x^{(start)}_i,$ mas antes de $x^{(end)}_i$ .

O objetivo da análise é modelar esses dados ou, de alguma forma, aproximar a distribuição. Inicialmente, começarei tentando usar as informações contidas nos intervalos para ajustar uma distribuição normal à distribuição dos eventos não observados $\boldsymbol{x}$ .

Estou com muita dificuldade em encontrar informações sobre esse tipo de problema. Esse é um campo conhecido de pesquisa, de análise estatística de intervalos?

probability interval-censoring

— Kees Mulder
fonte

11

É um pouco como a censura dupla face na análise de sobrevivência. Mas não é um tempo de censura e você tem vários intervalos com apenas uma observação por intervalo. Se eu colocasse uma distribuição para o x desconhecido em cada intervalo, usaria a distribuição uniforme porque acho que você não tem motivos para favorecer pontos particulares nos intervalos em detrimento de outros.

— Michael R. Chernick

2

Há uma tag neste site para censura por intervalo; talvez algumas das respostas possam ajudá-lo?

— mdewey

11

É concebível que a forma como os intervalos são gerados possa ser informativa. Como tal, eu relutaria em aplicar alguma técnica omnibus de "censura por intervalo" à análise desses dados até entender melhor o que esses intervalos realmente representam. Você poderia elaborar sobre isso? Por exemplo, muitos medidores digitais truncam medições até uma potência mais próxima de 10, de onde todos os intervalos têm uma largura comum com pontos de extremidade predefinidos. Em outros casos, as larguras de intervalo podem variar com a medida devido às propriedades da própria medida.

— whuber

10

Os dados são censurados , especificamente censurados por intervalo . A censura, especialmente a censura à direita (início, mas sem fim), é um recurso comum dos dados de tempo até o evento e tratados sob análise de sobrevivência (Medicina) ou análise de confiabilidade (Engenharia).

Para a modelagem paramétrica de tais dados, o insight principal é que as contribuições para a probabilidade conjunta de dados sem censura são da forma enquanto as dos dados censurados são da forma onde é a densidade & a função de distribuição. Sob a hipótese de censura independente - para a qual você não deve pular -, essa é a única parte da probabilidade necessária para inferência, pois os tempos de censura não contêm informações adicionais sobre os parâmetros. Se uma distribuição normal parecer apropriada, comece com um gráfico de contorno da probabilidade em relação aos parâmetros de média e variância, e melhore as estimativas iniciais de máxima verossimilhança numericamente.

f (x_{i})

$f(x_i)$

F (x_{i}^{(e n d)}) - F (x_{i}^{(s t a r t)}),

$F\left(x_i^\mathrm{(end)}\right)-F\left(x_i^\mathrm{(start)}\right),$

f (\cdot)

$f(\cdot)$

F (\cdot)

$F(\cdot)$

— Scortchi - Restabelecer Monica
fonte

Muito obrigado pela conexão com o termo censura e censura por intervalo. A contribuição da probabilidade como diferença entre os dois CDFs foi realmente o meu palpite, mas é ótimo ver que faz sentido. Obrigado novamente!

— precisa saber é o seguinte

5

Um bom começo para examinar a distribuição univariada seria examinar o Estimador de máxima verossimilhança não paramétrico (NPMLE). Essa é uma generalização das curvas de Kaplan-Meier (que por si só é uma generalização da Função de Distribuição Empírica), que fornecerá uma estimativa não paramétrica da função de distribuição cumulativa. Curiosamente, essa estimativa não é única (diferente das curvas EDF ou Kaplan Meier), mas é conhecida até um intervalo. Portanto, você obterá um par de funções de etapa que vinculam o NPMLE, em vez de uma função de etapa única.

Embora esse estimador seja bom para examinar a forma de uma distribuição, pode ser um pouco instável, ou seja, alta variação nas estimativas. Pode-se ajustar modelos paramétricos padrão, mas ainda é recomendável usar o NPMLE pelo menos para a verificação do modelo.

Muitos dos modelos de regressão de sobrevivência padrão estão disponíveis (riscos proporcionais, tempo de falha acelerado e chances proporcionais, por exemplo). Curiosamente, embora o NPMLE possua alta variação para as estimativas da curva de sobrevida, os parâmetros de regressão em um modelo semi-paramétrico que utiliza o NPMLE para a distrubição da linha de base não sofrem com a instabilidade. Portanto, os métodos de regressão semi-paramétricos são bastante populares para inferência.

@ Scortchi e @whuber trazem pontos importantes sobre a geração do início e do fim dos intervalos de observação ( conforme definido pelo OP). Uma suposição simplificadora padrão (que deve ser cuidadosamente considerada) é que há um conjunto de tempos de inspeção que são gerados independentemente do tempo real do evento / resultado de interesse (igualdade ocorre quando observamos exatamente o horário do evento). Então, tudo o que observamos é o intervalo tal que $x_i^{start}, x_i^{end}$ $C_0 \leq C_1 \leq, ..., \leq C_k$ $t$ $C_j, C_{j+1}$ $t \in C_j, C_{j+1}$ . Mas, se parecer plausível que o tempo do evento possa influenciar fortemente o tempo da inspeção, é necessário tomar cuidado na análise. Como exemplo, suponha que nosso evento de interesse tenha sido o início da cárie dentária e que nossas inspeções fossem visitas ao dentista. Se formos ao dentista regularmente, a suposição de independência parece razoável. Mas se raramente formos ao dentista, exceto quando nosso dente dói muito, então definitivamente está influenciando ! $t$ $C_j$

Um breve tutorial para usar esses modelos no meu pacote R icenRegpode ser encontrado aqui .

— Cliff AB
fonte