Admito que fiquei intrigado com essa questão já há algum tempo na minha carreira. Uma maneira de me convencer da resposta era adotar uma visão extremamente prática e aplicada da situação, uma visão que reconhece que nenhuma medida é perfeita. Vamos ver aonde isso pode levar.
O objetivo deste exercício é expor as suposições que podem ser necessárias para justificar a mistura um tanto simplista de densidades e probabilidades nas expressões de probabilidade. Destacarei, portanto, essas suposições onde quer que sejam introduzidas. Acontece que alguns são necessários, mas são bastante leves e cobrem todos os aplicativos que encontrei (o que obviamente será limitado, mas ainda inclui alguns).
O problema diz respeito a uma distribuição mista F, que não é absolutamente contínua nem singular. O Teorema da Decomposição de Lebesgue nos permite ver tal distribuição como uma mistura de uma distribuição absolutamente contínua (que por definição possui uma função de densidade fuma ) e uma singular ("discreta"), que possui uma função de massa de probabilidade fd. (Ignorarei a possibilidade de que um terceiro componente contínuo, mas não absolutamente contínuo, possa estar presente. Aqueles que usam esses modelos tendem a saber o que estão fazendo e geralmente têm todas as habilidades técnicas para justificá-los.)
Quando F= Fθ é um membro de uma família paramétrica de distribuições, podemos escrever
Fθ( x ) = Fa θ( x ) + Fdθ( x ) = ∫x∞fuma( t ; θ ) d t + ∑t ≤ xfd( t ; θ ) .
(A soma é no máximo contável, é claro.) Aqui, fuma(; θ ) é uma função de densidade de probabilidade multiplicado por um coeficiente misturaλ ( θ ) efd(; θ ) é uma função de massa de probabilidade multiplicada por1 - λ ( θ ) .
Vamos interpretar qualquer observação xEu em um conjunto de dados iid X= ( x1, x2, … , Xn) como "realmente", o que significa que temos certo conhecimento de que um valor subjacente hipotético verdadeiro yEu encontra em um intervalo ( xEu- δEu, xEu+ ϵEu] circundam xEu, mas , caso contrário, não têm informações sobre yEu. Supondo que conheçamos todos os deltas e epsilons, isso não apresenta mais problemas para construir uma probabilidade, porque tudo pode ser expresso em termos de probabilidades:
L (X; θ ) = ∏Eu( Fθ( xEu+ ϵEu)−Fθ(xi−δi)).
Se o suporte de Fdθ não tem pontos de condensação em todo o xi, a sua contribuição para a probabilidade irá reduzir a, no máximo, um termo único, desde que os ípsilons e deltas são feitos suficientemente pequeno: não haverá nenhuma contribuição quando xi não está em seu apoio.
Se assumirmos que fa(;θ) éLipschitz contínuoem todos os valores dos dados,entãouniformementenos tamanhos dos épsons e deltas podemos aproximar a parte absolutamente contínua deFθ(xi) como
Faθ(xi+ϵi)−Faθ(xi−δi)=fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|).
A uniformidade dessa aproximação significa que, à medida que levamos todos os epsilons e deltas para pequenos, todos os termos o() também ficam pequenos. Consequentemente, há um valor ϵ(θ)>0, pequeno ϵ ( θ ) > 0 , governado pelas contribuições de todos esses termos de erro, para os quais
L(X;θ)=∏i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=∏i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).
Isso ainda é um pouco confuso, mas mostra para onde estamos indo. No caso de dados censurados, geralmente apenas uma parte de cada termo no produto será diferente de zero, porque esses modelos normalmente assumem que o suporte da parte singular da distribuição é separado da atualização da parte contínua, independentemente do o parâmetro θ pode ser. (Especificamente: fd(x)≠0 implica Fa(x+ϵ)−Fa(x−ϵ)=o(ϵ).) Isso nos permite dividir o produto em duas partese podemos fatorar as contribuições de todos os intervalos da parte contínua:
L(X;θ)=(∏i=1k(ϵi+δi))∏i=1kfa(xi;θ) ∏i=k+1nfd(xi;θ).
(Sem qualquer perda de generalidade, indexei os dados para que xi, i = 1 , 2 , … , k contribuam para a parte contínua e, caso contrário, xEu, i = k + 1 , k + 2 , … , n contribuam para a parte singular da probabilidade.)
Essa expressão agora deixa claro que
Uma vez que as larguras de intervalo ϵEu+ δEu são corrigidos, que não contribuem para a probabilidade (o qual é definido somente até algum múltiplo constante positiva).
Assim, podemos trabalhar com a expressão
L (X; θ ) = ∏i = 1kfuma( xEu; θ ) ∏ i = k + 1nfd( xEu; θ )
ao construir relações de probabilidade ou maximizar a probabilidade. A beleza desse resultado é que nunca precisamos saber os tamanhos dos intervalos finitos usados nesta derivação: os épsons e os deltas desaparecem imediatamente. Precisamos apenas saber que podemos torná-los pequenos o suficiente para que a expressão de probabilidade com a qual trabalhamos seja uma aproximação adequada à expressão de probabilidade que usaríamos se soubéssemos o tamanho do intervalo.