Vou tentar adicionar à outra resposta. Primeiro, a completude é uma condição técnica justificada principalmente pelos teoremas que a utilizam. Então, vamos começar com alguns conceitos e teoremas relacionados onde eles ocorrem.
Seja X=(X1,X2,…,Xn) represente um vetor de dados iid, que modelamos como tendo uma distribuição f(x;θ),θ∈Θ onde o parâmetro θ governa os dados é desconhecido. T=T(X) é suficiente se a distribuição condicional de X∣T não depender do parâmetro θ . V=V(X) éauxiliarse a distribuição deV não depender deθ (dentro da famíliaf(x;θ) ). U=U(X) é umestimador imparcial de zerose sua expectativa é zero, independentemente deθ . S=S(X) é umaestatística completase qualquer estimador imparcial de zero com base emfor identicamente zero, ou seja, seSEg(S)=0(for all θ) e ae (para todos ).g(S)=0θ
Agora, suponha que você tenha dois estimadores imparciais diferentes de base na estatística suficiente , . Ou seja, nos símbolos
e (para todos ). Então é um estimador imparcial de zero, que não é identicamente zero, provando que não está completo. Portanto, a completude de uma estatística suficiente nos dá a existência de apenas um estimador imparcial único de baseado emθTg1(T),g2(T)Eg1(T)=θ,Eg2(T)=θ
P(g1(T)≠g2(T))>0θg1(T)−g2(T)TTθT. Isso já está muito próximo do teorema de Lehmann – Scheffé.
Vejamos alguns exemplos. Suponha que X1,…,Xn agora sejam iid uniformes no intervalo (θ,θ+1) . Podemos mostrar que ( X(1)<X(2)<⋯<X(n) é a estatística da ordem) o par (X(1),X(n)) é suficiente, mas não está completo, porque o diferença X(n)−X(1) é auxiliar, podemos calcular sua expectativa, sejac(que é uma função denapenas) e, em seguida,X(n)−X(1)−cserá um estimador imparcial de zero que não é identicamente zero. Portanto, nossa estatística suficiente, neste caso, não é completa e suficiente. E podemos ver o que isso significa: existem funções da estatística suficiente que não são informativas sobreθ(no contexto do modelo). Isso não pode acontecer com uma estatística suficiente completa; é, de certo modo, maximamente informativo, na medida em que nenhuma função dele é pouco informativa. Por outro lado, se houver alguma função da estatística minimamente suficiente que tenha expectativa zero, que poderia ser vista como um termo de ruído , os termos de perturbação / ruído nos modelos têm expectativa de zero. Portanto, poderíamos dizer que estatísticas suficientes não completas contêm algum ruído .
Veja novamente o intervalo R = X( N )- X( 1 ) neste exemplo. Como sua distribuição não depende de θ , ela sozinha não contém nenhuma informação sobre θ . Mas, junto com a estatística suficiente, ele faz! Quão? Observe o caso em que R = 1 é observado. Então, no contexto de nosso modelo (conhecido por verdadeiro), temos um conhecimento perfeito de θ ! Ou seja, podemos dizer com certeza que θ = X( 1 ) . Você pode verificar se qualquer outro valor para θentão leva a que X( 1 ) ou X( N ) seja uma observação impossível, sob o modelo assumido. Por outro lado, se observarmos R = 0,1 , então a faixa de valores possíveis para θ é bastante grande (exercício ...).
Nesse sentido, a estatística auxiliar R contém algumas informações sobre a precisão com a qual podemos estimar θ base nesses dados e modelo. Neste exemplo, e outros, a estatística auxiliar R "assume o papel do tamanho da amostra". Geralmente, os intervalos de confiança e tais necessidades precisam do tamanho da amostra n , mas neste exemplo, podemos fazer um intervalo de confiança condicional, que é calculado usando apenas R , não n (exercício). alguma estatística auxiliar.
Agora, o teorema de Basu: se T é completo o suficiente, então é independente de qualquer estatística auxiliar. Ou seja, a inferência baseada em uma estatística suficiente suficiente é mais simples, pois não precisamos considerar a inferência condicional. O condicionamento de uma estatística independente de T não muda nada, é claro.
Então, um último exemplo para dar um pouco mais de intuição. Altere nosso exemplo de distribuição uniforme para uma distribuição uniforme no intervalo ( θ1, θ2) (com θ1< θ2 ). Nesse caso, a estatística ( X( 1 ), X( N )) é completa e suficiente. O que mudou? Podemos ver que a completude é realmente uma propriedade do modelo. No primeiro caso, tínhamos um espaço de parâmetro restrito. Essa restrição destruiu a integridade introduzindo relacionamentos nas estatísticas do pedido. Ao remover essa restrição, obtivemos integridade! Portanto, de certa forma, a falta de integridade significa que o espaço dos parâmetros não é grande o suficiente e, ampliando-o, podemos esperar restaurar a integridade (e, portanto, uma inferência mais fácil).
Alguns outros exemplos em que a falta de integridade é causada por restrições no espaço do parâmetro,
veja minha resposta para: Que tipo de informação é Fisher?
Deixe que X1, … , Xn ser iid Ca u c h y( θ , σ) (um modelo de localização escala). Em seguida, as estatísticas do pedido são suficientes, mas não completas. Mas agora amplie esse modelo para um modelo totalmente não paramétrico, ainda iid, mas a partir de alguma distribuição F não especificada . Em seguida, as estatísticas do pedido são suficientes e completas.
Para famílias exponenciais com espaço de parâmetro canônico (ou seja, o maior possível), a estatística mínima suficiente também é completa. Porém, em muitos casos, a introdução de restrições no espaço dos parâmetros, como nas famílias exponenciais curvas , destrói a integridade.
Um artigo muito relevante é Uma Interpretação da Completude e o Teorema de Basu.