Intervalos de confiança para um polinômio


8

Eu tenho uma variável aleatória que recebe valores nos números inteiros não negativos , chame as probabilidades para cada resultado . Eu posso provar da distribuição de de forma independente e barata; Atualmente, tenho um tamanho de amostra de . Parece que , com decaimento aproximadamente exponencial.Z{0,1,2,}zk:=P[Z=k]Z228z00.24,z10.18,

Eu tenho uma sequência de formas quadráticas com coeficientes positivos:

  • Q0(z0)=14z02
  • Q1(z0,z1)=12z0z1
  • ...
  • Q7(z0,z1,,z7)=18(2z0z1+3z2z1+4z4z1+4z6z1+3z0z3+ +4z2z3+4z3z4+4z0z5+4z2z5+4z0z7)
  • ...

O que eu gostaria de ter é um intervalo de confiança para os menos de largura, mas aceitarei o que puder.Qi104

Eu tenho limites rigorosos no , e como os coeficientes dos 's são todos positivos, é fácil transformá-los em limites rigorosos para os 's. Mas não sei como fazer isso corretamente com intervalos de confiança.ziQQ


Isso é sobre o quê? Encontrei um fenômeno bizarro na teoria dos números e sei como provar que isso realmente acontece, mas, na verdade, isso exigirá algum esforço de programação da minha parte e uma quantidade considerável de tempo em nosso cluster local. Antes de investir esse tempo e entupir nossa máquina, gostaria de ter mais certeza do que sou de que o fenômeno é real.

Quero quantificar a razoabilidade da minha afirmação de que e . Minhas estimativas indicam que é de cerca de , e é por isso que eu queria ICs nessa resolução.Q7<Q6Q7<Q8Q6Q75104

Corrija um número inteiro grande e deixe ser um subconjunto uniformemente escolhido de (ou seja, cada subconjunto específico tem probabilidade de ser escolhido). Seja a probabilidade de que exatamente dos números de não possa ser escrito como uma soma de dois elementos de ; deixe . É um pouco complicado de provar, mas esses limites existem e . Agora não é surpresa que seja pequeno e, à medida que aumenta,nA{1,2,,n}2nQk(n)k{2,3,,2n}AQk=limnQk(n)kQk=1Q0kQkaumenta, tem um pico e decai exponencialmente. A parte bizarra é que existe um viés contra 7. Ou seja, experimentalmente e . Ou seja, o que não foi uma surpresa na verdade não é verdade: a distribuição é bimodal.Q7<Q6Q7<Q8

Eu posso expressar os 's (usando alguma teoria) como acima, sem o limite em termos dessa outra distribuição, definida pelos ' s. Isso é útil porque tenho uma maneira de vincular rigorosamente os usando, como mencionei acima, alguns cálculos grandes. Além disso, eu tenho um conjunto de dados muito grande para a variávelQiziziZ


Sua inquietação com o idioma dos intervalos de confiança, mas com uma apresentação rigorosa, sugere que você pode estar em uma boa posição para nos fornecer um pouco mais de informações para ajudá-lo. Normalmente, você pode especificar uma das duas propriedades de um IC: a cobertura ou o comprimento. O outro será determinado pelos dados. No entanto, é incomum estipular o comprimento: você tem certeza de que é isso que deseja? Além disso, não está claro se você precisa de ICs para os Qs separadamente ou simultaneamente. Talvez você possa indicar para que pretende usar esses ICs?
whuber

Respostas:


3

Na minha resposta, forneço muitos links para material de fundo para economizar espaço aqui. Vou escrever minha resposta, usando as informações nos links, conforme indicado.

Eu acho que uma abordagem bayesiana é um ajuste natural para esse problema, especialmente porque você tenta se convencer. É um pouco complicado usar intervalos de confiança para responder à pergunta com a qual você realmente se importa, ou seja, quão plausível é que e deram a amostra da distribuição? A abordagem bayesiana permite que você lide diretamente com essa questão.Q7<Q6Q7<Q8zi

Função de probabilidade

Seja a frequência observada do resultado inteiro na sua amostra e seja o tamanho da amostra. A função de probabilidade é proporcional à distribuição multinomial . Tem a formafkkN

L(z0,...z8;f0,...f8)=i=08ziNfi .

Distribuição prévia

A distribuição de Dirichlet é a escolha natural para a distribuição anterior, porque é o conjugado anterior para a probabilidade multinomial. Tem a forma

p(z0,...z8;α0,...,α8)i=08ziαi1

Essa prévia possui nove hiperparâmetros (os valores ) e é um pouco difícil de lidar. Nesse contexto de "grande amostra", qualquer escolha razoável de valores de hiperparâmetros terá influência desprezível no resultado, mas, ainda assim, acho que vale a pena dedicar um pouco de esforço à seleção de valores sensíveis.αi

Aqui está como eu recomendo definir os hiperparâmetros. Primeiro, observe que nesta distribuição . Em seguida, observe que a distribuição máxima de entropia mais simples sobre os naturais é a distribuição geométrica . Então prepareE(zi)=αii=08αi

αi+1=rαi=riα0,0<r<1,

α0=A(1r1r9).

Então , de modo que a distribuição do valores é centrado em uma distribuição geométrica (truncada). Além disso, , de modo que o valor de controla a dispersão em torno dessa expectativa, mas não afeta a expectativa em si.E(zi)=ri(1r1r9)ziVar(zi)1(A+1)A

Esta especificação reduz o número de hiperparâmetros dos nove valores para apenas e . Vou adiar a discussão de valores específicos de e para agora.αirArA

Probabilidade posterior da proposição de interesse

A distribuição posterior dos valores de é a seguinte distribuição de Dirichlet:zi

p(z0,...z8|f0,...,f8)i=08ziαi+Nfi1.

Deixe . A probabilidade posterior em que você está interessado éY={z0,...z8|Q7<Q6 and Q7<Q8}

Pr(Q7<Q6 and Q7<Q8|f0,...,f8)Yi=08ziαi+Nfi1dzi.

Essa integral é intratável, mas você pode calcular numericamente a probabilidade de interesse usando o seguinte algoritmo de Monte Carlo.

Para de a ,j1J

  1. Prove um conjunto de valores de sua distribuição posterior.zi

  2. Use os valores amostrados para calcular que é a função do indicador.yj=I(Q7<Q6)I(Q7<Q8)I()

Então .Pr(Q7<Q6 and Q7<Q8|f0,...,f8)j=0JyjJ

A precisão da aproximação de Monte Carlo é a seguinte: : obterá pelo menos duas casas decimais de precisão 19 vezes em 20, obterá pelo menos três casas decimais de precisão 19 vezes em 20, etc.JJ=104J=106

E se a sua probabilidade de interesse posterior não for próxima de 0 ou 1, basta amostrar mais dados, enxaguar e repetir.

Hiperparâmetros anteriores, parte dois

O expoente de na expressão para a densidade posterior ézi

αi+Nfi1=Ari(1r1r9)+Nfi1=AE(zi)+Nfi1

Pode-se observar que o hiperparâmetro desempenha o mesmo papel na distribuição anterior que na probabilidade - é uma espécie de "tamanho da amostra anterior". Para garantir que o prior tenha uma influência desprezível na conclusão, basta escolher um valor de tal que ; por exemplo, .ANAANA=1

Para definir , observe que você pode calcular a probabilidade anterior da proposição usando o mesmo algoritmo de Monte Carlo descrito acima, mas com a distribuição anterior no lugar da distribuição posterior na etapa 1 do ciclo. Tente encontrar um valor de que dê uma probabilidade anterior de 0,5 (ou menor, se você achar que é mais razoável).rQ7<Q6 and Q7<Q8r


Não, só estou pulando alguns detalhes técnicos. Uma análise tecnicamente completa começaria com um processo de Dirichlet e depois mostraria que o resultado da marginalização do conjunto contável e infinito de parâmetros irrelevantes é a distribuição de Dirichlet que acima. zi
Ciano

1

Presumo que o z_k não seja probabilidades, mas frequências de amostra. Isso ocorre porque, caso contrário, Q_i (z_0, ..., z_i) não é uma variável aleatória. Nesse caso, calcular a variação dos Q_i é álgebra direta. Defina, primeiro, os indicadores de eventos Z_i que são 1 se Z == i, 0 caso contrário. É uma variável aleatória de Bernoulli com probabilidade p_i. Você pode calcular o primeiro e o segundo momento de qualquer uma dessas variáveis ​​e elas devem fornecer todos os termos necessários para calcular a variação dos Q_i.


Não, os são constantes da natureza e, consequentemente, também. É um número real, mas a questão é qual número real. Minha amostragem me permite estimar o , e se eu los na fórmula que liga ao , recebo uma estimativa para (em torno de ). Mas não entendo o quão boa é essa estimativa. Se eu pegar ICs de 99% para cada e conectá-los, recebo um intervalo, mas qual é o nível de confiança? Também não acho que os ICs para o sejam independentes. ziQ7z^iQ7ziQ70.07zizi
27412 Kevin O'Bryant

Falta de independência não é uma preocupação aqui, Kevin (você pode justificar isso analisando a verdadeira distribuição multinomial do se desejar). z^i
whuber

Como você já pode calcular uma estimativa para partir de seus dados, que tal usar alguma técnica de reamostragem, como o bootstrap, para encontrar um IC para ? en.wikipedia.org/wiki/Bootstrapping_(statistics)Q7Q7
Zen

@ Zen: eu tinha ouvido falar em bootstrapping, mas nunca pensei que seria algo que acontecesse comigo. Sério, estou tentando fazê-lo funcionar, mas é demorado redimensionar 1000 vezes (cada reamostragem com pontos). Até 1000 reamostragens de tamanho levam 2 horas. 228216
Kevin O'Bryant

1

Kevin, por favor, tenha cuidado, pois terei que mudar sua notação um pouco: seus não são meus .zizi

Penso que vale a pena tentar a seguinte solução bayesiana. Cozinhe um parâmetro aleatório e deixe ser condicionalmente iid, dado , com . Use a notação . Você já tem uma amostra dos 's, com . Defina as variáveis ​​aleatórias Para (se este não está claro, dê uma olhada ). Agora, nesta formulação, suas formas quadráticasΛ>0Z1,,ZnΛ=λZiΛ=λPoisson(λ)Z=(Z1,,Zn)z=(z1,,zn)Zin=228

Θi=P{Zi=kΛ}=eΛΛkk!,
i0Qi=Qi(Θ0,,Θi)=Qi(Λ) são funções de . Portanto, os são aleatórios e você deseja determinar a probabilidade posterior Com um , usando o Teorema de Bayes, temos Você calcula geração de iid da distribuição anterior (use R !) E a computação ΛQi
P{Q7<Q6andQ7<Q8Z=z}.()
ΛGamma(a,b)
ΛZ=zGamma(a+i=1nzi,b+n).
()λi
1Ni=1NI(,Q6(λi))(Q8(λi),)(Q7(λi)),
que converge, pela forte lei de grandes números, para quase certamente. Para obter um "sim" para sua pergunta original, essa probabilidade posterior deve ser "grande o suficiente". Com uma enorme amostra de tal ( ), eu acho que é possível jogar com os valores de e para fazer sua escolha antes não muito "informativo".()n=228ab

Que a distribuição de Poisson parece uma suposição bastante restritiva, não?
Cyan

Precisamos de uma distribuição, cujo suporte seja , que torne os cálculos possíveis. Vamos ver o que Kevin pode encontrar com este modelo. Z+
Zen
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.