A aposta de Blackwell


12

Eu li sobre o paradoxo da aposta de Blackwell no armário da Futility . Aqui está o resumo: você dois envelopes, e . Os envelopes contêm uma quantia aleatória de dinheiro, mas você não sabe nada sobre a distribuição do dinheiro. Você abre um, verifica quanto dinheiro há ( ) e precisa escolher: pegue o envelope ou ?E y x E x E yExEyxExEy

O armário de futilidade refere-se a um matemático chamado Leonard Wapner: "Inesperadamente, há algo que você pode fazer, além de abrir o outro envelope, para ter uma chance melhor do que a correta de acertar".

A idéia, que me parece errada, é a seguinte: escolha um número aleatório d . Se d<x , pegue Ex . Se d>x , escolha Ey .

Wapner: “Se d cai entre x e y, sua previsão (conforme indicada por d) é garantida como correta. Suponha que isso ocorra com probabilidade p. Se d cair menos que x e y, sua previsão estará correta apenas no caso de o número x escolhido ser o maior dos dois. Há 50% de chance disso. Da mesma forma, se d for maior que os dois números, sua previsão estará correta apenas se o número escolhido for o menor dos dois. Isso ocorre com uma probabilidade de 50% também. ”

Se a probabilidade de em [ x , y ] for maior que zero, o sucesso médio desse método é 1d[x,y] . Isso significaria que a observação de uma variável aleatória não relacionada nos fornece informações adicionais.12+p2

Penso que tudo está errado e que o problema está na escolha de um número aleatório. O que isso significa? Tipo, qualquer número inteiro? Nesse caso, a probabilidade que d se situa entre x e y é zero, porque x e y são finitos.pdxyxy

Se dissermos que há um limite para a quantia máxima de dinheiro, digamos , ou pelo menos escolhermos d de 1 ... M , a receita se resume ao conselho trivial de escolher E y se x < M / 2 e escolhendo E x se x > M / 2 .M1...MEyx<M/2Exx>M/2

Perdi alguma coisa aqui?

EDITAR

OK, agora começo a ver de onde vem o aparente paradoxo. Pareceu-me impossível que uma variável aleatória não relacionada possa fornecer informações adicionais.

No entanto, observe que precisamos escolher conscientemente uma distribuição de d . Por exemplo, escolha os limites para uma distribuição uniforme, ou da distribuição Poissionian etc. Claramente, se estivermos jogando amendoins, e escolhemos a distribuição de d como uniforme em [ 10 9 , 2 10 9 ] dólares, P ( d ( x , y ) ) = 0 . Essa última probabilidade dependerá, em primeiro lugar, do nosso julgamento do que pode estar nos envelopes.λ[109,2109]P(d(x,y))=0

Em outras palavras, se a técnica funcionar, a suposição de que não sabemos qual é a distribuição do dinheiro nos envelopes (como a quantidade de dinheiro para os envelopes foi escolhida) será violada. No entanto, se realmente não sabemos o que há nos envelopes, no pior dos casos, não perdemos nada aplicando-o.

EDIT 2

Outro pensamento. Dado , vamos escolher, para desenhar d , uma distribuição contínua não-negativa tal que P ( d < x ) = P ( d > x ) . Estamos autorizados a fazer isso, estou correto? Prosseguimos conforme as instruções - se d < x , mantemos o envelope, se d > x , alteramos o envelope. O raciocínio não muda, dependendo de como escolhemos a distribuição, P ( d [ x , y ] ) > 0xdP(d<x)=P(d>x)d<xd>xP(d[x,y])>0 (ou estou enganado?).

No entanto, dada a forma como escolhemos a distribuição, o que fazemos agora é equivalente a um sorteio. Atiramos uma moeda e, se são cabeças, trocamos envelopes, se são caudas, mantemos o envelope que seguramos. Onde eu estou errado?

EDIT 3 :

OK, entendi agora. Se basearmos a função de probabilidade de em x (por exemplo, amostrarmos d a partir de uma distribuição uniforme no intervalo ( 1 , 2 x ) , a probabilidade P ( d ( x , y ) ) não será independente de P ( decisão correta | d ( x , y ) ) .dxd(1,2x)P(d(x,y))P(correct decision|d(x,y))

Portanto, se (com probabilidade p ), a suposição está sempre correta, como antes. Se x é o número mais baixo, e d ( x , y ) , que d tem uma chance maior de ser menor que x do que maior que x , então estamos inclinados para uma decisão incorreta. O mesmo raciocínio se aplica quando x é o maior dos dois números.d(x,y)pxd(x,y)dxxx

Isso significa que temos que escolher o processo de desenhar independentemente de x . Em outras palavras, precisamos adivinhar os parâmetros de distribuição dos quais x e y são extraídos; o pior que acontece é que ainda adivinhamos aleatoriamente, mas o melhor que acontece é que nosso palpite estava correto - e então temos uma vantagem. Como isso deve ser melhor do que adivinhar que "x e y serão, pelo menos, 1 dólar , mas no máximo 10 dólares , portanto, se x > 5 , nós o mantemos e, se não, o trocamos", ainda estou para Vejo.dxxyx>5

Fui enganado pela formulação pop-sci do problema no livro de Wapner ( Expectativas Inesperadas: As Curiosidades de uma Bola de Cristal Matemática ), que afirma

"Por qualquer meio, selecione um número inteiro positivo aleatório" (Wapner sugere uma distribuição geométrica - jogando moedas até que as primeiras cabeças surjam, repetindo o processo se ) "Se d > x adivinhar mais e se d < x adivinhar (...) Você adivinhará corretamente mais de 50% das vezes, porque d aponta corretamente mais de 50% das vezes! "d=xd>xd<xd



2
Isso é bem diferente do problema dos dois envelopes no sentido de que: (1) o argumento dado para mudar o problema dos dois envelopes é falacioso, a falha no argumento pode ser vista pela adição de um Bayesiano anterior, enquanto (2) o argumento dado por Wapner para a aposta de Blackwell está correto.
Matthew Gunn

Se as quantias de dinheiro nos envelopes são elementos arbitrários de um conjunto de números S, uma condição suficiente e necessária para a estratégia de Wapner funcionar é que o CDF do número que você escolhe aumentar estritamente em S.
Reponha Monica

OK, ainda estou faltando alguma coisa - por favor, veja minha EDIT 2, mas parece-me que poderíamos jogar uma moeda e ela ainda deve funcionar, de acordo com o raciocínio. Onde eu estou errado?
janeiro

Respostas:


8

Isso é mais conhecido como o problema dos dois envelopes . Geralmente, os valores são dados como e 2 A, mas não é necessário que seja esse o caso.A2A

Alguns pontos:

  1. Você não pode escolher um número inteiro aleatório uniformemente *, mas a parte entre aspas não parece exigir que seja uniforme. Escolha uma distribuição - não importa qual seja o argumento - desde que tenha alguma probabilidade de exceder qualquer valor finito.

  2. Não faria sentido escolher inteiro com a regra de decisão citada, porque o dinheiro é discreto, o que significa que há uma chance diferente de zero d = xe não há nada listado para esse caso. (Ou, alternativamente, para modificar a regra e especificar o que fazer quando forem iguais)d d=x

  3. Deixando isso de lado, você pode escolher partir de uma distribuição contínua não negativa - então não precisamos nos preocupar com igualdade.d

* (nem você pode escolher um número inteiro não negativo uniformemente aleatório nem um número positivo positivo uniformemente aleatório)


Se dissermos que há um limite para a quantia máxima de dinheiro, digamos , ou pelo menos escolhermos d de 1 ... M , a receita se resume ao conselho trivial de escolher E y se x < M / 2 e escolhendo E x se x > M / 2Md1...MEyx<M/2Exx>M/2

Se acontecer que a distribuição aleatória da qual é escolhido engloba M / 2, isso deve funcionar (fornecê-lo melhor que 50-50); se a distribuição estiver presa ao meio, isso não aconteceria.xM/2

No entanto, as versões deste jogo que me foram apresentadas pela primeira vez são que o envelope é apresentado por alguém que (possivelmente) procura minimizar sua receita com o jogo. A estratégia de usar uma distribuição para decidir se deseja alternar para o outro envelope ainda funcionará nessa instância.


OK, pontos (1-3) utilizados. Então, posso escolher uma distribuição contínua aleatória, não negativa, de que P ( d < x ) = P ( d > x ) , correto? Mas então a decisão é baseada essencialmente em um sorteio ... estou errado? dP(d<x)=P(d>x)
janeiro

Você não precisa de . Você só precisa de uma probabilidade diferente de zero de ficar entre os dois valores. P(d<x)=P(d>x)
Glen_b -Reinstala Monica

Sim, mas tenho permissão para definir a função de densidade para como eu desejar, certo? Faço isso para levar o argumento a uma conclusão absurda. d
janeiro

Ao tornar sua estratégia uma função de x, você não está dando a si mesmo a vantagem de fazer a escolha correta quando d está entre x e y - você está definindo sua maneira de vencer o jogo. Se o link que você afirma alegar que essa estratégia funcionará, eles estariam errados
Glen_b -Reinstala Monica 30/06

O que, no raciocínio de Wapner, me proíbe definir a função de probabilidade usada para derivar em função de x ? Enquanto P ( d ( x , y ) ) > 0 , então seu raciocínio ainda deve funcionar, estou errado? Se eu usar uma distribuição contínua e não negativa que inclua x (por exemplo, distribuição uniforme em ( 1 , 2 x ) , tenho certeza de que esse é o caso. E ainda assim tomo a decisão correta se d ( x , y ) .dxP(d(x,y))>0x(1,2x)d(x,y)
janeiro

7

O argumento de Wapner está correto!

Alguns comentários:

  • Seguindo a estratégia de corte descrita , na qual trocamos envelopes se é na pior das hipóteses inútil na expectativa ex ante. Com uma boa escolha de d , pode ser bastante útil.x<dd
  • Se você adicionar um prior bayesiano (ou seja, adicionar crenças sobre a distribuição inicial de dinheiro nos envelopes), poderá resolver o valor ideal de considerando suas crenças anteriores.d
  • Em certas situações (por exemplo, onde quanto mais você observa, maior a probabilidade de obter o grande envelope), uma estratégia de corte é até ideal.
  • Em um cenário bayesiano mais geral, você pode fazer melhor do que uma simples estratégia de corte para muitos anteriores.

Um problema relacionado, mas diferente:

Como vários @Glen_b e @whuber mencionaram, há um quebra-cabeça relacionado, conhecido como o Problema dos Dois Envelopes, no qual é dado um argumento falacioso para sempre trocar envelopes e a falha no argumento pode ser vista adotando uma abordagem bayesiana e adicionando crenças anteriores sobre o problema. conteúdo dos dois envelopes.

Em certo sentido, porém, o quebra-cabeça descrito aqui é bastante diferente. O argumento de Wapner está correto!


1
OK, agora vejo de onde vem o paradoxo. Ou, para ser específico, onde as informações adicionais fluem para o sistema. Ao escolher conscientemente a distribuição de d , usamos nosso conhecimento a priori sobre onde, mais ou menos, devem ser as quantias de dinheiro em ambos os envelopes. No pior cenário, nosso conhecimento é inútil, mas o método garante que não estaremos em desvantagem ao usá-lo.
janeiro

Depois de alguma reflexão, eu ainda não entendo - ver EDIT 2.
janeiro

Cenário (A) Imagine o envelope pequeno com e o envelope grande com 20 . Vamos escolher d = 15. P ( x < d ) = P ( x > d ) . A regra de decisão levaria você à escolha correta 100% do tempo! 1020dP(x<d)=P(x>d)
Matthew Gunn

d=5.5P(x<d)=P(x>d)<5.5x=1,3,5,6,8,10x=2,4,7,9

Não sabemos a distribuição de x e y, portanto, não podemos selecioná-lo da maneira que você propõe. Depois que abrimos o envelope, sabemosx, mas não temos idéia de que ele foi escolhido aleatoriamente entre os números 1 e 9 e, portanto, não podemos escolher dser 5.5. Como mencionado por @Glen_b acima,d deve ser escolhido em uma distribuição contínua não negativa.
January

0

I was intrigued by this and took the pragmatic approach of playing with it in Excel.

I generated three random numbers for x, y, and d in the range 1-100. I then did the comparison between d and x and between x and y and looked at the result, right or wrong.

I did this 500 times and repeated that several times and regularly got the right answer arounf 330 out of 500, as predicted.

I then increased the range of d to 1-10000 and the correct answer dropped to about 260 for 500 runs.

So yes, the selection of d is dependant on the expected values of x and y.

BoB


0

I think the apparent paradox with the Wapner expansion of the equation p + (1-p)/2 is that it assumes that (1-p)/2 >0. For many ranges of d this value is 0.

For example: any d selected from a symmetric distribution centered on the value in the open envelope, gives a probability of wrong 1/2 and correct 1/2.

Any asymmetrically chosen distribution appears to bias the choice the wrong way 1/2 the time.

So is there a way to choose a range and distribution for d such that this equation holds?

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.