Uau, ótima pergunta! Deixe-me tentar explicar a resolução. São necessários três passos distintos.
A primeira coisa a observar é que a entropia está mais focada no número médio de bits necessários por sorteio, não no número máximo de bits necessário.
Com o procedimento de amostragem, o número máximo de bits aleatórios necessários por sorteio é N bits de, mas o número médio de bits necessários é de 2 bits (a média de uma distribuição geométrica com p = 1 / 2 ) - Isto é porque existe um 1 / 2 probabilidade de que você só precisa de 1 bit (se o primeiro bit acaba por ser 1), um 1 / 4 probabilidade de que você só precisa de 2 bits (se os dois primeiros bits vir a ser 01), um 1 / 8 probabilidade de você precisar apenas de 3 bits (se os três primeiros forem 001) e assim por diante.
A segunda coisa a notar é que a entropia não captura realmente o número médio de bits necessários para um único desenho. Em vez disso, as capturas de entropia o amortizado número de bits necessários para a amostra m iid retira esta distribuição. Suponha que precisamos de f( M ) bits para amostrar m draws; então a entropia é o limite de f( M ) / m como m → ∞ .
A terceira coisa a notar é que, com esta distribuição, você pode provar m iid desenha com menos bits do que o necessário para repetidamente amostra um empate. Suponha que você ingenuamente tenha decidido desenhar uma amostra (em média 2 bits aleatórios) e, em seguida, outra amostra (usando mais 2 bits aleatórios em média), e assim por diante, até repetir isso m vezes. Isso exigiria cerca de 2 m de bits aleatórios em média.
Mas acontece que há uma maneira de coletar amostras de m draws usando menos de 2 m bits. É difícil de acreditar, mas é verdade!
Deixe-me lhe dar a intuição. Suponha que você anotou o resultado da amostragem de m draws, onde m é realmente grande. Em seguida, o resultado pode ser especificado como uma sequência de bits de m . Essa cadeia de m bits será composta principalmente de 0's, com alguns 1's: em particular, em média, terá cerca de m / 2N (pode ser mais ou menos que isso, mas se m for suficientemente grande, geralmente o número estará perto disso). O comprimento dos intervalos entre as 1 são aleatório, mas será tipicamente algures vagamente na vizinhança de 2N(poderia facilmente ser metade ou duas vezes mais ou mais, mas dessa ordem de magnitude). Obviamente, em vez de escrever toda a cadeia de bits de m , poderíamos escrevê-la de maneira mais sucinta, escrevendo uma lista dos comprimentos das lacunas - que carregam todas as mesmas informações, em um formato mais compactado. Quanto mais sucinto? Bem, normalmente precisamos de cerca de N bits para representar o comprimento de cada intervalo; e haverá cerca de m / 2N folgas; portanto, precisaremos no total de m N/ 2N bits (pode ser um pouco mais, pode ser um pouco menos, mas se m for suficientemente grande, geralmente será próximo disso). Isso é muito mais curto que ummcadeia de bits m .
E se houver uma maneira de escrever a sequência de forma sucinta, talvez não seja muito surpreendente se isso significa que há uma maneira de gerar a sequência com um número de bits aleatórios comparável ao comprimento da sequência. Em particular, você gera aleatoriamente o comprimento de cada intervalo; esta é a amostragem a partir de uma distribuição geométrica com p = 1 / 2N , e que pode ser feito com cerca de ∼ N bits aleatórios, em média (não 2N ). Você precisará de m / 2N iid é extraído dessa distribuição geométrica, portanto, precisará no total aproximadamente ∼ Nm / 2Nbits aleatórios. (Pode ser um fator constante pequeno maior, mas não muito maior.) E observe que isso é muito menor que 2 m bits.
Assim, podemos provar m iid chama de sua distribuição, usando apenas f( M ) ~ Nm / 2N bits aleatórios (aproximadamente). Lembre-se de que a entropia é limm → ∞f( M ) / m . Então isso significa que você deve esperar a entropia ser (aproximadamente) N/ 2N . Isso diminuiu um pouco, porque o cálculo acima foi superficial e bruto - mas espero que lhe dê alguma intuição sobre por que a entropia é o que é e por que tudo é consistente e razoável.