O código de Huffman para uma distribuição de probabilidade é o código de prefixo com a palavra de código ponderado média comprimento mínimo , onde é o comprimento do th codword. É um teorema bem conhecido que o comprimento médio por símbolo do código de Huffman está entre e , onde é a entropia de Shannon da distribuição de probabilidade.
O mau exemplo canônico, em que o comprimento médio excede a entropia de Shannon em quase 1, é uma distribuição de probabilidade como , onde a entropia é quase 0 e o comprimento médio da palavra de código é 1. Isso cria uma lacuna entre a entropia e o comprimento da palavra-código de quase .
Mas o que acontece quando há um limite para a maior probabilidade na distribuição de probabilidade? Suponha, por exemplo, que todas as probabilidades sejam menores que . A maior lacuna que eu pude encontrar neste caso é para uma distribuição de probabilidade como, em que a entropia é um pouco mais de 1 e o comprimento médio da palavra de código é um pouco menor que 1,5, dando uma lacuna se aproximando. Isso é o melhor que pode fazer? Você pode definir um limite superior para o espaço estritamente menor que 1 neste caso?
Agora, vamos considerar o caso em que todas as probabilidades são muito pequenas. Suponha que você escolher uma distribuição de probabilidade sobre letras, cada um com probabilidade . Nesse caso, a maior lacuna ocorre se você escolher . Aqui, você tem uma diferença de cerca de
Esta pergunta foi inspirada nesta pergunta do TCS Stackexchange .