Eu também me perguntei isso. A primeira explicação não é ruim, mas aqui estão meus 2 nats para o que vale a pena.
Antes de tudo, perplexidade não tem nada a ver com a caracterização de quantas vezes você adivinha algo certo. Tem mais a ver com a caracterização da complexidade de uma sequência estocástica.
Estamos vendo uma quantidade, 2−∑xp(x)log2p(x)
Vamos primeiro cancelar o log e a exponenciação.
2−∑xp(x)log2p(x)=1∏xp(x)p(x)
Acho que vale ressaltar que a perplexidade é invariável com a base usada para definir entropia. Portanto, nesse sentido, a perplexidade é infinitamente mais única / menos arbitrária do que a entropia como medida.
Relação com Dados
Vamos brincar um pouco com isso. Digamos que você está apenas olhando uma moeda. Quando a moeda é justa, a entropia é máxima e a perplexidade é máxima de11212×1212=2
Agora, o que acontece quando olhamos para um dado de lados? A perplexidade éN1(1N1N)N=N
Portanto, a perplexidade representa o número de lados de um dado justo que, quando rolado, produz uma sequência com a mesma entropia que sua distribuição de probabilidade fornecida.
Número de Estados
OK, agora que temos uma definição intuitiva de perplexidade, vamos dar uma olhada rápida em como ela é afetada pelo número de estados em um modelo. Vamos começar com uma distribuição de probabilidade nos estados e criar uma nova distribuição de probabilidade nos estados , de modo que a taxa de probabilidade dos estados originais permaneça a mesma e o novo estado tenha probabilidade . No caso de começar com um dado de face justo , podemos imaginar a criação de um novo dado de modo que o novo lado seja rolado com probabilidade e o originalNN+1NϵNN+1ϵNlados são rolados com igual probabilidade. Portanto, no caso de uma distribuição de probabilidade original arbitrária, se a probabilidade de cada estado for dada por , a nova distribuição dos estados originais , dado o novo estado, será e a nova perplexidade será dada por:xpxNp′x=px(1−ϵ)
1ϵϵ∏Nxp′xp′x=1ϵϵ∏Nx(px(1−ϵ))px(1−ϵ)=1ϵϵ∏Nxppx(1−ϵ)x(1−ϵ)px(1−ϵ)=1ϵϵ(1−ϵ)(1−ϵ)∏Nxppx(1−ϵ)x
No limite como , essa quantidade se aproxima deϵ→01∏Nxpxpx
Assim, à medida que você torna cada vez mais improvável a rolagem de um lado do dado, a perplexidade acaba parecendo como se o lado não existisse.