Perplexidade e entropia cruzada para modelos n-grama

10

Tentando entender a relação entre entropia cruzada e perplexidade. Em geral, para um modelo M , Perplexidade (M) = 2 ^ entropia (M) . Essa relação vale para todos os n-gramas diferentes, como unigrama, bigram etc.?

natural-language entropy perplexity

— Margalit
fonte

Essa é realmente a definição de perplexidade; a coisa é derivada disso;)

\sqrt[N]{Π_{i = 1}^{N} \frac{1}{P (w_{i} | w_{1}, . . . w_{i - 1})}}

$\sqrt[N]{\Pi^N_{i=1} \frac{1}{P(w_i|w_1, ... w_{i-1})}}$

— WavesWashSands

9

Sim, a perplexidade é sempre igual a dois ao poder da entropia. Não importa que tipo de modelo você tenha, n-grama, unigrama ou rede neural.

Existem algumas razões pelas quais as pessoas que modelam a linguagem gostam de perplexidade, em vez de apenas usar entropia. Uma é que, por causa do expoente, as melhorias na perplexidade "parecem" serem mais substanciais do que a melhoria equivalente na entropia. Outra é que, antes de começarem a usar a perplexidade, a complexidade de um modelo de linguagem era relatada usando uma medição simplificada do fator de ramificação mais semelhante à perplexidade do que à entropia.

— Aaron
fonte

1

Concordou com a resposta @Aaron com uma ligeira modificação:

Nem sempre é igual a dois ao poder da entropia. Na verdade, será (base para o log) o poder da entropia. Se você usou e como sua base, então seria entropia.

— Prashant Gupta
fonte