Inicialmente, eu perguntei isso no estouro de pilha e fui encaminhado para este site, então aqui vai:
Estou implementando alguns métodos não supervisionados de resumo de documentos com base na seleção / extração de conteúdo e estou confuso sobre o que meu livro chama de "razão de probabilidade de log". O livro Speech and Language Processing, de Jurafsky & Martin, descreve-o brevemente como tal:
O LLR de uma palavra, geralmente chamado lambda (w), é a razão entre a probabilidade de observar w no corpo de entrada e no segundo plano assumindo probabilidades iguais em ambos os corpora e a probabilidade de observar w em ambos assumindo probabilidades diferentes para w na entrada e no corpus de fundo.
Por fim, temos o numerador: "a probabilidade de observar w no corp de entrada e no segundo plano assumindo probabilidades iguais nos dois corpora" - Como calculo qual probabilidade usar aqui?
e o denominador: "a probabilidade de observar w, assumindo probabilidades diferentes para w na entrada e no corpus de fundo". - isso é tão simples quanto a probabilidade da palavra ocorrer nos tempos de entrada e a probabilidade da palavra ocorrer no corpus? ex:
(contagem (palavra, entrada) / total de palavras na entrada) * (contagem (palavra, corpus) / total de palavras no corpus)
Estive pesquisando um artigo sobre minhas referências de livros, Métodos Exatos para Estatísticas de Surpresa e Coincidência (Dunning 1993), mas estou tendo dificuldade em me relacionar com o problema de calcular valores LLR para palavras individuais em resumo baseado em extração. Qualquer esclarecimento aqui seria muito apreciado.