Perguntas com a marcação «language-models»

3
Na suavização Kneser-Ney, como são tratadas as palavras invisíveis?
Pelo que vi, a fórmula de suavização Kneser-Ney (de segunda ordem) é, de uma maneira ou de outra, dada como P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} com o fator de normalização fornecido comoλ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} …

1
Quais são os prós e os contras da aplicação de informações mútuas pontuais em uma matriz de co-ocorrência de palavras antes do SVD?
Uma maneira de gerar incorporação de palavras é a seguinte ( espelho ): Obtenha um corpora, por exemplo: "Gosto de voar. Gosto de PNL. Gosto de aprendizado profundo". Crie a palavra matriz de coocorrência a partir dela: Execute o SVD no XXX e mantenha as primeiras kkk colunas de U. …


3
Sobre o uso do modelo bigram (N-gram) para criar vetor de recurso para documento de texto
Uma abordagem tradicional da construção de recursos para mineração de texto é a abordagem por palavras, e pode ser aprimorada usando tf-idf para configurar o vetor de recursos que caracteriza um determinado documento de texto. No momento, estou tentando usar o modelo de linguagem bi-grama ou (N-grama) para criar vetor …

1
Modelagem de linguagem: por que adicionar 1 é tão importante?
Em muitas aplicações de processamento de linguagem natural, como correção ortográfica, tradução automática e reconhecimento de fala, usamos modelos de linguagem. Os modelos de linguagem são criados geralmente contando com que frequência as seqüências de palavras (n-gramas) ocorrem em um corpus grande e normalizando as contagens para criar uma probabilidade. …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.