O Gazetteer ou qualquer outra opção de recurso de tamanho fixo intencional parece uma abordagem muito popular em trabalhos acadêmicos , quando você tem um problema de tamanho finito, por exemplo, NER em corpora fixo, identificação de POS ou qualquer outra coisa. Eu não consideraria trapaça a menos que o único recurso que você usará seja a correspondência no Gazetteer.
No entanto, ao treinar qualquer tipo de modelo de PNL, que depende do dicionário durante o treinamento, você pode obter um desempenho no mundo real muito inferior ao relatado pelo teste inicial, a menos que você possa incluir todos os objetos de interesse no gazetteer (e por que então você precisa desse modelo?) porque seu modelo treinado dependerá do recurso em algum momento e, em um caso em que outros recursos sejam muito fracos ou não sejam descritivos, novos objetos de interesse não serão reconhecidos.
Se você usa um Gazetteer em seus modelos, certifique-se de que esse recurso tenha um recurso de contador para permitir que o modelo se equilibre, para que a correspondência simples de dicionário não seja o único recurso de classe positiva (e, mais importante, o gazetteer deve correspondem não apenas a exemplos positivos, mas também a negativos).
Por exemplo, suponha que você tenha um conjunto completo de infinitas variações de todos os nomes de pessoas, o que torna o NER da pessoa geral irrelevante, mas agora você tenta decidir se o objeto mencionado no texto é capaz de cantar. Você dependerá de recursos de inclusão no seu gazeta Pessoal, o que fornecerá muitos falsos positivos; então, você adicionará um recurso centrado no verbo " É o sujeito do canto do verbo " e provavelmente forneceria falsos positivos de todos os tipos de objetos, como pássaros, sua barriga quando você estiver com fome e um sujeito bêbado que pensaele pode cantar (mas, sejamos honestos, ele não pode) - mas esse recurso centrado no verbo se equilibrará com a pessoa que você utiliza para atribuir classe positiva de 'Cantor' a pessoas e não animais ou outros objetos. No entanto, isso não resolve o caso do artista bêbado.