Quero criar um índice de criminalidade e de instabilidade política com base em notícias

Eu tenho esse projeto paralelo onde rastreio os sites de notícias locais do meu país e quero criar um índice de criminalidade e um índice de instabilidade política. Já abordei a parte de recuperação de informações do projeto. Meu plano é fazer:

Extração de tópicos não supervisionados.
Detecção de duplicatas próximas.
Classificação supervisionada e nível de incidente (crime / político - alto / médio / baixo).

Usarei python e sklearn e já pesquisei os algoritmos que posso usar para essas tarefas. Eu acho que 2. poderia me dar um fator de relevância para uma história: quanto mais jornais publicam sobre uma história ou tópico, mais relevante para aquele dia.

Meu próximo passo é criar o índice mensal, semanal e diário (em todo o país e por cidades) com base nos recursos que tenho, e estou um pouco perdido aqui, pois a "sensibilidade à instabilidade" pode aumentar com o tempo. Quero dizer, o índice do maior incidente de instabilidade do ano passado pode ser menor que o índice deste ano. Também se usar escala fixa de 0 a 100 ou não.

Mais tarde, eu gostaria de poder prever incidentes com base nisso, por exemplo, se a sucessão de eventos nas últimas semanas está levando a um grande incidente. Mas, por enquanto, ficarei feliz em obter a classificação funcionando e construindo o modelo de índice.

Eu apreciaria qualquer indicação para um artigo, leituras ou pensamentos relevantes. Obrigado.

PD: Desculpe se a pergunta não pertence aqui.

ATUALIZAÇÃO : Ainda não "consegui", mas recentemente houve uma notícia sobre um grupo de cientistas que estão trabalhando em um sistema para prever os eventos usando arquivos de notícias e lançaram um artigo relevante Minerando a Web para prever eventos futuros (PDF )

machine-learning classification text-mining

— Rolando Max
fonte

Para a parte técnica (as ferramentas), eu recomendaria dois livros como um bom ponto de partida para O'Reiley: Inteligência Coletiva (com código Python), Machine Learning (com código R) ... para capturar tópicos relacionados ao seu. O próximo passo pode ser o site da Manning ... Para a parte metodológica, eu recomendaria o grupo Web Semântica no LinkedIn.

— Radu Marius Florin

Super muito parecido com esta pergunta. Mantenha-nos atualizados!!

— entropia

Considere variações na pontuação GINI.

É normalizado e sua saída varia de 0 a 1.

EDITAR:

Por que o GINI é "legal" ou pelo menos potencialmente apropriado:

É uma medida de desigualdade ou desigualdade. É usado como uma medida sem escala para caracterizar a heterogeneidade de redes sem escala, incluindo redes infinitas e aleatórias. É útil na construção de árvores CART, porque é a medida do poder de divisão de uma determinada divisão de dados.

Devido à sua gama:

há menos erros de arredondamento. Intervalos distantes de 1,0 tendem a sofrer problemas numéricos.
é legível por humanos e mais acessível a humanos. Os seres humanos têm uma compreensão mais concreta de objetos do que de bilhões.

Porque é normalizado:

comparações de pontuações são significativas, um 0,9 em um país significa o mesmo nível de não uniformidade relativa que um 0,9 em qualquer outro país.
É normalizado contra a curva de Lorenz para perfeita uniformidade, portanto, os valores são indicadores relevantes da relação da distribuição de valores de interesse com a curva de Lorenz.

Referências:

— EngrStudent - Restabelecer Monica
fonte

Bem-vindo ao site, @EngrStudent. Você se importaria em falar um pouco mais sobre o coeficiente GINI e por que é a resposta certa aqui? Como você é novo aqui e está começando a contribuir, leia nossas Perguntas frequentes , que contêm muitas informações sobre o site.

— gung - Restabelece Monica