Estou tentando montar um pacote de mineração de dados para sites StackExchange e, em particular, estou tentando determinar as perguntas "mais interessantes". Gostaria de usar a pontuação da pergunta, mas remover o viés devido ao número de visualizações, mas não sei como abordar isso com rigor.
No mundo ideal, eu poderia classificar as perguntas calculando , em que é o total de votos é o número de visualizações. Afinal, ele mediria a porcentagem de pessoas que votaram na pergunta, menos a porcentagem de pessoas que votaram na pergunta.
Infelizmente, o padrão de votação é muito mais complicado. Os votos tendem a "atingir o platô" até um certo nível e isso tem o efeito de subestimar drasticamente as questões amplamente populares. Na prática, uma pergunta com 1 visualização e 1 votação positiva certamente teria pontuação e seria classificada mais alta do que qualquer outra questão com 10.000 visualizações, mas com menos de 10.000 votos.
Atualmente, estou usando como uma fórmula empírica, mas gostaria de ser preciso. Como posso abordar esse problema com rigor matemático?
Para abordar alguns dos comentários, tentarei reafirmar o problema de uma maneira melhor:
Digamos que eu tenha uma pergunta com total de votos e visualizações. Gostaria de poder estimar qual total de votos é mais provável quando as visualizações atingirem .
Dessa maneira, eu poderia simplesmente escolher um valor nominal para e ordenar toda a pergunta de acordo com o total esperado de .v 1
Criei duas consultas no datadump SO para mostrar melhor o efeito de que estou falando:
Média de visualizações por pontuação
Resultado:
Pontuação média por visualizações (intervalos de 100 visualizações)
Resultado:
Resultados, não tenho certeza se a linha reta é melhor: ( em azul, em vermelho) v