Agradecemos antecipadamente por me acompanhar, não sou um estatístico de nenhum tipo e não sei como descrever o que estou imaginando; portanto, o Google não está me ajudando aqui ...
Estou incluindo um sistema de classificação em um aplicativo da Web em que estou trabalhando. Cada usuário pode avaliar cada item exatamente uma vez.
Eu estava imaginando uma escala com 4 valores: "não gosto muito", "não gosto", "gosto" e "gosto muito", e planejei atribuir esses valores de -5, -2, +2 e +5 respectivamente .
Agora, se cada item tivesse o mesmo número de classificações, eu ficaria bastante confortável com esse sistema de pontuação ao diferenciar claramente os itens mais curtidos e menos curtidos. No entanto, os itens não terão o mesmo número de classificações e a disparidade entre o número de votos em fotos diferentes pode ser bastante dramática.
Nesse caso, comparar as pontuações acumuladas em dois itens significa que um item antigo com muitas classificações medíocres terá uma pontuação muito maior do que um item novo excepcional com muito menos votos.
Então, a primeira coisa óbvia que pensei em fazer uma média ... mas agora, se um item tem apenas uma classificação de "+5", ele tem uma média melhor do que um item que tem uma pontuação de 99 "+5" e 1 "+2" classificação. Intuitivamente, essa não é uma representação precisa da popularidade de um item.
Eu imagino que esse problema seja comum e vocês não precisam que eu o elabore com mais exemplos, então pararei nesse ponto e elaborarei comentários, se necessário.
Minhas perguntas são:
- Como se chama esse tipo de problema e existe um termo para as técnicas usadas para resolvê-lo? Eu gostaria de saber isso para que eu possa ler sobre isso.
- Se você souber de algum recurso para leigos sobre o assunto, eu gostaria muito de receber um link.
- Por fim, gostaria de receber outras sugestões sobre como coletar e analisar efetivamente esse tipo de dados.