Função "Interessante" para perguntas do StackExchange

Estou tentando montar um pacote de mineração de dados para sites StackExchange e, em particular, estou tentando determinar as perguntas "mais interessantes". Gostaria de usar a pontuação da pergunta, mas remover o viés devido ao número de visualizações, mas não sei como abordar isso com rigor.

No mundo ideal, eu poderia classificar as perguntas calculando , em que é o total de votos é o número de visualizações. Afinal, ele mediria a porcentagem de pessoas que votaram na pergunta, menos a porcentagem de pessoas que votaram na pergunta. $\frac{v}{n}$ $v$ $n$

Infelizmente, o padrão de votação é muito mais complicado. Os votos tendem a "atingir o platô" até um certo nível e isso tem o efeito de subestimar drasticamente as questões amplamente populares. Na prática, uma pergunta com 1 visualização e 1 votação positiva certamente teria pontuação e seria classificada mais alta do que qualquer outra questão com 10.000 visualizações, mas com menos de 10.000 votos.

Atualmente, estou usando como uma fórmula empírica, mas gostaria de ser preciso. Como posso abordar esse problema com rigor matemático? $\frac{v}{\log{n}+1}$

Para abordar alguns dos comentários, tentarei reafirmar o problema de uma maneira melhor:

Digamos que eu tenha uma pergunta com total de votos e visualizações. Gostaria de poder estimar qual total de votos é mais provável quando as visualizações atingirem . $v_0$ $n_0$ $v_1$ $n_1$

Dessa maneira, eu poderia simplesmente escolher um valor nominal para e ordenar toda a pergunta de acordo com o total esperado de . $n_1$ $v_1$

Criei duas consultas no datadump SO para mostrar melhor o efeito de que estou falando:

Média de visualizações por pontuação

Resultado:

Visualizações por Pontuação

Pontuação média por visualizações (intervalos de 100 visualizações)

Resultado:

Pontuação por visualizações

As duas fórmulas comparadas

Resultados, não tenho certeza se a linha reta é melhor: ( em azul, em vermelho) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Fórmulas

data-mining predictive-models

— Sklivvz
fonte

Certamente, essa é uma pergunta interessante, mas acho que é melhor você fazer isso no stats.SE.

@ Theo Você pode estar certo, na verdade. Vou sinalizar para os mods migrarem, se acharem melhor.

Por que as visualizações não contribuem para o interesse? (mas pior, por que eles contribuiriam negativamente?) Coisas mais interessantes tendem a ser vistas com mais frequência ... O problema fundamental aqui é o que significa interessante ? Significa perguntas de interesse geral ou de interesse de um público de nível superior mais específico? Para alguém responder a essa pergunta com "rigor matemático", ela precisa ser colocada rigorosamente em primeiro lugar.

As visualizações influenciam as perguntas porque uma pergunta pode, por exemplo, ser vinculada a um bom site e receber toneladas de visualizações - se você observar as perguntas mais bem classificadas , todas elas são questões de alta visibilidade; por interessante, quero dizer as perguntas que têm mais valor conforme percebidas pelos usuários do site. De qualquer forma, a questão ainda permanece: qual é a maneira correta de combinar visões e votos para obter o melhor preditor de qualidade?

O pessoal da matemática fez boas perguntas. A lógica desta pergunta parece circular: parece solicitar uma fórmula para medir a "qualidade" de uma pergunta SE, mas não estipula o que "qualidade" significa, exceto para fornecer sinônimos não operacionais, como "valor conforme percebido pelos usuários" do site ". Você não pode conseguir algo por nada!

— whuber

Respostas:

Pode-se definir uma pergunta interessante como aquela que recebeu comparativamente muitos votos, dado o número de visualizações. Para esse fim, você pode criar uma curva de linha de base que reflita o número esperado de votos, dadas as visualizações. Curvas que atraíram muito mais votos do que a linha de base foram consideradas particularmente interessantes.

Para construir a linha de base, convém calcular o número médio de votos por bandeja de 100 visualizações. Além disso, você pode calcular o desvio médio absoluto (MAD) como uma medida robusta para o desvio padrão por posição. Então, "interesse" pode ser calculado como

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— Jonas
fonte

Esta é a minha teoria. Eu acho que existem dois tipos de perguntas: aquelas que permanecem principalmente dentro do SE (que geralmente têm menos visualizações) e aquelas que são vistas por pessoas de fora porque estavam vinculadas de outro lugar (geralmente têm mais visualizações).

Para as questões que permanecem principalmente no SE, os votos são uma boa medida de perguntas interessantes. Este é o ponto de votação.

Quando uma pergunta é vinculada a fora do site, os votos param de significar muito. Alguns sites de ligação podem ter muito poucos membros do SE, outros podem ter mais. A variação do número de votos para essas perguntas é provavelmente alta (como evidenciado pela sua pontuação versus gráfico de visualização, onde o lado direito da curva brota). Essas perguntas terão mais visualizações e as visualizações PODEM ser um melhor indicador de perguntas interessantes. Ou perguntas que uma comunidade maior achou mais interessante. Existem muitas variáveis nessa situação e acho que vale a pena tentar encontrar mais informações para diferenciar esses casos. O SE divulga informações de referência?

— rm999
fonte

O SE divulga informações de referência? Eu estaria interessado em saber o padrão de visualização de mensagens em vez de upvotes apenas, comentários, etc.

— d_a_c321