Recentemente, fiz uma análise dos efeitos da reputação nos votos positivos (veja a publicação no blog ) e, posteriormente, fiz algumas perguntas sobre análises e gráficos possivelmente mais esclarecedores (ou mais apropriados).
Portanto, algumas perguntas (e sinta-se à vontade para responder a alguém em particular e ignorar as outras):
Em sua atual encarnação, não quis dizer centralizar o número do correio. Acho que o que isso faz é dar a aparência falsa de uma correlação negativa no gráfico de dispersão, pois há mais postagens no final da contagem de postagens (você vê que isso não acontece no painel Jon Skeet, apenas nos usuários mortais painel). Não é apropriado não centralizar o número da postagem (já que quero dizer centralizar a pontuação por pontuação média do usuário)?
Deveria ser óbvio a partir dos gráficos que a pontuação é altamente inclinada à direita (e a centralização média não mudou nada). Ao ajustar uma linha de regressão, encaixei os modelos lineares e um modelo usando os erros de areia Huber-White (via
rlm
no pacote MASS R ) e isso não fez nenhuma diferença nas estimativas de inclinação. Eu deveria ter considerado uma transformação nos dados em vez de uma regressão robusta? Observe que qualquer transformação teria que levar em conta a possibilidade de 0 e pontuações negativas. Ou devo ter usado algum outro tipo de modelo para contar dados em vez de OLS?Acredito que os dois últimos gráficos, em geral, poderiam ser melhorados (e também estão relacionados a estratégias de modelagem aprimoradas). Na minha opinião (cansado), eu suspeitaria que, se os efeitos da reputação forem reais, eles seriam percebidos bem cedo na história dos pôsteres (suponho que, se forem verdadeiros, eles podem ser reconsiderados "você deu algumas excelentes respostas, agora vou votar de novo em todos os seus postagens "em vez de" reputação por pontuação total "). Como posso criar um gráfico para demonstrar se isso é verdade, levando em consideração as plotagens em excesso? Eu pensei que talvez uma boa maneira de demonstrar isso fosse ajustar um modelo do formulário;
onde é o score - (mean score per user)
(o mesmo que está nos gráficos de dispersão atuais), é o post number
e são variáveis dummy que representam algum intervalo arbitrário de números de postagem (por exemplo, é igual a 1
se o número de postagem for 1 through 25
, é igual 1
se o número da postagem for 26 through 50
etc.). e são o termo grande interceptação e erro, respectivamente. Então eu examinaria apenas o γ estimadoinclinações para determinar se os efeitos da reputação apareceram no início de uma história de pôsteres (ou exibi-los graficamente). Essa é uma abordagem razoável (e apropriada)?
Parece popular ajustar algum tipo de linha de suavização não paramétrica a gráficos de dispersão como esses (como loess ou splines), mas minha experiência com splines não revelou nada esclarecedor (qualquer evidência de efeitos positivos no início da história dos pôsteres era leve e temperamental para o número de splines que eu incluí). Como tenho a hipótese de que os efeitos acontecem desde o início, minha abordagem de modelagem é mais razoável do que splines?
Observe também que apesar de eu ter cavado todos esses dados, ainda há muitas outras comunidades por aí para examinar (e algumas como superusuário e falha de servidor têm amostras igualmente grandes para extrair), por isso é bastante razoável sugerir no futuro análise que eu uso uma amostra de espera para examinar qualquer relacionamento.