Se você está lendo os boletins da comunidade recentemente, provavelmente viu The Hunting of the Snark, uma publicação no blog oficial do StackExchange de Joel Spolsky, CEO da rede StackExchange. Ele discute uma análise estatística realizada em uma amostra de comentários do SE para avaliar sua "simpatia" da perspectiva de um usuário externo. Os comentários foram amostrados aleatoriamente no StackOverflow e os analistas de conteúdo eram membros da comunidade Mechanical Turk da Amazon, um mercado de trabalho que conecta empresas a trabalhadores que realizam tarefas pequenas e curtas por taxas acessíveis.
Há pouco tempo, eu era um estudante de graduação em ciências políticas e uma das aulas que fiz foi Análise Estatística de Conteúdo . O projeto final da turma, de fato, todo o seu objetivo, era realizar uma análise detalhada dos relatórios de guerra do New York Times, para testar se muitas das suposições americanas sobre cobertura de notícias durante as guerras eram precisas (spoiler: as evidências sugerem que são não). O projeto foi enorme e bastante divertido, mas, de longe, sua seção mais dolorosa foi a 'fase de treinamento e teste de confiabilidade', que ocorreu antes que pudéssemos realizar uma análise completa. Ele tinha dois objetivos (consulte a página 9 do artigo vinculado para obter uma descrição detalhada, bem como referências aos padrões de confiabilidade do intercoder na literatura estatística da análise de conteúdo):
Confirme que todos os codificadores, ou seja, leitores do conteúdo, foram treinados com as mesmas definições qualitativas. Na análise de Joel, isso significava que todos saberiam exatamente como o projeto definia "amigável" e "hostil".
Confirme se todos os codificadores interpretaram essas regras de forma confiável, ou seja, amostramos nossa amostra, analisamos o subconjunto e depois demonstramos estatisticamente que nossas correlações aos pares nas avaliações qualitativas eram bastante semelhantes.
O teste de confiabilidade doeu porque tivemos que fazer isso três ou quatro vezes. Até -1- ser bloqueado e -2- mostrar correlações pares o suficiente, nossos resultados para a análise completa eram suspeitos. Eles não puderam ser demonstrados válidos ou inválidos. Mais importante, tivemos que fazer testes piloto de confiabilidade antes do conjunto final de amostras.
Minha pergunta é a seguinte: a análise estatística de Joel carecia de um teste piloto de confiabilidade e não estabeleceu nenhuma definição operacional de "amizade". Os dados finais foram confiáveis o suficiente para dizer algo sobre a validade estatística de seus resultados?
Para uma perspectiva, considere este manual sobre o valor da confiabilidade do intercodificador e definições operacionais consistentes. Mais adiante, na mesma fonte, você pode ler sobre os testes de confiabilidade do piloto (item 5 da lista).
De acordo com a sugestão de Andy W. em sua resposta, estou tentando calcular uma variedade de estatísticas de confiabilidade no conjunto de dados, disponível aqui, usando esta série de comandos em R (atualizada à medida que calculo novas estatísticas).
As estatísticas descritivas estão aqui
Acordo de porcentagem (com tolerância = 0): 0,0143
Acordo de porcentagem (com tolerância = 1): 11,8
Alfa de Krippendorff: 0,1529467
Também tentei um modelo de resposta ao item para esses dados em outra pergunta.