Aqui está uma possibilidade.
Avaliar o desempenho dos professores tem sido tradicionalmente difícil. Uma parte dessa dificuldade é que diferentes alunos têm diferentes níveis de interesse em um determinado assunto. Se um determinado aluno recebe um A, isso não significa necessariamente que o ensino foi excelente - ao contrário, pode significar que um aluno muito talentoso e interessado fez o possível para ter sucesso, apesar da baixa qualidade do ensino. Por outro lado, um aluno que obtém um D não significa necessariamente que o ensino foi ruim - em vez disso, pode significar que um aluno desinteressado se acostumou apesar dos melhores esforços do professor para educar e inspirar.
A dificuldade é agravada pelo fato de a seleção de alunos (e, portanto, o nível de interesse dos alunos) estar longe de ser aleatória. É comum as escolas enfatizarem uma disciplina (ou um grupo de disciplinas) em detrimento de outras. Por exemplo, uma escola pode enfatizar assuntos técnicos sobre humanidades. Os alunos dessas escolas provavelmente estão tão interessados em áreas técnicas que receberão uma nota de aprovação mesmo com o pior professor possível. Portanto, a fração de alunos que passam na matemática não é uma boa medida de ensino - esperamos que os bons professores se saiam muito melhor do que isso com os alunos que desejam aprender. Por outro lado, esses mesmos alunos podem não estar interessados em artes. Seria difícil esperar, mesmo do melhor professor, garantir que todos os alunos recebessem notas A.
Outra dificuldade é que nem todo sucesso em uma determinada turma é atribuível diretamente ao professor dessa turma. Em vez disso, o sucesso pode ser devido à escola (ou distrito inteiro) criar motivação e estrutura para a conquista.
Para levar em conta todas essas dificuldades, os pesquisadores criaram um modelo que avalia o "valor agregado" do professor. Em essência, o modelo leva em consideração as características intrínsecas de cada aluno (nível geral de interesse e sucesso na aprendizagem), bem como as contribuições da escola e do distrito para o sucesso do aluno, e prevê as notas dos alunos que seriam esperadas com 'média'. ensino nesse ambiente. O modelo compara as notas reais às previstas e, com base nele, decide se o ensino foi adequado, considerando todas as outras considerações, melhores que adequadas ou piores. Embora o modelo possa parecer complexo para um não matemático, ele é realmente bastante simples e padrão. Os matemáticos têm usado modelos semelhantes (e ainda mais complexos) há décadas.
Para resumir, o palpite de Isaacson está correto. Mesmo que 65 de seus 66 alunos tivessem obtido proficiência no teste estadual, eles teriam o mesmo resultado, mesmo que o cão fosse seu professor. Um bom professor real permitiria que esses alunos alcançassem pontuações não apenas 'proficientes', mas realmente 'boas' no mesmo teste.
Nesse ponto, eu poderia mencionar algumas das minhas preocupações com o modelo. Por exemplo, os desenvolvedores do modelo afirmam que ele aborda algumas das dificuldades na avaliação da qualidade do ensino. Tenho motivos suficientes para acreditar neles? Bairros com população de baixa renda terão menor pontuação esperada de 'distrito' e 'escola'. Digamos que um bairro tenha uma pontuação esperada de 2,5. Um professor que atingir uma média de 3 receberá uma boa avaliação. Isso pode levar os professores a apontar para a pontuação de 3, em vez de 4 ou 5. Por outras palavras, os professores devem buscar a mediocridade e não a perfeição. Queremos que isso aconteça? Finalmente, embora o modelo seja matematicamente simples, ele funciona de uma maneira muito diferente da maneira como a intuição humana funciona. Como resultado, não temos uma maneira óbvia de validar ou contestar o modelo ' decisão. O infeliz exemplo de Isaacson ilustra o que isso pode levar. Queremos depender cegamente do computador em algo tão importante?
Observe que esta é uma explicação para um leigo. Eu evitei várias questões potencialmente controversas aqui. Por exemplo, eu não queria dizer que os distritos escolares com dados demográficos de baixa renda devem ter um desempenho pior, porque isso não pareceria bom para um leigo.
Além disso, assumi que o objetivo é realmente fornecer uma descrição razoavelmente justa do modelo. Mas tenho certeza de que esse não era o objetivo do NYT aqui. Então, pelo menos parte da razão pela qual a explicação deles é ruim é FUD intencional, na minha opinião.