Seria difícil provar definitivamente um benefício de desempenho sobre o outro cientificamente.
Sua hipótese é que a programação em pares aumenta o desempenho do desenvolvedor e melhora a qualidade. Seu teste envolverá fornecer a um par um conjunto de requisitos restritos a uma arquitetura específica e fazer com que eles o implementem.
Seu controle, nesse caso, é que você forneça os mesmos requisitos a um único desenvolvedor de posição, habilidade e experiência iguais (conforme julgado objetivamente por seus pares) e também restrito à mesma arquitetura.
Para verificar sua hipótese de desempenho de tempo, os programadores em pares devem concluir seu trabalho em menos da metade do tempo como controle. Para verificar sua hipótese de qualidade, é necessário que o par do experimento e o código de controle sejam revisados por terceiros objetivos e que um grupo de QA objetivo teste os resultados de ambos os grupos sem informar a equipe que produziu o quê. O grupo de programação em pares deve ter um código melhor e menos erros.
Não é um experimento perfeito, mas eu ficaria fascinado em saber se alguém tentou algo semelhante.
Além disso, no entanto, não vejo como você pode provar de fato que a programação em pares é superior a um único programador em um determinado recurso.