A randomização em uma amostra não aleatória ainda pode mostrar que um efeito não é razoavelmente explicado por variação aleatória.
Por exemplo, imagine que temos uma população com dois subgrupos não reconhecidos (com características um pouco diferentes *) de tamanho aproximadamente igual, mas sua amostra não é aleatória, resultando em uma divisão de 80/20. Vamos imaginar 2 grupos de tratamento de tamanho igual. A randomização (pelo menos com tamanhos de amostra decentes) tenderá a se aproximar da divisão 80/20 em cada grupo, de modo que os efeitos do tratamento sejam devidos ao tratamento, em vez da alocação desigual dos grupos heterogêneos aos tratamentos.
* levando a diferentes meios de linha de base, digamos
O problema surge quando você deseja estender a inferência para alguma população-alvo diferente da representada por sua amostra (os auto-seletores); isso requer suposições / um argumento do qual você pode não ter evidências (como supor que as diferenças de tratamento sejam consistentes para todos os subconjuntos da população).
Para uma situação semelhante, imagine testar um medicamento para hipertensão apenas em homens, comparado a um tratamento padrão e placebo. Suponha que os homens sejam randomizados adequadamente para o grupo de tratamento. Um efeito de tratamento será real no sentido em que realmente descreve um efeito em homens. A dificuldade virá ao tentar estender essa inferência para as mulheres .
Portanto, se eles forem conduzidos e randomizados separadamente do recrutamento, um efeito significativo observado será o que parece, mas será aplicado ao que você realmente amostrou, não necessariamente qual era o seu objetivo desejado - atravessar a lacuna entre os dois requer argumento cuidadoso; esse argumento geralmente está ausente.
Quando eu era estudante, era bastante comum que experimentos de psicologia fossem realizados em estudantes de psicologia, que deveriam se voluntariar por um certo número de horas de tais experimentos (esse ainda pode ser o caso, mas não tenho contato regular com psicólogos que fazem mais experimentos). Com a randomização para o tratamento, as inferências podem ter sido válidas (dependendo do que foi feito), mas se aplicariam à população local de estudantes de psicologia auto-selecionados (na medida em que geralmente escolhem quais experimentos se inscrever), que estão muito longe de uma amostra aleatória da população em geral.