Acho que a resposta de Jeromy é suficiente se você estiver examinando dois estudos experimentais ou uma meta-análise real. Muitas vezes, porém, somos confrontados com o exame de dois estudos não experimentais e temos a tarefa de avaliar a validade desses dois achados díspares.
Como a lista de perguntas de Cyrus sugere, o tópico em si não é passível de resposta curta, e livros inteiros têm como objetivo principal abordar essa questão. Para qualquer pessoa interessada em realizar pesquisas sobre dados não experimentais, sugiro que você leia
Projetos experimentais e quase-experimentais para inferência causal generalizada de William R. Shadish, Thomas D. Cook e Donald Thomas Campbell (Também ouvi dizer que as versões mais antigas deste texto são igualmente boas).
Vários itens a que Jeromy se referiu (tamanhos maiores de amostra e maior rigor metodológico), e tudo o que Cyrus menciona seria considerado o que Campbell e Cook chamam de "Validade Interna". Isso inclui aspectos do desenho da pesquisa e os métodos estatísticos usados para avaliar a relação entre X e Y. Em particular, como críticos, estamos preocupados com aspectos que poderiam influenciar os resultados e diminuir a confiabilidade dos resultados. Como este é um fórum dedicado à análise estatística, muitas das respostas estão centradas em métodos estatísticos para garantir estimativas imparciais de qualquer relação que você esteja avaliando. Mas esses são outros aspectos do desenho da pesquisa não relacionados à análise estatística que diminuem a validade das descobertas, independentemente dos comprimentos rigorosos que a pessoa faz na análise estatística (como a menção de Cyrus de vários aspectos da fidelidade do experimento pode ser abordada, mas não resolvida com métodos estatísticos e, caso ocorram, sempre diminuirão a validade dos resultados dos estudos). Existem muitos outros aspectos da validade interna que se tornam cruciais para avaliar na comparação de resultados de estudos não experimentais que não são mencionados aqui, e aspectos de projetos de pesquisa que podem distinguir a confiabilidade dos resultados. Eu não acho que seja apropriado entrar em muitos detalhes aqui,
Campbell e Cook também se referem à "validade externa" dos estudos. Esse aspecto do design da pesquisa geralmente tem um escopo muito menor e não merece tanta atenção quanto a validade interna. A validade externa lida essencialmente com a generalização das descobertas, e eu diria que os leigos podem frequentemente avaliar a validade externa razoavelmente bem, desde que estejam familiarizados com o assunto. Para encurtar a história, leia o livro de Shadish, Cook e Campbell.