Você está correto, pois o tamanho da amostra afeta a energia (erro 1 do tipo II), mas não o erro tipo I. É um equívoco comum que um valor p como tal (interpretado corretamente) seja menos confiável ou válido quando o tamanho da amostra é pequeno - o artigo muito divertido de Friston 2012 tem uma opinião engraçada sobre isso [1].
Dito isto, os problemas dos estudos com pouca capacidade são reais, e a citação está amplamente correta, eu diria, apenas um pouco imprecisa em sua redação.
O problema básico dos estudos com pouca potência é que, embora a taxa de falsos positivos (erro tipo I) nos testes de hipótese seja fixa, a taxa de verdadeiros positivos (potência) diminui. Portanto, é menos provável que um resultado positivo (= significativo) seja um verdadeiro positivo em um estudo de baixa potência. Essa idéia é expressa na taxa de falsas descobertas [2], veja também [3]. Parece a que a citação se refere.
Uma questão adicional frequentemente mencionada em relação aos estudos de menor poder é que eles levam a tamanhos de efeito superestimados. A razão é que: a) com menor potência, suas estimativas dos efeitos verdadeiros se tornarão mais variáveis (estocásticas) em torno de seu verdadeiro valor eb) apenas o mais forte desses efeitos passará no filtro de significância quando a energia estiver baixa. Deve-se acrescentar, porém, que esse é um problema de relatório que pode ser facilmente resolvido discutindo e relatando todos e não apenas os efeitos significativos.
Finalmente, uma questão prática importante com estudos com pouca potência é que a baixa potência aumenta as questões estatísticas (por exemplo, o viés dos estimadores), bem como a tentação de brincar com variáveis e táticas similares de hackers. O uso desses "graus de liberdade do pesquisador" é mais eficaz quando a energia é baixa, e ISTO pode aumentar o erro do tipo I, afinal, veja, por exemplo, [4].
Por todas essas razões, eu ficaria, de fato, cético em relação a um estudo de baixa potência.
[1] Friston, K. (2012) Dez regras irônicas para revisores não estatísticos. NeuroImage, 61, 1300-1310.
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] Botão, KS; Ioannidis, JPA; Mokrysz, C .; Nosek, BA; Flint, J .; Robinson, ESJ & Munafo, MR (2013) Falha de energia: por que o tamanho pequeno da amostra prejudica a confiabilidade da neurociência. Nat. Rev. Neurosci., 14, 365-376
[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Psicologia falso-positiva: flexibilidade não revelada na coleta e análise de dados permite apresentar qualquer coisa como significativa. Psychol Sei., 22, 1359-1366.