Na minha perspectiva, a questão se resume ao que realmente significa realizar um teste de significância. O teste de significância foi concebido como um meio de tomar a decisão de rejeitar a hipótese nula ou falhar em rejeitá-la. O próprio Fisher introduziu a infame regra de 0,05 para tomar essa decisão (arbitrária).
Basicamente, a lógica do teste de significância é que o usuário precisa especificar um nível alfa para rejeitar a hipótese nula (convencionalmente 0,05) antes de coletar os dados . Depois de concluir o teste de significância, o usuário rejeita o nulo se o valor de p for menor que o nível alfa (ou falhar em rejeitá-lo de outra forma).
A razão pela qual você não pode declarar que um efeito é altamente significativo (digamos, no nível 0,001) é porque você não pode encontrar evidências mais fortes do que se propôs a encontrar. Portanto, se você definir seu nível de alfa em 0,05 antes do teste, poderá encontrar evidências apenas no nível de 0,05, independentemente do tamanho dos seus valores de p. Da mesma forma, falar de efeitos "um pouco significativos" ou "aproximando-se da significância" também não faz muito sentido, porque você escolheu esse critério arbitrário de 0,05. Se você interpretar a lógica do teste de significância muito literalmente, algo maior que 0,05 não será significativo.
Concordo que termos como "aproximando-se da significância" são frequentemente usados para melhorar as perspectivas de publicação. No entanto, não creio que os autores possam ser responsabilizados por isso, porque a atual cultura de publicação em algumas ciências ainda depende muito do "Santo Graal" de 0,05.
Algumas dessas questões são discutidas em:
Gigerenzer, G. (2004). Estatísticas irracionais. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Evidência estatística: um paradigma de probabilidade (Vol. 71). Pressione CRC.