Existem diferenças nas premissas e hipóteses testadas.
A ANOVA (e teste t) é explicitamente um teste de igualdade de médias de valores. O Kruskal-Wallis (e Mann-Whitney) pode ser visto tecnicamente como uma comparação das classificações médias .
Portanto, em termos de valores originais, o Kruskal-Wallis é mais geral do que uma comparação de médias: testa se a probabilidade de uma observação aleatória de cada grupo ter a mesma probabilidade de estar acima ou abaixo de uma observação aleatória de outro grupo. A quantidade real de dados subjacente a essa comparação não é nem as diferenças de média nem a diferença de medianas (no caso das duas amostras) é na verdade a mediana de todas as diferenças aos pares - a diferença de Hodges-Lehmann entre amostras.
No entanto, se você optar por fazer algumas suposições restritivas, Kruskal-Wallis pode ser visto como um teste de igualdade de meios populacionais, bem como quantis (por exemplo, medianas) e, de fato, uma grande variedade de outras medidas. Ou seja, se você assumir que as distribuições de grupo sob a hipótese nula são as mesmas, e que sob a alternativa, a única mudança é uma mudança de distribuição (a chamada " alternativa de mudança de localização " "), também é um teste igualdade de meios populacionais (e, simultaneamente, de medianas, quartis inferiores, etc.).
[Se você fizer essa suposição, poderá obter estimativas e intervalos para os turnos relativos, da mesma forma que na ANOVA. Bem, também é possível obter intervalos sem essa suposição, mas são mais difíceis de interpretar.]
Se você olhar para a resposta aqui , especialmente no final, ele discute a comparação entre o teste t e o Wilcoxon-Mann-Whitney, que (ao fazer testes de duas caudas pelo menos) são equivalentes a ANOVA e Kruskal-Wallis aplicado a uma comparação de apenas duas amostras; dá um pouco mais de detalhes, e grande parte dessa discussão é transmitida ao Kruskal-Wallis vs ANOVA.
Não está completamente claro o que você quer dizer com diferença prática. Você os usa geralmente de uma maneira geralmente semelhante. Quando os dois conjuntos de suposições se aplicam, eles geralmente tendem a fornecer resultados bastante semelhantes, mas certamente podem fornecer valores-p bastante diferentes em algumas situações.
Edit: Aqui está um exemplo da semelhança de inferência, mesmo em amostras pequenas - aqui está a região de aceitação conjunta para as mudanças de localização entre três grupos (o segundo e o terceiro cada um comparados ao primeiro) amostrados de distribuições normais (com tamanhos de amostra pequenos) para um conjunto de dados específico, no nível de 5%:
É possível discernir várias características interessantes - a região de aceitação um pouco maior para o KW nesse caso, com seu limite consistindo em segmentos de linha reta verticais, horizontais e diagonais (não é difícil descobrir por que). As duas regiões nos dizem coisas muito semelhantes sobre os parâmetros de interesse aqui.