O teste LR (razão de verossimilhança) na verdade está testando a hipótese de que um subconjunto especificado dos parâmetros seja igual a alguns valores pré-especificados. No caso de seleção de modelo, geralmente (mas nem sempre) isso significa que alguns dos parâmetros são iguais a zero. Se os modelos estiverem aninhados, os parâmetros no modelo maior que não estão no modelo menor são os que estão sendo testados, com valores especificados implicitamente por sua exclusão do modelo menor. Se os modelos não estão aninhados, você não está mais testando isso, porque AMBOS os modelos têm parâmetros que não estão no outro modelo, portanto, a estatística do teste LR não possui a assintóticaχ2 distribuição que (normalmente) faz no caso aninhado.
AIC, por outro lado, não é usado para testes formais. É usado para comparações informais de modelos com diferentes números de parâmetros. O termo de penalidade na expressão para AIC é o que permite essa comparação. Mas nenhuma suposição é feita sobre a forma funcional da distribuição assintótica das diferenças entre a AIC de dois modelos não aninhados ao fazer a comparação do modelo, e a diferença entre duas AICs não é tratada como uma estatística de teste.
Acrescentarei que há alguma discordância sobre o uso da AIC com modelos não aninhados, pois a teoria é elaborada para modelos aninhados. Daí minha ênfase em "não ... formal" e "não ... estatística de teste". Eu o uso para modelos não aninhados, mas não de maneira rígida e rápida, mais como uma entrada importante, mas não única, no processo de construção do modelo.