O que os usuários lembram mais, posição ou cor dos elementos?
Não apresentarei sugestões concretas, mas um breve comentário sobre a manchete: é altamente individual. Assim como algumas pessoas dizem "entendi o que você quer dizer" e outras dizem "eu ouvi você" ou algo parecido. Algumas pessoas estão sintonizadas com o visual, outras estão mais sintonizadas com o som.
Algumas pessoas estão mais sintonizadas com a forma, outras com cores. Assim como você precisa satisfazer os daltônicos, é necessário levar em consideração que nem todas as pessoas vêem as formas e cores como suas principais pistas para a navegação (algumas pessoas identificam uma árvore, um animal, uma casa por forma ou cor; outras identifique um carro que passa pelo som em vez de forma e / ou cor, etc.).
Nesse caso, é claro que existe um equilíbrio entre os dois (seria divertido descobrir de que tipo os usuários cometem erros no botão errado. Pode haver um padrão lá. Além disso, acho que usuários com excelentes habilidades em computadores serão mais rápidos em assumindo onde encontrar o botão certo.).
Como você não pode mostrar os botões reais com os ícones, fica difícil sugerir. Uma maneira simples poderia ser simplesmente aumentar a distância até a "saída", como sugere o @ DA01. Mais ou menos como o MailApp:
Apenas um pensamento.
Editar
Uma experiência divertida é apresentar a um punhado de pessoas uma maquete primitiva (quanto mais simples, melhor: desenhos, post-its na parede, esboço de flip-over, quadro branco etc.) com botões colocados, mas não marcados e identificados. Em seguida, pergunte às pessoas o que elas esperam que os botões anônimos façam. Às vezes, isso pode trazer resultados informativos e muito interessantes.