Vou tentar adotar uma abordagem ligeiramente diferente das outras respostas e examinar em particular a questão da padronização.
É um pouco surpreendente que você se pergunte sobre essa situação. O livro Hopcroft-Ullman (eu uso a edição de 1979) fornece duas definições de PushDown Automaton (PDA): aceitação pelo estado final ou pela pilha vazia.
Se você ler a seção sobre técnicas de construção da Turing Machines (TM) (seção 7.4 na edição de 1979), elas declaram explicitamente:
Projetar máquinas de Turing escrevendo um conjunto completo de estados e uma função de próximo passo é uma tarefa visivelmente recompensadora. Para descrever construções complicadas de máquinas de Turing, precisamos de algumas ferramentas conceituais de "nível superior".
O restante da seção e as seções a seguir mostram todos os tipos de variações na definição de uma TM, estendendo ou limitando a definição, todas equivalentes.
O ponto é que, para cada problema em questão, escolheremos a definição que melhor será adaptada para resolver esse problema. Obviamente, cada uma dessas definições poderia funcionar em princípio. Mas, dependendo do problema, algumas definições fornecerão mais perspicácia em um problema específico e, assim, facilitarão as provas.
Considerando o caso das linguagens e gramáticas livres de contexto (CF), existem muitas formas normais que foram definidas: forma normal de Chomsky, forma normal de Greibach, forma binária. Todos podem gerar qualquer linguagem CF e podem ser vistos como variações da definição da gramática CF. É bom tê-los coexistindo, porque cada um deles tem um papel a desempenhar em algum contexto. Eles são intraduzíveis, mas a custo.
Se você tentar analisar o custo / complexidade da análise de CF, eles não são equivalentes, e isso deve ser levado em consideração. Esse problema de complexidade é muito mais crítico no caso do CF do que no TM, porque os analisadores de CF são muito usados em situações de engenharia, enquanto o MT é uma ferramenta puramente teórica. Isso não impede que os engenheiros que usam a análise de CFs utilizem várias formas gramaticais para o mesmo idioma, de alguma maneira coordenada, a fim de levar em consideração vários problemas.
No caso das linguagens CF, pode ser uma questão crítica de engenharia , e era de se esperar que as gramares de CF e suas diferentes formas fossem normalizadas / padronizadas tanto quanto o tamanho das chaves ou o diâmetro dos fios elétricos. Na verdade, chegou a definir uma sintaxe precisa para escrever gramáticas de CF, o Backus Naur Form (BNF) .
A TM possui poucas aplicações de engenharia que justificariam a normalização e uma variabilidade potencial muito maior (o que é, no entanto, parcialmente levado em consideração ao considerar grandes variações, como fitas múltiplas, cabeças múltiplas, ...). Isso explica que havia pouca pressão para adotar uma forma padrão, dado que os matemáticos que os usam são tecnicamente maduros o suficiente para serem cuidadosos quando podem fazer a diferença, contando com precisão o número de movimentos. Mesmo para a complexidade, as pequenas variações nas definições geralmente não importam, porque consideramos apenas a complexidade assintótica e, muitas vezes, a complexidade assintótica até uma função polinomial.
É bastante comum em matemática (entre outras ciências) que diferentes autores escolham definições diferentes, que sejam equivalentes (ou equivalentes na maioria dos contextos), dependendo de seu gosto, visão de aplicações, visão da estrutura do problema, seus propósitos pedagógicos etc. As definições também evoluem com o tempo, à medida que mais se sabe sobre um problema e à medida que as perspectivas mudam. O mesmo vale para anotações. Essa variabilidade é uma fonte importante de progresso e entendimento. Os gregos estavam fazendo matemática excelente, mas é muito mais fácil com conceitos modernos (por exemplo, variáveis ), definições e notações.
Os padrões são frequentemente vistos como extremamente convenientes (chaves de boca e diâmetros de fio). Mas eles também podem ser um fator de rigidez que impede o progresso. A padronização é uma faca de dois gumes, por isso devemos embotá-la um pouco por segurança. As várias definições geralmente não são idênticas, mas próximas o suficiente para que as teorias possam se desenvolver mais ou menos da mesma maneira.