Isso não será tanto uma resposta como um comentário.
A qualidade depende de várias coisas, incluindo (como Aaron disse acima) 1) o par de idiomas e 2) o tópico, mas também 3) os gêneros e 4) o estilo do original e 5) a quantidade de texto paralelo que você possui para treinar o sistema MT.
Para preparar o cenário, praticamente todos os MTs hoje em dia são baseados em textos paralelos, que são textos em dois idiomas diferentes, com um presumivelmente sendo uma tradução do outro (ou ambos sendo uma tradução de algum terceiro idioma); e potencialmente usando dicionários (talvez auxiliados por processos morfológicos) como retrocesso quando os textos paralelos não contêm palavras específicas.
Além disso, como outros já disseram, um sistema de MT não entende os textos que está traduzindo; apenas vê sequências de caracteres e sequências de palavras compostas por caracteres e procura sequências e sequências semelhantes nos textos traduzidos anteriormente. (Ok, é um pouco mais complicado que isso, e houve tentativas de obter semântica em sistemas computacionais, mas, por enquanto, são principalmente strings.)
1) Os idiomas variam. Alguns idiomas têm muita morfologia, o que significa que eles fazem coisas com uma única palavra que outros idiomas fazem com várias palavras. Um exemplo simples seria o espanhol 'cantaremos' = inglês "vamos cantar". E um idioma pode fazer coisas que o outro idioma nem se importa, como a distinção informal / formal (tu / usted) em espanhol, à qual o inglês não tem equivalente. Ou um idioma pode fazer coisas com a morfologia que outro idioma faz com a ordem das palavras. Ou o script que o idioma usa pode nem marcar os limites das palavras (chinês e alguns outros). Quanto mais diferentes os dois idiomas, mais difícil será para o sistema MT traduzir entre eles. Os primeiros experimentos em estatística MT foram realizados entre francês e inglês,
2) Tópico: Se você tem textos paralelos na Bíblia (o que é verdade para quase qualquer par de idiomas escritos), e você treina seu sistema de MT a partir deles, não espere que ele se dê bem em textos de engenharia. (Bem, a Bíblia é uma quantidade relativamente pequena de texto para os padrões de treinamento dos sistemas de MT, mas finja :-).) O vocabulário da Bíblia é muito diferente do dos textos de engenharia, assim como a frequência de várias gramáticas. construções. (A gramática é essencialmente a mesma, mas em inglês, por exemplo, você tem muito mais voz passiva e substantivos mais compostos em textos científicos e de engenharia.)
3) Gêneros: Se o seu texto paralelo for todo declarativo (como os manuais do trator, digamos), tentar usar o sistema MT resultante na caixa de diálogo não obterá bons resultados.
4) Estilo: Pense Hilary vs. Donald; erudito x popular. O treinamento em um não obtém bons resultados no outro. Da mesma forma, treinar o sistema MT em romances para adultos e usá-lo em livros infantis.
5) Par de idiomas: o inglês possui muitos textos, e as chances de encontrar textos em algum outro idioma paralelo a um determinado texto em inglês são muito maiores do que as chances de encontrar textos paralelos em, por exemplo, russo e igbo. (Dito isto, pode haver exceções, como os idiomas da Índia.) Como uma generalização grosseira, quanto mais textos paralelos você tiver para treinar o sistema de MT, melhores resultados.
Em suma, a linguagem é complicada (e é por isso que eu a amo - sou linguista). Portanto, não é surpresa que os sistemas MT nem sempre funcionem bem.
Aliás, os tradutores humanos nem sempre se saem tão bem. Há uma ou duas décadas, eu estava recebendo traduções de documentos de tradutores humanos para o inglês, para serem usados como materiais de treinamento para sistemas de MT. Algumas das traduções eram difíceis de entender e, em alguns casos, nas quais obtivemos traduções de dois (ou mais) tradutores humanos, era difícil acreditar que os tradutores estivessem lendo os mesmos documentos.
E finalmente, (quase) nunca há apenas uma tradução correta; existem várias maneiras de traduzir uma passagem, que podem ser mais ou menos boas, dependendo de quais recursos (correção gramatical, estilo, consistência de uso, ...) você deseja. Não há uma medida fácil de "precisão".