A resposta para sua pergunta é "Em princípio, sim" - em sua forma mais geral, o teste de equalização é apenas um caso específico do teste de Turing ("Como você se sente sobre ...?").
Para ver por que os testes de equalização significativos podem ser difíceis de alcançar, considere os dois testes possíveis a seguir:
Em um extremo da complexidade, o filme Blade Runner mostra um teste famoso para distinguir entre humano e andróide com base em respostas a perguntas carregadas de emoção.
Se você tentasse fazer essas perguntas (ou mesmo muito mais simples) a um chatbot moderno, provavelmente concluiria rapidamente que não estava falando com uma pessoa.
O problema com a avaliação do EQ é que, quanto mais sofisticado emocionalmente o teste, mais geral o sistema de IA provavelmente terá que ser, a fim de transformar a entrada em uma representação significativa.
No outro extremo do exposto, suponha que um teste de EQ tenha sido elaborado de uma maneira extremamente estruturada, com a entrada estruturada fornecida por um ser humano. Nesse caso, o sucesso em um 'teste de equalização' não se baseia realmente no mundo real.
Em um ensaio intitulado "O inefável efeito Eliza e seus perigos", Douglas Hofstadter dá o seguinte exemplo, no qual o programa ACME é reivindicado (não por Hofstadter) para "entender" a analogia.
Aqui o computador aprende sobre um sujeito chamado Sluggo levando sua esposa Jane e seu bom amigo Buck para um bar, onde as coisas seguem seu curso natural e Jane acaba grávida de Buck. Ela tem o bebê, mas não o quer e, assim, auxiliada pelo marido, afoga o bebê em um rio, "resolvendo com perfeição" o problema "de Bambi.
Esta história é apresentada à ACME da seguinte forma:
ql: (neglectful-husband (Sluggo))
q2: (lonely-and-sex-starved-wife (Jane-Doe))
q3: (macho-ladykiller (Buck-Stag))
q4: (poor-innocent-little-fetus (Bambi))
q5: (takes-out-to-local-bar (Sluggo Jane-Doe Buck-Stag))
...
q11: (neatly-solves-the-problem-of (Jane-Doe Bambi))
q12: (cause (ql0 q11))
Suponha que se perguntasse ao programa se o comportamento de Jane Doe era moral. Conceitos emocionais compostos complexos como 'negligente', 'solitário' e 'inocente' são aqui simplesmente predicados, não disponíveis para a IA para um exame introspectivo mais profundo. Eles poderiam ser facilmente substituídos por etiquetas como 'bling-blang-blong15657'.
Portanto, em certo sentido, a ausência de sucesso em um teste de equalização com alguma profundidade é indicativa do problema geral que a IA atualmente enfrenta: a incapacidade de definir (ou aprender de outra forma) representações significativas de complexidades sutis do mundo humano, o que é muito mais complexo do que ser capaz de reconhecer vídeos de gatos.