O Teste Lovelace 2.0 foi usado com sucesso em um ambiente acadêmico?

Em outubro de 2014, o Dr. Mark Riedl publicou uma abordagem para testar a inteligência artificial, chamada de "Lovelace Test 2.0" , depois de se inspirar no teste original de Lovelace (publicado em 2001). Mark acreditava que o Teste Lovelace original seria impossível de passar e, portanto, sugeriu uma versão mais fraca e mais prática.

O Lovelace Test 2.0 supõe que, para uma IA ser inteligente, ela deve exibir criatividade. Do próprio papel:

O teste Lovelace 2.0 é o seguinte: o agente artificial a é desafiado da seguinte forma:

a deve criar um artefato o do tipo t;

o deve estar em conformidade com um conjunto de restrições C onde ci ∈ C é qualquer critério expressável em linguagem natural;

um avaliador humano h, tendo escolhido te C, está convencido de que o é uma instância válida de te cumpre C; e

um árbitro humano r determina que a combinação de t e C não é irreal para um humano médio.

Como é possível para um avaliador humano apresentar algumas restrições muito fáceis para uma IA vencer, espera-se que o avaliador humano continue criando restrições cada vez mais complexas para a IA até que a IA falhe. O objetivo do Lovelace Test 2.0 é comparar a criatividade de diferentes IAs, não fornecer uma linha divisória definida entre 'inteligência' e 'não-inteligência', como faria o Teste de Turing.

No entanto, estou curioso para saber se esse teste foi realmente usado em um ambiente acadêmico ou se é visto apenas como um experimento mental no momento. O Teste Lovelace parece fácil de aplicar em ambientes acadêmicos (você só precisa desenvolver algumas restrições mensuráveis que podem ser usadas para testar o agente artificial), mas também pode ser muito subjetivo (os seres humanos podem discordar dos méritos de certas restrições e se um artefato criativo produzido por uma IA realmente atende ao resultado final).

history intelligence-testing

— SE esquerdo em 10_6_19
fonte

Não.

TL; DR: O Lovelace Test 2.0 é muito vago, tornando-o inadequado para avaliação da inteligência. Também é geralmente ignorado pelos pesquisadores de Criatividade Computacional, que já têm seus próprios testes para avaliar a criatividade.

Resposta mais longa: De acordo com o Google Scholar, existem 10 referências ao artigo "Lovelace Test 2.0". Todas essas referências existem apenas para apontar que o Lovelace Test 2.0 existe. De fato, pelo menos dois dos artigos que consultei ( Uma nova abordagem para identificar um comportamento autoconsciente do tipo humano e o FraMoTEC: Uma estrutura para construção de ambientes de tarefas modulares para avaliar sistemas de controle adaptativos ) propuseram seus próprios testes.

Um dos autores que escreveu o artigo FraMoTEC também escreveu sua tese no FraMoTEC e criticou indiretamente o Lovelace Test 2.0 e outros testes similares:

O problema da sala Piaget-MacGyver [Bringsjord e Licato, 2012], teste Lovelace 2.0 [Riedl, 2014] e o problema da caixa de brinquedos [Johnston, 2010] vêm com a ressalva de serem definidos muito vagamente - é provável que esses métodos de avaliação surjam com uma avaliação razoável da inteligência, mas é muito difícil comparar dois agentes (ou controladores) diferentes que participam de suas próprias avaliações específicas de domínio, que é o que frequentemente acontece quando os agentes são adaptados para passar por avaliações específicas.

Outra questão importante do Lovelace Test 2.0 é que há uma proliferação de outros testes para "medir" a criatividade da IA. Avaliando a avaliação: Avaliando o progresso na pesquisa em criatividade computacional , publicada por Anna Jordanous em 2011 (3 anos antes da invenção do Lovelace Test 2.0) analisou trabalhos de pesquisa sobre criatividade em IA e escreveu:

Dos 18 artigos que aplicaram metodologias de avaliação da criatividade para avaliar a criatividade de seus sistemas, nenhuma metodologia surgiu como padrão em toda a comunidade. A estrutura de tripé criativo de Colton ( Colton 2008 ) foi usada com mais frequência (6 usos), com 4 artigos usando os critérios empíricos de Ritchie ( Ritchie 2007 ).

Isso deixa 10 artigos com diversos métodos de avaliação da criatividade.

O objetivo de "Avaliar Avaliação" era padronizar o processo de avaliação da criatividade, para evitar a possibilidade de o campo estagnar devido à proliferação de tantos testes de criatividade. Anna Jordanous continuava interessada em avaliar os testes de criatividade, publicando artigos como "Voltando ao Avanço do Progresso: Estabelecendo Padrões para Meta-Avaliação da Criatividade Computacional" e Quatro Perspectivas do PPP sobre Criatividade Computacional .

"Avaliando Avaliação" fornece alguns comentários para explicar a proliferação de sistemas para avaliar a criatividade:

Os padrões de avaliação não são fáceis de definir. É difícil avaliar a criatividade e ainda mais difícil descrever como avaliamos a criatividade, tanto na criatividade humana quanto na criatividade computacional. De fato, até a própria definição de criatividade é problemática (Plucker, Beghetto e Dow 2004). É difícil identificar o que “ser criativo” implica, portanto, não há parâmetros de referência ou verdades fundamentadas para medir.

O fato de já existirem tantos testes de criatividade (na medida em que a Jordanous pode fazer uma carreira acadêmica em estudá-los) significa que é muito difícil notar qualquer novo teste (como o Lovelace Test 2.0) (muito menos citado ) Por que você gostaria de usar algo como o Lovelace Test 2.0 quando existem tantos outros testes que você pode usar?

— SE esquerdo em 10_6_19
fonte