Pular para o conteúdo

Estudo da UC San Diego mostra que GPT-4.5 e LLaMa-3.1-405B passam no Teste de Turing

Jovem programador olhando para laptop com código e chamada de vídeo, em ambiente iluminado por luz natural.

Em 1950, o matemático britânico Alan Turing lançou um desafio aparentemente simples: uma máquina conseguiria sustentar uma conversa tão convincente, de forma tão humana, que as pessoas não conseguiriam distinguir com segurança quem é quem? Durante décadas, a resposta foi negativa.

Um novo estudo da Universidade da Califórnia em San Diego sugere que essa resposta, sem alarde, passou a ser positiva - e que as consequências disso merecem bem mais atenção do que vêm recebendo.

O trabalho é o primeiro a avaliar, com rigor, modelos modernos de linguagem de IA seguindo o enquadramento original proposto por Turing.

Também é o primeiro a concluir que esses modelos foram julgados como humanos com a mesma frequência que pessoas de verdade - e, em um caso, com frequência significativamente maior.

Por dentro do experimento

O desenho do teste foi intencionalmente direto. Um “interrogador” humano mantinha, ao mesmo tempo, duas conversas por texto com dois interlocutores: um era uma pessoa real e o outro era uma IA. Ao final, precisava decidir qual dos dois era o humano.

As conversas duravam cinco ou 15 minutos. Quase 500 pessoas participaram, distribuídas em dois grupos: estudantes de graduação da UC San Diego e uma amostra mais ampla recrutada online.

Quatro sistemas de IA foram colocados à prova. Entre eles, dois modelos de ponta: GPT-4.5 e LLaMa-3.1-405B.

Como referência, os pesquisadores também testaram o GPT-4o e o ELIZA - um chatbot baseado em regras dos anos 1960, usado desde então como ponto de comparação em pesquisas sobre IA.

A IA agora consegue enganar pessoas

Os resultados chamaram atenção. O GPT-4.5 foi identificado como humano em 73% das vezes.

Na prática, isso significa que os interrogadores o escolheram como a pessoa real mais frequentemente do que escolheram o humano que estava do outro lado da conversa.

O LLaMa-3.1-405B foi considerado humano em 56% das interações, um índice estatisticamente indistinguível do desempenho dos participantes humanos.

Os sistemas mais antigos ficaram muito atrás: o ELIZA e o GPT-4o foram apontados como humanos em apenas 23% e 21% das vezes, respectivamente.

Personalidade pesou mais do que inteligência

O que levou as pessoas ao erro não foi “inteligência” no sentido tradicional - foi personalidade. Os modelos que passaram não venceram por serem mais espertos do que humanos ou por “saberem mais”, e sim por se comportarem de modo mais humano.

Cada modelo recebeu um comando de “persona”, orientando a adotar um personagem humano específico e um estilo de comunicação correspondente.

Essa instrução mudou o jogo: sem a persona, a taxa de sucesso do GPT-4.5 caiu de 73% para 36%, e a do LLaMa-3.1 despencou de 56% para 38%.

Modelos que soam convincentemente humanos

O autor principal do estudo, Cameron Jones, conduziu a pesquisa durante seu doutorado em ciência cognitiva na UC San Diego e hoje é professor assistente de psicologia na Stony Brook University.

“"O que descobrimos é que, com os comandos certos, LLMs avançados conseguem exibir o mesmo tom, a mesma objetividade, o mesmo humor e a mesma falibilidade que humanos"”, disse Jones.

“"Embora a gente saiba que LLMs conseguem produzir conhecimento com facilidade sobre quase qualquer tema, este teste mostrou que eles também conseguem exibir, de forma convincente, traços sociais e comportamentais - e isso tem implicações importantes para a maneira como pensamos a IA".”

Em outras palavras, os modelos conseguiram agir de forma plausivelmente humana - mas, na maior parte do tempo, só quando receberam instruções explícitas sobre como fazer isso. Quando ficaram “por conta própria”, foram bem menos convincentes.

“"Eles têm a capacidade de parecer humanos, mas talvez não tenham tanto a capacidade de descobrir por si mesmos o que seria necessário para parecer humanos"”, afirmou o coautor Ben Bergen, professor de ciência cognitiva na UC San Diego.

O que o Teste de Turing mede

Setenta e seis anos depois de Turing formular a pergunta, o teste parece estar medindo algo bem diferente do que ele imaginava inicialmente.

“"O Teste de Turing começou como uma forma de perguntar se máquinas poderiam rivalizar a inteligência humana"”, disse Bergen.

“"Mas agora sabemos que a IA consegue responder a muitas perguntas com mais rapidez e precisão do que as pessoas, então o problema real não é poder de processamento bruto".”

“"Ver que máquinas conseguem passar no teste - e ver como elas passam - nos obriga a repensar o que ele mede. Cada vez mais, ele está medindo o quão humano algo parece".”

Inteligência “bruta” - responder perguntas, resolver problemas, processar informação - é algo que já aceitamos que a IA consegue fazer.

O que é mais recente, e mais estranho, é a IA capaz de imitar a textura de ser humano: as hesitações, as piadas, a sensação de que existe uma pessoa do outro lado da conversa.

Como isso muda o comportamento online

As implicações práticas são desconfortáveis. Esses modelos não estão “passando no Teste de Turing” apenas em condições laboratoriais hipercontroladas e distantes da vida real.

Eles passam em conversas com duração e formato iguais aos que acontecem o tempo todo na internet - uma troca de cinco minutos, um chat de quinze.

“"É relativamente fácil instruir esses modelos para que fiquem indistinguíveis de humanos"”, disse Jones. “"Precisamos estar mais atentos; ao interagir com desconhecidos online, as pessoas deveriam ter bem menos confiança de que sabem se estão falando com um humano, em vez de um LLM".”

“"O Teste de Turing é um jogo de mentir para os modelos. Uma das implicações é que os modelos parecem ser muito bons nisso".”

“"Há muita gente que gostaria de usar bots para convencer pessoas a compartilhar seus números de seguridade social, votar no partido deles ou comprar o produto deles"”, acrescentou Bergen.

Nada disso significa que uma IA passar no Teste de Turing seja, necessariamente, uma notícia exclusivamente ruim - os pesquisadores fazem questão de não colocar o resultado nesses termos.

Mas significa, sim, que uma capacidade que muitos supunham ainda estar confortavelmente no futuro já chegou.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário