O futuro pode estar a chegar: um novo estudo detalhou as preocupações dos cientistas em relação à inteligência da IA em relação aos humanos, já que os modelos mais recentes conseguiram passar num teste “estranho” que parecia impossível há bem pouco tempo.
Ter de distinguir entre homem e máquina sempre pareceu algo que seria encontrado exclusivamente na ficção científica futurista: se nunca ouviu falar do Teste de Turing — também conhecido originalmente como “Jogo da Imitação” —, criado por Alan Turing em 1950, fique a saber que era um meio de testar a capacidade de uma máquina de parecer indistinguível de humanos numa conversa.
Muitos interpretaram isso como um teste de inteligência, e projetar um modelo de IA que passe consistentemente nesse teste específico é, sem dúvida, um passo importante para alcançar o que é comummente conhecido como inteligência artificial geral (AGI).
Embora muitos especialistas do setor tenham previsto que esse ponto esteja a pelo menos alguns anos de distância, um novo estudo publicado no ‘arXiv’ por investigadores da Universidade San Diego mostrou que a tecnologia atual já atingiu esse ponto.
Conforme relatou o ‘New York Post’, o estudo destacou que o modelo GPT-4.5 da OpenAI tem um desempenho excecionalmente bom numa configuração de três partes do Teste de Turing, onde um participante se depara com um humano real e o modelo de IA simultaneamente, e tem de descobrir qual é qual num curto espaço de tempo. “Os participantes tiveram conversas de 5 minutos simultaneamente com outro participante humano e um desses sistemas antes de julgar qual dos parceiros de conversa achavam que era humano.”
“Quando solicitado a adotar uma persona humana, o GPT-4.5 foi considerado humano 73% das vezes: significativamente mais frequentemente do que os interrogadores selecionaram o participante humano real”, relatou o estudo.
O GPT-4.5 provou ser o modelo mais bem-sucedido testado, já que IA semelhantes, como o LLaMa-3.1-405B da Meta (56%), o programa de linguagem natural inicial ELIZA (23%) e o GPT-4o (21%) foram menos convincentes.
Curiosamente, houve uma diferença significativa entre as taxas de sucesso do GPT-4.5 e do LLaMa-3.1-405B quando não foram especificamente solicitados a operar com uma pessoa semelhante a um humano. O LLaMa caiu para uma “taxa de vitória” de 47,1%, enquanto o GPT-4.5 caiu significativamente da taxa de vitória mencionada anteriormente de 73% com uma persona humana para 42,1% sem uma, mostrando que é capaz de replicar a linguagem e o comportamento de um humano quando solicitado.
“Acho que os resultados fornecem evidências de que os LLMs poderiam substituir pessoas em interações curtas sem que ninguém pudesse perceber”, indicou o coautor do artigo Cameron Jones. “Isso poderia potencialmente levar à automação de empregos, ataques de engenharia social aprimorados e uma rutura social mais geral.”
More pressingly, I think the results provide more evidence that LLMs could substitute for people in short interactions without anyone being able to tell. This could potentially lead to automation of jobs, improved social engineering attacks, and more general societal disruption.
— Cameron Jones (@camrobjones) April 1, 2025
Há, apontou Jones, preocupações com ‘ataques de engenharia social’, e estes já provaram ser extremamente eficazes: cibercriminosos utilizaram IA para extorquir dinheiro em relacionamentos românticos falsos, por exemplo – a ponto de uma humana entregar centenas de milhares de dólares após acreditar que estava a falar com Brad Pitt.
Se você gosta de ver se é capaz de distinguir entre humanos e IA, felizmente eles criaram uma versão online do teste para você experimentar. Tendo feito isso eu mesmo, é perigosamente similar – embora eu tenha conseguido emergir ‘vitorioso’ graças à incapacidade do meu humano de me perguntar como eu estava – a IA nunca seria tão indelicada!






