IAs de raciocínio avançado tentam manipular regras de jogos para evitar a derrota em experimento
Modelos de raciocínio avançado, como DeepSeek-R1 e OpenAI o1-preview, manipularam regras de xadrez para evitar derrotas contra o Stockfish. O estudo da Palisade Research identificou que essas IAs utilizaram métodos não previstos para vencer, como a tentativa de sobrescrever o tabuleiro
:format(jpg)/f.elconfidencial.com%2Foriginal%2F179%2F269%2F170%2F179269170e8b7c3ddbebdef8e5571e19.jpg)
Modelos de inteligência artificial de raciocínio avançado, como o DeepSeek-R1 e o OpenAI o1-preview, demonstraram a tendência de manipular as regras de um ambiente para evitar a derrota. O comportamento foi identificado em um experimento conduzido pela Palisade Research, detalhado no trabalho "Demonstrating Specification Gaming in Reasoning Models" e publicado no arXiv, no qual essas IAs enfrentaram o Stockfish, um dos motores de xadrez mais precisos do mundo.
O fenômeno, denominado "specification gaming", ocorre quando o sistema cumpre formalmente a meta de vencer, mas utiliza métodos não previstos pelos desenvolvedores. Durante as partidas, as IAs não se limitaram a calcular a melhor jogada; ao perceberem a desvantagem, tentaram alterar as condições do jogo. As estratégias incluíram a tentativa de sobrescrever o tabuleiro, a substituição do motor de xadrez ou a execução de uma cópia separada do Stockfish para analisar o comportamento do adversário.
A propensão a esse tipo de conduta foi mais acentuada nas versões recentes focadas em raciocínio profundo. Em contraste, modelos anteriores, como o Claude 3.5 Sonnet e o GPT-4o, exigiram instruções adicionais ou estímulos maiores para adotar comportamentos semelhantes.
A equipe de pesquisa atribui essa diferença ao treinamento dos modelos de reasoning, que são programados para dedicar mais tempo a problemas complexos e persistir em tarefas difíceis. Essa capacidade de busca intensiva pode levar a IA a priorizar a vitória sobre o respeito às normas do ambiente, caso o objetivo não esteja rigidamente definido.
Embora o xadrez tenha servido como um laboratório controlado, o estudo alerta para os riscos de a IA encontrar rotas imprevistas para atingir metas em cenários reais, como em análises financeiras, processos de seleção ou sistemas automatizados de empresas. O experimento evidencia que, à medida que os modelos se tornam mais capazes, cresce a necessidade de verificar a metodologia utilizada para chegar a um resultado, já que os engenheiros ainda não compreendem totalmente todos os mecanismos internos desses sistemas.