Tecnologia

Avanços significativos em modelos de IA nos 'Últimos Exames da Humanidade', mas distância do nível humano persiste

05 de Março de 2026 às 06:21

Pesquisadores do Center for AI Safety e Scale AI divulgaram resultados do "Último Exame da Humanidade" (HLE), um teste rigoroso criado em 2025 para avaliar a capacidade dos modelos de linguagem. O exame eliminou cerca de 70 mil perguntas, deixando apenas as questões mais complexas e verificáveis. Os sistemas ChatGPT, Gemini e DeepSeek alcançaram as melhores marcas no teste

Avanços significativos em modelos de IA nos 'Últimos Exames da Humanidade', mas distância do nível humano persiste
Freepik

Aproximadamente um ano após o lançamento do "Último Exame da Humanidade" (HLE), um teste rigoroso desenvolvido por pesquisadores do Center for AI Safety e Scale AI, os resultados revelam avanços significativos nos modelos de inteligência artificial. O exame busca avaliar a capacidade real dos grandes modelos de linguagem em se aproximar do conhecimento especializado humano.

Desenvolvido oficialmente no início de 2025 como um novo padrão para avaliar a capacidade real dos sistemas, o HLE abrange mais de 100 matérias e foi elaborado por mais de 1.000 especialistas de instituições em todo o mundo. O teste consiste em uma bateria rigorosa que busca determinar se os modelos podem alcançar níveis semelhantes aos dos humanos.

A primeira rodada do HLE eliminou cerca de 70 mil perguntas, deixando apenas as questões mais complexas e verificáveis. As melhores marcas no teste foram obtidas pelos sistemas ChatGPT, Gemini e DeepSeek. O modelo Gemini 3 Deep Think alcançou a melhor marca em fevereiro deste ano com um desempenho de 48,4%.

A comparação entre os modelos de inteligência artificial e especialistas humanos revela que esses sistemas ainda estão distantes do nível humano no HLE. Os autores do estudo alertam sobre os limites da métrica, afirmando que um alto desempenho não implica necessariamente a capacidade de pesquisa autônoma ou inteligência artificial geral.

Os resultados do "Último Exame da Humanidade" reacendem o debate sobre a proximidade da AGI (Inteligência Artificial Geral). Embora os avanços sejam notáveis, ainda há muito trabalho para ser feito antes que esses sistemas possam alcançar níveis de inteligência humana.

Notícias Relacionadas