Avanços significativos em modelos de IA nos 'Últimos Exames da Humanidade', mas distância do nível humano persiste

Redação Correio Diário 05 de Março de 2026 às 06:21

Pesquisadores do Center for AI Safety e Scale AI divulgaram resultados do "Último Exame da Humanidade" (HLE), um teste rigoroso criado em 2025 para avaliar a capacidade dos modelos de linguagem. O exame eliminou cerca de 70 mil perguntas, deixando apenas as questões mais complexas e verificáveis. Os sistemas ChatGPT, Gemini e DeepSeek alcançaram as melhores marcas no teste

Avanços significativos em modelos de IA nos 'Últimos Exames da Humanidade', mas distância do nível humano persiste — Freepik

Aproximadamente um ano após o lançamento do "Último Exame da Humanidade" (HLE), um teste rigoroso desenvolvido por pesquisadores do Center for AI Safety e Scale AI, os resultados revelam avanços significativos nos modelos de inteligência artificial. O exame busca avaliar a capacidade real dos grandes modelos de linguagem em se aproximar do conhecimento especializado humano.

Desenvolvido oficialmente no início de 2025 como um novo padrão para avaliar a capacidade real dos sistemas, o HLE abrange mais de 100 matérias e foi elaborado por mais de 1.000 especialistas de instituições em todo o mundo. O teste consiste em uma bateria rigorosa que busca determinar se os modelos podem alcançar níveis semelhantes aos dos humanos.

A primeira rodada do HLE eliminou cerca de 70 mil perguntas, deixando apenas as questões mais complexas e verificáveis. As melhores marcas no teste foram obtidas pelos sistemas ChatGPT, Gemini e DeepSeek. O modelo Gemini 3 Deep Think alcançou a melhor marca em fevereiro deste ano com um desempenho de 48,4%.

A comparação entre os modelos de inteligência artificial e especialistas humanos revela que esses sistemas ainda estão distantes do nível humano no HLE. Os autores do estudo alertam sobre os limites da métrica, afirmando que um alto desempenho não implica necessariamente a capacidade de pesquisa autônoma ou inteligência artificial geral.

Os resultados do "Último Exame da Humanidade" reacendem o debate sobre a proximidade da AGI (Inteligência Artificial Geral). Embora os avanços sejam notáveis, ainda há muito trabalho para ser feito antes que esses sistemas possam alcançar níveis de inteligência humana.

Avanços significativos em modelos de IA nos 'Últimos Exames da Humanidade', mas distância do nível humano persiste

Notícias Relacionadas

Amogy lança tecnologia que transforma amoníaco em energia até 70% mais eficiente do que sistemas atuais

TransMIT e Universidade da Bundeswehr desenvolvem motor espacial que "respira" a atmosfera terrestre

Guardian: Drone com Satélite Permite Resposta Emergencial sem Cobertura Celular em Áreas Remotas

Drone Tático Elétrico Brasileiro Ganha Capacidades Avançadas em Decolagem Vertical e Autonomia Total

Fones infantis inovadores oferecem controle parental de volume para proteger audição