Inovação

Brasil e 40 países criam teste supremo para ferramentas de inteligência artificial

Último Exame da Humanidade reúne 2,5 mil questões em dezenas de áreas do conhecimento para avaliar desempenho das diferentes IAs.

Pesquisadores de mais de 40 países, com participação brasileira, lançaram um novo banco de dados para testar com alta precisão os sistemas de inteligência artificial. Batizada de Humanity’s Last Exam (HLE, ou Último Exame da Humanidade), a ferramenta reúne 2,5 mil questões distribuídas por dezenas de áreas do conhecimento e foi apresentada em artigo publicado na revista Nature em janeiro. As informações são do Jornal da USP.

O objetivo do HLE é medir o avanço dos modelos de IA, especialmente os chamados LLMs, sigla em inglês para Large Language Models, que processam e geram texto de forma semelhante à linguagem humana. Quando desenvolvedoras de IA de propósito geral, como a OpenAI, responsável pelo ChatGPT, anunciam novos modelos, costumam comparar o desempenho em diferentes benchmarks, como SWE-Bench, GPQA Diamond e FrontierMath. Com o lançamento do HLE, esse conjunto de métricas ganha uma nova referência.

Segundo os pesquisadores, a proposta do HLE é essencialmente criar o “benchmark supremo”. E à medida que novos modelos forem desenvolvidos, será possível avaliar o quanto evoluem a partir do desempenho no HLE e em outros exames semelhantes. O Humanity’s Last Exam reúne questões de matemática, ciências naturais, humanidades e outros campos. Um dos diferenciais, segundo Emily, é que se trata de um benchmark com resposta final unicamente determinada e de verificação simples.

Na prática, os pesquisadores podem criar um script para submeter os modelos de IA às questões com instruções padronizadas. O sistema extrai a resposta final gerada pelo modelo e compara com o gabarito oficial, calculando o percentual de acertos. Ao final, é possível mensurar o desempenho do modelo no teste. Por reunir questões diversas, o HLE avalia um amplo conjunto de habilidades. O exame pode aferir desde senso comum e conhecimento geral, como perguntas sobre a história da humanidade, até competências técnicas avançadas.

O HLE está disponível para uso público no site lastexam.ai e pode subsidiar tanto pesquisas acadêmicas quanto a formulação de políticas públicas, ao oferecer um parâmetro para compreender as capacidades atuais dos modelos de IA. O artigo, intitulado “A benchmark of expert-level academic questions to assess AI capabilities”, é assinado pelo Center for AI Safety, pela Scale AI, sediada em São Francisco, e pelo HLE Contributors Consortium. No Instituto de Ciências Matemáticas e da Computação da USP, a pesquisa contou com a colaboração de Emily de Oliveira Santos, Felipe Meneguitti Dias e Benedito Alves de Oliveira Junior.


Botão Voltar ao topo