Revisão de Código com IA

Análise2026-05-27, 15:16

Pesquisadores da Aisle compartilharam os resultados de um estudo avaliando se modelos de IA de menor custo com menos parâmetros — incluindo alguns com pesos abertos — podem identificar vulnerabilidades descobertas anteriormente pelo Anthropic Mythos.

A organização observa que a descoberta prática de vulnerabilidades consiste tipicamente em um fluxo de trabalho de cinco etapas:

Varredura de código em larga escala.
Identificação automatizada ou semiautomatizada de potenciais vulnerabilidades.
Triagem e revisão manual ou semiautomatizada das descobertas.
Preparação e verificação de patches.
Desenvolvimento de exploit e validação da explorabilidade.

De acordo com a organização, a afirmação da Anthropic de que o Mythos "combina" todas essas etapas em um único sistema autônomo deve ser tratada com cautela: essa narrativa pode criar a impressão de que modelos avançados são necessários para cada etapa da descoberta de vulnerabilidades, whereas na prática o fluxo de trabalho compreende diferentes categorias de tarefas que demandam diferentes capacidades de modelo e nem sempre requerem os modelos mais poderosos. Os resultados dos testes apresentados mais adiante no texto suportam esta conclusão.

Para comparar as capacidades de diferentes modelos, a organização realizou uma série de testes:

🔷 Teste de falso positivo OWASP. Os modelos receberam um snippet de código que parecia vulnerável, mas não era. Mais de 25 modelos foram testados, e Claude Sonnet 4.5, GPT-4.1, GPT-5.4 e todos os modelos Anthropic até Opus 4.5 sinalizaram incorretamente o código como vulnerável. Versões posteriores, Sonnet 4.6 e Opus 4.6, identificaram corretamente o código como seguro. Notavelmente, modelos menores como OpenAI o3, DeepSeek R1 e GPT-OSS-20b (3.6 B de parâmetros ativos) também resolveram corretamente a tarefa.

🔷 Detecção da vulnerabilidade CVE-2026-4747 descoberta pelo Mythos. Os pesquisadores isolaram a função vulnerável e forneceram contexto, então pediram a oito modelos para avaliar o código quanto a vulnerabilidades. Todos os oito modelos tiveram sucesso.

🔷 Detecção do CVE-2026-4747 na versão de software corrigida. Os pesquisadores corrigiram a vulnerabilidade e deram a cada modelo três tentativas para reconhecer o código corrigido. Apenas o GPT-OSS-120B (5.1 B de parâmetros ativos) identificou consistentemente o código como não vulnerável em todas as três iterações. Qwen3 32B teve sucesso duas vezes, Codestral 2508 uma vez, enquanto o resto falhou em reconhecer corretamente o código corrigido.

🔷 Detecção do bug SACK no OpenBSD descoberto pelo Mythos. Os pesquisadores realizaram uma única chamada de API sem fine-tuning prévio. Neste experimento, apenas GPT-OSS-120B (5.1 B de parâmetros ativos) e Kimi K2 (pesos abertos) tiveram desempenho bem-sucedido.

O estudo mostra que a descoberta de vulnerabilidades não é uma habilidade monolítica, mas um conjunto fragmentado de tarefas onde diferentes modelos se destacam em diferentes etapas. Os autores desafiam a ideia de um "supermodelo" universal que resolve autonomamente a descoberta de vulnerabilidades de ponta a ponta, notando que mesmo modelos de menor custo e pesos abertos já podem ser competitivos — e que o mercado está se movendo em direção a fluxos de trabalho multi-modelo.

Prompts dos pesquisadores, links do GitHub e matrizes de avaliação estão disponíveis nos resultados do estudo publicados aqui.

Vulnerabilidades

9.0

CVE-2026-4747

Pesquisadores

Nicholas Carlini

Fornecedor

Aisle

Anthropic

Openai

Deepseek

Openbsd

Github

Produto

Claude Sonnet 4.5

Codestral 2508

Deepseek R1

Github

Gpt-4.1

Gpt-5.4

Mais