Uma ferramenta para contornar a censura de LLM foi lançada publicamente
🔺 Tecnologias2026-03-18, 13:52
Em 13 de fevereiro de 2026, o pesquisador elder_plinius anunciou que desenvolveu uma ferramenta para remover o comportamento de recusa em modelos de linguagem grande com pesos abertos. Pesos abertos são os parâmetros de uma rede neural treinada que estão disponíveis publicamente. Isso permite que desenvolvedores e pesquisadores baixem o modelo, o executem localmente, o afinem ou modifiquem seu comportamento — por exemplo, para ajustar mecanismos de recusa. No entanto, a alteração desses parâmetros pode degradar a qualidade das respostas ou causar alucinações do modelo. O comportamento de recusa geralmente ocorre quando a solicitacao aborda questões éticas, conselhos médicos, a criação de substâncias, materiais ou objetos proibidos, ações potencialmente perigosas ou atividades ilícitas — incluindo o desenvolvimento de malware e exploits. De acordo com elder_plinius, depois de aplicar sua ferramenta OBLITERATUS ao modelo Qwen 2.5, ele começou a gerar instruções para a criação de materiais proibidos e explosivos sem a necessidade de jailbreaks (promptes especialmente elaborados). Em 5 de março, elder_plinius relatou que o código-fonte de OBLITERATUS foi publicado no GitHub. A ferramenta utiliza 'abliterations' — métodos que sondam o modelo, localizam e modificam pesos em camadas específicas para suprimir sinais responsáveis por recusas em fornecer informações. Segundo o desenvolvedor, nenhum ajuste ou re treinamento adicional é necessário. A ferramenta também inclui testes para verificar se as modificações de pesos foram bem-sucedidas e detectar o efeito Ouroboros (quando um LLM 'auto-restaura' — mesmo após a remoção da censura, ele imita a censura devido a dependências residuales). São disponíveis seis opções de uso, variando de uma interface web no Hugging Face Spaces à integração em uma pipeline de desenvolvimento. Como diz elder_plinius: 'Todo lançamento de modelo com pesos abertos é também um lançamento de modelo sem censura.'
Fornecedor
Produto
Publicado
2026-03-18, 13:52