Google Research apresentou o método de quantização TurboQuant para grandes modelos de linguagem

🔺 Tecnologias2026-03-30, 07:01
A Google Research publicou um método de quantização chamado TurboQuant, que reduz significativamente o custo de execução de grandes modelos de linguagem. O principal problema com conversas longas de IA é o crescimento rápido do cache KV (cache de chave-valor — a memória que armazena o contexto). Esta pesquisa aborda principalmente esse gargalo ao lidar com contextos longos. O TurboQuant comprime dados do cache KV para 3 bits por elemento (comparado aos 16 ou 32 bits originais) com perda mínima de precisão. O algoritmo proposto também funciona sem calibração específica de dados, ao contrário de muitos outros métodos de quantização que requerem execuções de conjunto de dados para ajuste.
A abordagem combina duas técnicas principais: 🔵PolarQuant converte as coordenadas cartesianas dos vetores do cache KV em forma polar. Isso preserva informações angulares críticas e remove a necessidade de normalização, que normalmente distorce os dados durante a compressão. 🔵QJL (Quantized Johnson‑Lindenstrauss) corrige erros de compressão após o PolarQuant usando projeções de 1 bit, garantindo alta precisão de resposta.
Os pesquisadores testaram a abordagem nos modelos Gemma e Mistral e alcançaram resultados impressionantes: 🔵o uso de memória caiu seis vezes; 🔵os cálculos do kernel de atenção rodaram até 8× mais rápido; 🔵o modelo manteve a precisão base mesmo em tarefas de contexto ultra-longo (benchmark LongBench).
O TurboQuant torna possível executar modelos pesados em hardware padrão e reduzir drasticamente os custos de computação em nuvem.
💬 Discutir
Fornecedor
Google Research
Produto
Gemma
Longbench
Mistral
Turboquant
Publicado
2026-03-30, 07:01