Vllm · Vllm · CVE-2026-44223
**Nome do Software Vulnerável e Versões Afetadas**
vLLM versões 0.18.0 até 0.19.1
**Description**
O propositor de decodificação especulativa `extract hidden states` retorna um tensor com um formato incorreto após a primeira etapa de decodificação, levando a um `RuntimeError` que interrompe o processo EngineCore. Isso ocorre quando qualquer solicitação em um lote utiliza parâmetros de penalidade de amostragem: `repetition penalty`, `frequency penalty` ou `presence penalty`. O problema originou-se de uma refatoração na função `propose()`, onde a remoção da chamada `.unsqueeze(-1)` causou uma incompatibilidade de formato de transmissão durante a aplicação da penalidade, pois o amostrador de rejeição produz um formato de `(batch size, 2)` em vez do esperado `(batch size, 1)` após a primeira etapa de decodificação. Uma única solicitação contendo um parâmetro de penalidade é suficiente para causar a interrupção determinística e imediata do servidor, resultando em perda total da disponibilidade do serviço.
**Recommendations**
Atualizar para a versão 0.20.0.
Evitar o uso de `extract hidden states` como método de decodificação especulativa.
Remover ou rejeitar os parâmetros `repetition penalty`, `frequency penalty` e `presence penalty` das solicitações recebidas no gateway de API.