Langchain Ai · Langchain · CVE-2024-0243
**Nome do software vulnerável e versões afetadas**
Versões do langchain anteriores àquela que inclui a correção disponível em https://github.com/langchain-ai/langchain/pull/15559
**Descrição**
O problema ocorre quando um invasor controla o conteúdo de um site, como `https://example.com`, e insere um arquivo HTML malicioso com links para sites externos, como `https://example.completely.different/my file.html`. Mesmo com `prevent outside=True` definido na configuração do rastreador, o RecursiveUrlLoader ainda baixaria o arquivo do site externo. Isso se deve ao comportamento do carregador ao encontrar links no conteúdo HTML.
**Recomendações**
Para versões anteriores à correção em https://github.com/langchain-ai/langchain/pull/15559, considere atualizar para uma versão que inclua essa correção para resolver o problema. Como solução alternativa temporária, considere restringir o parâmetro `url` no `RecursiveUrlLoader` para permitir apenas links de domínios confiáveis até que um patch esteja disponível. Além disso, tenha cuidado ao usar o parâmetro `extractor` com funções lambda que analisam conteúdo HTML, pois isso pode potencialmente levar a downloads indesejados.