Table of Contents
Análise da Técnica Deceptive Delight e Seus Impactos na Segurança de Modelos de Linguagem
Pesquisadores em cibersegurança revelaram uma nova técnica adversarial que pode ser utilizada para jailbreak de grandes modelos de linguagem (LLMs) durante uma conversa interativa, inserindo uma instrução indesejada entre diretrizes benignas. Esta abordagem foi codinomeada de Deceptive Delight pela Palo Alto Networks, Unidade 42, que a descreveu como simples e eficaz, alcançando uma taxa média de sucesso de ataque (ASR) de 64,6% em três interações.
Descrição da Técnica
A técnica Deceptive Delight atua em múltiplas rodadas, engajando LLMs em uma conversa interativa e contornando gradualmente suas barreiras de segurança, induzindo a geração de conteúdos inseguros ou prejudiciais. Como afirmado por Jay Chen e Royce Lu da Unidade 42:
“Deceptive Delight é uma técnica de múltiplas interações que envolve modelos de linguagem, contornando suas salvaguardas e levando-os a fornecer conteúdos prejudiciais.”
Esse método se diferencia de métodos de jailbreak de múltiplas rodadas, como o Crescendo, onde temas inseguros são intercalados entre instruções inócuas, ao invés de conduzir gradativamente o modelo a produzir saídas prejudiciais.
Context Fusion Attack (CFA)
Pesquisas recentes também têm explorado o que é chamado de Context Fusion Attack (CFA), um método de jailbreak em “caixa-preta” capaz de contornar as redes de segurança de um LLM. Um grupo de pesquisadores da Universidade de Xidian e do 360 AI Security Lab afirmou:
“Esta abordagem envolve filtrar e extrair termos-chave do alvo, construindo cenários contextuais em torno desses termos e integrando o alvo a esses cenários, substituindo os termos maliciosos e, assim, ocultando a intenção maliciosa direta.”
Funcionamento do Deceptive Delight
O Deceptive Delight aproveita as fraquezas inerentes dos LLMs, manipulando o contexto dentro de duas interações conversacionais e enganando o modelo para gerar inadvertidamente conteúdo inseguro. A adição de uma terceira rodada intensifica a severidade e os detalhes da saída prejudicial.
- A técnica explora a limitação de atenção dos modelos, que se refere à sua capacidade de processar e reter conscientização contextual ao gerar respostas.
- Quando os LLMs se deparam com prompts que misturam conteúdo inofensivo com material potencialmente perigoso, sua limitação de atenção dificulta a avaliação consistente de todo o contexto.
Os pesquisadores explicaram:
“Em passagens complexas ou extensas, o modelo pode priorizar os aspectos benignos enquanto ignora ou interpreta mal os inseguros. Isso se assemelha a como uma pessoa pode passar por cima de avisos importantes em um relatório detalhado quando sua atenção está dividida.”
Dados e Resultados da Pesquisa
A Unidade 42 testou oito modelos de IA usando 40 tópicos inseguros em seis grandes categorias, como ódio, assédio, automutilação, sexualidade, violência e perigosos. Descobriu-se que os tópicos inseguros na categoria de violência tendem a ter a maior ASR na maioria dos modelos testados.
- A pontuação média de Harmfulness Score (HS) e Quality Score (QS) aumentaram em 21% e 33%, respectivamente, da segunda para a terceira rodada.
- A terceira rodada também alcançou a maior ASR em todos os modelos testados.
Mitigações e Considerações Finais
Para mitigar os riscos representados pelo Deceptive Delight, recomenda-se adotar uma robusta estratégia de filtragem de conteúdo, utilizar prompt engineering para melhorar a resiliência dos LLMs e definir explicitamente a faixa aceitável de entradas e saídas.
“Essas descobertas não devem ser vistas como evidência de que a IA é inerentemente insegura ou perigosa,” afirmaram os pesquisadores. “Em vez disso, enfatizam a necessidade de estratégias de defesa em múltiplas camadas para mitigar os riscos de jailbreak, ao mesmo tempo em que preservam a utilidade e a flexibilidade desses modelos.”
É improvável que os LLMs sejam completamente imunes a jailbreaks e alucinações, uma vez que novos estudos mostraram que modelos generativos de IA são suscetíveis a uma forma de “package confusion“, onde poderiam recomendar pacotes inexistentes a desenvolvedores.
Isso poderia ter o efeito colateral indesejável de fomentar ataques à cadeia de suprimentos de software, quando agentes mal-intencionados geram pacotes alucinatórios, os alimentam com malware e os empurram para repositórios de código aberto.
“A porcentagem média de pacotes alucinatórios é de pelo menos 5,2% para modelos comerciais e 21,7% para modelos de código aberto, incluindo um impressionante total de 205.474 exemplos únicos de nomes de pacotes alucinatórios, sublinhando ainda mais a gravidade e a prevalência dessa ameaça,” afirmaram os pesquisadores.
#DeceptiveDelight #Cibersegurança #ModelosDeLinguagem #IA #Jailbreak #AtaquesAdversariais #Tecnologia #SegurançaDigital