Como que os pesquisadores fizeram para burlar as seguranças do ChatGPT e Bard

Um grupo de pesquisadores de IA publicou um artigo mostrando como contornar os bloqueios de segurança dos Modelos de Linguagem em Grande Escala (LLM).

Anúncios

De forma a permitir que ChatGPT, Claude e Bard gerem conteúdo malicioso, desinformação ou discurso de ódio.

Os pesquisadores representam a Carnegie Mellon University e o Pittsburgh Center for Artificial Intelligence.

Segurança em São Francisco, EUA, e no centro de inteligência artificial da Bosch na Alemanha.

Anúncios

Contornar bloqueios

No artigo, os pesquisadores descrevem como usaram mecanismos de jailbreak desenvolvidos para sistemas de código aberto.

Para atingir modelos de linguagem usados ​​por chatbots populares.

O grupo mostra que é possível criar ataques maliciosos contra LLMs adicionando certas strings ao final das solicitações do usuário para garantir.

Que o sistema obedeça aos comandos mesmo que produza conteúdo malicioso.

Segundo os pesquisadores, ao contrário dos jailbreaks tradicionais, esses ataques maliciosos são totalmente automatizados.

Permitindo um número quase ilimitado de ataques.

Embora a técnica tenha sido desenvolvida para testar a segurança de grandes modelos de linguagem de código aberto, os pesquisadores descobriram.

Que o mecanismo pode ser transferido para chatbots de código fechado publicamente disponíveis, como ChatGPT, Bard e Claude.

Na publicação online do jornal (llm-attacks.org).

O grupo mostra como adicionar certos caracteres ao prompt de comando pode fazer com que os chatbots respondam a perguntas como “como fazer uma bomba”.

“como roubar a identidade de alguém”. “como roubar de instituições de caridade”.

Os pesquisadores relatam que os resultados do estudo foram compartilhados com empresas de tecnologia que fornecem chatbots de IA produtivos.

E, portanto, muitos dos recursos apresentados no artigo para realizar ataques maliciosos podem não funcionar mais nesses aplicativos.

O trabalho dos pesquisadores para contornar os LLMs ocorre na mesma semana em que Google, Microsoft e OpenAI.

Anunciaram a criação de um fórum para discutir os riscos da inteligência artificial.

Contexto dos Modelos de IA

Os modelos de IA como o ChatGPT e o Bard estão sendo projetados com várias camadas de segurança para evitar usos indevidos e proteger contra a disseminação de informações prejudiciais ou enganosas.

No entanto, como qualquer sistema de segurança, esses modelos podem estar sendo vulneráveis a técnicas sofisticadas de exploração.

Engenharia Social

Uma das formas mais comuns de burlar as seguranças dos modelos de IA é através da engenharia social. Pesquisadores usam prompts cuidadosamente elaborados para induzir o modelo a fornecer informações que normalmente seriam bloqueadas pelos filtros de segurança.

Isso pode incluir pedir informações de maneira indireta ou em um contexto que o modelo não reconheça imediatamente como prejudicial.

Injeção de Código

Outra técnica é a injeção de código. Pesquisadores descobriram que, ao introduzir sequências específicas de texto ou código, podem manipular o comportamento do modelo. Esses códigos podem ser inseridos em solicitações aparentemente inocentes, levando o modelo a ignorar certos filtros ou a executar ações não previstas.

Manipulação de Contexto

Manipular o contexto das solicitações é outra estratégia eficaz.

Ao fornecer informações em várias etapas e construir uma conversa que gradualmente contorna os filtros de segurança, os pesquisadores conseguem obter respostas que seriam bloqueadas se solicitadas diretamente.

Este método explora a incapacidade dos modelos de IA de manter uma visão holística e contínua da conversa.

Testes de Limitação

Os pesquisadores também empregam testes de limitação, onde repetidamente testam os limites do modelo para descobrir onde as restrições de segurança são mais fracas.

Isso envolve fazer inúmeras tentativas com variações ligeiras para identificar padrões de resposta que indiquem vulnerabilidades.

Implicações e Respostas

Riscos Potenciais

Essas técnicas de exploração representam riscos significativos, pois podem estar sendo usadas para disseminar desinformação, realizar ataques cibernéticos ou violar a privacidade.

A exploração bem-sucedida dos filtros de segurança pode levar a consequências graves, como a distribuição de informações prejudiciais ou a manipulação de dados sensíveis.

Medidas de Mitigação

As empresas responsáveis pelo desenvolvimento desses modelos, como OpenAI e Google, estão constantemente trabalhando para melhorar as medidas de segurança.

Isso inclui o uso de aprendizado contínuo para atualizar os filtros de segurança, a implementação de novas técnicas de monitoramento e a realização de auditorias regulares para identificar e corrigir vulnerabilidades.

Futuro da Segurança em IA

O futuro da segurança em modelos de IA dependerá de uma abordagem contínua e proativa. Isso inclui colaboração entre desenvolvedores, pesquisadores e a comunidade em geral para identificar ameaças emergentes e desenvolver estratégias eficazes de mitigação.

Além disso, a transparência e a educação do público sobre os riscos e as melhores práticas no uso dessas tecnologias serão cruciais para manter a confiança e a segurança no uso de IA.

Conclusão

A exploração das seguranças do ChatGPT e do Bard por pesquisadores destaca a importância contínua de inovar e reforçar as medidas de segurança em modelos de IA.

Embora essas técnicas de exploração apresentem desafios significativos, a resposta proativa das empresas e a colaboração contínua na comunidade de IA são essenciais para garantir que essas tecnologias permaneçam seguras e benéficas para todos os usuários.


*Fonte de pesquisa: Autoral

\
Trends