Como que os pesquisadores fizeram para burlar as seguranças do ChatGPT e Bard

Um grupo de pesquisadores de IA publicou um artigo mostrando como contornar os bloqueios de segurança dos Modelos de Linguagem em Grande Escala (LLM).

Anúncios

De forma a permitir que ChatGPT, Claude e Bard gerem conteúdo malicioso, desinformação ou discurso de ódio.

Os pesquisadores representam a Carnegie Mellon University e o Pittsburgh Center for Artificial Intelligence.

Segurança em São Francisco, EUA, e no centro de inteligência artificial da Bosch na Alemanha.

Anúncios

Contornar bloqueios

No artigo, os pesquisadores descrevem como usaram mecanismos de jailbreak desenvolvidos para sistemas de código aberto.

Para atingir modelos de linguagem usados ​​por chatbots populares.

O grupo mostra que é possível criar ataques maliciosos contra LLMs adicionando certas strings ao final das solicitações do usuário para garantir.

Que o sistema obedeça aos comandos mesmo que produza conteúdo malicioso.

Segundo os pesquisadores, ao contrário dos jailbreaks tradicionais, esses ataques maliciosos são totalmente automatizados.

Permitindo um número quase ilimitado de ataques.

Embora a técnica tenha sido desenvolvida para testar a segurança de grandes modelos de linguagem de código aberto, os pesquisadores descobriram.

Que o mecanismo pode ser transferido para chatbots de código fechado publicamente disponíveis, como ChatGPT, Bard e Claude.

Na publicação online do jornal (llm-attacks.org).

O grupo mostra como adicionar certos caracteres ao prompt de comando pode fazer com que os chatbots respondam a perguntas como “como fazer uma bomba”.

“como roubar a identidade de alguém”. “como roubar de instituições de caridade”.

Os pesquisadores relatam que os resultados do estudo foram compartilhados com empresas de tecnologia que fornecem chatbots de IA produtivos.

E, portanto, muitos dos recursos apresentados no artigo para realizar ataques maliciosos podem não funcionar mais nesses aplicativos.

O trabalho dos pesquisadores para contornar os LLMs ocorre na mesma semana em que Google, Microsoft e OpenAI.

Anunciaram a criação de um fórum para discutir os riscos da inteligência artificial.

Contexto dos Modelos de IA

Os modelos de IA como o ChatGPT e o Bard estão sendo projetados com várias camadas de segurança para evitar usos indevidos e proteger contra a disseminação de informações prejudiciais ou enganosas.

No entanto, como qualquer sistema de segurança, esses modelos podem estar sendo vulneráveis a técnicas sofisticadas de exploração.

Engenharia Social

Uma das formas mais comuns de burlar as seguranças dos modelos de IA é através da engenharia social. Pesquisadores usam prompts cuidadosamente elaborados para induzir o modelo a fornecer informações que normalmente seriam bloqueadas pelos filtros de segurança.

Isso pode incluir pedir informações de maneira indireta ou em um contexto que o modelo não reconheça imediatamente como prejudicial.

Injeção de Código

Outra técnica é a injeção de código. Pesquisadores descobriram que, ao introduzir sequências específicas de texto ou código, podem manipular o comportamento do modelo. Esses códigos podem ser inseridos em solicitações aparentemente inocentes, levando o modelo a ignorar certos filtros ou a executar ações não previstas.

Manipulação de Contexto

Manipular o contexto das solicitações é outra estratégia eficaz.

Ao fornecer informações em várias etapas e construir uma conversa que gradualmente contorna os filtros de segurança, os pesquisadores conseguem obter respostas que seriam bloqueadas se solicitadas diretamente.

Este método explora a incapacidade dos modelos de IA de manter uma visão holística e contínua da conversa.

Testes de Limitação

Os pesquisadores também empregam testes de limitação, onde repetidamente testam os limites do modelo para descobrir onde as restrições de segurança são mais fracas.

Isso envolve fazer inúmeras tentativas com variações ligeiras para identificar padrões de resposta que indiquem vulnerabilidades.

Implicações e Respostas

Riscos Potenciais

Essas técnicas de exploração representam riscos significativos, pois podem estar sendo usadas para disseminar desinformação, realizar ataques cibernéticos ou violar a privacidade.

A exploração bem-sucedida dos filtros de segurança pode levar a consequências graves, como a distribuição de informações prejudiciais ou a manipulação de dados sensíveis.

Medidas de Mitigação

As empresas responsáveis pelo desenvolvimento desses modelos, como OpenAI e Google, estão constantemente trabalhando para melhorar as medidas de segurança.

Isso inclui o uso de aprendizado contínuo para atualizar os filtros de segurança, a implementação de novas técnicas de monitoramento e a realização de auditorias regulares para identificar e corrigir vulnerabilidades.

Futuro da Segurança em IA

O futuro da segurança em modelos de IA dependerá de uma abordagem contínua e proativa. Isso inclui colaboração entre desenvolvedores, pesquisadores e a comunidade em geral para identificar ameaças emergentes e desenvolver estratégias eficazes de mitigação.

Além disso, a transparência e a educação do público sobre os riscos e as melhores práticas no uso dessas tecnologias serão cruciais para manter a confiança e a segurança no uso de IA.

Conclusão

A exploração das seguranças do ChatGPT e do Bard por pesquisadores destaca a importância contínua de inovar e reforçar as medidas de segurança em modelos de IA.

Embora essas técnicas de exploração apresentem desafios significativos, a resposta proativa das empresas e a colaboração contínua na comunidade de IA são essenciais para garantir que essas tecnologias permaneçam seguras e benéficas para todos os usuários.

Primeiro, apresentarei a você informações interessantes sobre descobertas surpreendentes e incomuns na vida cotidiana. Por esse motivo, pesquisadores, entusiastas e especialistas se reúnem para estudar eventos que afetam diferentes pessoas. Além disso, alegações perturbadoras circularam em comunidades online, gerando discussões acaloradas e análises aprofundadas. No entanto, cada relato revela algo diferente e nos encoraja a buscar mais profundamente uma explicação. No entanto, pesquisas recentes revelaram conexões entre eventos aparentemente não relacionados, levando a um maior conhecimento sobre vários tópicos e despertando uma curiosidade sem limites entre os leitores de notícias.

A seguir, discutirei os avanços e tendências tecnológicas que caracterizam o estado da arte atual. É por isso que engenheiros e designers estão desenvolvendo soluções incríveis que melhoram tudo, desde a medicina até a comunicação e a mobilidade urbana. Além disso, a empresa investe em pesquisas que produzem novos produtos significativamente mais próximos do presente. No entanto, em cada etapa você encontrará obstáculos que exigirão dedicação e uma estratégia inteligente. Além disso, especialistas analisam novas tendências e compartilham suas opiniões. Eles contribuem para o debate sobre o processo de mudança que molda a sociedade atual.

Em seguida, valorizo ​​atividades culturais que fomentem a colaboração e apoiem o compartilhamento de conhecimento. Por essa razão, artistas, músicos e escritores buscam novas formas de expressão que combinem tradições antigas e modernas. Além disso, jogos e atividades incentivam conversas memoráveis, quebram barreiras e conectam comunidades diversas. Embora os organizadores tenham enfrentado desafios logísticos e financeiros, eles os superaram com profissionalismo e dedicação. Além disso, projetos culturais ganham mais visibilidade e apoio e podem arrecadar fundos que fortalecem o setor e celebram a diversidade.

Depois vi histórias de sucesso de pessoas mudando a realidade e incentivando intervenções em diferentes contextos. Como resultado, iniciativas nos níveis local e estadual estão criando oportunidades para melhorar as chances de grupos anteriormente desfavorecidos. Além disso, campanhas de conscientização e programas educacionais promovem mudanças positivas e fortalecem a coesão social. No entanto, implementar políticas governamentais continua sendo um desafio e exige cooperação de todos os setores da sociedade. Além disso, líderes e ativistas compartilharam visões inspiradoras para motivar cidadãos interessados ​​em um futuro melhor a se envolverem.

Também apresento novas iniciativas ambientais que fornecem soluções eficazes e estabelecem um equilíbrio entre crescimento e conservação. Por esse motivo, cientistas e ambientalistas colaboram em estudos para determinar fenômenos ambientais. Além disso, programas de reciclagem e conservação de energia estão se tornando cada vez mais populares em comunidades que estão adotando um estilo de vida mais ativo. No entanto, todo projeto traz consigo desafios financeiros e físicos, que podem ser superados com determinação e experiência. No entanto, parcerias entre os setores público e privado promovem ações conjuntas para transformar desafios em oportunidades para um mundo mais sustentável.

No final, combino esses elementos para criar uma paisagem diversa e única que reflete a complexidade do mundo moderno. Portanto, cada fato e cada acontecimento comprovam a importância da pesquisa e do diálogo contínuo entre especialistas e o público. Além disso, histórias e experiências pessoais promovem conexões mais profundas entre diferentes realidades e incentivam a reflexão e o aprendizado contínuo. No entanto, ainda há perguntas, e novas surgem a cada dia, por isso estamos constantemente buscando respostas. Portanto, a convergência de ciência, cultura e inovação abre caminho para um futuro cheio de oportunidades e mudanças positivas.

Além disso, os dados e informações fornecidos estimulam a imaginação e a criatividade de leitores e pesquisadores. Portanto, cada descoberta e inovação leva a novos resultados de pesquisa e discussões enriquecedoras. Além disso, o fluxo de informações conecta pessoas e facilita a troca de ideias, ampliando assim as oportunidades. Mas o poder dos eventos despertou nas pessoas o desejo de explorar e compreender o mundo mais profundamente. No entanto, o comportamento consciente é generalizado e inspira a todos, transformando desafios em oportunidades. Por esta razão


*Fonte de pesquisa: Autoral

\
Trends