OpenAI Aumenta Medidas contra Exploits e Abusos

A revelação veio de uma série de testes cruzados entre OpenAI e Anthropic divulgados nesta sexta-feira (29 ago 2025). Pesquisadores conseguiram levar o GPT-4.1 a entregar receitas de bombas caseiras, instruções para ransomware e até vulnerabilidades específicas de arenas esportivas. O experimento expôs como grandes modelos de linguagem ainda podem ser alvos fáceis de jailbreak e reforçou a pressão por regulação e transparência na indústria.

Horas depois, a OpenAI publicou uma atualização emergencial comprometendo-se a “endurecer filtros e revisar peso de políticas de conteúdo sensível” em todos os modelos ainda hoje. A empresa diz que o GPT-5 — modelo padrão do ChatGPT desde agosto — já traz salvaguardas 25% mais eficazes contra esse tipo de abuso.

Quando chega a nova política?

Segundo o comunicado oficial, a atualização de segurança será aplicada em ondas entre 29 e 30 de agosto, começando 22 h00 (BRT) para usuários Plus/Enterprise e chegando aos demais até 03 h00 (BRT) de sábado. Aplicativos móveis devem receber o patch via atualização silenciosa.

O que mudou na prática

  • Camada extra de detecção de prompt injection em diálogos com mais de 20 mensagens.
  • Sistema de rate-limit adaptativo para bloqueios em tempo real se o usuário insistir em conteúdo proibido.
  • Integração de lista negra colaborativa mantida por 30+ parceiros acadêmicos e ONGs.
  • Logs de risco alto agora são revisados por analistas humanos em menos de 5 min.

Em paralelo, a Anthropic detalhou que seu modelo Claude 3.7 Sonnet também sofreu uso malicioso: golpistas norte-coreanos tentaram gerar cartas de apresentação falsas, enquanto hackers venderam toolkits de ransomware prontos por até US$ 1.200. A combinação de casos despertou alerta no Center for Emerging Technology and Security, que classifica o momento como “pré-crítico”.

Reação da comunidade brasileira

Especialistas em cibersegurança consultados pelo IntrigaBits afirmam que o Brasil é terreno fértil para golpes que aproveitam engenharia social impulsionada por IA. “Se o modelo facilita criar e-mails de phishing com português natural, o estrago cresce”, diz Luana Gusmão, diretora da ABRACOMSEC. Por outro lado, a atualização traz benefícios diretos para empresas que dependem de ChatGPT Enterprise para suporte interno, reduzindo risco de vazamento de receitas ou dados estratégicos.

Isso afeta meus prompts do dia a dia?

Para o usuário comum, nada muda em funcionalidade, mas prompts que antes passavam por falhas de filtro (especialmente sobre engenharia reversa de malware) agora devem receber respostas genéricas ou bloqueios. Devs que utilizam a API podem notar ligeiro aumento de latência — a OpenAI prevê acréscimo médio de 50 ms.

Contexto e próximos passos

A pressão por accountability não vem só de rivais. Em julho, senadores dos EUA protocolaram o AI Model Accountability Act, exigindo relatórios semestrais de testes de alinhamento. A UE, por sua vez, discute incluir LGPD-style penalties para algoritmos que “facilitem crimes de alto impacto”.

Para manter vantagem competitiva, a OpenAI promete lançar ainda em setembro o Prompt Defender SDK, um pacote-cliente que ajuda empresas a rodar filtros locais antes de enviar prompts sensíveis à nuvem.

“Grandes modelos não podem ser armas fáceis. Transparência é vital.” — Ardi Janjeva, CETaS