Cloudflare revela a causa da falha global que derrubou X, ChatGPT e Spotify

A Cloudflare, uma das maiores empresas de infraestrutura de internet do mundo, divulgou um detalhado post-mortem explicando a causa da falha global que ocorreu em 18 de novembro de 2025. O incidente, que durou horas, deixou inacessíveis ou instáveis serviços amplamente utilizados no Brasil e no mundo, como X (antigo Twitter), ChatGPT e Spotify. A empresa confirmou que o problema não foi um ciberataque, mas sim um erro interno desencadeado por uma atualização de software.

O apagão da internet, que gerou transtornos para milhões de usuários e empresas, foi rastreado a um bug na lógica de geração de um arquivo de configuração crucial para o sistema de Bot Management da Cloudflare. A complexidade da falha reside na interação inesperada entre um sistema de banco de dados e um limite de memória pré-alocado.

Como um bug no Bot Management causou o apagão da internet?

O cerne do problema está em uma mudança implementada no sistema de banco de dados ClickHouse da Cloudflare. Este sistema é responsável por gerar um arquivo de configuração que alimenta o módulo de Bot Management, um recurso essencial para proteger sites contra tráfego malicioso. A alteração, destinada a melhorar a segurança e a confiabilidade das consultas distribuídas, teve um efeito colateral catastrófico.

A mudança fez com que uma consulta interna, que antes retornava uma lista de colunas de um único banco de dados, passasse a retornar colunas de dois bancos de dados diferentes. Isso resultou na duplicação acidental de dados no arquivo de configuração do Bot Management, mais que dobrando seu tamanho.

“O software [Bot Management] tinha um limite no tamanho do arquivo de recursos que era inferior ao seu tamanho duplicado. Isso fez com que o software falhasse.” – Trecho do post-mortem oficial da Cloudflare.

O módulo de Bot Management, escrito em Rust (FL2), possui um limite de 200 “features” (recursos) para pré-alocação de memória, uma otimização de performance. Quando o novo arquivo, com mais de 200 features duplicadas, foi propagado para os servidores, o sistema atingiu esse limite. O resultado foi um erro não tratado, conhecido como `panic`, que derrubou o serviço e gerou os temidos erros HTTP 5xx para os usuários.

Quais serviços foram afetados pela falha da Cloudflare no Brasil?

A Cloudflare atua como uma camada de proteção e aceleração para uma vasta porção da internet. Quando seus serviços falham, o impacto é sentido globalmente, inclusive no Brasil. Durante o incidente de 18 de novembro, diversos serviços de grande relevância para o público brasileiro foram afetados. A lista inclui plataformas de mídia social, ferramentas de inteligência artificial e serviços de streaming.

  • Redes Sociais: O X (antigo Twitter) e outras plataformas que utilizam a infraestrutura da Cloudflare ficaram inacessíveis ou apresentaram lentidão extrema.
  • Inteligência Artificial: Serviços como o ChatGPT, da OpenAI, e outras ferramentas de IA que dependem da rede de entrega de conteúdo (CDN) da empresa também foram impactados.
  • E-commerce e Streaming: Embora a Cloudflare não tenha listado todos os clientes, a natureza da falha sugere que inúmeros sites de e-commerce, notícias e streaming sofreram interrupções.

Quando a Cloudflare corrigiu o problema e quais são as medidas futuras?

A falha começou por volta das 11h20 UTC (8h20 no horário de Brasília) e o tráfego começou a ser restaurado gradualmente após a identificação e reversão da mudança no ClickHouse. A normalização total dos serviços ocorreu horas depois, após a propagação das correções por toda a rede global da empresa. A Cloudflare agiu rapidamente para reverter a alteração que desencadeou a crise e implementou medidas de contenção para evitar a repetição do erro.

Entre as ações corretivas anunciadas, a empresa se comprometeu a aumentar o limite de features no módulo de Bot Management e a implementar testes de integração mais rigorosos. Além disso, a Cloudflare planeja aprimorar seus sistemas de isolamento de falhas para que um erro em um único módulo não cause um colapso em toda a rede. Este incidente serve como um lembrete da crescente dependência da internet em relação a poucas empresas de infraestrutura, como a Cloudflare, e da necessidade de resiliência e redundância.

Para entender melhor a importância da Cloudflare no cenário digital, confira nosso artigo sobre o que é CDN e como ela acelera a internet.

A fonte primária para esta notícia é o post-mortem oficial da empresa [1], complementado por reportagens de veículos como o Canaltech [2] e The Verge [3].

Referências:

[1] Cloudflare. Cloudflare outage on November 18, 2025. Disponível em: https://blog.cloudflare.com/18-november-2025-outage/

[2] Canaltech. Cloudflare explica os motivos da falha que impediu acesso a X, ChatGPT e outros. Disponível em: https://canaltech.com.br/apps/cloudflare-explica-os-motivos-da-falha-que-impediu-acesso-a-x-chatgpt-e-outros/

[3] The Verge. Cloudflare explains Tuesday’s outage that temporarily took down ChatGPT. Disponível em: https://www.theverge.com/news/823711/cloudflare-outage-postmortem