Error en la rotación de credenciales causa interrupciones masivas en Cloudflare
El 21 de marzo de 2025, Cloudflare experimentó una interrupción generalizada en múltiples de sus servicios debido a un error en la rotación de credenciales. Este incidente afectó a plataformas críticas como CDN, DNS, WAF y otros productos de seguridad y rendimiento, generando impactos significativos en la disponibilidad de servicios para miles de clientes.
Causa técnica del incidente
Según el análisis posterior de Cloudflare, el problema se originó durante un proceso de rotación automatizado de certificados y claves de autenticación. La rotación de credenciales es una práctica esencial en ciberseguridad para mitigar riesgos como el compromiso de credenciales estáticas. Sin embargo, en este caso, un fallo en la sincronización entre sistemas internos provocó que las nuevas credenciales no se propagaran correctamente a todos los nodos de la red.
- Fallo en la distribución de certificados TLS/SSL actualizados
- Inconsistencias en las tablas de enrutamiento interno
- Problemas de sincronización en el sistema global de configuración
Impacto y respuesta
La interrupción duró aproximadamente 45 minutos y afectó principalmente a:
- Servicios de proxy inverso
- Funcionalidades de mitigación DDoS
- Acceso a APIs gestionadas
- Sistemas de balanceo de carga
El equipo de ingeniería de Cloudflare implementó un rollback parcial de las credenciales mientras resolvían los problemas de sincronización. Posteriormente, aplicaron la rotación en fases controladas con monitoreo intensivo.
Lecciones aprendidas y mejoras implementadas
Como resultado del incidente, Cloudflare anunció varias mejoras técnicas:
- Implementación de verificaciones adicionales en el pipeline de despliegue de credenciales
- Mayor granularidad en los sistemas de canary deployment
- Mejoras en los mecanismos de rollback automático
- Adopción de protocolos de consenso distribuido para cambios críticos
Este incidente destaca la importancia crítica de los procesos de gestión de identidad y acceso (IAM) en infraestructuras distribuidas a gran escala, así como la necesidad de diseñar sistemas tolerantes a fallos en operaciones rutinarias de mantenimiento de seguridad.