Cloudflare atribuye el reciente fallo en el servicio a un error en la rotación de contraseñas.

Enigma Security 26 de marzo de 2025No hay comentarios

Error en la rotación de credenciales causa interrupciones masivas en Cloudflare

El 21 de marzo de 2025, Cloudflare experimentó una interrupción generalizada en múltiples de sus servicios debido a un error en la rotación de credenciales. Este incidente afectó a plataformas críticas como CDN, DNS, WAF y otros productos de seguridad y rendimiento, generando impactos significativos en la disponibilidad de servicios para miles de clientes.

Causa técnica del incidente

Según el análisis posterior de Cloudflare, el problema se originó durante un proceso de rotación automatizado de certificados y claves de autenticación. La rotación de credenciales es una práctica esencial en ciberseguridad para mitigar riesgos como el compromiso de credenciales estáticas. Sin embargo, en este caso, un fallo en la sincronización entre sistemas internos provocó que las nuevas credenciales no se propagaran correctamente a todos los nodos de la red.

Fallo en la distribución de certificados TLS/SSL actualizados
Inconsistencias en las tablas de enrutamiento interno
Problemas de sincronización en el sistema global de configuración

Impacto y respuesta

La interrupción duró aproximadamente 45 minutos y afectó principalmente a:

Servicios de proxy inverso
Funcionalidades de mitigación DDoS
Acceso a APIs gestionadas
Sistemas de balanceo de carga

El equipo de ingeniería de Cloudflare implementó un rollback parcial de las credenciales mientras resolvían los problemas de sincronización. Posteriormente, aplicaron la rotación en fases controladas con monitoreo intensivo.

Lecciones aprendidas y mejoras implementadas

Como resultado del incidente, Cloudflare anunció varias mejoras técnicas:

Implementación de verificaciones adicionales en el pipeline de despliegue de credenciales
Mayor granularidad en los sistemas de canary deployment
Mejoras en los mecanismos de rollback automático
Adopción de protocolos de consenso distribuido para cambios críticos

Este incidente destaca la importancia crítica de los procesos de gestión de identidad y acceso (IAM) en infraestructuras distribuidas a gran escala, así como la necesidad de diseñar sistemas tolerantes a fallos en operaciones rutinarias de mantenimiento de seguridad.

Fuente original

Enigma Security

Identity of Enigma Security

Ver todas las entradas