Cloudflare a résolu une panne majeure qui a brièvement perturbé une grande partie d’Internet mardi, mettant temporairement hors ligne les principaux sites Web et provoquant de nombreux messages « 500 erreurs de serveur interne ».
La perturbation a commencé tôt dans la journée, lorsque Cloudflare a reconnu des problèmes de disponibilité affectant son portail d’assistance. En moins de 30 minutes, l’entreprise a averti que son réseau mondial – une infrastructure massive couvrant plus de 330 villes et plus de 120 pays – connaissait des pannes généralisées.
“Cloudflare est conscient et enquête sur un problème qui affecte plusieurs clients : erreurs 500 généralisées, échec du tableau de bord et de l’API Cloudflare. Nous nous efforçons de comprendre l’impact total et d’atténuer ce problème. D’autres mises à jour suivront sous peu”, a déclaré la société.
Le réseau fournit des services de diffusion de contenu, de protection DDoS et de performance via plus de 449 Tbit/s de capacité périphérique mondiale et des liens directs vers plus de 13 000 réseaux, y compris les principaux FAI, fournisseurs de cloud, entreprises et plateformes en ligne.
Même les plates-formes qui ne sont pas directement hébergées sur Cloudflare ont connu des pics massifs de rapports d’erreurs, telles que Spotify, Twitter, OpenAI, AWS, League of Legends et Google, ce qui suggère que les principaux services ont été impactés directement ou indirectement via l’infrastructure dépendante de Cloudflare.
Une mise à jour de routine rencontre un bug caché
Dane Knecht, directeur de la technologie (CTO) de Cloudflare, a rapidement abordé la panne de manière directe et inhabituellement franche. déclaration sur X (anciennement Twitter). Il s’est excusé et a expliqué ce qui n’allait pas.
“Je ne mâcherai pas mes mots : plus tôt dans la journée, nous avons laissé tomber nos clients et l’Internet en général lorsqu’un problème dans le réseau @Cloudflare a affecté de grandes quantités de trafic qui dépendent de nous. Les sites, les entreprises et les organisations qui dépendent de Cloudflare dépendent de notre disponibilité et je m’excuse pour l’impact que nous avons causé”, a écrit Knecht.
“La transparence sur ce qui s’est passé est importante, et nous prévoyons de partager une analyse plus détaillée dans quelques heures. En bref, un bug latent dans un service qui sous-tend notre capacité d’atténuation des robots a commencé à planter après un changement de configuration de routine que nous avons effectué. Cela s’est traduit par une large dégradation de notre réseau et d’autres services. Ce n’était pas une attaque. “
Étapes de récupération
Le réseau de Cloudflare a commencé à connaître des échecs importants dans la fourniture du trafic du réseau principal à 11h28 UTC. À 11h31 UTC, le premier test automatisé a détecté le problème et l’enquête manuelle a commencé à 11h32 UTC. L’appel d’incident a été créé à 11h35 UTC. À 14h30 UTC, l’impact principal a été résolu et les services concernés en aval ont commencé à observer une réduction des erreurs.
Alors que les ingénieurs poursuivaient leurs efforts de remédiation, l’entreprise a reconnu que les outils d’analyse, de journaux et de tableaux de bord continuaient à connaître des retards dans l’après-midi. Enfin, à 17h06 UTC – six heures après le début de la panne – Cloudflare a annoncé que tous les services en aval avaient redémarré et que toutes les opérations avaient été entièrement restaurées.
“Les services Cloudflare fonctionnent actuellement normalement. Nous n’observons plus d’erreurs ou de latence élevées sur le réseau”, a confirmé la société.
“Nos équipes d’ingénierie continuent de surveiller de près la plate-forme et de mener une enquête plus approfondie sur la perturbation antérieure, mais aucune modification de configuration n’est apportée pour le moment.”
Knecht a souligné que Cloudflare étudiait comment une telle erreur latente n’était pas détectée et travaillait sur des améliorations à long terme pour éviter des problèmes similaires.
« La confiance que nos clients nous accordent est ce que nous apprécions le plus », a-t-il déclaré. “Nous allons faire ce qu’il faut pour récupérer cela.”
Un schéma croissant de pannes d’infrastructures
Cette dernière perturbation s’inscrit dans une tendance inquiétante pour l’épine dorsale d’Internet. Plus tôt cette année, Cloudflare a fait face à une panne en juin qui a paralysé le trafic Zero Trust WARP, suivie d’un problème DNS majeur en octobre qui a détruit des millions de sites Web hébergés par AWS.
Et le problème ne se limite pas à Cloudflare. Le mois dernier, AWS et Azure ont également subi des pannes majeures, rappelant aux utilisateurs que les plus grands fournisseurs de cloud, malgré leur taille, restent loin d’être infaillibles.
Ensemble, ces incidents révèlent une vérité inconfortable sur l’Internet d’aujourd’hui : même une erreur interne mineure au sein d’un fournisseur de réseau fédérateur comme Cloudflare peut avoir des conséquences mondiales.

