neprihlásený Pondelok, 24. novembra 2025, dnes má meniny Emília
Cloudflare detailne vysvetlila technické príčiny rozsiahleho výpadku

Značky: web

DSL.sk, 19.11.2025


Populárna služba Cloudflare, ktorej včerajší rozsiahly výpadok spôsobil výpadok mnohých webov a služieb, detailne technicky vysvetlila príčiny tohto výpadku.

Služba tak spravila v tomto popise.

Cloudflare je populárnou službou typu CDN, Content Delivery Network, pre distribuované doručovanie obsahu a webov a ochranu proti DDoS útokom.

U webov používajúcich Cloudflare je každá načítavaná stránka z prehliadača alebo aplikácie užívateľa načítavaná z proxy serverov Cloudflare aplikujúcich rozličné ochrany. V utorok problémy spôsobovala ochrana proti botom, proxy servery Cloudflare tak vracali chyby namiesto zobrazovania stránok.

Primárnou príčinou problémov bola zmena v konfigurácii oprávnení distribuovanej databázy ClickHouse, ktorú Cloudflare uskutočnila včera 18. novembra o 12:05 nášho času. Zmena mala ale neočakávané dopady na SQL dotaz, ktorý sa používa ku generovaniu konfiguračného súboru pre funkčnosť ochrany proti botom. Po tejto zmene sa vo výsledkoch SQL dotazu a v konfiguračnom súbore rovnaké dáta nachádzali dvakrát, prišlo tak k zdvojnásobeniu veľkosti konfiguračného súboru.

Komponenty na proxy serveroch majú ale nastavené rozličné limity, aby neprišlo k vyčerpaniu zdrojov. Funkčnosť ochrany proti botom má okrem iného nastavený limit na maximálnu veľkosť konfiguračného súboru, pričom po zdvojnásobení jeho veľkosti prišlo k prekročeniu limitu.

To následne spôsobilo problémy funkčnosti ochrany proti botom. Presné prejavy záviseli na verzii proxy serverov používanej pre jednotlivé weby, keď Cloudflare je vo fáze nasadzovania novej verzie proxy označenej FL2. V prípade zákazníkov používajúcich už verziu FL2 proxy vracali HTTP chyby 5xx. V prípade zákazníkov používajúcich predchádzajúcu verziu FL proxy nevracali tieto chyby, každá HTTP požiadavka dostala ale bot skóre nula a v závislosti na nastaveniach zákazníka mohla byť zablokovaná.

Nové databázové oprávnenia sa nasadzovali postupne na jednotlivé uzly databázového klastra, pričom nový konfiguračný súbor pre ochranu proti botom sa generuje každých 5 minút. Problémy na proxy serveroch Cloudflare sa prvýkrát prejavili o 12:20.

Ešte pomerne dlho po začiatku problémov, kým nové databázové oprávnenia neboli na všetkých uzloch, bol niekedy konfiguračný súbor vygenerovaný na uzle s doterajšími oprávneniami a nespôsoboval problém. V niektorých časoch tak na krátko problémy prestali, podľa grafu od približne 14:00 už ale začali byť trvalé.

Aj vzhľadom na toto správanie spoločnosti trvalo relatívne dlho identifikovať príčinu a za možnú príčinu najskôr považovala aj možný DDoS útok. Podľa zverejneného harmonogramu od 14:37 si bola istá, že problémy spôsobuje konfiguračný súbor ochrany proti botom. O 15:24 zastavila automatické nasadzovanie problematického nového konfiguračného súboru a funkčnosť proxy serverov bola obnovená o 15:30. Problémy mali dopady ale aj na rozličné ďalšie služby Cloudflare a podľa spoločnosti všetky služby boli obnovené o 18:06.



Najnovšie články:

Google zmenil postoj, v Chrome bude podporovať JPEG XL
Prvé výpadky elektriny kvôli snehu postihli tisícky domácností
Uvedený externý SSD s podporou fyzického zničenia dát pre vyššiu bezpečnosť
SpaceX vybuchla pri testovaní raketa Starship
HP a Dell na svojich PC zakázali hardvérovú akceleráciu H.265
Slovenská sporiteľňa bude mať opäť v noci odstávku
Android začal podporovať zdieľanie súborov cez AirDrop, bez spolupráce s Apple
Vydaná nová verzia štandardu Matter pre smart home, podporuje nové typy zariadení
Mesiac bol dnes najďalej od Zeme na dlhú dobu
V okrese Komárno majú pribudnúť dve veterné a dve solárne elektrárne


Diskusia:
                               
 

to bolo jasne
Odpovedať Známka: 7.5 Hodnotiť:
 

uvidíme, ako Wedos...
Odpovedať Známka: 10.0 Hodnotiť:
 

nie je sql kvéry ako sql kvéry
Odpovedať Hodnotiť:
 

Podla mna to aj tak bol problem v DNS a tymto len zahmlievaju pravdu!
Odpovedať Hodnotiť:
 

Cloudflare vraj „nečelil útoku“ — len ich sieť položila vlastná neschopnosť spracovať trochu väčší súbor. Jedna zmena oprávnení, databáza vypľuje obézny config, polovica clustru vyrobí blud, druhá polovica sa snaží tváriť normálne, všetko sa prepíše, rozsype, ožije, znova umrie… a admini medzitým naháňajú neexistujúci DDoS. Na konci to opravili ručným nahratím starej verzie a reštartom proxy — globálny gigant zachránený metódou „vypnúť a zapnúť“. World-class service!
Odpovedať Známka: 0.0 Hodnotiť:
 

takze vy sudruhu by ste to urobili lepsie hej?

"vlastná neschopnosť spracovať trochu väčší súbor"

vie tvoj postihnuty mozocek pochopit ze v tak velkom a zloziotom prostredi je sto miest kde je mrte vela veci nastavenych a kde sa to moze zdrbat?

to ked sa v konfigu primitivne pomylim a dam niekde jednu lavu zatvorku navyse a ze to proste nejde - tak tomu sa cudovat uz vobec netreba
Odpovedať Známka: -2.9 Hodnotiť:
 

nechcem sa tu nikoho zastavat, ale prave koli tomuto existuje tzv. testovacie prostredie, kde prave vo velkych korporatoch, t.j. firmach s globalnym dosahom, maju pred nasadenim zmien, byt tieto zmeny otestovane a zodpovednym pracovnikom skontrolovane (cize nie programatorom, alebo adminom, ktory tu zmenu vytvoril) a az nasledne aplikovane.
Rovnako do ticket systemu sa uvedena zmena musi hned aj zaznamenat. Nasledne ak sa stane nieco takeho ako sa stalo, krizovy riesitel ma pozriet ticket system co bolo posledne zmenene a postupovat analyticky vylucovacim procesom ku spravnemu vyrieseniu, pricom samozrejme aj vydava paralelne barlicky pre zabezpecenie znovufunkcnosti (ddos eliminacia napr.).
O tomto je realne ta nadnesena kyberneticka bezpecnost, nie o kavickovani a vysokom plate.
Odpovedať Známka: 4.3 Hodnotiť:
 

Je mozne, ze im ten vypadok sposobil aj nefunkcnost ticketovacieho systemu, tak nemali zaznam o tom, kde hladat chybu, a co lepsie mohli urobit, ako ist na kavicku, pri vysokom plate. :o)
Odpovedať Známka: 0.0 Hodnotiť:
 

Nominujem na hlasku roka 2025.
Odpovedať Hodnotiť:
 

kristepane na nebesiach !!!!! dalsi hurvinek !

NIKDY, NIKDE NIE JE TEST ENV ABSOLUUUUUTNE 1:1 ako PROD !!!

ani co sa tyka druhu userov, ani co sa tyka poctu userov (pouzivatelska zakladna), ani co sa tyka priepustnosti, ani co sa tyka mnozstva a druhu dat, ani co sa tyka samotnej infrastruktury (robustnost, topologia), ani co sa tyka obsluzneho ansablu (naponenia na ine systemy, siet, bckup ... atd), napr. ani co sa tyka certifikatov (root, CA, cely trust-chain) ... ani co sa tyka dalsich 10 veci ...

PRETOZE: aby tomu tak bolo, museli by sme mat defacto DVE UPLNE ROVNOCENNE PROD prostredia
Odpovedať Známka: -6.0 Hodnotiť:
 

Blablabla. A nieco k veci? Ved ma pravdu.
Odpovedať Hodnotiť:
 

Nebudem ti to hlbsie vysvetlovat, lebo zjavne mas cervene sukno pred ocami, ale poviem ti len tolko, ze nase testovacie prostredie bolo vzdy vytvorene zo snapshotu produkcneho s naslednym anonymizovanim dat a upravou nevyhnutnych konf.udajov automatickym skriptom, takze nasledne zmeny boli prakticky ako pri produkcnom systeme a dalo sa vyhodnotit celkove spravanie, atd.. Po ukonceni testovania a nasadenia do produkcie sa testovacie prostredie zmazalo.
Su ludia ktori hladaju vyhovorky a ludia, ktori hladaju sposoby a riesenia. Ty patris do tej prvej skupiny, ja do tej druhej. Nevadi, pre oboch svieti slnko rovnako, neplac.
Odpovedať Známka: -3.3 Hodnotiť:
 

Ani netusis ze porovnavas nieco co je o niekolko skal zlozitostou inde.
Odpovedať Hodnotiť:
 

Ok, urobim snapshot, anonymizujem data - a tu je prvy problem, co ak po anonymizovani ten konfigurak mal mensiu velkost, ako s produkcnymi udajmi. A teda sa do toho limitu vosiel a chyba sa v teste neprejavila. Takze zase sme pri tom, ze ani to ti neodhali 100% problemov v test prostredi.
Odpovedať Hodnotiť:
 

Niekto hlada chyby, niekto riesenia.
Ako ovplyvnia data velkost konfiguraku? Ci tebe stierac ovplyvni mnozstvo benzinu v nadrzi?
System sa testuje na oblasti, ktore zmena ma predpokladane zasiahnut. Ak teda nieco robis v casti, kde vyhodnocuje utoky a pracuje s DB, tak kontrolu robis nad touto castou a nie nad vsetkym nesuvisiacim balastom naokolo. A prave tato cast evidentne zlyhala u nich.
Odpovedať Hodnotiť:
 

nevadi, aspon bol klud
Odpovedať Známka: 2.0 Hodnotiť:
 

ani ne :D
Odpovedať Hodnotiť:
 

Iba hlupák nasadzuje takéto technológie. Ako keď vypadla polovica internetu, pretože nefungovali Google fonty.
Odpovedať Známka: 3.8 Hodnotiť:
 

Tak porad rovnaku sluzbu s lepsim uptimom nam blbym.
Odpovedať Známka: -6.7 Hodnotiť:
 

lokalne fonty?
Odpovedať Známka: 10.0 Hodnotiť:
 

tak ale to by sa programator zapotil, ak by toto mal nasadit, local font...
Odpovedať Známka: 3.3 Hodnotiť:
 

Stiahnem fonty, dam na svoj server. To iste javascripty a pod. sr..y
Nie som zavisly na nejakych externych sluzbach, a ked si nastavim rozumny cron, tak mi bude priebezne aktualizovat moje lokalne subory s tymi externymi. Budem mat teda aktualne verzie, ale nepadne mi stranka, ked cloud bude mat vypadok.Lenze dnesni "programatori" vedia stiahnut akurat tak wordpress, zmenit obrazky a absolutne netusia odkial a co vsetko si ta stranka stahuje.
Odpovedať Hodnotiť:
 

Tomu SQL dotazu mohli pridat "distinct" a nemali by duplicitne zaznamy. Maju poriesene aj do buducna. Teraz je uz neskoro pytat si radu.
Odpovedať Známka: 8.8 Hodnotiť:
 

niekto to tam vibe kodil a nevsimol si
Odpovedať Známka: 10.0 Hodnotiť:
 

a teraz už vedia, na koho sa majú obrátiť...
nemôžu za to, že to pred tým nevedeli.
Odpovedať Známka: 10.0 Hodnotiť:
 

Ja by som miesto distinct navrhol upravit relaciu z one to many na many to one pripadne one to one. A tym padom sa taketo skolacke chyby nemozu stat. Cloudfare by mal zacal robit hiring vo forach DSL.sk, kde si mozu odchytavat talenty.
Odpovedať Známka: 10.0 Hodnotiť:
 

Áno takéto talenty sú one too many.
Odpovedať Známka: 10.0 Hodnotiť:
 

Lenže s tým už má počítať architekt pri návrhu, nakoľko keď je SQL súčasťou mission critical taskov, tak sa dátová konzistencia rieši o úroveň nižšie architektúrou databázy, aby takéto talenty priekazne ani nemali šancu napísať priekazne drtivý select.
Odpovedať Známka: 10.0 Hodnotiť:
 

Plne suhlasim, a preto ja si vsetky SQL dotazy riesim o 3 urovne nizsie a to priamo v assembleri, tam ziadna chyba nemoze nastat. :o)
Odpovedať Známka: 10.0 Hodnotiť:
 

Pekný pokus, akurát že v assembleri netreba riešiť nič, nakoľko tam je všetko priekazne jasné.
Odpovedať Známka: 7.1 Hodnotiť:
 

Co je toto za amaterizmus IT odbornikov/architektov?
V IT systemoch musi mat vsetko zalohu, to vie predsa kazdy amater. Automaticky mal nabehnut nejaky zalozny system.
Odpovedať Známka: 2.9 Hodnotiť:
 

retarder ako ty to nepochopi
Odpovedať Známka: -5.0 Hodnotiť:
 

Retarder ako ty nikdy nepracoval so supportom z Indie. Cloudfare tam presunul skoro vsetku, takze nejaky Ashuka deployol udpate, ktory vecer zbuchal Hindurajan za pomoci ChatuGPT, Stackoverflow , Gemini Ai ... Kedze tyzden predtym predaval kokosovu vodu v Dilii, tak nemohol vediet co a ako. Podobne ako Ashuka, ktory je teraz lead software engineer, bol mesiac dozadu taxikar. Vitaj v tomto svete a vela stastia.
Odpovedať Známka: 8.8 Hodnotiť:
 

mozno robil s kravami ale podla kasty ho presunuli na iteckara
Odpovedať Známka: 3.8 Hodnotiť:
 

Ako chces spustil zalozne riesenie, ked ani len netusis pricinu? najskor predsa musis vediet, ktore riesenie mas pouzit.
Odpovedať Hodnotiť:
 

cloudbrekeke
Odpovedať Známka: 7.5 Hodnotiť:
 

Konfiguračný súbor sa generuje každých 5 minút? Tak tomu hovorím continuous deployment jak sviňa.
Odpovedať Známka: 10.0 Hodnotiť:
 

Presne tak. To má byť jednoducho cez dynamic file system priekazne stále iba aktuálna verzia.
Odpovedať Známka: 10.0 Hodnotiť:
 

Piekne :D VivaT India dev aka krava nado vsetko team
Odpovedať Hodnotiť:

Pridať komentár