neprihlásený Piatok, 2. decembra 2022, dnes má meniny Bibiána
Dlhé výpadky veľkého webhostingu spôsobil zrejme problematický procesor Atom C2000

Značky: SlovenskoIntelAtomCPU

DSL.sk, 22.11.2022


Veľký výpadok jedného z najväčších slovenských webhostingov Webglobe - Yegon pred dvomi týždňami zrejme spôsobil problematický procesor Intel Atom C2000.

Spoločnosť to avizovala v detailnom vysvetlení príčin výpadku pre DSL.sk.

Ako sme informovali v tomto článku, pred dvomi týždňami v pondelok 7. novembra približne o 17. hodine začal veľký výpadok služieb Webglobe - Yegon. Webglobe - Yegon je druhým najväčším registrátorom slovenských .sk domén a zrejme tak aj druhým najväčším webhostingom, nefungovalo tak množstvo slovenských webov.

Podľa stanoviska spoločnosti bola väčšina služieb sfunkčnená do 18:30, niektoré weby a služby nefungovali ani pred 20. hodinou a podľa stanoviska sa niektoré VPS servery podarilo spoločnosti stabilizovať až pred 22. hodinou.

Následne v sobotu tohto istého týždňa sa výpadok zopakoval, začal v sobotu neskoro večer a vyriešenie problémov spoločnosť avizovala až v nedeľu ráno.

Spoločnosť pre DSL.sk pomerne detailne vysvetlila výpadok aj predpokladanú príčinu. V jednom z dátových centier využívaných spoločnosťou v Bratislave vypadol v pondelok 7. novembra jeden z dvojice core prepínačov, cez ktoré je zabezpečovaná konektivita celej infraštruktúry spoločnosti v tomto dátovom centre. Spoločnosť má redundantné riešenie a pri výpadku jedného core prepínača by nemalo prísť k problémom. Prepínač podľa stanoviska ale prešiel do stavu, v ktorom bez ohľadu na konfiguráciu routoval dátovú prevádzku do všetkých sietí a spôsobil podobný problém ako broadcast storm.

Problém samotného prepínača sa odstránil jeho reštartom. Spoločnosť ale využíva rozličné klastrové riešenia pre zabezpečenie vysokej dostupnosti vrátane distribuovaného súborového systému Ceph a virtualizačných platforiem VMware a Proxmox, medzi uzlami ktorých počas problémov nefungovala komunikácia. Následne tak prebiehala synchronizácia klastrových riešení obmedzená rýchlosťou diskov, čo spôsobilo výrazné predĺženie výpadkov.

Dáta zákazníkov neboli podľa spoločnosti nijako ohrozené, nevznikli nijaké nekonzistencie a neprišlo k strate dát.

Spoločnosť po prvom výpadku ale nezistila príčinu problémov core prepínača. "Po prvom výpadku sme vzhľadom na veľmi neštandardnú situáciu zapojili do riešenia aj externého dodávateľa špecializujúceho sa na sieťovu infraštruktúru. Po audite konfigurácie sme nenašli žiadnu príčinu, ktorá by nasvedčovala podobnému správaniu. Nasadili sme dodatočné logovanie a sledovanie aktivity," uviedol pre DSL.sk Matúš Kosa, CTO spoločnosti.

V sobotu prišlo k výpadku ale opäť, tentokrát s rovnakými prejavmi vypadol druhý core prepínač. V čase výpadku mal podobný uptime ako prvý core prepínač v čase jeho výpadku.

"Po ďalšom výpadku v sobotu a analýze logov sa dá tento problém s najväčšou pravdepodobnosťou prisúdiť CPU použitým v týchto zariadeniach Intel Atom z radu C2000, pri ktorých sa môže vyskytovať istá degradácia časom," uviedol Kosa.

Spoločnosť to ale nevie na 100% potvrdiť, podľa svojho stanoviska ale vylúčila všetky ostatné možnosti.

Problémy so špecializovanými procesormi Intel Atom C2000 pre servery a rozličné sieťové a úložné systémy sú dlhodobo známe, v minulosti na ne upozorňovali Intel aj napríklad výrobcovia rozličných sieťových zariadení. Kvôli degradácii môže prísť k problémom s časovacím signálom v rozhraní LPC, Low Pin Count, a to môže podľa upozornení z predchádzajúcich rokov viesť k nenabootovaniu systému alebo vypnutiu sa procesora.

Podľa informácií dodávateľa pre Webglobe - Yegon existujú ale aj prípady, kedy prepínače s týmto CPU rovnako ako v prípade týchto výpadkov prestali routovať a posielali dátovú prevádzku do všetkých VLAN. Spoločnosť preto pristúpila k výmene týchto core prepínačov.

Spoločnosť mala následne problémy aj minulý týždeň. Tieto boli už ale spôsobené inou príčinou, intenzívnymi DDoS útokmi.


      Zdieľaj na Twitteri



Najnovšie články:

Súd schválil odškodnenie zákazníkov MacBookov s problematickou klávesnicou
Orion dnes opustí orbitu Mesiaca a začne sa vracať na Zem
Doterajšie eID sa budú dať na podpis používať asi iba pol roka, podpora bude zrejme slabá
Stanica Trojka skončila
Smartfóny komunikujúce aj cez satelity budú bežnejšie, ďalší avizovaný na prvý štvrťrok
Smartfóny s novým ochranným sklom Gorilla majú prežiť pád na betón
UPC vo vianočnej akcii sprístupní všetkým zákazníkom 45 staníc
Let's Encrypt vydala tri miliardy SSL / TLS certifikátov
Nový satelit rozložil veľkú anténu pre mobilnú sieť z vesmíru, astronómovia protestujú
Skylink cez Vianoce sprístupní všetkým zákazníkom päť staníc


Diskusia:
                               
 

Všetky Webglobe služby (pozorujem napr. u českého Ignumu) majú DDoS, alebo problém s routermi zjavne naďalej. Prejavuje sa krátkymi úplnými výpadkami konektivity, ktoré v NIXe zaznamenajú obrovský a nezvyklý peak.
Odpovedať Známka: 10.0 Hodnotiť:
 

Akoze nic v zlom, ale DDoS je last resort Sysadminov... Ak higher-ups nevedia wo-co-go a zamietli niekolko tisic mesacne za skutocne fungujuce (staly BGP masking) anti DDoS riesenia, tak to vytiahnu ako zolika ked sa to prave hodi.
Odpovedať Známka: 10.0 Hodnotiť:
 

Otázne ale je, či, že zamietli niekolko tisic mesacne, nie je lepšie, ako že sa priekazne odmietajú vzdať žolíkovej vyhovorky.
Odpovedať Známka: 0.0 Hodnotiť:
 

Vážení zákazníci,

vzhľadom na nedávne výpadky musel byť pre Vás minulý týždeň veľmi náročný. Dovoľte mi, aby som sa Vám na úvod čo najúprimnejšie ospravedlnil a ubezpečil Vás, že robíme všetko pre to, aby sme Vám poskytli služby na takej úrovni kvality a bezpečnosti, akú si zaslúžite.

Zažili sme najväčšiu sériu DDoS kyberútokov v histórii našej spoločnosti (viac ako 200 Gb/s – priemerný útok má intenzitu okolo 5 Gb/s). Útoky boli také silné a agresívne, že nás nedokázali v plnej miere ochrániť ani najväčší poskytovatelia pripojenia.

Odvtedy naši technici nepretržite pracujú, aby minimalizovali akékoľvek narušenie našich služieb. V spolupráci s veľkými poskytovateľmi pripojenia(napr. T-Mobile či Swan) sme nasadili masívne ochranné opatrenia na odvrátenie nových útokov. Vzhľadom na rozsah útokov je to skutočná výzva, ale budeme bojovať ďalej, aby sme Vás ochránili.

...

Za Webglobe,
Giacomo Tognoni
Odpovedať Známka: 10.0 Hodnotiť:
 

a teraz si predstavte tú paseku, ktorú narobí 16 atom-like "e-cores" v desktope
Odpovedať Známka: 3.3 Hodnotiť:
 

A skus si aj predstavit, aky velky je rozdiel medzi jadrom a procesorom.
Odpovedať Známka: 10.0 Hodnotiť:
 

Predstavil som si.
Odpovedať Známka: 10.0 Hodnotiť:
 

Ide zrejme o pretečenie zásobníka. Mnohí to poznajú z praxe, keď sa zasekne plavák v nádržke na splachovanie a voda sa valí na zem.
Odpovedať Známka: 10.0 Hodnotiť:
 

Len dufam, ze tych co to poznaju nieje az tak mnoho, lebo aby to tieklo na zem, musia nemat zachodovu misu, do ktorej by to tieklo cez prepad...
Odpovedať Známka: 10.0 Hodnotiť:
 

Na základe predložených dôkazov si taktiež dovoľujem spochybňovať hypotézu, že sa nejedná o plienkovú alegóriu a voda má s tým priekazne niečo spoločné.
Odpovedať Známka: -3.3 Hodnotiť:
 

to je síce pravda, ale ako sme dnes zistili, zaseknutý plavák a pretekajúci záchod objavili nedokonalosť v spojoch kanalizačných rúr a následne kvapkajúca voda na sadrokartón práve na mieste svetelného zdroja odpálili istič svetelného okruhu. Kaskáda dôsledkov pretečenia je niekedy nepredvídateľná.
Odpovedať Hodnotiť:
 

A ta kaskada zacina pri preteceni, alebo tam, kde rumunsky monteri kanalizacie vybrali tesnenia, aby sa im ht-ckove rury lahsie spajali?
Odpovedať Hodnotiť:
 

Ja som teraz dopil kafe, a z cigaretovej pauzy som isiel rychlym krokom, aby mi nepretiekol zasobnim pred kabinkou WC.

Nebuduje totiz dobry image v kolektive.
Odpovedať Známka: 7.1 Hodnotiť:
 

Příčinó byla chybná elektronka E13 z našeho podniku Katoda Olomóc. Připojuje se k omluvě i naša fabrika.
Odpovedať Známka: 10.0 Hodnotiť:
 

Tam ste frajeri, zvladli ste natiahnut ciele 5-rocnice na 7 rokov.

Ja robim vo vyvoji, som ina liga. Lego s napysom 2-4 roky som zvladol poskladat za rok.

Ta technima napreduje, dnes natankujes za 20 eur skoro 2x rychlejsie ako pred dvoma rokmi.
Odpovedať Známka: 6.0 Hodnotiť:
 

Napysom s tvrdym Y, lebo rysujem v balzak-B602 tvrdou tuhou.
Odpovedať Známka: -3.3 Hodnotiť:
 

Ak spoločnosť vylúčila všetky ostatné možnosti, tak to ale na 100% potvrdzuje, takže ak to nevie na 100% potvrdiť, s najväčšou pravdepodobnosťou je možné takémuto vyjadreniu priekazne prisúdiť istú degradáciu vylučovania.
Odpovedať Známka: 0.0 Hodnotiť:
 

kazdopadne je naozaj dobre ze spolocnost komunikuje takto otvorene a dost detailne co sa stalo to sa v dnesnych casoch moc nevidi.
Odpovedať Známka: 9.4 Hodnotiť:
 

Mali si kupit switche od DELL so 4hrs mission critical supportom a nemuseli sa X dni trapit, proste by im to davno vymenili kus za kus ;)

Odpovedať Známka: -6.4 Hodnotiť:
 

To bys cumel, kdyby slo o Dell, co, internet hero? :-D
Odpovedať Známka: 2.5 Hodnotiť:
 

No pred par rokmi som ich mal v elektrarni a na request podany o 23:xx hodine mi priniesli novy kus o 2:xx hodine a to dokonca z ciech, cize v casovom limite. Tak pokial maju DELL a nezaplatili si tu zaruku/sluzbu pri ich ziskoch, je to ich problem a nie DELLu.
Odpovedať Hodnotiť:
 

No ja by som vymenu zabugovaneho switcha kus za kus nevidel ako extra vyhodu, aj keby to je do hodiny.
Odpovedať Známka: 10.0 Hodnotiť:
 

Už je to tu! Keby je, IMHO, mrte, či.
Odpovedať Známka: 3.3 Hodnotiť:
 

Na networking urcite nie Dell
Odpovedať Známka: 10.0 Hodnotiť:
 

4 hodiny a mission critical? si lobogo?

Na mission critical masiny je 1 minuta max repair/fix time, ak nie, menena kus za kus, jedno co to stoji. Onsite support 24/7. Do hodiny od problemu je ocakavana zdokumentovana pricina a fix.

To mas co za shitny servis, ze Ti staci 4 hrs support?
Odpovedať Známka: 0.9 Hodnotiť:
 

Okej, tak mas vacsieho, no :)
Odpovedať Známka: 10.0 Hodnotiť:
 

1 minuta max repair/fix time, hlavne ked to len bootuje niekolko minut :-)
Odpovedať Známka: 7.5 Hodnotiť:
 

Máš vždy jeden/dva bežiacie v zálohe, ak nevieš fixnúť, flipneš switch a beží druhý.

Mať len jedno mission critical zariadenie je mimoriadne nezodpovedné.

Odpovedať Známka: 6.0 Hodnotiť:
 

1-minútový fix platí iba u vás v krčme vo Vyšných Kokrhájoch.
Dá ti ho krčmár v podobe deci borovičky, fixne ti trasúce sa ruky.
Odpovedať Známka: -10.0 Hodnotiť:
 

O problemoch s Atomami sa vie už niekoľko rokov, prečo potom zariadenia ním vybavené už dávno nevyradili z prevádzky?
Odpovedať Známka: 3.3 Hodnotiť:
 

A co BFD - mali, nemali?
Odpovedať Hodnotiť:

Pridať komentár