neprihlásený Nedeľa, 5. mája 2024, dnes má meniny Lesana
Google zverejnil nové informácie o svojich serveroch

Spoločnosť Google aktuálne na konferencii Google I/O konanej minulý týždeň zverejnila ďalšie detaily o používaných serveroch a svojej infraštruktúre, ktoré sa rovnako ako inovatívny algoritmus vyhľadávania pričinili o technologický náskok pred konkurenčnými spoločnosťami. Spoločnosť opäť potvrdila pokračujúcu stratégiu používania lacnejšieho a menej spoľahlivého hardvéru namiesto drahších značkových a spoľahlivejších systémov.

DSL.sk, 1.6.2008


Na minulotýždňovej konferencii Google I/O spoločnosť Google prostredníctvom Jeffa Deana, jedného z popredných odborníkov Google na paralelizáciu algoritmov na veľké počty serverov, zverejnila informácie o aktuálnom stave serverovej infraštruktúry spoločnosti.

Dean prezentoval niektoré skôr zverejnené informácie, zároveň pridal nové informácie. Informácie samozrejme ako v minulosti nie sú kompletnými informáciami o infraštruktúre Google a napríklad nie je z nich možné vypočítať počet serverov, potvrdzujú ale pokračujúcu stratégiu používania lacnejšieho a menej spoľahlivého hardvéru.

Spoľahlivosť je dosahovaná u Google softvérovo, použitím distribuovaného súborového systému Google File System, vlastnej implementácie distribuovanej databázy BigTable a plne paralelizovateľným algoritmom MapReduce.

Hardvér

V súčasnosti má Google v jednom racku zvyčajne 40 serverov. Podľa správy Deana publikovanej v marci 2003 to bolo v tom čase 40 alebo 80 serverov, rack bol vtedy osadzovaný z dvoch strán 1U alebo 2U servermi. Jednotlivé servery nemajú podobne ako v minulosti vlastné skrinky, oddelené od voľného priestoru sú skrinkou racku.

Základné dosky vyrába pre Google v súčasnosti Intel, počet procesorov na doske nie je známy. Podľa Deana sú používané procesory s čo najväčším počtom jadier, ktoré dokáže Google vďaka veľkej paralelizácii efektívne využiť. "Výkon jedného threadu nie je pre nás prakticky vôbec dôležitý. Máme skutočne veľmi radi multijadrové servery," povedal Dean.

Vzhľadom na dosky od Intelu je vysoko pravdepodobné používanie Xeonov, štvorjadrové procesory sú navyše v ponuke Intelu výrazne dlhšie ako v ponuke AMD. Podľa informácií Ursa Hölzla, ďalšieho popredného inžiniera Google, z roku 2006 v tom čase Google používal najmä Opterony.

Viacero rackov tvorí cluster, v ktorom servery navzájom intenzívne komunikujú. Cluster zvyčajne dostáva samostatné úlohy nezávislé na ostatných clusteroch.

V súčasnosti má podľa Deana cluster minimálne 1 800 serverov, čo by predstavovalo pri 40 serveroch na rack 45 rackov. V jednom dátovom centre sa tak nachádza viacero clusterov, keď dátové centrá majú typicky desiatky tisíc serverov, najväčšie aj viac. V roku 2003 mal vyhľadávací cluster, ktorý mal kompletnú kópiu indexu, viac ako 15 tisíc počítačov. V tom čase Google používal často desktopové procesory Celeron a Pentium III.

V súčasnosti Google používa dva základné typy serverov. Jeden typ je orientovaný na diskový priestor, druhý má menej diskového priestoru. V roku 2003 aj podľa minuloročnej správy Google o kazení sa pevných diskov používa len PATA a SATA disky, nie SCSI prípadne SAS disky. Disky sú priamo súčasťou jednotlivých serverov, Google nepoužíva veľké diskové polia.

Najviac hardvérových výpadkov je zaznamenávaných v prvom roku od zostavenia nového clustera. Dean uviedol aj počet porúch, nespresnil ale clustera s akým počtom serverov sa týkajú uvádzané počty.

V prvom roku typicky príde k nejakým zlyhaniam až u tisícky serverov, pokazí sa niekoľko tisícov pevných diskov. Zvyčajne sa pokazí dvadsať samotných rackov, ktoré zabezpečujú sieťové pripojenie a napájanie serverov v nich umiestnených, päť rackov zaznamená sieťové problémy so stratovosťou paketov na úrovni až do 50%.

Zvyčajne sa v prvom roku existencie clustera pokazí jedna jednotka zabezpečujúca napájanie 500 až 1 000 serverov. S 50% pravdepodobnosťou príde k prehriatiu clustera, ktoré spôsobí vypnutie väčšiny serverov v rozpätí piatich minút. Opätovné rozbehnutie clustera trvá zvyčajne deň až dva dni.

Softvér

Základným používaným softvérom na úrovni infraštruktúry je distribuovaný súborový systém GFS, distribuovaná databáza BigTable a podpora plne paralelizovateľného univerzálneho algoritmu MapReduce.

V súčasnosti je GFS nasadený na viac ako 200 clusteroch, vo viacerých prípadoch má kapacitu v petabajtoch. Google nemá jeden globálny súborový systém, na jednotlivých clusteroch respektíve viacerých clusteroch v spoločnom dátovom centre sa nachádzajú kópie rovnakých dát.

Podľa Deana ale Google pripravuje novú generáciu softvéru, ktorá bude pracovať distribuovane nie na jednotlivých clusteroch ale na veľkej časti všetkých serverov Google.

GFS ukladá dáta po blokoch veľkosti zvyčajne 64 MB, uložené sú minimálne na troch rozličných serveroch.

Kým podľa správy z konca roku 2006 mala najväčšia databáza uložená v BigTable, jedna časť hlavného vyhľadávacieho indexu, 800 TB, v súčasnosti má najväčšia BigTable databáza už 6 petabajtov.

Kým na generovanie webových stránok a iné rýchle operácie Google používa samozrejme špecializovaný softvér, na iné výpočty a operácie v pozadí, napríklad na aktualizáciu indexu a vytváranie databáz štatistikých jazykových prekladačov, používa univerzálny algoritmus MapReduce.

MapReduce je jednoduchý základný algoritmus, ktorý dovoľuje jednoduchým princípom s definovanou mapovacou a redukčnou funkciou spracovávať efektívne paralelne veľké množstvo dát.

Odolnosť voči zlyhaniu jednotlivých serverov je zabezpečovaná ako na úrovni GFS tak na úrovni MapReduce. Riadiace uzly v prípade zlyhania jednotlivých serverov zabezpečujúcich uloženie dát v GFS zvýšia množstvo kópií dát prekopírovaním dát na ďalšie servery, podobne u MapReduce pri zlyhaní pri vykonávaní úlohy riadiace uzly poveria rovnakou čiastkovou úlohou iné servery.


Video z prezentácie Deana zatiaľ nie je k dispozícii, informácie ním prezentované ale zhrnul Cnet. Informácie o serveroch spoločnosti prezentované v roku 2006 Ursom Hölzleom sme priniesli v tomto článku, spoločnú správu Deana a Hölzla z roku 2003 o podobe vyhľadávacieho clustera z tohto obdobia je možné sťahovať tu (PDF). Informácie o miere spoľahlivosti diskov sme priniesli na základe správy Google v tomto článku.

O množstve dát spracovávaných MapReduce a o veľkosti databáz v BigTable sme na základe správ Deana informovali v tomto a tomto článku.


      Zdieľaj na Twitteri


Máte väčšie obavy z potenciálneho zneužívania monopolného postavenia spoločnosťou Google, ak takéto postavenie v nejakých oblastiach získa, alebo z potenciálneho využívania zozbieraných dát spoločnosťou Google takým spôsobom, že toto používanie bude mať znaky porušovania ochrany súkromia? (hlasov: 804)

Zo zneužívania monopolného postavenia      16%
Z porušovania ochrany súkromia      36%
Nemám obavy ani z jedného      48%


Najnovšie články:

Prvý let vesmírneho Boeingu sa zrejme konečne uskutoční o tri dni
Spotify zrejme pripravuje uvedenie bezstratovej kvality audia
Seriál Fallout podľa počítačovej hry si za 2 týždne pozrelo 65 miliónov ľudí
Železnice opäť aktualizujú systémy, v noci na nedeľu nebude fungovať internetový predaj lístkov
Satelit so solárnou plachtou je úspešne na orbite


inzercia



Diskusia:
                               
 

wow tolko pocitacov musia bit riadni fuskari
Odpovedať Známka: -8.2 Hodnotiť:
 

si evidentne jeden z prvych ludi, co by napisali byt s i, gratulujem :).
Odpovedať Známka: 7.2 Hodnotiť:
 

Takych je....
Odpovedať Známka: 0.0 Hodnotiť:
 

Ďakujem za cluster popr. v budúcnosti clustre.

Poprosím viacjadrový namiesto multijadrový.

Vopred ďakujem.

Odpovedať Známka: 2.5 Hodnotiť:
 

mam ff3 ,a nefunguje mi funkcia crl+c ,ctrl+v ani myskou copy-paste ,.v inych prehliadacoch funguje ,aj vo ff2 fungovala ,je to chyba firefoxu podla mna ,nema niekto podobny problem,,
Odpovedať Známka: -8.0 Hodnotiť:
 

nesi nejak offtopic?
Odpovedať Známka: 0.0 Hodnotiť:
 

ja viem co sa stalo.
je to pokazene.
Odpovedať Známka: 6.2 Hodnotiť:
 

Poviem ti to "kozmopolitne" GO TO HELL ! :)
Odpovedať Známka: -2.0 Hodnotiť:
 

vyskusaj ALT+F4 ... to hadam zaberie. A... nainstaluj si operu a zabudni na ten shit liskovsky detinsky, ktori instaluju len looseri, deti a internetove kaviarne
Odpovedať Hodnotiť:
 

Ked bude opera pod GPL mozeme sa o niecom zacat bavit. Zatial je Opera len piece of shit...
Odpovedať Hodnotiť:
 

takze co nie je pod GPL, tak to je na hovno, hej? Ludia nenazrani, vsetko by ste chceli mat. Niekto bude vyvyjat softver roky rokuce a potom ho ma zadarmo zavesit na web, nie? Kde to zijete. Opera kody neda preto, lebo je to jedinecny prehliadac (unique) a v tej firme naozaj makaju, teda aspon niekto maka na niecom novom a nepouziva to zdochliacke jadro Gecko, ktore ma v sebe uz niekolko rokov vazne chyby, ale vyvojarov to netrapi!
Odpovedať Hodnotiť:
 

Ty asi nevies, co je to GPL, ze? Cital si ju vobec?
Odpovedať Hodnotiť:
 

fyi, firefox je pod MPL
Odpovedať Hodnotiť:
 

Maju monopolne postavenie ,ktore si ho zasluszili.

Googleri :D tvrdo pracuju ,maju kopec serverov,kvalitny software a to cele ma skvely vysledny efekt.

Su to skratka frajeri :)
Odpovedať Známka: 3.8 Hodnotiť:
 

ako si na to prisiel, ze maju monopolne postavenie?
Odpovedať Známka: -4.0 Hodnotiť:
 

V sieti Internet je slovo "monopol" dosť relatívny pojem.
Odpovedať Známka: 3.3 Hodnotiť:
 

Chcel si povedat:
V sieti Google su Intertnet a monopol dost relativne pojmy :D
Odpovedať Známka: 7.6 Hodnotiť:
 

Tak pod toto sa kludne podpisem :)
Odpovedať Známka: 6.7 Hodnotiť:
 

Skor by som povedal, ze Internet je monopol v sieti Google ;)
Odpovedať Hodnotiť:
 

píšeš odveci, skús znižiť hladinu krvi v alkohole
Odpovedať Hodnotiť:
 

no byt servrom tak by som nechcel byt v googli xD
Odpovedať Známka: 7.9 Hodnotiť:
 

tam by si sa pekne narobil
Odpovedať Hodnotiť:
 

Ta anketa na mě působí stylem jako když sa spýtate starej babky či sa obáva, že ju niekto prepadne. Řekl bych že drtivá většina odpoví že "Hej". ˇPřitom stará babka se už ničeho bát nemusí :-D
Odpovedať Hodnotiť:
 

"Tomáš, zase sa hráš s vibrátorom."
"Nie, to si iba čistím zadok..."
Odpovedať Známka: 4.0 Hodnotiť:
 

dakujem za info
Odpovedať Známka: 10.0 Hodnotiť:
 

biznisom google nie je vyhladavanie, ale predaj reklamy. podla toho by mal normalny clovek hlasovat ;)
Odpovedať Hodnotiť:
 

DSL.sk ma kvalitne clanky, kazdopadne mi v nich prekaza sposob odkazovania sa (rozumej: odkazy typu _tu_, _tomto článku_).

Priklad:
Informácie o miere spoľahlivosti diskov sme priniesli na základe správy Google v _tomto článku_.

IMHO prehladnejsie:
Informácie o miere spoľahlivosti diskov sme priniesli na základe správy Google _Pokazenie pevného disku sa nedá predpovedať, tvrdí Google_.

Inak povedane, namiesto "klikatelneho" _tu_ radsej pouzit "klikatelny" _nadpis na odkazovany clanok_.
Odpovedať Známka: 7.1 Hodnotiť:
 

S tymto suhlasim. Podla smernic pre sematicky web by mal text linku opisovat obsah jeho cielu.
Odpovedať Známka: 6.7 Hodnotiť:
 

ako sa zamestnam v google chcel by som to vidiet naživo :D či tam robia roboty ???
Odpovedať Známka: 3.3 Hodnotiť:
 

roboty? nie, kokoty
Odpovedať Hodnotiť:
 

aha
Odpovedať Hodnotiť:
 

na konci clanku mi chyba moznost "aj-aj" :-)
Odpovedať Hodnotiť:
 

aj aj
Odpovedať Známka: 10.0 Hodnotiť:
 

S týmto tvrdením nie som akosi stotožnený. Google predáva
špecializované servery t.j. HW+ich SW na prehľadávanie doslova hocičoho na úrovni firemných sietí kupujúceho.
Ten prehľadáva desktopy užívateľov, samozrejme ak to majú desktopy povolené, servery db, www.... Proste prekutre všetko
na čo siahne. A navyše má API do všetkých Google služieb.
Takže žije z predaja reklamy, tak bohovsky vie, ako ju treba predávať, a myslím si, že bez toto vyhľadávacieho algoritmu
by tá reklama bola nepredajná a Google by nezarobil ani hov...
Odpovedať Hodnotiť:

Pridať komentár