neprihlásený Štvrtok, 25. apríla 2024, dnes má meniny Marek
Vytvorený nový rekord v rýchlosti triedenia 100 TB

Značky: algoritmycloud

DSL.sk, 14.10.2014


Spoločnosť Databricks na konci uplynulého týždňa oznámila vytvorenie nového svetového rekordu v rýchlosti triedenia 100 terabajtov dát, ktoré sa jej podarilo utriediť za 23 minút.

Databricks dodržiavala akceptované pravidlá benchmarku sortbenchmark.org, v ktorom sa triedia záznamy o veľkosti sto bajtov s kľúčom veľkosti desať bajtov.

Doterajším rekordom bolo utriedenie minimálne 100 TB dát za hodinu a dvanásť minút spoločnosťou Yahoo na 2100 serveroch s využitím frameworku Hadoop.

Databricks rekord dosiahla pomocou frameworku pre klusterové počítanie Apache Spark, za ktorým stoja zamestnanci tejto spoločnosti. Realizácia rekordu prebiehala na iba 206 serveroch cloudovej služby Amazon EC2, pričom použitými boli servery v konfigurácii i2.8xlarge. Servery i2.8xlarge majú k dispozícii 32 jadier Intel Xeon E5-2670 v2, 244 GB pamäte a osem 800 GB SSD diskov.

Použitým triediacim algoritmom bol Timsort.

Spoločnosť za účelom rekordu Spark vylepšila s cieľom dosiahnuť vyšší výkon a vytvorením rekordu chcela demonštrovať vhodnosť Spark aj na manipuláciu s dátami, ktoré sa nezmestia do operačnej pamäte. Jeden server vo výpočtovej fáze po vylepšení spracúval dáta na diskoch rýchlosťou 3 GB/s a v spájacej fáze prenášal dáta rýchlosťou 1.1 GB/s, naplno tak vyťažujúc desaťgigabitovú konektivitu uzlov.

Databricks tiež demonštrovala utriedenie 1 PB dát, ktoré nie je štandardnou kategóriou sortbenchmark.org. Na 190 serveroch i2.8xlarge dokázala toto množstvo dát utriediť za 3 hodiny a 54 minút.


      Zdieľaj na Twitteri



Najnovšie články:

Google opäť odložil vypnutie cookies tretích strán v Chrome
HDD zdražia, Western Digital a Seagate to už oznámili veľkým zákazníkom
Po oprave zariadení v EÚ sa predĺži záruka a výrobcovia budú povinní opravovať aj po záruke
Japonská sonda nebola skonštruovaná aby prežila noc na Mesiaci, funguje aj po tretej
Železnice opäť aktualizujú systémy, v noci nebude fungovať internetový predaj lístkov - aktualizácia 1
Vydaná Fedora 40
Samsung spustil výrobu takmer 300-vrstvovej flash pamäte
NASA opravila sondu Voyager 1, aktualizovala softvér aby nevyužíval poškodenú pamäť
Telekom má nové programy Swipe pre mladých, aj s neobmedzenými dátami
Dánsko chce vybudovať minimálne 6 GW veterných elektrární, v mori


Diskusia:
                               
 

NACO je komu treba triedit taketo mnozstvo dat takouto rychlostou, ani parom volov by som toto netriedil.
Odpovedať Známka: -8.8 Hodnotiť:
 

triedenie je iba vseobecna nahrada za agregacne a vyhladavacie funckie a si predstav kolko take it/telco giganty maju denne dat.
Odpovedať Známka: 9.3 Hodnotiť:
 

a kolko dat ma denne NSA... podla mna ti sa nad tymto rekordom len pousmeju.
Odpovedať Známka: 6.2 Hodnotiť:
 

15.10.2014: Google odkupila Databricks za xy milionov
Odpovedať Známka: 8.9 Hodnotiť:
 

aby si vedel nieco najst vo velkej DB v rozumnom case, tak to musis mat nevyhnutne utriedene.
Odpovedať Známka: 8.2 Hodnotiť:
 

vyborne, teraz mozu prist triedit do garaze mojho dedka.
ak to stihnu za 3 tyzdne, mozu si vsetko aj odniest
Odpovedať Známka: 6.0 Hodnotiť:
 

tebe by sem mali zakazat pristup ty dement a nie len sem ale cely internet ti odpoit a zobrat pocitac
Odpovedať Známka: 5.8 Hodnotiť:
 

dúfaj, že neodpoia všetkých menej vzdelaných
Odpovedať Známka: -3.3 Hodnotiť:
 

Pri mydlení toho barana sa mu iba šmýkali prsty....
Odpovedať Známka: 6.4 Hodnotiť:
 

ty si sa nepomýlil... jasná známka skúseného dávača dnuka.
Odpovedať Známka: -2.0 Hodnotiť:
 

No jasne... Ja teraz už dávam dnuka inú ligu - naposledy to bol morský ježko a pred tým juhoamerická lama za behu...
Odpovedať Známka: 8.2 Hodnotiť:
 

Este si tam dopis "Z toho sa nenajem!" a "Za toto si chleba nekupim!" a uz to tu moze byt ako na aktualne.sk
Odpovedať Známka: 8.9 Hodnotiť:
 

ale ved ma pravdu, naco je komu co triedit. Rozky lacnejsie nebudu. a jedine co treba triedit je otpad.
Odpovedať Známka: -2.5 Hodnotiť:
 

na odpad kaslat, aj tak to technicke sluzby potom zhashuju dohromady
Odpovedať Hodnotiť:
 

By si sa cudoval, ake mnozstvo algoritmov potrebuje najskvor data zotriedit.
Ked ideme od takych tych jednoduchych/naivnych, tak napriklad vymazanie duplicit sa efektivne robi so zotriedenim.
Dalej vyhladavanie v datach nad zotriedenymi datami je asymptoticky rychlejsie (log N), ako "linear seach" - t.z. nehladam informaciu 10 sekund, ale mam ju prakticky okamzite...
K takym tym zlozitejsim pripadom patria greedy search na vsetky prichute alebo rozne statisticke analyzi dat.

A samozrejme, cim viac tych dat je, tak tym efektivnejsie s nimi musim vediet narabat, aby som ich vedel aspon nejak pouzit... Takze ked videme do konkretnych prikladov, tak napriklad na to, aby facebook mohol mat o 2% menej serverov...
Odpovedať Známka: 7.5 Hodnotiť:
 

Presne na tuto odpoved som cakal. Nie ako ostany pred tebou co len nadavaju do dementov a nic k veci nepovedia.

Prave vdaka tebe podobnym diskutujucim sem chodim.

VDAKA
Odpovedať Známka: 5.6 Hodnotiť:
 

posli mu kvety
Odpovedať Známka: 0.0 Hodnotiť:
 

co
Odpovedať Známka: -6.7 Hodnotiť:
 

Posielam kvety kolegovi Borisovi
Odpovedať Známka: 4.0 Hodnotiť:
 

Ze dakujem :)
Odpovedať Známka: 3.3 Hodnotiť:
 

co by za to dala taka Popelka :P
Odpovedať Známka: 8.3 Hodnotiť:
 

Určite by za to dala...
Odpovedať Známka: 10.0 Hodnotiť:
 

tomu dal tomu dala, len mne nedala
Odpovedať Známka: 6.0 Hodnotiť:
 

No je to pekne ale pri takom objeme a rychlosti tie SSD disky nebudu mat velku zivotnost, kedze ako pisu, data sa nezmestia do pamete tak sa presuvaju hore dolu.
Odpovedať Známka: 10.0 Hodnotiť:
 

chleba lacnejsi nebude
Odpovedať Známka: 2.0 Hodnotiť:
 

Usporiadat, nie triedit.
Odpovedať Hodnotiť:
 

V roku 1991 som 3000 položiek a 3 MB dát triedil vo Fox-ke 12 hodín...
Potom som zmenil spôsob triedenia a čas som znížil na 10 minút.
Odpovedať Hodnotiť:
 

Ved po utriedeni dat opatovne triedenie je rychlejsie, kedze sa vykonava uz takmer len porovanie miesto presuvania dat. :)
Odpovedať Hodnotiť:
 

"ROZžKY LACNEJSšIE NEBUDú !!! či hej ? :p
Odpovedať Známka: -3.3 Hodnotiť:
 

ak si ich utriedis podla ceny, budu
Odpovedať Známka: 10.0 Hodnotiť:

Pridať komentár