neprihlásený Štvrtok, 5. marca 2026, dnes má meniny Fridrich
Dosiahnutý nový rekord v rýchlosti triedenia, Hadoop porazil Microsoft

DSL.sk, 27.2.2013


Spoločnosť MapR vyvíjajúca vlastnú upravenú implementáciu frameworku Apache Hadoop v utorok oznámila vytvorenie nového rekordu v rýchlosti triedenia dát v kategórii najväčšieho množstva utriedených dát za jednu minútu.

MapR za 59 sekúnd utriedila presne 1500 GB dát.

Doterajším rekordom bolo 1401 GB dosiahnutých Microsoftom v minulom roku.

Triedenie čo najväčšieho množstva dát za jednu minútu je jedným z dvoch odbornou komunitou používaných rýchlostných benchmarkov triedenia veľkého množstva dát, druhým je rýchlosť triedenia pri triedení minimálne 100 TB dát.

V benchmarku sa triedia 100-bajtové záznamy s 10-bajtovým kľúčom a súťaží sa v dvoch kategóriách, v kategórii Indy môže byť algoritmus optimalizovaný na dĺžku záznamov a kľúčov, v kategórii Daytona musí vedieť pracovať s ľubovoľnými dĺžkami.

MapR rekord dosiahla spustením triedenia pomocou svojej upravenej a optimalizovanej verzie Hadoop na 2103 virtuálnych strojoch od Google použitím štandardnej infraštruktúry Google Compute Engine. Jeden stroj mal štyri virtuálne jadrá zodpovedajúce dvom fyzickým jadrám, 15 GB pamäti a 1.7 TB diskového priestoru.

Hadoop je framework pre paralelné aplikácie spracúvajúce veľké množstvo dát, ktorý funguje na princípe MapReduce.

V prvej tzv. map fáze každý z 2099 použitých mapperov utriedil cca 714 MB dát, použitý algoritmus MapR neuvádza. V druhej tzv. reduce fáze boli výsledky jednotlivých triedení spojené. Triedenie 1500 GB najskôr trvalo 70 sekúnd, po uskutočnení niekoľkých optimalizácií a najmä prepísaní reducera na efektívne využívanie všetkých jadier namiesto jedného sa MapR dostala pod jednu minútu.



Najnovšie články:

NASA o pokazenej sonde pri Marse zrejme stále nič nezistila
Apple uviedla očakávaný výrazne lacnejší MacBook
NASA našla problém na rakete SLS, ľudia by mohli letieť k Mesiacu v apríli
Seagate dodáva už 44 TB disky
Slovensko.sk bude opäť dva dni vypnuté


Diskusia:
                               
 

http://dopice.sk/5cB
Odpovedať Známka: 5.7 Hodnotiť:
 

A popoluska je bez prace...
Odpovedať Známka: 8.4 Hodnotiť:
 

Co jej, ale aj mne uz jebe z prace
Odpovedať Známka: 7.1 Hodnotiť:
 

V robote ho pouzivame na spracovanie statistik z logov o velkosti niekolkych GB denne :)
Odpovedať Známka: 1.4 Hodnotiť:
 

A to spracovanie je vlastne zotriedenie riadkov logov podla prveho znaku v riadku..... :D
Odpovedať Známka: 6.7 Hodnotiť:

Pridať komentár