neprihlásený Sobota, 20. apríla 2024, dnes má meniny Marcel
Google kúpil reCaptcha

Značky: CAPTCHAGoogle

DSL.sk, 16.9.2009


Spoločnosť Google aktuálne oznámila akvizíciu projektu reCaptcha, implementácie systému Captcha používaného k digitalizácii ťažko rozpoznateľných textov a nasadeného na veľkom počte webových stránok.

Google plánuje po akvizícii použiť projekt na digitalizáciu kníh, novín a časopisov v rámci svojich projektov Google Books a Google News Archive Search ale podľa oznámenia tiež na ochranu svojich služieb proti spamerom.

Služba reCaptcha je používaná pri registrácii užívateľov viacerými významnými webovými stránkami vrátane Facebooku a Twitteru. Jej akvizíciou môže Google získať okrem iného aj cenné informácie o užívateľoch registrujúcich sa na týchto stránkach, ak samozrejme tieto stránky nezmenia použitý systém Captcha.

Projekt reCaptcha, ako sme informovali v tomto článku, bol spustený v máji 2007.

Ide o implementáciu systému Captcha, ktorá návštevníkom webových stránok predkladá na prepis dve slová. Prepis jedného slova služba už pozná a druhé neznáme pochádza z textov, ktoré systém reCaptcha aktuálne digitalizuje.

Overovaný návštevník stránok musí prepísať obe slová, pričom samozrejme nevie, ktoré slovo je systému známe a ktoré nie. Kontrola prepisu známeho slova funguje ako klasický systém Captcha, prepis druhého slova je považovaný za prepis doteraz neznámeho digitalizovaného slova.

Prepis jedného slova z digitalizovaných textov služba zisťuje minimálne dvakrát pre vylúčenie chybného prepisu, pričom systém reCaptcha je použitý len pre slová, ktoré klasické OCR algoritmy nedokážu spoľahlivo rozpoznať.


Ukážka boxu reCaptcha používaného na rozličných stránkach



Podľa Google je služba reCaptcha aktuálne používaná stotisíc stránkami. Podľa aktuálnych informácií na stránke projektu sú rozličné systémy Captcha denne používané celkovo 200 miliónov krát, koľko z toho pripadá na reCaptcha nie je známe.


      Zdieľaj na Twitteri



Najnovšie články:

NASA otestuje nový vesmírny pohon v podobe solárnej plachty
V najbližších dňoch bude spustený nový vysielač digitálneho rádia
Seriál Fallout podľa počítačovej hry bude mať pokračovanie
Budúci týždeň budú vydané dve dôležité linuxové distribúcie
Špehovacie satelity SpaceX už snímkujú Zem, s vyšším rozlíšením ako doterajšie
Linux si na PC drží podiel 4%
AI výkon tohtoročnej generácie Intel CPU bude vyšší ako 100 teraops/s
Apple bude mať nový seriál o alternatívnom sovietskom vesmírnom programe, predĺžila For All Mankind
Pôsobivého dvojnohého robota Atlas nahradí úplne nová elektrická verzia
O2 spustilo predaj na diaľku. Namiesto eID sa fotí tvár a občiansky, nedá sa objednať eSIM ani predplatenka


Diskusia:
                               
 

Keby takyto system prepisovania naskenovanych textov pouzil Google ako pristup na pornostranky, bola by uz celosvetova literatura davno uhladne prepisana. A nie jeden krat.
Odpovedať Známka: 9.2 Hodnotiť:
 

len to overenie ... asi by sa zobralo to co ma vacsina, no isto by z toho boli vseliake perly
Odpovedať Známka: 10.0 Hodnotiť:
 

No nemám síce v láske ak jedna spoločnosť má veľký podiel na trhu, ale uvidíme či Google nebude svoje postavenie zneužívať v budúcnosti.
Odpovedať Známka: 7.9 Hodnotiť:
 

lenze oni robia v oblasti, ktora sa da len tazko zmonopolizovat
Odpovedať Známka: -6.5 Hodnotiť:
 

dobrý ťah od googlu, ktovie čo za to zaplatil.
Kým si stránky stihnú zmeniť CAPTCHA, má super štatistiky o počte registrovaných userov pre všetky stránky, čo to používajú. Na nezaplatenie.
Odpovedať Známka: 7.3 Hodnotiť:
 

Som si myslel ze chcu vydavat knihy napisane cele v Captcha forme.
Odpovedať Známka: 7.9 Hodnotiť:
 

Predstav si to takto: Google naskenuje celu stranu nejakej biblie z 15-eho storocia, preskrtne kazdy riadok a ked sa budes chciet dostat do svojej mailovej schranky tak budes musiet natukat celu stranu. Ty sa dostanes k svojmu mailu a google bude mat jednu stranu z knihy v elektronickej forme. Vynasob si to poctom pristupov na ich server a vyjde ti za den zopar desiatok tisic zdigitalizovanych knih bez minimalneho usilia zo strany google. :)
Ak by to co som napisal niekto bral vazne tak chyba je vo vasom prijimaci :D
Odpovedať Známka: 6.5 Hodnotiť:
 

No este im davaj napady :)

Google nikdy nespi.
Odpovedať Známka: 10.0 Hodnotiť:
 

ako by vyzeralo captcha cez pop3? :)
Odpovedať Známka: 7.5 Hodnotiť:
 

pop-up! :D
Odpovedať Hodnotiť:
 

Hlavne by som sa dosť natrápil s tým ozdobným gotickým fontom a textom v schwabachu alebo v latine :-)
Odpovedať Známka: 10.0 Hodnotiť:
 

Len tak 4 fun sem dam konspiraciu: upravou javascriptu reCaptcha moze google trackovat navstevnost a udaje formularov az na 200 mil strankach :)
Odpovedať Známka: -5.7 Hodnotiť:
 

Nebud naivny. Google ma absolutny prehlad o tom, kade surfujes. Nemusi ta niekde spehovat ved vsetko mu to pises do okienka uplne dobrovolne. Keby nebolo googlu (a bookmarkov) tak si vacsina ludi neprecita ani noviny. Ako je to? hhpt, potom nejaky smajlik wewewe a na konci sk a bodka.
Odpovedať Známka: 7.8 Hodnotiť:
 

Netreba
Odpovedať Hodnotiť:
 

stop books.
read spam.
Odpovedať Známka: 7.1 Hodnotiť:
 

stop read(ing)
spam books
Odpovedať Známka: 3.3 Hodnotiť:
 

Už sa teším, keď začnú prepisovať čínsku a japonskú literatúru. To bude žúžo.
Odpovedať Známka: 8.3 Hodnotiť:
 

neviem presne ako to funguje....ale ked je tam napisane ze pouzivanim reCaptcha prepisujes knihy do digitalnej podoby, ako to ten soft rozlisuje, ci si napisal spravny text alebo nie? vsak to on musi dopredu vediet co tam je napisane aby to mohol porovnat s tym co si zadal ty....tak potom naco by si to prepisoval, ked on to uz ma prepisane...
fakt neviem jak to funguje, ak dakto viete, podelte sa s vedomostami :)


Odpovedať Známka: 2.0 Hodnotiť:
 

jet o v clanku
jedno slovo vie na 100% a druhe je sucastou vyskumu...
Odpovedať Známka: 10.0 Hodnotiť:
 

môže dať jedno slovo prepísať viacerým užívateľom...
Odpovedať Známka: 10.0 Hodnotiť:
 

Jedno slovo necha prepisat viac uzivatelom. Okrem toho moze mat nejaky odhad, co tam bude. Ak je tam trebars nezname slovo calls, a prvy uzivatel napise asdf, tak ho to nemusi pustit. caiis by mozno pustilo.
Odpovedať Známka: 10.0 Hodnotiť:
 

Uz cakam, kedy google objavi tie ruske OCR softy a skupi od nich patenty, alebo cele firmy :)
Zatial nepoznam lepsie bezne cenovo pristupne softy ako napr. od ABBY ...
Odpovedať Známka: 10.0 Hodnotiť:
 

ja som dneska napísal robota na vyhľadávanie emailových adries, bohužiaľ som narazil na ochranu proti spambotom veľa adries sa v poslednej dobe ukladá ako obrázok, tak som použil knižnicu AspriseOCR a funguje to perfektne. ak nájde robot namiesto textu obrázok tak ho preloží na text potom testuje či je ten text emailová adresa a ak je tak ju uloží do databázy.
Odpovedať Známka: 1.7 Hodnotiť:
 

a mohol by si nam prezradit, naco ti je databaza plna e-mailov?
Odpovedať Známka: 4.0 Hodnotiť:
 

skús 3x hádať :o)
Odpovedať Známka: 6.9 Hodnotiť:
 

no šikovný si, šikovný...
Odpovedať Známka: 6.9 Hodnotiť:
 

A ja som spravil robota na sťahovanie porna. Keď som ale zistil, že už mám skoro plný disk, tak som to aj tak všetko vymazal, aj toho robota.
Odpovedať Hodnotiť:
 

Inac clanku som nepochopil ako obvykle na dsl.sk a to som od fachu:-D
Odpovedať Známka: -2.9 Hodnotiť:
 

Od akého fachu? Ak opravuješ počítače, tak ti to môže byť šumafuk
Odpovedať Známka: 6.4 Hodnotiť:
 

Akoze pouziva google :)
Odpovedať Hodnotiť:
 

Inac clanku som nepochopil ako obvykle na dsl.sk a to som od fachu:-D
Odpovedať Známka: -6.4 Hodnotiť:
 

no mozno niesi dost "od fachu" ak si myslis ze ked studujes na nejakej skole v Hornej Dolnej, kde maju pocitacovu ucebnu s troma pocitacmi....tak mam pre teba zlu spravu...niesi "z fachu" ;)
Odpovedať Známka: 7.5 Hodnotiť:
 

Skusim este raz co kolega zacal a poriadne. Pouzitie reCaptcha teda znamena, ze ak vzdy prve slovo odpisem a druhe si vymyslim, mam radovo 50% pravdepodobnost ze ma to pusti? A viacnasobna kontrola to neisti, ak to iste slovo dostanu dvaja ludia a kazdy odpovie inac, z toho nejde zistit kto ma pravdu (a ci vobec niekto). Okrem toho ked odoslem formular tak chcem odpoved hned, nie cakat kym niekto iny dostane to iste slovo.
Odpovedať Známka: 3.3 Hodnotiť:
 

no mne sa toto cele zda, ze to nevedia na 100%, overia Ta podla prveho slova, resp. podla slova, ktore poznaju a nezname slovo priradia do databazy a skumaju ho az ked maju urcitu vzorku prepisaneho textu a potom ked maju 100%-nu istotu, ze je to to slovo, asi su na to nejake algoritmy, tak to potom zaradia ako zname slovo, a mozno sa to overuje este aj potom, alebo porovnava s nejakymi statistikami.
Odpovedať Známka: 10.0 Hodnotiť:
 

Mne sa zdá že re capca je už nejak prelomena. Je to možné?
Odpovedať Známka: 7.5 Hodnotiť:
 

Všeobecne to pravda nie je...

Niektoré texty sa dajú počítačom rozoznať (OCR), ale čím viac je text "obordelovaný" - napríklad rôzne farby častí písmen, popreškrtávané, pokrútené písmená atď, tým je to ťažšie...

Mám pocit, že niektorý z projektov dokonca skúmal aká je najlepšia forma skomolenia textu, aby bolo čo najťažšie ho strojom prečítať a na základe toho vydávali odporúčania. Bola to taká hra: "skúsme to prečítať" - ak na to našli algoritmus, tak zťažili modifikáciu textu (skomolenie) a zas hľadali algoritmus ako to prečítať...
Odpovedať Hodnotiť:
 

Pouzivam reCaptcha na jednom webe, a niekolkokrat to na mna vybehlo aj na facebooku. Co som si vsimol je, ze v poslednej dobe je pomerne lahke urcit, ktore z tych dvoch slov je zname a ktore je nerozpoznatelne - tie nerozpoznatelne su vacsinou dost necitatelne aj pre cloveka. Obavam sa, aby tuto "vlastnost" nezneuzili crackeri, aj ked je tazke urcit nejakym algoritmom, ktore slovo je citatelne a ktore nie.
Odpovedať Známka: 10.0 Hodnotiť:

Pridať komentár