Sari la conținut

reCAPTCHA

De la Wikipedia, enciclopedia liberă
Acest articol se referă la o implementare specifică a testului CAPTCHA. Pentru testul original, vedeți CAPTCHA.

ReCAPTCHA Inc.
Autor inițial
DezvoltatorGoogle
Versiune inițialămai 27, 2007; acum 18 ani și 15 zile (2007-05-27)
TipVersiune clasică: CAPTCHA
Versiune nouă: Analiză comportamentală
Prezență online
cloud.google.com/security/products/recaptcha

reCAPTCHA Inc.[1] este un sistem CAPTCHA deținut de Google. Acesta permite gazdelor web să facă diferența dintre accesul uman și automat (robot) la site-urile web. Versiunea originală cerea utilizatorilor să descifreze texte greu de citit sau să potrivească imagini. Versiunea a doua le cerea utilizatorilor să descifreze text sau să potrivească imaginile dacă analiza cookie-urilor și randarea pânzei (canvas rendering) sugera că pagina ar fi deschisă de către un robot.[2] Începând cu versiunea 3, reCAPTCHA nu mai întrerupe niciodată utilizatorii, fiindcă este destinat să ruleze automat atunci când utilizatorii încarcă pagini sau dau click pe butoane.[3]

Scopul original al serviciului a fost o platformă de colaborare în masă concepută pentru digitizarea cărților, în special a celor care erau prea ilizibile pentru a fi scanate de computere. Solicitările de verificare utilizau perechi de cuvinte din paginile scanate, primul cuvânt fiind utilizat drept control pentru verificare, iar al doilea fiind folosit pentru descifrarea de către utilizator a unui cuvânt incert.[4] reCAPTCHA a fost dezvoltat inițial de către Luis von Ahn, David Abraham, Manuel Blum, Michael Crawford, Ben Maurer, Colin McMillen și Edison Tan în campusul⁠(d) principal al Universității Carnegie Mellon din Pittsburgh.[5] Serviciul a fost achiziționat de Google în septembrie 2009.[6] Acest sistem a ajutat la digitizarea arhivelor The New York Times și a fost ulterior folosit de Google Books în scopuri similare.[7]

S-a raportat[când?] că sistemul reCaptcha a afișat peste 100 milioane de CAPTCHA în fiecare zi,[8] pe site-uri precum Facebook, TicketMaster⁠(d), Twitter, 4chan, CNN.com, StumbleUpon,[9] Craigslist (din iunie 2008),[10] și site-ul web al programului de cupoane pentru convertizorul TV digital al Administrației naționale a telecomunicațiilor și Tehnologiei Informației din Statele Unite (ca parte a tranziției Statelor Unite ale Americii către DTV).[11]

În 2014, Google a îndepărtat serviciul de conceptul său inițial, concentrându-se pe reducerea cantității de interacțiune a utilizatorului necesară pentru a verifica utilizatorul respectiv și prezentând doar provocări de recunoaștere umană (cum ar fi identificarea imaginilor dintr-un set care să satisfacă o anumită condiție) dacă analiza comportamentală suspectează că utilizatorul ar fi un robot.

În octombrie 2023, s-a descoperit că chatbotul GPT-4 al OpenAI ar putea rezolva CAPTCHA-urile.[12] Serviciul a fost criticat pentru lipsa de securitate și accesibilitate în timpul colectării datelor despre utilizatori, un studiu din 2023 estimând costul colectiv al timpului uman petrecut în rezolvarea CAPTCHA la 6,1 miliarde de dolari în salarii.[13]

Distributed Proofreaders a fost primul proiect care și-a oferit timp voluntar pentru a descifra textul scanat care nu putea fi citit de către programele de recunoaștere optică a caracterelor (OCR). Acesta funcționează cu Proiectul Gutenberg pentru a digitiza materiale din domeniul public și utilizează metode destul de diferite de reCAPTCHA.

Programul reCAPTCHA a apărut la origine datorită informaticianului guatemalean Luis von Ahn,[14] ajutat de o bursă MacArthur. Un dezvoltator timpuriu de CAPTCHA și-a dat seama că „a creat fără să vrea un sistem care distruge, în trepte de zece secunde, milioane de ore din una dintre cele mai prețioase resurse: ciclurile creierului uman”.[15]

Mod de funcționare

[modificare | modificare sursă]

reCaptcha v1 (OCR asistat de către om)

[modificare | modificare sursă]

Textul scanat este supus analizei de către două sisteme OCR diferite. Orice cuvânt care este descifrat diferit de către cele două programe OCR sau care nu se află în vreun dicționar englez este marcat ca „suspect” și convertit într-un CAPTCHA. Cuvântul suspect este afișat, în afara contextului, uneori împreună cu un cuvânt de control deja cunoscut. Dacă utilizatorul uman scrie corect cuvântul de control, atunci răspunsul la cuvântul îndoielnic este acceptat ca "probabil valid". Dacă suficienți utilizatori ar introduce corect cuvântul de control, dar introduc incorect al doilea cuvânt pe care OCR nu l-a recunoscut, atunci versiunea digitală a documentelor ar putea ajunge să conțină cuvântul incorect. Identificarea efectuată de către fiecare program OCR primește o valoare de 0,5 puncte, iar fiecărei interpretări efectuate de către un om i se acordă un punct întreg. Odată ce o anumită identificare atinge 2,5 puncte, cuvântul este considerat valid. Acele cuvinte cărora li se oferă în mod constant o singură identitate de către judecătorii umani sunt mai târziu reciclate drept cuvinte de control.[16] Dacă primele trei presupuneri se potrivesc între ele, dar nu se potrivesc cu niciunul dintre OCR, ele sunt considerate un răspuns corect, iar cuvântul devine un cuvânt de control.[17] Când șase utilizatori resping un cuvânt înainte de a se alege orice ortografie corectă, cuvântul este eliminat ca fiind ilizibil.[17]

Metoda originală reCAPTCHA a fost concepută pentru a afișa cuvintele îndoielnice separat, drept corecție în afara contextului, mai degrabă decât în utilizare, cum ar fi într-o frază de cinci cuvinte din documentul original.[18] De asemenea, cuvântul de control ar putea induce în eroare contextul celui de-al doilea cuvânt, cum ar fi o solicitare ca „/metal/ /fife/” introdusă ca „metal file” din cauza faptului că utilizatorii au o conexiune logică cu o unealtă metalică mai degrabă decât cu instrumentul muzical „fife”.[necesită citare]

În 2012, reCAPTCHA a început să folosească fotografii luate din proiectul Google Street View, pe lângă cuvintele scanate.[19] Sistemul va cere utilizatorului să identifice imagini cu treceri de pietoni, lumini stradale și alte obiecte. S-a emis ipoteza că datele furnizate de către utilizatorii umani către reCAPTCHA sunt folosite de Waymo (o subsidiară Google) pentru a antrena vehicule autonome, deși un reprezentant nenumit a negat acest lucru, susținând că datele au fost folosite doar pentru a îmbunătăți Google Maps de la jumătatea anului 2021.[20]

Site-urile web care fac peste un milion de interogări reCAPTCHA pe lună sunt taxate de Google pentru utilizarea reCAPTCHA.[21]

reCAPTCHA v1 a fost declarat End-Of-Life și închis la 31 martie 2018.[22]

reCAPTCHA v2 (casetă de selectare)

[modificare | modificare sursă]

În 2013, reCAPTCHA a început să implementeze analiza comportamentală a interacțiunilor browserului pentru a prezice dacă utilizatorul este un om sau un robot. În anul următor, Google a început să implementeze un nou API reCAPTCHA, care include „reCAPTCHA fără CAPTCHA” – în care utilizatorii considerați a fi cu risc scăzut trebuie doar să dea clic pe o singură casetă pentru a-și verifica identitatea. Un CAPTCHA poate fi încă prezentat dacă sistemul nu este sigur de riscul utilizatorului; Google a introdus, de asemenea, un nou tip de CAPTCHA conceput pentru a fi mai accesibil pentru utilizatorii de telefoane mobile, în care utilizatorul trebuie să selecteze imagini care să se potrivească cu un anumit obiect dintr-o grilă.[17][23]

reCAPTCHA v3 și reCAPTCHA Enterprise (invizibil)

[modificare | modificare sursă]

În 2017, Google a introdus un nou reCAPTCHA „invizibil”, în care verificarea are loc în fundal și nu sunt afișate provocări dacă utilizatorul este considerat a avea un risc scăzut.[24][25][26] Potrivit fostului „țar al fraudei clicurilor” Google, Shuman Ghosemajumder, această capacitate „creează un nou tip de provocare pe care roboții foarte avansați încă o pot rezolva, dar introduce mult mai puține frecări omului legitim”.[26]

Testele reCAPTCHA sunt afișate de pe site-ul central al proiectului reCAPTCHA, care furnizează cuvintele care sunt de descifrat. Acest lucru se face printr-un API JavaScript, serverul efectuând un apel înapoi (callback) la reCAPTCHA după ce solicitarea a fost trimisă. Proiectul reCAPTCHA oferă biblioteci pentru diferite limbaje de programare și aplicații pentru a facilita acest proces. reCAPTCHA este un serviciu gratuit oferit site-urilor web pentru asistență la descifrare,[27] însă, software-ul reCAPTCHA nu este open-source.[28]

De asemenea, reCAPTCHA oferă plugin-uri pentru mai multe platforme de aplicații web, inclusiv ASP.NET, Ruby și PHP, pentru a ușura implementarea serviciului.[29]

Un exemplu care ilustrează modul în care testele reCAPTCHA erau prezentate în 2010, conținând cuvintele „and chisels”

Scopul principal al unui sistem CAPTCHA este de a bloca roboții utilizați pentru spam în timp ce permite utilizatorilor umani să continue utilizarea serviciilor. Pe data de 14 decembrie 2009, Jonathan Wilkins a lansat o lucrare care descrie punctele slabe ale reCAPTCHA care le-a permis roboților să atingă o rată de rezolvare de 18%.[30][31][32]

Pe 1 august 2010, Chad Houck a susținut o prezentare la Conferința de Hacking DEF CON 18 în care detalia o metodă de inversare a distorsiunii adăugate imaginilor, ceea ce a permis unui program de calculator să determine un răspuns valid în 10% din timp.[33][34] Sistemul reCAPTCHA a fost modificat pe 21 iulie 2010, înainte ca Houck să vorbească despre metoda sa. Houck și-a modificat metoda, la ceea ce a descris ca fiind un CAPTCHA „mai ușor” pentru a determina un răspuns valid în 31,8% din timp. Houck a menționat, de asemenea, defensivele de securitate din sistem, inclusiv un blocaj de înaltă securitate dacă un răspuns invalid este dat de 32 de ori la rând.[35]

Pe 26 mai 2012, Adam, C-P și Jeffball de la DC949 au susținut o prezentare la conferința hackerilor LayerOne⁠(d), în care au detaliat modul în care au reușit să obțină o soluție automatizată cu o rată de precizie de 99,1%.[36] Tactica lor a fost să folosească tehnici din învățarea automată, un subdomeniu al inteligenței artificiale, pentru a analiza versiunea audio a reCAPTCHA, care este disponibilă pentru persoanele cu deficiențe de vedere. Google a lansat o nouă versiune de reCAPTCHA cu doar câteva ore înainte de discuția lor, făcând modificări majore atât versiunilor audio cât și vizuale ale serviciului lor. În această versiune, versiunea audio a fost mărită în durată de la 8 secunde la 30 de secunde și a devenit mult mai greu de înțeles, atât pentru oameni, cât și pentru roboți. Ca răspuns la această actualizare și la următoarea, membrii DC949 au lansat încă două versiuni de Stiltwalker⁠(d) care au învins reCAPTCHA cu o precizie de 60,95% și, respectiv, 59,4%. După fiecare pauză succesivă, Google actualiza reCAPTCHA câteva zile mai târziu. Conform DC949, acestea au revenit adesea la funcții care fuseseră piratate anterior.

Pe 27 iunie 2012, Claudia Cruz, Fernando Uceda și Leobardo Reyes au publicat o lucrare care prezintă un sistem care rulează pe imagini reCAPTCHA cu o acuratețe de 82%.[37] Autorii nu au spus dacă sistemul lor poate rezolva imagini recente reCAPTCHA, deși susțin că munca lor este un sistem OCR inteligent și robust pentru unele, dacă nu pentru toate modificările din baza de date de imagini.

Într-o prezentare din august 2012 susținută la BsidesLV 2012, DC949 a numit cea mai recentă versiune „insondabil de imposibilă pentru oameni” — nici ei înșiși nu au fost capabili să le rezolve manual.[31] Organizația de accesibilitate web WebAIM⁠(d) a raportat în mai 2012, că „Peste 90% dintre respondenți [utilizatori de cititoare de ecran (screen reader)] consideră CAPTCHA un sistem foarte sau oarecum dificil”.[38]

Iterația originală a reCAPTCHA a fost criticată ca fiind o sursă de muncă neplătită pentru a asista la eforturile de transcriere.[39]

Google profită de pe urma utilizatorilor reCAPTCHA ca lucrători gratuiți pentru a-și îmbunătăți cercetarea AI.[40]

Un studiu de 13 luni publicat în 2023, „Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2”, a constatat că reCAPTCHA oferă puțină securitate împotriva roboților și este în principal un instrument de urmărire a datelor utilizatorilor și a costat societatea aproximativ 819 milioane de ore de muncă umană neplătită.[41][13]

Confidențialitate

[modificare | modificare sursă]

Iterația actuală a sistemului a fost criticată pentru dependența sa de cookie-uri de urmărire și pentru promovarea blocării furnizorilor (vendor lock-in) cu serviciile Google; administratorii sunt încurajați să includă codul de urmărire al reCAPTCHA pe toate paginile site-ului lor web pentru a analiza comportamentul și „riscul” utilizatorilor, ceea ce determină nivelul de "bătăi de cap" prezentat atunci când este utilizat reCAPTCHA pe site-ul respectiv.[42] Google a declarat în politica sa de confidențialitate că datele utilizatorilor colectate în acest mod nu sunt utilizate pentru reclame personalizate. De asemenea, s-a descoperit că sistemul îi favorizează pe cei care au un cont Google activ și presupune un risc mai mare către cei care folosesc proxy-uri de anonimizare și servicii VPN.[24]

Îngrijorări au fost ridicate cu privire la confidențialitate atunci când Google a anunțat reCAPTCHA v3.0, deoarece permite Google să urmărească utilizatorii pe site-uri web non-Google.[24]

În aprilie 2020, Cloudflare a trecut de la reCAPTCHA la hCaptcha, invocând preocupări legate de confidențialitate cu privire la potențiala utilizare de către Google a datelor pe care le recolectează prin reCAPTCHA pentru publicitate direcționată[43] și pentru a reduce costurile de operare, deoarece o parte considerabilă a clienților Cloudflare sunt clienți neplătitori. Ca răspuns, Google a declarat pentru PC Magazine că datele de la reCAPTCHA nu sunt folosite niciodată în scopuri de publicitate personalizată.[21]

Accesibilitate

[modificare | modificare sursă]

Centrul de ajutor Google afirmă că reCAPTCHA nu este acceptat pentru comunitatea de surdoorbi,[44] blocând efectiv astfel de utilizatori în toate paginile care utilizează serviciul. Cu toate acestea, reCAPTCHA are în prezent cea mai lungă listă de considerații de accesibilitate dintre orice serviciu CAPTCHA.[45]

Într-una dintre variantele provocărilor CAPTCHA, imaginile nu sunt evidențiate progresiv, ci se estompează atunci când se da clic și sunt înlocuite cu o nouă imagine care se estompează, asemănătoare cu jocul whack-a-mole.

Criticii au vizat durata lungă pentru ca imaginile să dispară și să intre.[46]

Proiecte derivate

[modificare | modificare sursă]

reCAPTCHA, de asemenea, a creat și proiectul Mailhide, care protejează adresele de e-mail de pe paginile web împotriva recoltării lor de către Spammeri.[47] În mod implicit, adresa de e-mail era convertită într-un format care nu permitea unui robot de căutare (crawler) să vadă adresa de e-mail completă; de exemplu, „[email protected]” ar fi fost convertită în „[email protected]”. Apoi, vizitatorul dădea clic pe „...” și va rezolva CAPTCHA-ul pentru a obține adresa de e-mail completă. De asemenea, se putea edita codul pop-up, astfel încât niciuna dintre adrese să nu fie vizibilă.[48]

  1. ^ „Recaptcha Inc”. OpenCorporates⁠(d). . Arhivat din original la . Accesat în . 
  2. ^ Shet, Vinay (). „Are you a robot? Introducing 'CAPTCHA the ReCAPTCHA PREDATORS”. Arhivat din original la . Accesat în . 
  3. ^ „reCAPTCHA v3”. Arhivat din original la . Accesat în . 
  4. ^ Ahn, Luis von (), Massive-scale online collaboration (în engleză), arhivat din original la , accesat în  
  5. ^ „reCAPTCHA: About Us”. Arhivat din original la . Accesat în . 
  6. ^ „Teaching computers to read: Google acquires reCAPTCHA” (în engleză). Official Google Blog. Accesat în . 
  7. ^ „Deciphering Old Texts, One Woozy, Curvy Word at a Time”. The New York Times. . Arhivat din original la . Accesat în . 
  8. ^ „reCAPTCHA FAQ”. web.archive.org. . Arhivat din original în . Accesat în . 
  9. ^ Spam weapon helps preserve books (în engleză), , accesat în  
  10. ^ „craigslist blog » Blog Archive » Fight Spam, Digitize Books”. web.archive.org. . Arhivat din original în . Accesat în . 
  11. ^ „TV Converter Box Coupon Program Website”. web.archive.org. . Arhivat din original la . Accesat în . 
  12. ^ Edwards, Benj (). „Dead grandma locket request tricks Bing Chat's AI into solving security puzzle”. Ars Technica (în engleză). Arhivat din original la . Accesat în . 
  13. ^ a b Frauenfelder, Mark (). „reCAPTCHA: 819 million hours of wasted human time and billions of dollars in Google profits”. Boing Boing (în engleză). Accesat în . 
  14. ^ „Full Interview: Luis von Ahn on Duolingo | Spark”. web.archive.org. . Arhivat din original în . Accesat în . 
  15. ^ „Human Resources · thewalrus.ca”. web.archive.org. . Arhivat din original în . Accesat în . 
  16. ^ „CAPTCHAs work—for digitizing old, damaged texts, manuscripts”. web.archive.org. . Arhivat din original în . Accesat în . 
  17. ^ a b c Luis; Maurer, Ben; McMillen, Colin; Abraham, David; Blum, Manuel (). „reCAPTCHA: Human-Based Character Recognition via Web Security Measures"”. Science. 321 (5895): 1465–1468. Bibcode:2008Sci...321.1465V. doi:10.1126/science.1160379. PMID 18703711. 
  18. ^ „questionable validity of results if words are presented out of context”. groups.google.com. Accesat în . 
  19. ^ Perez, Sarah (). „Google Now Using ReCAPTCHA To Decode Street View Addresses”. TechCrunch. Arhivat din original la . Accesat în . 
  20. ^ Vega, Edward (). „Why captchas are getting harder”. Vox (în engleză). Arhivat din original la . Accesat în . 
  21. ^ a b „Cloudflare Dumps Google's ReCAPTCHA Over Privacy Concerns, Costs”. PCMag (în engleză). Arhivat din original la . Accesat în . 
  22. ^ „Google reCAPTCHA v1 API Shutting Down in March 2018”. ProgrammableWeb (în engleză). Arhivat din original la . Accesat în . 
  23. ^ Greenberg, Andy, „Google Can Now Tell You're Not a Robot With Just One Click”, Wired (în engleză), ISSN 1059-1028, accesat în  
  24. ^ a b c Schwab, Katharine (). „Google's new reCAPTCHA has a dark side”. Fast Company (în engleză). Arhivat din original la . Accesat în . 
  25. ^ Amadeo, Ron (). „Google's reCAPTCHA turns 'invisible,' will separate bots from people without challenges”. Ars Technica (în engleză). Arhivat din original la . Accesat în . 
  26. ^ a b Verger, Rob (). „Google just made the internet a tiny bit less annoying” (în engleză). Popular Science. Accesat în . 
  27. ^ „reCAPTCHA FAQ”. archive.ph. . Arhivat din original la . Accesat în . 
  28. ^ „reCAPTCHA: Stop Spam, Read Books”. Arhivat din original la . Accesat în . 
  29. ^ „Developer's Guide—reCAPTCHA”. Google Inc. Arhivat din original la . Accesat în . 
  30. ^ „Google's reCAPTCHA busted by new attack”. The Register. . Accesat în . 
  31. ^ a b „Strong CAPTCHA Guidelines” (PDF). Web Archive. Arhivat din original (PDF) la . Accesat în . 
  32. ^ „Google's reCAPTCHA dented”. Arhivat din original la . Accesat în . 
  33. ^ „DEF CON® 18 Hacking Conference - Speakers”. web.archive.org. . Arhivat din original în . Accesat în . 
  34. ^ Chad Houck. „Decoding reCAPTCHA Paper”. Arhivat din original la . Accesat în . 
  35. ^ Chad Houck. „Decoding reCAPTCHA”. Arhivat din original la . Accesat în . 
  36. ^ „Defcon Group 949”. web.archive.org. . Arhivat din original în . Accesat în . 
  37. ^ Cruz-Perez, Claudia; Starostenko, Oleg; Uceda-Ponga, Fernando; Alarcon-Aquino, Vicente; Reyes-Cabrera, Leobardo (), Carrasco-Ochoa, Jesús Ariel; Martínez-Trinidad, José Francisco; Olvera López, José Arturo; Boyer, Kim L., ed., „Breaking reCAPTCHAs with Unpredictable Collapse: Heuristic Character Segmentation and Recognition”, Pattern Recognition, Berlin, Heidelberg: Springer Berlin Heidelberg, 7329, pp. 155–165, doi:10.1007/978-3-642-31149-9_16, ISBN 978-3-642-31148-2, accesat în  
  38. ^ „Screen Reader User Survey #4 Results”. Arhivat din original la . Accesat în . 
  39. ^ Harris, David L. (). „Massachusetts woman's lawsuit accuses Google of using free labor to transcribe books, newspapers”. Boston Business Journal. Arhivat din original la . Accesat în . 
  40. ^ „No CAPTCHA: yet another ruse devised by Google to extract free digital labor from you”. Arhivat din original la . Accesat în . 
  41. ^ Searles, Andrew; Prapty, Renascence Tarafder; Tsudik, Gene (), Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2, arXiv:2311.10911Accesibil gratuit, accesat în  
  42. ^ Taylor, Chris (). „Stop giving your website data away!”. Prosopo. 
  43. ^ „Moving from reCAPTCHA to hCaptcha”. The Cloudflare Blog (în engleză). . Arhivat din original la . Accesat în . 
  44. ^ „What is CAPTCHA? - G Suite Admin Help”. Arhivat din original la . Accesat în . 
  45. ^ „WCAG 1.1: Text Alternatives [Article]”. . Arhivat din original la . Accesat în . 
  46. ^ „ReCaptcha extremly [sic] slow fading · Issue #268 · google/recaptcha”. GitHub (în engleză). Arhivat din original la . Accesat în . 
  47. ^ „reCAPTCHA Mailhide: Free Spam Protection”. web.archive.org. . Arhivat din original în . Accesat în . 
  48. ^ „Google dismiss recaptcha v1”. groups.google.com. Accesat în . 

Lectură suplimentară

[modificare | modificare sursă]

Legături externe

[modificare | modificare sursă]
Commons
Commons
Wikimedia Commons conține materiale multimedia legate de reCAPTCHA