Share to: share facebook share twitter share wa share telegram print page

 

ReCAPTCHA

Logotip de reCAPTCHA.

reCAPTCHA és una extensió de la prova CAPTCHA que s'utilitza per reconèixer text present en imatges. Empra per tant la prova desafiament-resposta utilitzada en computació per determinar quan l'usuari és o no humà per, alhora, millorar la digitalització de textos.

reCAPTCHA es basa en el fet que per a un ésser humà pot ésser simple determinar el text present en una imatge, quan per a una màquina aquesta tasca és de vegades massa complexa.

Funcionament

El reCAPTCHA tracta de solucionar un problema de partida: quan es digitalitza un document imprès es prenen les seves fotografies i aquestes fotografies es converteixen a text emprant sistemes OCR. Tanmateix, succeeix que hi ha paraules que presenten dificultats per ser reconegudes automàticament: aquelles que contenen lletres deformes, taques producte de defectes a la impressió del paper, pàgines amb pols, entre d'altres. Aquestes paraules poden ser identificades per persones de manera molt més fiable que per un sistema OCR computarizat. reCAPTCHA empra aquesta facilitat de l'ésser humà, per així aconseguir un mètode de reconeixement de text molt més fiable.

L'ús de reCAPTCHA consisteix a substituir el sistema CAPTCHA, col·locant dues paraules a reconèixer (en lloc d'una que empra típicament la prova CAPTCHA). Una de les paraules és coneguda i l'altra és desconeguda per al sistema. La paraula desconeguda és una que no va poder ser obtinguda d'una imatge mitjançant un sistema OCR automatitzat. El sistema demana a l'usuari (qui desconeix quina paraula és coneguda i quina no l'ho és) que introdueixi ambdues paraules com a text. Si la paraula coneguda pel sistema és introduïda correctament per un humà, el sistema reCAPTCHA assumeix que hi ha probabilitats altes que l'usuari també hagi introduït la paraula desconeguda correctament. Si la paraula desconeguda rep en múltiples ocasions la mateixa transcripció humana (traducció d'imatge a text) es considera que aquesta transcripció és correcta. D'aquesta forma, a la prova desafiament-resposta utilitzada en computació per determinar quan l'usuari és o no humà (prova CAPTCHA) se li suma la utilitat de permetre millorar la digitalització de textos. Les paraules que van ser traduïdes en moltes ocasions de la mateixa manera, es poden incorporar com a paraules conegudes dintre del mateix sistema.[1]

Actualment reCAPTCHA és utilitzat per digitalitzar edicions impreses del New York Times.2[2] La companyia propietària del sistema reCAPTCHA va ser adquirida per Google que podrà usar el sistema com a suport per al seu projecte Google Books.[3]

Google compra reCAPTCHA

Inicialment escindida d'un projecte de recerca de la Universitat Carnegie Mellon, reCAPTCHA va ser comprada al guatemalenc Luis von Ahn. Google ha augmentat les seves capacitats de reconeixement òptic de caràcters amb la compra de reCAPTCHA, una companyia que es va originar en un projecte de recerca de la Universitat Carnegie Mellon i protegeix a 100.000 llocs web del spam i el frau mitjançant imatges distorsionades que se suposa que una màquina no pot comprendre.

Des de Google expliquen que Captcha està dissenyat per a l'ull humà amb l'objectiu d'impedir quins programes maliciosos aconsegueixin milions de comptes de correu electrònic per enviar spam. Un detall que desvela Google és que la majoria dels Captchas que ofereix la companyia procedeixen de diaris i llibres vells escanejats. Per tant, per als ordinadors és difícil reconèixer aquestes paraules perquè la tinta i el paper s'han degradat amb el temps, de manera que la tecnologia de la companyia també es pot utilitzar per millorar processos d'OCR per convertir imatges escanejades en text pla.

La tecnologia es pot utilitzar per a projectes d'escaneig de textos a gran escala com ara Google Books i Google News Arxive Search. Tenir la versió en text d'un document és important perquè el text pla es pot cercar, exportar a dispositius mòbils i mostrar visualment a usuaris discapacitats. Amb la compra Google afirma que no només incrementarà la protecció davant el frau i el spam dels productes de la companyia, sinó que també millorarà el procés d'escaneig dels seus llibres i diaris.[4] A partir de 2012, Google va començar a incloure imatges obtingudes de Google Street View, a fi que la paraula desconeguda sigui nombres o noms de carrers, per alimentar la seva base de dades i millorar la precisió d'adreces.[5]

Referències

  1. Timmer, John. «CAPTCHAs work? for digitizing old, damaged texts, manuscripts». Ars Technica, 14-08-2008. [Consulta: 6 febrer 2013].
  2. «Learn more». reCAPTCHA.net. Arxivat de l'original el 2009-12-29. [Consulta: 6 febrer 2013].
  3. «Teaching computers to read: Google acquires reCAPTCHA». Google. [Consulta: 6 febrer 2013].
  4. «Google compra reCAPTCHA – Itespresso.es». Arxivat de l'original el 2009-09-22. [Consulta: 6 febrer 2013].
  5. «recaptcha-para.html Google utiliza reCAPTCHA para decodificar direcciones de Street View». [Consulta: 6 febrer 2012].

Enllaços externs

Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9