Tanti anni fa, in una terra lontana un’azienda di nome HP decise di entrare nel mondo del software aziendale di prepotenza, ed uno dei prodotti realizzati per entrare in tale mercato fu uno strumento di OCR per il rinconoscimento del testo acquisito da scanner o altre fonti.
Il software in questione fu così ben sviluppato che nel 1995, data di abbandono del progetto, era considerato uno dei migliori prodotti in assoluto (inoltre dobbiamo ricordarci che all’epoca gli scanner erano strumenti per pochi eletti e nel ramo privato si usavano ancora quelli a trascinamento manuale o i primi modelli SCSI).
Tesseract, il nome del programma in questione, era talmente avanzato che tuttora, a 10 anni dalla data di ultimo rilascio, rimane un gradino superiore a moltissimi prodotti opensource.
Nel 2005 HP rilascia per nostra fortuna il software in questione con licenza Apache ed è di oggi la notizia che gli sviluppatori di Google, dopo qualche mese di sviluppo, lo hanno aggiornato risolvendo alcuni storici bachi. Attualmente di lavoro da fare ce n’è molto, infatti Tesseract non riconosce ancora layout complessi e fa fatica con i colori. Comunque Google non è certa l’ultima arrivata, ed ha deciso di investire non poco nel prodotto, tant’è che è stata pubblicata una offerta di lavoro per specialisti in OCR.
Sloteel
05 set 2006 - 14:03 - #1ma dopo il lavoro di google resterà open?
fullo
05 set 2006 - 14:26 - #2dovrebbe rimanere pubblicato con la stessa licenza se non erro
Sloteel
05 set 2006 - 19:27 - #3Ops… è vero, corro a ripassarmi le licenze…
ossblog
09 apr 2007 - 22:50 - #4[…] […]