Può capitare di aver bisogno di digitalizzare un documento che possediamo solo in formato cartaceo oppure di estrarre il testo da un’immagine (probabilmente una scansione) o da un .pdf; per fare ciò avremo bisogno di un software di riconoscimento caratteri, un OCR.
Nel panorama degli OCR spicca il progetto tesseract, un potente strumento di riconoscimento caratteri sviluppato tra il 1985 e il 1995 da HP. Originariamente proprietario, tesseract è poi stato rilasciato come open source nel 2005, grazie alla collaborazione tra HP e l’Università del Nevada. Il suo sviluppo è ora affidato a Google, che ne sponsorizza il mantenimento.
In ambiente Linux tesseract è presente in diversi software di riconoscimento caratteri, ma dopo averne provato qualcuno, posso affermare che il migliore è risultato gImageReader.
Una volta aperto il programma e caricato il file che si vuole convertire, si potrà scegliere se digitalizzare tutto il documento, solo la pagina corrente oppure specificare delle pagine singole o un intervallo di esse.
L’output sarà un file di testo semplice, che potrà essere salvato in formato .txt manipolabile da qualsivoglia editor di testo.
Per installare gImageReader su Linux o Windows, sarà sufficiente scaricare il file binario appropriato dalla pagina di download.
Il prerequisito per installarlo su Linux è quello di aver già installato tesseract in italiano. Per gli utenti Ubuntu, sarà sufficiente lanciare:
sudo apt-get install tesseract-ocr tesseract-ocr-ita
P.S.: non ho testato personalmente il software in ambiente Windows, quindi non so darvi indicazioni sull’installazione.






![Recommend [jonbonjovi_deleted]](http://s3.amazonaws.com/arkayne-media/img/badge/logo-recommend-badge-medium.png)
