Extracción de texto desde una imagen usando Tesseract-OCR

April 20, 2017

Extracción de texto desde una imagen usando Tesseract-OCR

Hace tiempo escribí un post sobre Boilerpipe, una herramienta para extraer texto de documentos html. Hoy mostraré Tesseract Un OCR.

Primero definamos OCR:

O ptical C haracter R ecognizer

Cuyo nombre traduce Reconocedor Óptico de Caracteres. Su principal objetivo es transformar imágenes que contengan texto en texto.

Su instalación es bastante sencilla:

Ubuntu:

sudo apt install tesseract-ocr

OSX:

brew install tesseract

La ejecución del aplicativo es sencilla:

tesseract image.jpg -l spa outputtext.txt

Donde la bandera -l nos indica el lenguaje.

Si queremos transformar la imagen a un idioma que no esté presente por defecto, podemos decargar los modelos de lenguajes compilados del este repositorio, y añadimos el argumento --tessdata-dir que apuntará a la carpeta que contenga el modelo de lenguaje

tesseract image.jpg  --tessdata-dir /ruta/a/tessdata/ -l spa outputtext.txt