Extracción del texto de un pdf creado a partir de una imagen

Escenario

Una manera de preparar los exámenes es practicando con aquellos de años anteriores. Para los que estudiamos en la UNED, el centro de Calatayud cuenta con un extenso repositorio de PDFs de exámenes de previas convocatorias.

Problema

Los PDFs suelen ser de aquellos generados a partir de imágenes y no de texto lo que dificulta, por ejemplo, la confección de formularios tipo quiz con Google Forms al no poderse usar el copia y pega.

Solución

¡OCRMyPDF al rescate! Ya había oído hablar de la herramienta pero hasta ahora no había tenido la ocasión de comprobar su eficacia. Tengo que reconocer que ha superado con creces mis expectativas. La instalación en Ubuntu (probado con 20.04) no puede ser más sencilla: Según la documentación de la página oficial el siguiente comando bastaría para extraer el texto de un PDF imagen a otro de tipo texto. A primera vista el resultado es satisfactorio, pero tras copiar y pegar el texto del pdf generado me encontré que no estaba reconociendo algunos caracteres propios de la ortografía española. La solución pasaba por instalar el paquete de lenguaje español: Tan sencillo como esto. En la decena de pruebas que he hecho apenas habrá fallado en algún carácter o dos por centenares de palabras copiadas. Y, hablando de copiar, también se puede instruir a la herramienta para que genere un documento de texto plano. Personalmente los prefiero cuando tengo que copiar y pegar muchas veces mucho texto.

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *