Extracción del texto de un pdf creado a partir de una imagen

Escenario

Una manera de preparar los exámenes es practicando con aquellos de años anteriores. Para los que estudiamos en la UNED, el centro de Calatayud cuenta con un extenso repositorio de PDFs de exámenes de previas convocatorias.

Problema

Los PDFs suelen ser de aquellos generados a partir de imágenes y no de texto lo que dificulta, por ejemplo, la confección de formularios tipo quiz con Google Forms al no poderse usar el copia y pega.

Solución

¡OCRMyPDF al rescate! Ya había oído hablar de la herramienta pero hasta ahora no había tenido la ocasión de comprobar su eficacia. Tengo que reconocer que ha superado con creces mis expectativas. La instalación en Ubuntu (probado con 20.04) no puede ser más sencilla: Según la documentación de la página oficial el siguiente comando bastaría para extraer el texto de un PDF imagen a otro de tipo texto. A primera vista el resultado es satisfactorio, pero tras copiar y pegar el texto del pdf generado me encontré que no estaba reconociendo algunos caracteres propios de la ortografía española. La solución pasaba por instalar el paquete de lenguaje español: Tan sencillo como esto. En la decena de pruebas que he hecho apenas habrá fallado en algún carácter o dos por centenares de palabras copiadas. Y, hablando de copiar, también se puede instruir a la herramienta para que genere un documento de texto plano. Personalmente los prefiero cuando tengo que copiar y pegar muchas veces mucho texto.

Publicaciones Similares

  • Renovación de la llave gpg

    Escenario En mi trabajo usamos gpg para cifrar los documentos con información sensible. Problema Resulta que, en su día, di de alta la clave con una esperanza de vida de dos años. Y dos años pasan muy rápido. Solución Estos son los comandos que hay que ejecutar para extender la fecha de caducidad. Para listar…

  • |

    Cómo ampliar el espacio en disco en 1and1

    Escenario Hemos contratado un servidor dedicado en 1and1 (ubuntu 14.04) y al acceder por ssh constatamos que no disponemos de todo el espacio en disco disponible: $ df -hFilesystem Size Used Avail Use% Mounted onudev 3.9G 4.0K 3.9G 1% /devtmpfs 798M 592K 797M 1% /run/dev/md1 4.0G 990M 3.0G 25% /none 4.0K 0 4.0K 0% /sys/fs/cgroupnone 5.0M 0 5.0M 0% /run/locknone 3.9G 0 3.9G 0% /run/shmnone 100M 0 100M 0% /run/user/dev/mapper/vg00-usr 4.8G 1.3G 3.3G 28% /usr/dev/mapper/vg00-var 4.8G 812M 3.8G 18% /var/dev/mapper/vg00-home 4.8G 10M 4.6G 1% /home Objetivo Aumentar el espacio disponible para dar cabida a nuestros recursos. Solución Nota: sólo aplicable a sistemas linux Primer paso Comprobamos el espacio en disco real: ~$ sudo fdisk -lDisk /dev/sda: 240.1 GB, 240057409536 bytes255 heads, 63 sectors/track, 29185 cylinders, total 468862128 sectorsUnits = sectors of 1 * 512 = 512 bytesSector size (logical/physical): 512 bytes / 4096 bytesI/O size (minimum/optimal): 4096 bytes / 4096 bytesDisk identifier: 0x24e3fc12   Device Boot      Start         End      Blocks   Id  System/dev/sda1            2048     8390655     4194304   fd  Linux raid autodetect/dev/sda2         8390656    12584959     2097152   82  Linux swap / Solaris/dev/sda3        12584960   468862127   228138584   fd  Linux raid autodetect Segundo…

  • Directorio con permisos de escritura para los miembros de un mismo grupo

    Escenario Estoy desplegando una aplicación web en un directorio en el que pretendo puedan escribir todos los usuarios perteneciente a un grupo dado. Problema No basta con crear un grupo, añadir los usuarios al tal grupo y adjudicar el directorio al grupo en cuestión. Solución Empecemos desde el principio. Los usuarios Antonio y Carla han…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *