Cómo

Extracción del texto de un pdf creado a partir de una imagen

PorMarcos mayo 31, 2022

Escenario

Una manera de preparar los exámenes es practicando con aquellos de años anteriores. Para los que estudiamos en la UNED, el centro de Calatayud cuenta con un extenso repositorio de PDFs de exámenes de previas convocatorias.

Problema

Los PDFs suelen ser de aquellos generados a partir de imágenes y no de texto lo que dificulta, por ejemplo, la confección de formularios tipo quiz con Google Forms al no poderse usar el copia y pega.

Solución

¡OCRMyPDF al rescate! Ya había oído hablar de la herramienta pero hasta ahora no había tenido la ocasión de comprobar su eficacia. Tengo que reconocer que ha superado con creces mis expectativas. La instalación en Ubuntu (probado con 20.04) no puede ser más sencilla:

sudo apt install ocrmypdf

1	sudo apt install ocrmypdf

Según la documentación de la página oficial el siguiente comando bastaría para extraer el texto de un PDF imagen a otro de tipo texto.

ocrmypdf imagen.pdf texto.pdf

1	ocrmypdf imagen.pdf texto.pdf

A primera vista el resultado es satisfactorio, pero tras copiar y pegar el texto del pdf generado me encontré que no estaba reconociendo algunos caracteres propios de la ortografía española. La solución pasaba por instalar el paquete de lenguaje español:

sudo apt install tesseract-ocr-spa

1	sudo apt install tesseract-ocr-spa

Tan sencillo como esto. En la decena de pruebas que he hecho apenas habrá fallado en algún carácter o dos por centenares de palabras copiadas. Y, hablando de copiar, también se puede instruir a la herramienta para que genere un documento de texto plano. Personalmente los prefiero cuando tengo que copiar y pegar muchas veces mucho texto.

ocrmypdf -l spa --sidecar texto.txt imagen.pdf texto.pdf

1	ocrmypdf -l spa --sidecar texto.txt imagen.pdf texto.pdf

Cómo

Oracle JDK 7 is NOT installed.
PorMarcos febrero 28, 2022febrero 28, 2022

Escenario El otro día me avisaron que una de las decenas de webs bajo mi responsabilidad tenía el certificado caducado. A principio de mes estuve actualizando los certificados de todos los servidores, pero éste se me pasó. Problema Al no ser una web a la que demos mucho uso, tenía actualizaciones de seguridad pendientes de…

Leer más Oracle JDK 7 is NOT installed.
Tutorial

Usuarios sftp enjaulados con logs para registro de eventos
PorMarcos mayo 16, 2020septiembre 17, 2020

Escenario Un cliente nos pide que montemos un servidor FTP para que nos pueda hacer llegar periódimante ficheros con datos. La máquina en la que vamos a configurarlo corre en un ubuntu server 18.04. y tiene instalado un openssh-server. Requisitos Debe utilizar el protocolo SFTP, que ofrece las funcionalidades de FTP sobre el protocolo SSH….

Leer más Usuarios sftp enjaulados con logs para registro de eventos
Cómo

Cómo recrear el estado de un componente de React
PorMarcos septiembre 27, 2019septiembre 17, 2020

Escenario Tenemos una aplicación web usando React 15.6.2. Todo va bien hasta que un nuevo módulo para una nueva funcionalidad requiere una versión >= 16.3. El problema es que al actualizar la biblioteca de programación otro módulo dejó de funcionar. Problema El modulo que dejó de funcionar consistía en una serie de combos que se…

Leer más Cómo recrear el estado de un componente de React
Cómo

Cómo NO hacer iteraciones anidadas en thymeleaf 3
PorMarcos junio 27, 2021junio 27, 2021

Escenario Me han pedido que integre en una nueva aplicación una funcionalidad de otra ya existente. No es la primera vez que me ha tocado hacerlo. Suele ser un trabajo tedioso basado en continuos copia y pega y frecuentes refactorizaciones. Una de la vistas que debo importar en la nueva aplicación muestra una tabla con…

Leer más Cómo NO hacer iteraciones anidadas en thymeleaf 3
Cómo

Hibernate no puede resolver la propiedad…
PorMarcos septiembre 30, 2021octubre 21, 2021

Escenario En una aplicación Spring Boot v2.3.4 hay dos entidades Balance y Shop. Una tienda (shop) puede tener varios saldos y un saldo (Balance) ha de estar relacionado con una tienda. Además existen panaderías (Bakery) y sastrerías (TailorShop) que extienden la clase Shop:

Java

@Entity public class Balance { @ManyToOne @JoinColumn(name = "shop_id") private Shop shop; ... }

1
2
3
4
5
6
7
8
9

@Entity
public class Balance
{
    @ManyToOne
    @JoinColumn(name = "shop_id")
    private Shop shop;

...
}

Java

@Entity abstract public class Shop { @OneToMany(mappedBy = "shop") private Set<Balance> balances; ... }

1
2
3
4
5
6
7
8

@Entity
abstract public class Shop
{
    @OneToMany(mappedBy = "shop")
    private Set<Balance> balances;

...
}

Java

@Entity public class Bakery extends Shop { ... }

1
2
3
4
5
6

@Entity
public class Bakery extends Shop
{

...
}

Java

@Entity public class TailorShop extends Shop { ... }

1
2
3
4
5
6

@Entity
public class TailorShop extends Shop
{

...
}

Y necesito saber cuál es la fecha del…

Leer más Hibernate no puede resolver la propiedad…
Cómo | Sin sentido

Mi blog puede contener programas dañinos
PorMarcos julio 18, 2019julio 18, 2019

Escenario Cuál fue mi sorpresa cuando la semana pasada al intentar acceder a este blog me encontré que estaba bloqueado por Firefox. Probé con Chrome, misma situación. En vez de cargar la página, el navegador mostraba una pantalla en rojo avisando que el sitio puede contener programas dañinos para mi ordenador. Problema Aunque los dos…

Leer más Mi blog puede contener programas dañinos

Escenario

Problema

Solución

Publicaciones Similares

Deja una respuesta Cancelar la respuesta