Escenario
Una manera de preparar los exámenes es practicando con aquellos de años anteriores. Para los que estudiamos en la UNED, el centro de Calatayud cuenta con un extenso repositorio de PDFs de exámenes de previas convocatorias.Problema
Los PDFs suelen ser de aquellos generados a partir de imágenes y no de texto lo que dificulta, por ejemplo, la confección de formularios tipo quiz con Google Forms al no poderse usar el copia y pega.Solución
¡OCRMyPDF al rescate! Ya había oído hablar de la herramienta pero hasta ahora no había tenido la ocasión de comprobar su eficacia. Tengo que reconocer que ha superado con creces mis expectativas. La instalación en Ubuntu (probado con 20.04) no puede ser más sencilla:
1 |
sudo apt install ocrmypdf |
1 |
ocrmypdf imagen.pdf texto.pdf |
1 |
sudo apt install tesseract-ocr-spa |
1 |
ocrmypdf -l spa --sidecar texto.txt imagen.pdf texto.pdf |