Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

6
– 1 – Manual de escaneo, procesamiento y OCR Por jparra para Ajedrez, Mi Pasión, 2012-08-01 1. Principios generales de escaneo y OCR Un escáner no es más que una fotocopiadora que, en vez de realizar una copia en papel, transforma cada página en un archivo de imagen, es decir, exactamente igual que ocurriría si sacáramos una fotografía a la página con una cámara fotográfica. Por tanto, aunque nosotros veamos letras y palabras, cada página está formada realmente por un conjunto de “píxeles” (negros, en gris o en color) sin ningún significado especial. Para convertir esta imagen en un texto (formado por letras, números y otros caracteres que se podrán “copiar y pegar” como cualquier texto normal y corriente), es necesario realizar un proceso denominado Reconocimiento Óptico de Caracteres, que abreviadamente se conoce por sus siglas en inglés OCR (Optical Character Recognition). Es muy importante dejar claro que si el texto escaneado tiene una calidad deficiente, con letras borrosas, que les faltan trazos o incluso que se juntan unas con otras, el programa de OCR será incapaz de reconocerlas adecuadamente. Esto producirá por ejemplo que al copiar y pegar el texto una vez realizado el proceso de OCR, aparecerán caracteres extraños que no tendrán nada que ver con el texto original (ejemplos típicos son “ll” que aparecen como “U”, “rr” como “m”, etc.). Por tanto, nunca me cansaré de repetir que “LA CALIDAD FINAL DE UN TRABAJO DEPENDE DIRECTAMENTE DE LA CALIDAD DEL ESCANEO INICIAL” y “EL TIEMPO DE PROCESAMIENTO DE UN TRABAJO ES INVERSAMENTE PROPORCIONAL A LA CALIDAD DEL ESCANEO”. Es más rentable volver a escanear un libro como es debido, que pasarse semanas o meses arreglándolo para que quede medianamente decente. Claro que no siempre disponemos del libro para poder volver a escanearlo… Existen diversos programas capaces de realizar el proceso de OCR. Podríamos dividirlos en dos grupos: a. Programas que no modifican el contenido de las páginas escaneadas. En realidad sólo añaden digamos una capa oculta que contiene las letras y caracteres que corresponde a la imagen gráfica del texto. Esto es lo que hacen los programas que vienen con el escáner o el propio Adobe Acrobat. Como desventaja, no permiten interaccionar con el texto resultante del OCR (salvo copiarlo y pegarlo), es decir, no es posible corregir errores del texto o equivocaciones en el propio proceso de reconocimiento automático del texto. b. Programas que modifican el contenido de las páginas escaneadas. A diferencia del caso anterior, estos programas sustituyen por completo las imágenes gráficas escaneadas por los caracteres de texto y tipos de letra más parecidos a dichas imágenes. Es decir, las imágenes escaneadas se sustituyen por texto real que podemos editar, corregir y modificar como hacemos normalmente en cualquier editor o procesador de textos. Como desventaja, aun conservando la forma y utilizando tipos de letras similares, se pierde un poco la apariencia y la magia del libro original. Dos claros ejemplos de este tipo de programas son ABBY FineReader y Ommipage (personalmente me quedo con el primero por goleada). La ventaja fundamental de ambos tipos de programas es que “permiten reducir drásticamente el tamaño de los archivos correspondientes al original escaneado”. En el primer caso el programa es capaz de eliminar gran cantidad de información de las imágenes que forman el documento, ya que sabe quedarse solamente con la información correspondiente a la capa de texto obtenida del resultado del proceso de OCR, mientras que en el segundo caso en el archivo de salida permanece única y exclusivamente el texto obtenido del proceso de OCR, es decir, exactamente un byte por cada carácter del texto en el caso del juego de caracteres ASCII o bien dos bytes por cada carácter en el caso de texto Unicode.

description

Una pequeña guía sobre los principios del escaneo de libros y su posterior procesamiento con "Scan Tailor" y "Adobe OCR Clearscan".

Transcript of Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

Page 1: Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

– 1 –

Manual de escaneo, procesamiento y OCR Por jparra para Ajedrez, Mi Pasión, 2012-08-01

1. Principios generales de escaneo y OCR Un escáner no es más que una fotocopiadora que, en vez de realizar una copia en papel, transforma

cada página en un archivo de imagen, es decir, exactamente igual que ocurriría si sacáramos una fotografía a la página con una cámara fotográfica. Por tanto, aunque nosotros veamos letras y palabras, cada página está formada realmente por un conjunto de “píxeles” (negros, en gris o en color) sin ningún significado especial.

Para convertir esta imagen en un texto (formado por letras, números y otros caracteres que se podrán “copiar y pegar” como cualquier texto normal y corriente), es necesario realizar un proceso denominado Reconocimiento Óptico de Caracteres, que abreviadamente se conoce por sus siglas en inglés OCR (Optical Character Recognition).

Es muy importante dejar claro que si el texto escaneado tiene una calidad deficiente, con letras borrosas, que les faltan trazos o incluso que se juntan unas con otras, el programa de OCR será incapaz de reconocerlas adecuadamente. Esto producirá por ejemplo que al copiar y pegar el texto una vez realizado el proceso de OCR, aparecerán caracteres extraños que no tendrán nada que ver con el texto original (ejemplos típicos son “ll” que aparecen como “U”, “rr” como “m”, etc.). Por tanto, nunca me cansaré de repetir que “LA CALIDAD FINAL DE UN TRABAJO DEPENDE DIRECTAMENTE DE LA CALIDAD DEL ESCANEO INICIAL” y “EL TIEMPO DE PROCESAMIENTO DE UN TRABAJO ES INVERSAMENTE PROPORCIONAL A LA CALIDAD DEL ESCANEO”. Es más rentable volver a escanear un libro como es debido, que pasarse semanas o meses arreglándolo para que quede medianamente decente. Claro que no siempre disponemos del libro para poder volver a escanearlo…

Existen diversos programas capaces de realizar el proceso de OCR. Podríamos dividirlos en dos grupos:

a. Programas que no modifican el contenido de las páginas escaneadas.

En realidad sólo añaden digamos una capa oculta que contiene las letras y caracteres que corresponde a la imagen gráfica del texto. Esto es lo que hacen los programas que vienen con el escáner o el propio Adobe Acrobat. Como desventaja, no permiten interaccionar con el texto resultante del OCR (salvo copiarlo y pegarlo), es decir, no es posible corregir errores del texto o equivocaciones en el propio proceso de reconocimiento automático del texto.

b. Programas que modifican el contenido de las páginas escaneadas.

A diferencia del caso anterior, estos programas sustituyen por completo las imágenes gráficas escaneadas por los caracteres de texto y tipos de letra más parecidos a dichas imágenes. Es decir, las imágenes escaneadas se sustituyen por texto real que podemos editar, corregir y modificar como hacemos normalmente en cualquier editor o procesador de textos. Como desventaja, aun conservando la forma y utilizando tipos de letras similares, se pierde un poco la apariencia y la magia del libro original. Dos claros ejemplos de este tipo de programas son ABBY FineReader y Ommipage (personalmente me quedo con el primero por goleada).

La ventaja fundamental de ambos tipos de programas es que “permiten reducir drásticamente el tamaño de los archivos correspondientes al original escaneado”. En el primer caso el programa es capaz de eliminar gran cantidad de información de las imágenes que forman el documento, ya que sabe quedarse solamente con la información correspondiente a la capa de texto obtenida del resultado del proceso de OCR, mientras que en el segundo caso en el archivo de salida permanece única y exclusivamente el texto obtenido del proceso de OCR, es decir, exactamente un byte por cada carácter del texto en el caso del juego de caracteres ASCII o bien dos bytes por cada carácter en el caso de texto Unicode.

Page 2: Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

– 2 –

2. La calidad del escaneo, base de todo Como ya comenté anteriormente, sin calidad en el escaneo original no se pueden obtener buenos

resultados ni se pueden hacer milagros. En páginas sueltas o en libros que abren perfectamente en un ángulo de 180º esto no es problema, pero en libros que abren mal o que tienen muy poco margen interior, es importante escanear cada página con sumo cuidado. Ahorrar unos pocos minutos de tiempo en el proceso de escaneo sólo sirve para obtener resultados que dan ganas de tirar a la basura…

Unos sencillos consejos de escaneo que se pueden leer en muchos sitios y foros de Internet son los siguientes:

1) Si el programa que viene con el escáner no nos convence, yo recomendaría VueScan. Aunque seguro que hay muchos otros estupendos.

2) En las opciones de escaneo del programa, seleccionar siempre al menos 300 ppp (puntos por pulgada, en inglés dpi="dots per inch"). Nunca menos si no queremos perder calidad del texto. Incluso 600 ppp si disponemos de un buen escáner y no hay mucha diferencia de tiempo de escaneo entre una opción y otra.

Por si acaso necesita aclaración, los “ppp” definen la denominada RESOLUCIÓN de las imágenes escaneadas, exactamente de la misma forma que hablamos de resolución gráfica en una pantalla, un televisor, una cámara fotográfica o una impresora. Así, 300 ppp indica que en una pulgada (ya sea en vertical u horizontal) se crean 300 píxeles o puntos de la imagen, mientras que 600 ppp indicaría que en dicha pulgada se crearían 600 píxeles. Obviamente si en el mismo espacio se crean el doble de puntos quiere decir que cada punto ha de tener la mitad de tamaño para que quepan, o dicho de otra forma, estamos escaneando al doble de resolución.

3) Seleccionar la opción de escanear "Documento en escala de grises" para las páginas en blanco y negro o en gris del libro, y "Documento en color" para la portada y contraportada o bien para aquellas páginas con fotos/dibujos en color.

4) Como tipo de salida, seleccionar archivos de imagen en formato TIFF (Tagged Image File Format), para más información http://en.wikipedia.org/wiki/Tagged_Image_File_Format). Pongo el enlace en inglés porque, en este caso y como por desgracia ocurre muchas veces, el artículo de la Wikipedia en español resulta bastante pobre…

5) Si se escanea el libro a doble página, que es lo habitual, es necesario abrirlo por completo y aplastarlo con la mano mientras se escanea para que quede bien pegado al cristal del escáner y no queden zonas cortadas, borrosas o curvadas.

La curvatura de líneas se puede arreglar con Scan Tailor, aunque lleva su tiempo. Los otros defectos son prácticamente irreparables (hace falta restaurar los caracteres defectuosos uno a uno con un programa de retoque de imágenes, un arduo trabajo que muchas personas no saben apreciar…). Aunque parezca muy drástico, muchas veces es necesario destrozar un libro para poder abrirlo completamente sobre el cristal del escáner si realmente queremos obtener buenos resultados. Una vez escaneado habrá que echar mano del pegamento para arreglar el libro y volver a dejarlo en buenas condiciones...

6) Por favor, escanead TODAS las páginas. Si se quiere conservar la estructura de páginas pares a la izquierda e impares a la derecha de cualquier libro, no vale la pena saltarse páginas en blanco o las páginas de créditos por ahorrar unos minutos de tiempo que no van a ningún sitio...

Con estos sencillos consejos (que no tienen por qué influir apenas en el tiempo que se tarda en escanear un libro, y que, dependiendo de la pericia de cada uno, no suele pasar de 1 ó 2 horas por cada 100 páginas), obtendréis escaneos perfectos que luego serán sencillos de reprocesar y proporcionarán copias de excelente calidad sin tener que perder horas, días, semanas e incluso meses limpiando puntitos y arreglando caracteres mal escaneados. Y recordad: NO IMPORTA EL TAMAÑO DE LAS PÁGINAS OBTENIDAS TRAS EL PROCESO DE ESCANEO, LO QUE IMPORTA ES LA CALIDAD Y LA RESOLUCIÓN. La razón de esto se verá a continuación.

Page 3: Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

– 3 –

3. La navaja suiza del reproceso: Scan Tailor Una vez escaneado un libro, lo normal es reprocesarlo (esto también se puede realizar a partir de un

libro en PDF cuyo aspecto final no sea demasiado bueno y queramos mejorarlo). En esta fase se cortan las páginas dobles, se endereza el texto, se eliminan posibles rayones, puntos negros y defectos, y se obtienen archivos de imagen TIFF para cada página que ocupan muchísimo menos que los archivos TIFF originales.

En mi opinión la mejor herramienta que existe atendiendo a su facilidad de manejo y los resultados obtenidos es el programa gratuito Scan Tailor (otra alternativa gratuita es ScanKromsator, pero, aunque reconozco que no sé manejarlo, me parece que tiene un aprendizaje más lento). La página oficial de Scan Tailor es http://scantailor.sourceforge.net, y en el apartado "Documentation" existe un Wikitutorial en ruso e inglés. Lo importante es que en la parte inferior aparece un enlace en la sección en inglés con un vídeo que permite aprender a utilizar el programa en pocos minutos. Está en inglés, pero sólo con verlo es suficiente (si yo aprendí con él, entonces es que puede aprender cualquiera…).

A grandes rasgos, estos serían los pasos que hay que llevar a cabo para reprocesar un libro con Scan Tailor:

1. Si se desea reprocesar un libro en PDF, desde Adobe Acrobat (u otro programa de tratamientos de archivos en PDF) se debe elegir "Guardar como - Imagen - TIFF" para obtener los archivos de imagen correspondientes a cada página (es decir, como si realmente hubiéramos escaneado el libro).

Hay que crear y seleccionar una carpeta en nuestro disco duro. Acrobat creará un archivo de imagen TIFF por cada página. Si en automático no está seleccionada la opción de 300 ppp de resolución (118,11 píxeles/cm) o si el resultado no es el esperado, basta con borrar todos los archivos creados en la carpeta y volver a generarlos eligiendo la resolución manualmente en el botón “Configuración”. Incluso a veces es mejor seleccionar 600 ppp (236,22 píxeles/cm), pero no siempre ya que si los archivos de imagen son demasiado grandes, Scan Tailor tarda unos segundos en procesar cada página y nuestro trabajo se ralentiza.

2. Ya en Scan Tailor, elegir "New Project", indicar la carpeta con los archivos y seleccionar todos los archivos. A veces Scan Tailor protesta si todas las páginas no tienen la misma resolución, siendo necesario indicarla manualmente.

Luego mientras estemos trabajando con Scan Tailor iremos guardando el proyecto con "File - Save project" de vez en cuando. Ojo, esto no guarda ningún archivo TIFF, sino un archivo con extensión “.scantailor” que almacena las características del proyecto y las modificaciones realizadas en las páginas. Por tanto, este archivo se puede guardar en cualquier sitio y con el nombre que queráis, aunque lo lógico es darle un nombre similar al título del libro y guardarlo no muy lejos de la carpeta con los archivos TIFF originales.

Por cierto, Scan Tailor ya tiene traducción al español pero a mí me sigue gustando más la versión en inglés…

3. Ahora viene el trabajo real de procesamiento, que se realiza mediante los 6 pasos o tareas que aparecen arriba a la izquierda:

• Fix Orientation, para orientar las páginas en horizontal o vertical. No suele ser necesario hacer nada manualmente con esta opción, pero siempre es recomendable darles un repaso a las páginas por si acaso (las teclas “AvPág/RePág” permiten ir rápidamente a la siguiente/anterior página, e “Inicio” y “Fin” a la primera y última página respectivamente).

En casi todas las tareas aparecen opciones a la izquierda. En concreto, los botones “Change” o “Apply to” permiten por ejemplo aplicar las mismas opciones a todas las demás páginas o las siguientes a la página actual, lo cual suele resultar muy útil.

También os recomiendo que probéis los menús contextuales (botón derecho del ratón) en distintas zonas, por ejemplo en el panel central, en las páginas en miniatura de la parte derecha, etc. Experimentando se aprende…

Page 4: Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

– 4 –

• Split Pages, para dividir las páginas si se escaneó el libro a doble página. Suele detectarlo bien, aunque hay que repasar las páginas y desplazar la barra vertical de separación si fuese necesario.

• Deskew, para girar las páginas torcidas o inclinadas. Prácticamente siempre lo hace bien.

• Select Content, para seleccionar el contenido de cada página, es decir, exclusivamente el texto de la página. No importa dónde esté situado, ya que luego se alineará según sea necesario. Suele funcionar bien de forma automática al 90%, pero a veces no detecta por ejemplo bien las cabeceras o números de página, por lo que habrá que repasar las páginas desplazando los bordes del cuadro de contenido cuando sea necesario.

• Margins, permite definir los márgenes y el tamaño de las páginas. Esta es la opción, en mi opinión, más complicada de ajustar (suelen resultar de gran utilidad las opciones de ordenación que aparecen en la parte inferior del panel de páginas en miniatura, que permiten ordenar las páginas por tamaño vertical u horizontal).

Los márgenes son complicados porque la página con mayor tamaño (contando tanto su caja de contenido como sus márgenes) determinará el tamaño de todas las demás y por tanto el tamaño final del libro.

Lo normal es poner márgenes cero a la portada/contraportadas e indicar un cuadro de contenido en “Select Content” que ocupe toda la portada/contraportada. De esta forma la portada/contraportada definirá el tamaño final del libro.

Para las demás páginas deberemos jugar con los márgenes hasta dar con el adecuado. Normalmente yo suelo definir solamente el margen superior (y todos los demás márgenes a cero) y selecciono la opción de alinear las páginas arriba centradas horizontalmente. Probad y experimentad hasta que le cojáis el truquillo… En cualquier caso luego hay que repasar las páginas para comprobar el resultado (y alinear o arrastrar los márgenes por ejemplo para las páginas de títulos, de créditos, etc.).

Si el tamaño de la portada/contraportada no se adecúa al tamaño que deseamos, basta con editarlas en un programa de retoque de imágenes y reducir o aumentar su tamaño un cierto porcentaje (por ejemplo reducirlas en un 90% o aumentarlas en un 110% de su tamaño). Como comento más adelante, yo utilizo para ello Paint Shop Pro, pero cualquier programa de retoque permite realizar estas tareas fácilmente.

• Output, permite ver el resultado de salida final de cada página y realizar diversos procesos de limpieza.

4. En cuanto a este último paso “Output”, aquí realizaremos las tareas de limpieza que podrán llevarnos una o dos horas, o bien toda una vida para dejar en condiciones un libro que esté muy deteriorado. A modo de resumen podemos comentar lo siguiente:

• A la izquierda hay que seleccionar la resolución de salida, el modo (blanco y negro, color/escala de grises o mixto) y el grosor de los caracteres. Normalmente se utiliza blanco y negro 300 ppp, y color con menor resolución para la portada/contraportada (en la subcarpeta "out" quedan los archivos TIFF definitivos de salida, y habrá que ir disminuyendo la resolución de la portada/contraportada para que sus correspondientes archivos no ocupe más de por ejemplo 1MB). La opción “Mixto” se utiliza para páginas con fotos o diagramas en color o en escala de grises.

• A la derecha aparecen varias pestañas, donde la pestaña "Output" muestra el resultado final de la página.

• La pestaña "Picture zones" permite señalar (o eliminar con el botón derecho) las zonas que se consideran imágenes en caso de que indiquemos como salida que las páginas son mixtas y no se detecten automáticamente (en el vídeo se ve cómo utilizar esta opción).

Page 5: Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

– 5 –

• La pestaña "Fill zones" permite eliminar manchas negras o añadir trozos de texto que faltan (con el botón derecho se elige el color de las zonas de relleno, lo que permite "dibujar" letras o líneas borrosas, un trabajo "de chinos" que desmoraliza al más optimista...).

• La pestaña "Dewarping" permite enderezar líneas de texto que han salido curvadas porque no se abrió bien el libro al escanearlo o bien por estar fotocopiado. Hay que ir arrastrando los puntitos de arriba y abajo (o crear nuevos puntitos sin más que hacer clic o borrarlos con la tecla “Supr”) para ajustarlos a la línea del texto. Otro trabajito "de chinos"...

• La pestaña "Despecklin" sólo muestra qué puntos de la página estamos eliminando con los botones de limpieza de la parte izquierda, ya que si elegimos el botón más agresivo podemos perder cosas válidas (por ejemplo, con la opción más agresiva a veces desaparecen los puntos suspensivos "..." del texto).

5. Una vez terminado el trabajo, se cierra Scan Tailor, se seleccionan todos los archivos de la subcarpeta "out" y con el botón derecho se selecciona la opción "Combinar archivos en un PDF" de Adobe Acrobat.

Si no disponéis de Adobe Acrobat, tendréis que montarlos con otro programa (por ejemplo “i2pdf”) o bien podréis pasarle la carpeta “out” a alguien para que monte el PDF.

6. Por último, en Adobe Acrobat ya se puede realizar el proceso de OCR, seleccionar el zoom por defecto, crear bookmarks, etc.

Finalmente cabe mencionar que a veces hay páginas que están tan defectuosas que resulta imposible arreglarlas directamente desde Scan Tailor y es necesario editarlas previamente con algún programa de retoque de imágenes. Yo utilizo Paint Shop Pro, pero sirve prácticamente cualquiera. Con dicho programa coloreo o arreglo la portada y contraportada de los libros, realzo el texto si Scan Tailor no es capaz de reconocer todos los trazos adecuadamente, copio y pego caracteres en buen estado sobre otros defectuosos, arreglo diagramas de las partidas, etc. Esto es un trabajo “de chinos”, por lo que hay que sopesar si realmente merece la pena llevarlo a cabo o es mejor, como ya comenté varias veces, VOLVER A ESCANEAR BIEN EL LIBRO (claro que no siempre podemos disponer de él…).

Page 6: Manual de Escaneo, Procesamiento y OCR - jparra 2012-08-01

– 6 –

4. La opción OCR ClearScan de Adobe Acrobat La opción ClearScan de Adobe Acrobat permite, a la vez que se lleva a cabo el proceso de OCR de

un documento, modificar la representación gráfica de los caracteres del documento sustituyéndolos por un tipo de letra vectorial con la que se elimina el conocido “efecto de dientes de sierra” que se aprecia en los bordes de los caracteres al realizar un zoom y acercar el texto del documento. El resultado tanto al visualizar el documento como al imprimirlo es impecable y no veo razón alguna para no llevarlo a cabo en cualquier libro escaneado, reprocesado y convertido a PDF.

Para utilizar la opción OCR ClearScan en Adobe Acrobat, basta con:

1. Desplegar el menú "Herramientas" (arriba a la derecha).

2. Desplegar la opción "Reconocer texto".

3. Seleccionar "En este archivo".

4. Aquí es recomendable probar a convertir rangos de páginas (por ejemplo, de 50 en 50 o de 100 en 100, o incluso sólo la página actual) e ir guardando cada modificación con distinto nombre si todo va bien (por ejemplo, muchas veces no queda bien aplicarle ClearScan a la portada o contraportada).

5. Otro detalle: las páginas apaisadas quedarán giradas 90º, por lo que es necesario ponerlas como estaban con la opción “Rotar página” de Adobe Acrobat.

6. En el cuadro "Configuración", hacer clic en el botón Editar".

7. Y aquí finalmente hay que desplegar "Estilo de salida PDF" y seleccionar "ClearScan" (con idioma Español, Inglés o lo que corresponda, y normalmente con 300ppp).

Un último consejo: no utilizar la opción "Herramientas - Proceso de documentos - Optimizar PDF digitalizado" (salvo casos excepcionales), y menos aún antes de utilizar la opción de OCR ClearScan. Esta opción realiza una optimización automática de las imágenes que componen el documento (de nuevo recalcamos el hecho de que una página escaneada no es más que una imagen), y en la mayoría de los casos lo único que se consigue es una pérdida de calidad de dichas imágenes. Si a simple vista no se aprecia, basta con hacer un zoom para comprobar que el texto original escaneado se ha deteriorado notablemente, apareciendo multitud de puntitos y sombras alrededor de los caracteres del texto.