Gb indexacion automatica

13
Indexación automática de documentos técnicos. Gabriel Berlicki Administrador de Datos División de Modernización de Infraestructuras

description

 

Transcript of Gb indexacion automatica

Page 1: Gb indexacion automatica

Indexación automática de documentos técnicos.

Gabriel Berlicki

Administrador de Datos

División de Modernización de Infraestructuras

Page 2: Gb indexacion automatica

Procedimiento actual de marcado de capítulos en solicitudes de patente

Normalmente el procedimiento se realiza manualmente durante la etapa de carga de las imágenes o durante la validación de las mismas.

Si bien es un procedimiento relativamente rápido, el consenso general de los usuarios es que:

ES ABURRIDO y un usuario que se aburre no es bueno(errores, retrasos, etc.)

etc =

Y normalmente no es un procedimiento particularmente barato.

Page 3: Gb indexacion automatica

Cont.

Particularmente en el caso de los proyectos de digitalización en curso, el uso de marcadores eleva los costos dado la necesidad de contar con personal experimentado y entrenado.

No es solamente escanear los documentos, es necesario interpretarlos, lo cual hace que las empresas con menor experiencia (de costo mas bajo) no se presentan o no pueden cumplir con los requisitos

Page 4: Gb indexacion automatica

Que tan bien esta pensada la digitalización?El tema es que el personal de las empresas normalmente no son del ambiente de IP, y normalmente cometen errores por mas tiempo que dedique la oficina para entrenarlos al inicio del proyecto.

Dichos errores pueden acarrear costos adicionales si no son detectados a tiempo(o sea durante el tiempo del contrato), se puede dar por finalizado un proyecto y lo entregado no cumple con las especificaciones normales.

Si no se controla el producto de la empresa el resultado de la digitalización puede ser totalmente inusable (no solo el tema de los marcadores, resolución no adecuada, documentos no digitalizados por completo, etc.).

Page 5: Gb indexacion automatica

Vale la pena invertir en marcado manual?

Depende de la magnitud del proyecto, de la experiencia de la empresa.

Y particularmente de los recursos que se tengan

Pero en principio para la magnitud de los proyectos de digitalización de archivos históricos, es un costo adicional que debería evitarse.

Page 6: Gb indexacion automatica

Evitarse si, pero como?

En principio para ingles, español y portugués existen herramientas gratuitas para realizar OCR(ej: Tesseract-Google).

Que a partir de imágenes escaneadas pueden producir un texto, con una calidad suficiente como para ser evaluado posteriormente para realizar la indexación automática.

Page 7: Gb indexacion automatica

Evaluado pero como?

Al fin y al cabo los documentos técnicos de patentes son muy estructurados.

Los solicitantes siempre nos hacen el favor de incluir palabras especiales en las diferentes secciones

No es raro encontrar que el capítulo reivindicatorio comienza con el titulo: Reivindicaciones….

Y normalmente en esa misma página aparecen palabras muy particulares, "caracterizado por", “reivindicación” ( al comienzo de una línea), y otros similares.

Page 8: Gb indexacion automatica

Desventajas

El procedimiento depende mucho de la calidad de la imagen.

Si la misma es muy mala, cometerá errores.

El tema es que si la imagen es muy mala, la digitalización se hizo mal.

Por lo que seria preferible gastar en la mejora de la imagen, antes que tener un documento perfectamente indexado pero totalmente ilegible.

Page 9: Gb indexacion automatica

Antecedentes

Documentos antiguos del INPI De Brasil, no indexados pero de buena calidad.

Digitalización del INPI de Argentina, implementación de método para validación de las imágenes y su indexación realizada por la empresa externa.

Page 10: Gb indexacion automatica

DEMO

Page 11: Gb indexacion automatica

Por que recién ahora?

Calidad de OCR gratuitos alta

Servidores de alta performance utilizados para digitalización con capacidad subutilizada( y a costos bajos en comparación con hace un par de años)

No hubo la necesidad de hacerlo(costos de digitalización relativamente bajos para países desarrollados)

Costos de digitalización en Latinoamérica altos respecto a otros lugares del mundo (mano de obra en Asia muy barata)

Page 12: Gb indexacion automatica

Futuro.Integración de aplicación en la versión final de Wiposcan 2.0

Brindando servicios de pre- indexación (inmediatamente de cargada la solicitud en el manejados de documentos). Los marcadores “podrán" ser validados por el usuario encargado del control de calidad del documento.

En caso de continuación de proyectos de digitalización y durante la etapa de validación de la resolución de las imágenes, se implementaría para validar la calidad precisa de la imagen indexada (por empresa) o a indexar (por la aplicación).

Page 13: Gb indexacion automatica

Cont.

La gran diferencia aquí es que seria posible controlar el 100% de las imágenes, no solamente el margen que se fija actualmente (Argentina 3%)

Posibilidades de extensión a otros lenguajes. Para lenguajes asiáticos se necesitaría un motor de OCR compatible con mas lenguajes o ver las posibilidades de generar mas diccionarios de lenguajes para tesseract.

El tema es que el costo de indexación manual en Asia es muy bajo. Aunque no es claro como se evalúa la calidad de lo entregado por las empresas....