documatica v3.doc

62
Documática Tema BIII-11 Documática. Gestión y archivo electrónico de documentos. Sistemas de gestión documental. Gestores de contenidos. Sindicación de contenido. Sistemas de gestión de flujos de trabajos. Búsqueda de información: robots, spiders, otros. Pág 1 de 62

Transcript of documatica v3.doc

Page 1: documatica v3.doc

Documática Tema BIII-11

Documática. Gestión y archivo electrónico de documentos. Sistemas de gestión documental. Gestores de contenidos.

Sindicación de contenido. Sistemas de gestión de flujos de trabajos. Búsqueda de información: robots, spiders, otros.

Pág 1 de 39

Page 2: documatica v3.doc

Documática Tema BIII-11

ÍNDICE

1 DOCUMÁTICA 4

2 GESTIÓN Y ARCHIVO ELECTRÓNICO DE DOCUMENTOS 4

2.1 INTRODUCCIÓN 42.2 ALGUNAS RESEÑAS LEGALES 7

3 SISTEMAS DE GESTIÓN DOCUMENTAL 10

3.1 TECNOLOGÍAS DE UN SISTEMA DE GESTIÓN DOCUMENTAL 103.2 PROCESOS INVOLUCRADOS EN UN SISTEMA DE GESTIÓN DOCUMENTAL 11

4 GESTORES DE CONTENIDOS 13

4.1 INTRODUCCIÓN 134.2 FUNCIONALIDAD DE UN PORTAL DE CONTENIDOS 134.3 PROCESOS INVOLUCRADOS EN LA GESTIÓN DE CONTENIDOS 154.4 ARQUITECTURA LÓGICA 174.4.1 GESTIÓN DE CONTENIDOS 184.4.2 EL MÓDULO DE PERSONALIZACIÓN 204.4.3 EL REPOSITORIO DE CONTENIDOS 224.4.4 INTERFAZ CON OTROS SISTEMAS 22

5 SINDICACIÓN DE CONTENIDO 23

6 SISTEMAS DE GESTIÓN DE FLUJOS DE TRABAJOS 24

6.1 INTRODUCCIÓN 246.2 VENTAJAS DE LOS WORKFLOWS 266.3 CLASIFICACIÓN DE LOS DIFERENTES TIPOS DE WORKFLOW 276.4 MODELO DE REFERENCIA DE WORKFLOW (WFMC) 28

7 BÚSQUEDA DE INFORMACIÓN: ROBOTS, SPIDERS, OTROS 30

7.1 INTRODUCCIÓN 307.2 EL SOFTWARE DE RECUPERACIÓN DE INFORMACIÓN 317.3 MODELOS Y TÉCNICAS DE RECUPERACIÓN 317.3.1 MODELO BOOLEANO 327.3.2 ÍNDICES INVERTIDOS 327.3.3 LENGUAJE NATURAL 337.3.4 INDEXACIÓN Y RECUPERACIÓN AUTOMÁTICAS VECTORIALES 337.3.5 LÓGICA BORROSA 337.3.6 MODELOS VECTORIALES Y PROBABILÍSTICOS 34

Pág 2 de 39

Page 3: documatica v3.doc

Documática Tema BIII-11

7.3.7 RETROALIMENTACIÓN 347.3.8 NORMAS-GAMMA 357.3.9 INDEXACIÓN AUTOMÁTICA (IA) Y SISTEMAS EXPERTOS 367.3.10 SISTEMAS QUE HOJEAN (HIPERTEXTO E HIPERMEDIA) 367.4 EVALUACIÓN DE LOS RESULTADOS 377.5 Robots y motores de búsqueda 38

Pág 3 de 39

Page 4: documatica v3.doc

Documática Tema BIII-11

1 Documática

La utilización del término “documática” se empezó a utilizar a finales de los años 90 y fue rápidamente aceptado como denominación de una nueva forma de entender la gestión de la información en las empresas.

En esta concepción se entiende la gestión de todo tipo de documentos creados y/o utilizados en la empresa y su acceso por cualquier persona de la organización. En la práctica la documática une la gestión de contenidos y de documentos (la archivística aplicada a los documentos electrónicos), con la gestión de los sitios Web y las intranets y con la gestión de las fuentes externas de información, primando la idea de descentralización de la gestión y la unión inevitable a los procesos de negocio o flujos de trabajo.

Aunque en la introducción anterior no está clara la delimitación entre gestión de contenidos y documental, en la exposición del tema separaremos ambos conceptos, si bien en el mercado de SW existen soluciones tecnológicas que aúnan las funciones de gestión documental y de contenidos de manera conjunta o modular.

2 Gestión y archivo electrónico de documentos

2.1 Introducción

Si consideramos que la información, tanto la interna como la externa, es un elemento clave y estratégico dentro de las organizaciones y un elemento de competitividad para las mismas, las diversas formas por las que se producen los documentos electrónicos, la variedad de tipologías de los mismos, y la adecuación de las actuales herramientas informáticas para la gestión integral de la documentación circulante, serán factores esenciales que se han de analizar detenidamente por parte de los servicios de información y documentación de toda institución que produzca y maneje este tipo de documentos a la hora del diseño y conceptualización de un sistema de gestión electrónica de la información. La proliferación de los documentos electrónicos ha permitido que esta conceptualización cobre una especial importancia en nuestros días.

El Electronic Document Management (EDM) o  la gestión electrónica de documentos (GED)  ha ido evolucionando rápidamente desde los años 80. En esas primeras etapas, esta gestión se definía básicamente como el sistema de tratamiento de la documentación de una organización que combina la imagen con información textual asociada a ella.

Este concepto surge a raíz de la irrupción de las tecnologías ópticas para la captura de la información. Los documentos en papel eran digitalizados a través de escáneres produciéndose una imagen electrónica de dicho documento, a la cual se le asociaban una serie de índices para la búsqueda y recuperación. En estas primeras etapas cobraría también una especial importancia las tecnologías surgidas para el reconocimiento óptico de caracteres (OCR) pues permitía que los contenidos de los documentos impresos de carácter textual fueran convertidos rápidamente a formatos electrónicos interpretables por el ordenador. De este modo los sistemas clásicos de gestión documental fueron incorporando estas tecnologías dentro de las funcionalidades que ofrecían al mercado.

Pero en la actualidad la gestión documental es entendida como un proceso global, corporativo e integral del proceso documental de una organización. Es por ello más

Pág 4 de 39

Page 5: documatica v3.doc

Documática Tema BIII-11

acertado hablar de Sistemas de Gestión Integrada de la Documentación, los cuales controlan la producción, la circulación, el almacenamiento y la recuperación de cualquier tipo de información. Aspiran, a “administrar y controlar de modo conjunto, mediante el auxilio de la informática, todo tipo de datos, documentos, conocimiento y habilidades existentes en la organización en la que se aplica”.

Las características principales de estos sistemas de gestión integral de la información serían:

Responden de forma corporativa a las necesidades y problemas de la gestión de la información dentro de las organizaciones.

Tienen un carácter abierto y dinámico, evolucionando junto a la trayectoria de la organización.

Aportan soluciones que incluyen todo el ciclo vital de los documentos.

Contemplan y gestionan los diferentes soportes documentales existentes en la organización.

La gestión documental se incluye en un entorno más amplio dentro de la gestión de la calidad total de la organización (ISO 9000).

El elemento clave en esta concepción de la gestión integral de la información es el documento electrónico. Las características y funcionalidades de esta clase especial de documentos ha permitido que se replantee el significado y alcance tradicionales del mismo pasando de ser una fuente de información estática, a considerarse un elemento clave y fundamental para la toma de decisiones, con un alto valor intrínseco, y que representa, como decíamos, un pilar básico para proveer de ventajas competitivas a toda organización. Esta concepción del valor actual del documento dentro de las organizaciones viene derivada de las características que determinan a los actuales documentos electrónicos, entre las que se pueden destacar las siguientes: combina diferentes unidades de información (texto, imágenes fijas o en movimiento, voz, gráficos, etc.), son legibles por máquinas y no por personas, su contenido puede cambiar de soporte con el tiempo, permite establecer relaciones con otros documentos, la estructura física carece de importancia, su contenido puede ser modificado rápidamente, fácilmente reproducible dando lugar a infinitas réplicas, admite múltiples formatos de lectura, estructurales y estéticos, etc. Es por ello que actualmente se habla de documentos inteligentes como contenedores dinámicos de conjuntos de información creados por distintas aplicaciones y que son revisados y actualizados de manera automática.

En este entorno conceptual han venido apareciendo en el mercado, en especial en esta última década, distintos productos informáticos orientados específicamente al control y la gestión integral de este tipo especial de documentación conocidos por sistemas o herramientas GED (Gestión Electrónica de Documentos) o por el término anglosajón de EDMS (Electronic Document Management Systems). Aunque se trata de una tecnología relativamente reciente, ha revolucionado el concepto de gestión documental dentro de las organizaciones. Algunos autores denominan a esta nueva forma de gestión documental con el nombre de Sistema de Gestión Corporativa de la Información.

En la mayor parte de los casos estos productos EDM son una evolución lógica de los tradicionales sistemas de gestión documental, a los que se les han ido añadiendo más o menos funcionalidades, e integrando otras tecnologías informáticas ya existentes en el

Pág 5 de 39

Page 6: documatica v3.doc

Documática Tema BIII-11

mundo empresarial para dar una respuesta global a las necesidades informativas y documentales de dichas organizaciones. Esta integración de tecnologías hace de estos productos herramientas potentes para la gestión electrónica de la documentación, orientados, principalmente, a grandes entidades con estructuras organizativas y funcionales muy complejas, con multitud de series y tipos documentales y con redes de usuarios, internos y externos, muy variadas.

Entre las ventajas proporcionadas por estos sistemas se encuentran:

Disminución del tiempo de localización y recuperación de los documentos al ser accesible desde el propio puesto de trabajo.

Disminución del tiempo en tratamiento y gestión, el usuario no tiene que rearchivar cada documento al trabajar con él en pantalla.

Disminución del coste de distribución; al estar los documentos accesibles en cualquier puesto, se eliminan los gastos de mensajería, fax, etc.

Disminución de costes administrativos,

Drástico recorte del espacio de almacenamiento y reaprovechamiento del mismo. Los originales en papel pueden enviarse a un espacio más barato o un almacén de custodia. Un CD-ROM puede almacenar 120.000 páginas de listados o 15.000 páginas escaneadas.

Eliminación de los documentos duplicados al estar accesibles en cualquier momento desde cualquier puesto.

Drástica reducción en material de archivo al suprimirse los listados en papel y las copias.

Mayor control y seguridad; el acceso a los documentos puede restringirse a determinados usuarios definiendo niveles de confidencialidad que llegan a partes de un documento.

No existen documentos extraviados o perdidos.

Mejora de la calidad del servicio ofrecido; los clientes son respondidos "in situ" en sus demandas de documentos pudiendo recibir copia de los mismos en el acto.

Aumento de la productividad.

Rendimiento en la consulta, con multiplicidad de criterios de recuperación.

Mejora de la gestión; la respuesta del sistema es más ágil y eficaz permitiendo una ventaja competitiva a la empresa.

Ahora bien, la implantación de estos sistemas entraña una serie de problemas, entre los que se pueden mencionar los siguientes:

Longevidad: la vida estimada para un Cd-Rom u otro tipo de soportes similares es de 30 años, a lo que habría que añadir la vida de los equipos (tanto ordenadores como periféricos) que aunque se pueda situar en 15 años, lo cierto es que el desfase que sufren deja su vida media en la empresa en aproximadamente 7 años.

Pág 6 de 39

Page 7: documatica v3.doc

Documática Tema BIII-11

Legalidad: pese a existir jurisprudencia sobre el particular y evolucionar el marco jurídico para aceptar la legalidad tanto de la documentación electrónica (ley 30/1992, así como la aceptación de documentación en formato electrónico de carácter fiscal) como de la firma electrónica (Ley 59/2003), lo cierto es que no existe aún ninguna norma que dé cobertura legal a los documentos en formato electrónico, si bien tampoco existe ley que manifieste lo contrario. En este sentido cabe reseñar los intentos de las diferentes administraciones españolas y de la Unión Europea para buscar una solución, siendo una cuestión de tiempo la promulgación de legislación específica sobre el tema (futura “Ley de Administración electrónica”). En cualquier caso, y mientras esto se produce, debe seguir existiendo el archivo tradicional en papel como prueba documental.

Cambio cultural: quizás es el mayor obstáculo a vencer. El hábito del uso del papel, incluso para las operaciones más sencillas, no se elimina en 24 horas, si bien el contar con un sistema amigable para los usuarios, reduce este impacto considerablemente.

2.2 Algunas reseñas legales

Entre las reseñas legales y las normas aplicables en la Administración se pueden citar las siguientes:

Ley 34/2002 de servicios de la sociedad de la información y del comercio electrónico (LSSICE). Sin tratar explícitamente el tema se dibuja un panorama para los prestadores de servicios de la sociedad de la información, que implica que estos deban tener organizado su sistema de gestión de documentos y “registros” electrónicos provenientes de sus operaciones. Especialmente cuando se refiere a los datos que deben guardarse o a la validez de los contratos electrónicos.

Ley 11/2007 de acceso de los ciudadanos a los servicios públicos. Dentro del título segundo se encuentra el capítulo cuarto, dedicado a los documentos y los archivos electrónicos, que se regulan en los artículos 29 a 32, ambos incluidos.

El artículo 29 hace referencia al documento administrativo electrónico. Establece que las Administraciones Públicas podrán emitir válidamente por medios electrónicos documentos administrativos. Para ello, el artículo 29 establece dos requisitos:

Que los documentos incorporen una o varias firmas electrónicas

Que incluyan una referencia temporal

En el artículo 30 se introducen las copias electrónicas. En primer lugar, se establece que las copias realizadas por medios electrónicos de documentos electrónicos emitidos por el propio interesado o por las Administraciones Públicas tendrán la consideración de copias auténticas. Para ello se establecen los siguientes requisitos:

Que el documento electrónico original se encuentre en poder de la Administración

Que se pueda comprobar la información de firma electrónica

Que se pueda comprobar la información de sellado de tiempo

Pág 7 de 39

Page 8: documatica v3.doc

Documática Tema BIII-11

La ley permite también a las Administraciones Públicas realizar copias de documentos emitidos originalmente en soporte papel por dichas Administraciones Públicas utilizando medios electrónicos. En ese caso, las copias también tienen la consideración de copias auténticas.

El punto tercero del artículo 30 permite a las Administraciones Públicas obtener imágenes electrónicas de documentos privados aportados por los ciudadanos, con la misma validez y eficacia, cuando en el proceso de digitalización se garantice la autenticidad, integridad y conservación del documento imagen.

Cuando se hayan realizado copias electrónicas de documentos emitidos originalmente en soporte papel, se podrá proceder a la destrucción de los documentos originales, en los términos previstos por cada Administración Pública.

Por último, la ley establece que las copias realizadas en soporte papel de documentos públicos administrativos emitidos por medios electrónicos y firmados electrónicamente, tendrán la consideración de copias auténticas siempre que incluyan la impresión de un código generado electrónicamente u otros sistemas de verificación que permitan contrastar su autenticidad.

El artículo 31 regula el archivo electrónico de documentos. Establece que podrán almacenarse por medios electrónicos todos los documentos utilizados en las actuaciones administrativas.

En cualquier caso, los documentos electrónicos que contengan actos administrativos que afecten a derechos o intereses de los particulares deberán conservarse en soportes de esta naturaleza, ya sea en el mismo formato a partir del que se originó el documento o en otro cualquiera que asegure la identidad e integridad de la información necesaria para reproducirlo.

Además, los medios o soportes en que se almacenen documentos, deberán contar con medidas de seguridad que garanticen la integridad, autenticidad, confidencialidad, calidad, protección y conservación de los documentos almacenados.

Por último, el artículo 32 regula el expediente electrónico. La ley define el expediente electrónico como el conjunto de documentos electrónicos correspondientes a un procedimiento administrativo, cualquiera que sea el tipo de información que contengan.

El foliado de los expedientes electrónicos se llevará a cabo mediante un índice electrónico, firmado por la Administración, órgano o entidad actuante, según proceda. Este índice garantizará la integridad del expediente electrónico y permitirá su recuperación siempre que sea preciso, siendo admisible que un mismo documento forme parte de distintos expedientes electrónicos.

La remisión de expedientes podrá ser sustituida a todos los efectos legales por la puesta a disposición del expediente electrónico, teniendo el interesado derecho a obtener copia del mismo.

Real Decreto 1164/2002, de 8 de noviembre, por el que se regula la conservación del patrimonio documental con valor histórico, el control de la eliminación de otros documentos de la Administración General del Estado y sus organismos públicos y la conservación de documentos administrativos en soporte distinto al original. Sin

Pág 8 de 39

Page 9: documatica v3.doc

Documática Tema BIII-11

entrar específicamente en materia se abre la puerta para que incluso los documentos con valor patrimonial puedan conservarse en soportes electrónicos, lo que abre otra puerta más a la gestión documental en el entorno de la Administración pública.

ESTROFA, SICRES y ATRIO:

El Consejo Superior de Administración Electrónica ha establecido tres normas relacionadas con la gestión integral de la documentación en formato electrónico: SICRES, ESTROFA, y ATRIO. Estas normas versan sobre los siguientes aspectos:

ATRIO: Almacenamiento, Tratamiento y Recuperación de Información de Oficinas).

ESTROFA: Especificaciones para el Tratamiento de Flujos Administrativos Automatizados. Es una especificación conceptual, un modelo de referencia, sobre sistemas de control de flujos de tareas, concebido como una capa adicional a las de ATRIO.

SICRES: Sistema de Información Común de Registros de Entrada y Salida. Es un módulo operacional de ATRIO, que funciona como una aplicación cerrada orientada a satisfacer la exigencia de informatización de los Registros.

Esquemas Nacionales de Seguridad e Interoperabilidad

La Ley 11/2007 prevé la aprobación de dos esquemas nacionales, uno de seguridad y otro de interoperabilidad, que se aprobarán por Real Decreto del Gobierno, a propuesta de la Conferencia Sectorial de Administración Pública y previo informe de la Comisión Nacional de Administración Local. Ambos esquemas se elaborarán con la participación de todas las Administraciones.

El Esquema Nacional de Interoperabilidad comprenderá el conjunto de criterios y recomendaciones en materia de seguridad, conservación y normalización de la información, de los formatos y de las aplicaciones que deberán ser tenidos en cuenta por las Administraciones Públicas para la toma de decisiones tecnológicas que garanticen la interoperabilidad.

El Esquema Nacional de Seguridad tiene por objeto establecer la política de seguridad en la utilización de medios electrónicos en el ámbito de la presente Ley, y está constituido por los principios básicos y requisitos mínimos que permitan una protección adecuada de la información.

En la elaboración de ambos Esquemas se tendrán en cuenta las recomendaciones de la Unión Europea, la situación tecnológica de las diferentes Administraciones Públicas, así como los servicios electrónicos ya existentes. A estos efectos considerarán la utilización de estándares abiertos así como, en su caso y de forma complementaria, estándares que sean de uso generalizado por los ciudadanos.

Criterios SNC (Criterio de Seguridad, Normalización y Conservación)

La Resolución de 26 de mayo de 2003, de la Secretaría de Estado para la Administración Pública, dispone la publicación del Acuerdo por el que se aprueban los Criterios de seguridad, normalización y conservación de las aplicaciones utilizadas por la Administración General del Estado (AGE) en el ejercicio de potestades (BOE 23-6-2003).

Pág 9 de 39

Page 10: documatica v3.doc

Documática Tema BIII-11

El volumen ‘Criterios de conservación’ expone los requisitos, criterios y recomendaciones para la conservación de la información en soporte electrónico en las aplicaciones para el ejercicio de potestades. La conservación de la información no debe considerarse de forma aislada; junto con la utilización y acceso a la información, es una etapa más del ciclo de vida de la misma en soporte electrónico.

La gestión de dispositivos, soportes electrónicos y formatos debe ponerse en práctica aplicando procedimientos orientados a la manipulación de datos sensibles, especialmente si son de carácter personal; a la salvaguarda frente al deterioro, daño, robo o acceso no autorizado; a la eliminación o destrucción de soportes; a la gestión de los soportes removibles, etc.

Estas medidas para la conservación de la información deben adoptarse de acuerdo con los especialistas en la gestión de archivos para diseñar soluciones prácticas a la medida de sus necesidades.

Los Criterios de conservación se estructuran en los siguientes capítulos:

1. Conservación de la información en soporte electrónico.

2. Ciclo de vida de la información en soporte electrónico.

3. Formato de la información en soporte electrónico.

4. Soportes.

5. Medidas de almacenamiento y conservación.

6. Sistema de archivos.

Los criterios y recomendaciones incluidos en este documento tienen en cuenta términos de referencia ampliamente aceptados y difundidos como la Guía de la información electrónica elaborada por el DLM Forum.

3 Sistemas de gestión documental

3.1 Tecnologías de un sistema de gestión documental

Esta variedad e integración de tecnologías de las herramientas EDM abarca principalmente los siguientes campos:

Gestión de imágenes: utilización de la tecnología que permite la captura digital a través del escáner de los documentos impresos. Normalmente se suele distinguir entre “digitalización gráfica” y “digitalización del texto”, según sea el propósito final de dicha digitalización del documento.

Tecnologías de reconocimiento óptico de caracteres: la digitalización del texto tiene como finalidad poder interpretar y tratar electrónicamente ese texto a través de programas OCR (Optical Character Recognition) o ICR (Intelligent Character Recognition). El OCR es citado con frecuencia como la alternativa más rápida, económica y segura para la entrada automática del contenido de los documentos impresos en papel a soportes electrónicos.

Tecnologías de almacenamiento óptico: para el almacenamiento de los documentos electrónicos, y más aún en el caso de imágenes digitales, es necesario disponer de sistemas de almacenamiento masivo. El sistema de almacenamiento óptico más

Pág 10 de 39

Page 11: documatica v3.doc

Documática Tema BIII-11

conocido es el CD-ROM, pero dado que se trata de un disco pregrabado y sólo de lectura, se suelen utilizar por ello los discos WORM (Write Once Read Many) y los WARM (Write Always Read Many), pues permiten grabar datos para su posterior recuperación. En la actualidad se está investigando en una serie de nuevos soportes que prometen incrementar drásticamente la capacidad de almacenamiento de la información electrónica. Se trata de la holografía, los nano-CDs y el papel electrónico.

Gestión electrónica de documentos: se trata de los módulos clásicos de la gestión documental pero aplicados a los documentos electrónicos por lo que aquí serán factores claves, la recuperación de información mediante la gestión de índices de los atributos de cada documento y sobre el contenido de los mismos y la automatización de los ciclos de vida dentro de los procesos de la organización.

Trabajo en grupo (groupware): las herramientas EDM han ido evolucionando hacia conceptos más amplios de generación y control de la información. De este modo es posible obtener un aprovechamiento máximo del capital intelectual y del conocimiento que se genera en la organización. Básicamente se puede definir al groupware como el software que permite trabajar de forma cooperativa a un equipo u organización a través del correo electrónico, bases de datos compartidas, gestión de flujos de trabajo, etc.

Control de los flujos de trabajo (workflow): estrechamente relacionado con el software de trabajo en grupo permite establecer una serie de reglas y pautas en las que se especifican las tareas y pasos que se han de seguir para la consecución de un proceso de negocio. En estos procesos se suele generar abundante información y es ahí donde entra en juego el servicio de información y documentación para la captura, almacenamiento, procesamiento y gestión del conocimiento que se está generando de forma continua.

3.2 Procesos involucrados en un sistema de gestión documental

Los procesos involucrados en un sistema de gestión documental van estrechamente ligados a las tecnologías existentes.

En un sistema de gestión documental pueden existir una gran cantidad de procesos. Los más típicos son los siguientes:

Captura de los documentos

Captura de documentos es el proceso de conversión mediante el cual los documentos son transformados en documentos electrónicos, constituidos por texto, imágenes digitales y datos indexados. Las imágenes generalmente se almacenan como archivos del tipo TIFF o PDF en sistemas de medio óptico y los índices en bases de datos relacionales mediante sistemas de manejo de documentos o workflow.

Existen tres formas principales de introducir documentos en un sistema de gestión documental:

En primer lugar, mediante el escaneado de documentos en papel. Una vez escaneado, es posible tratar las imágenes digitales para almacenarlas con mayor calidad, y en un fichero de menor tamaño. Por otra parte, es posible pasar el documento a través de un sistema OCR, y transformar el texto en un fichero ASCII.

Pág 11 de 39

Page 12: documatica v3.doc

Documática Tema BIII-11

En segundo lugar, es posible realizar la importación de ficheros electrónicos. Los ficheros pueden ser almacenados en el sistema en su formato nativo.

En tercer lugar, se puede realizar la conversión de documentos electrónicos. De esta forma, los ficheros se almacenan en formato raster, sin posibilidad de ser modificados.

Indexación de los documentos

Un sistema de gestión documental debe realizar la recuperación de documentos de una forma rápida, eficiente y sencilla, y debe ofrecer la posibilidad de indexar o categorizar la información. La indexación permite a los usuarios clasificar rápidamente grandes volúmenes de datos, y encontrar el documento buscado. Cualquiera que sea la combinación de métodos de indexación, los métodos de búsqueda deben ser fácilmente utilizados y comprendidos por las personas que encargadas de la recuperación de los documentos, así como de aquellas que los almacenan.

Hay tres formas básicas de indexación de ficheros en un sistema de gestión documental:

Indexación del texto completo, o indexación de cada palabra contenida en un documento.

Campos índices, o indexación a través de categorías de palabras claves

Estructura de carpetas y ficheros, o indexación por grupos de documentos asociados.

Distribución de los documentos

Un sistema de gestión documental debería permitir a múltiples usuarios acceder al mismo fichero al mismo tiempo, así como distribuir documentos a usuarios autorizados dentro y fuera de una organización, a través de una intranet, por correo electrónico, o a través de la publicación en un web. Un sistema de gestión documental debe salvaguardar una copia inalterable del documento original al mismo tiempo que permite al usuario distribuir copias del mismo en el formato que mejor se adapta a las necesidades de la organización.

Cuando los administradores del sistema deciden implantar un sistema de gestión de documentos en una organización, sea a través de una intranet o de una internet, deberían permitir a los usuarios la búsqueda, la recuperación y la visión de los documentos con cualquier navegador. De esta forma, el acceso a documentos asociados a navegadores elimina los problemas logísticos asociados a la existencia de distintas plataformas.

Archivo de los documentos

Una vez introducidos en el sistema, los documentos deben ser almacenados. Los sistemas de almacenamiento de los gestores documentales deben ser capaces de acomodarse a las continuas evoluciones tecnológicas, de manera que se pueda preservar el crecimiento de la organización. La independencia del hardware es crítica para asegurar que un sistema de gestión documental satisfará todas las necesidades futuras. Un sistema de gestión documental versátil debe ser compatible con todos los sistemas de almacenamiento existentes en un momento determinado, con el objetivo de proporcionar almacenamiento seguro a medio y largo plazo.

Para asegurar el futuro acceso a los documentos, y la posibilidad de leerlos, los ficheros deberían almacenarse en formatos no propietarios, tales como TIFF o ASCII. El

Pág 12 de 39

Page 13: documatica v3.doc

Documática Tema BIII-11

almacenamiento de ficheros de texto o de imágenes en formatos propietarios puede provocar que la organización dependa de la continuidad empresarial de otras compañías.

4 Gestores de contenidos

4.1 Introducción

La información, más conocida actualmente por el término genérico de contenidos, se ha convertido, dentro de un portal, en uno de los principales elementos de fidelización de los clientes o empleados.

Si se analiza la bibliografía existente alrededor del concepto de información se observa como algunos autores separan los términos dato, información y conocimiento. Sin querer entrar en toda una definición conceptual de dichos términos, hay que decir que el conocimiento se deriva de la información, que a su vez se deriva de los datos. Sin embargo, para que la información se convierta en conocimiento, las organizaciones y las personas deben asimilarla y plasmarla para un fin y objetivo.

Actualmente, el término “contenidos“ comprende todas aquellas noticias, artículos, reportajes, cotizaciones de acciones, fragmentos de un fondo editorial, cursos de formación, conferencias, informes, estudios, etc. con formatos que van desde un simple texto plano a música, animaciones, videos, fotografía, etc. concebidos para informar, formar o entretener y que se encuentran dentro de la cadena dato-información-conocimiento. Los contenidos se ofrecen tanto de forma gratuita como comercializados en la red.

La cadena informativa juega un papel primordial en el desarrollo de las ventajas competitivas de una organización. La información debe transmitirse dentro de la institución de una manera efectiva y eficiente. Un elemento importante que permite en una organización alimentar de una manera estructurada el dato-información y convertirlo en conocimiento para los individuos que forman la organización, es su Intranet, permitiendo mejorar los activos intangibles de dicha institución.

4.2 Funcionalidad de un portal de contenidos

El portal está diseñado para ser un único punto de acceso a la mayoría de los recursos que diariamente se necesitan en el trabajo. El objetivo de cualquier portal es convertirse en la herramienta de trabajo principal, minimizando, en la medida de lo posible, las horas de navegación por la red, el número de pasos necesarios para realizar las tareas más cotidianas, etc. Podemos llamar a esto inteligencia económica, permitiendo de esta forma aumentar la productividad del usuario y mejorar su percepción del sistema.

Un portal proporciona un índice con las diferentes utilidades y recursos que pone a disposición de sus usuarios. Algunos portales avanzados incluso poseen herramientas de búsqueda basadas en estadísticas Bayesianas, con redes neuronales que permiten potenciar si cabe aún más la búsqueda en grandes volúmenes de información. Gartner Group define un portal de contenidos como el acceso y la interacción con información relevante, aplicaciones y procesos comerciales bajo un tipo de audiencia y de manera personalizada.

El desarrollo de un portal de contenidos pasa por definir en primer lugar unas pautas para la puesta en marcha de dicho portal, lo que conlleva definir claramente el objetivo

Pág 13 de 39

Page 14: documatica v3.doc

Documática Tema BIII-11

que va a perseguir, el público al que está destinado y lo que éste espera encontrar, cómo va a afectar en el usuario y cómo va a interactuar el mismo.

La función de un portal de nueva generación es la integración de la información relevante de la compañía. Empezando por la información interna, como el acceso a sus aplicaciones Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), a la comunicación interna, el acceso a las bases de datos, etc. Tampoco se debe olvidar la información externa como periódicos, bases de datos, newsgroup, listas de distribución etc. que permitan conocer el entorno de la empresa, competencia, situación del mercado, etc. Todo ello, con el objetivo de poder tomar decisiones en un periodo corto de tiempo y adaptarse a los cambios del mercado y nuevas tendencias.

Teniendo en cuenta lo anterior, se puede considerar que entre las necesidades más importantes de un gestor de contenidos se encuentran las siguientes:

Inclusión de nuevas funcionalidades en el web. Esta operación puede implicar la revisión de multitud de páginas y la generación del código que aporta las funcionalidades. Con un sistema de gestión de contenidos eso puede ser tan simple como incluir un módulo realizado por terceros, sin que eso suponga muchos cambios en la web. El sistema puede crecer y adaptarse a las necesidades futuras.

Mantenimiento de gran cantidad de páginas. En una web con muchas páginas hace falta un sistema para distribuir los trabajos de creación, edición y mantenimiento con permisos de acceso a las diferentes áreas. También se tienen que gestionar los metadatos de cada documento, las versiones, la publicación y caducidad de páginas y los enlaces rotos, entre otros aspectos.

Reutilización de objetos o componentes. Un sistema de gestión de contenidos permite la recuperación y reutilización de páginas, documentos, y en general de cualquier objeto publicado o almacenado.

Páginas interactivas. Las páginas estáticas llegan al usuario exactamente como están almacenadas en el servidor web. En cambio, las páginas dinámicas no existen en el servidor tal como se reciben en los navegadores, sino que se generan según las peticiones de los usuarios. De esta manera cuando por ejemplo se utiliza un buscador, el sistema genera una página con los resultados que no existían antes de la petición. Para conseguir esta interacción, los sistemas de gestión de contenidos conectan con una base de datos que hace de repositorio central de todos los datos de la web.

Cambios del aspecto de la web. Si no hay una buena separación entre contenido y presentación, un cambio de diseño puede comportar la revisión de muchas páginas para su adaptación. Los sistemas de gestión de contenidos facilitan los cambios con la utilización, por ejemplo, del estándar CSS (Cascading Style Sheets u hojas de estilo en cascada) con lo que se consigue la independencia de presentación y contenido.

Consistencia de la web. La consistencia en un web no quiere decir que todas las páginas sean iguales, sino que hay un orden (visual) en vez de caos. Un usuario nota enseguida cuándo una página no es igual que el resto de las de la misma web por su aspecto, la disposición de los objetos o por los cambios en la forma de navegar. Estas diferencias provocan sensación de desorden y dan a entender

Pág 14 de 39

Page 15: documatica v3.doc

Documática Tema BIII-11

que el web no lo han diseñado profesionales. Los sistemas de gestión de contenidos pueden aplicar un mismo estilo en todas las páginas con el mencionado CSS, y aplicar una misma estructura mediante patrones de páginas.

Control de acceso. Controlar el acceso a un web no consiste simplemente al permitir la entrada a el web, sino que comporta gestionar los diferentes permisos a cada área del web aplicados a grupos o individuos.

4.3 Procesos involucrados en la gestión de contenidos

Una plataforma de gestión de contenidos engloba toda una serie de procesos que abarcan desde la captación de los contenidos hasta la forma que adoptan éstos cuando son ofrecidos finalmente al usuario. Este punto cobra especial relevancia en aquellos sistemas dirigidos a usuarios finales que acceden con dispositivos móviles, donde la apariencia de la información es una pieza importante dentro de la cadena de provisión de los servicios.

El principal objetivo es centralizar y gestionar todos los procesos y fases involucradas en los workflows definidos para el tratamiento de los diferentes contenidos, con cierta independencia del proveedor e incluso de los formatos gestionados. Dentro de este framework, un sistema de gestión de contenidos también deberá encargarse de proporcionar políticas de control de acceso y gestión de los diferentes roles definidos en el sistema (editores, maquetadores, diseñadores gráficos, marketing, desarrolladores, etc.).

Los procesos involucrados dentro del workflow clásico de una herramienta de gestión de contenidos engloban toda una serie de fases que abarcan el flujo completo de los servicios soportados. A continuación se describen estas fases:

Captación. En esta fase los datos se encuentran inicialmente "en bruto" y pueden proceder de variadas fuentes: bases de datos de proveedores, servicios on-line, agencias de información, etc., así como tener diferentes vías de comunicación: satélite, NFS, FTP, etc. Su principal cometido es, por tanto, capturar esa información y transformarla de tal forma que quede almacenada en un formato unificado que permita su procesado posterior (homogeneización).

La tendencia actual, buscando facilitar esta tarea, es la de usar como estructura de intercambio documentos basados en XML (Extensible Markup Language), para los que se prefija de antemano una DTD (Document Type Definition) común a proveedores y receptores. En muchos casos, los procesos que componen la fase de captación procuran la automatización, favoreciendo así la progresión directa de los contenidos.

Categorización. En esta fase los contenidos son caracterizados y validados, de modo que posteriormente puedan ser localizados y usados de modo lógico y ordenado. En la medida de lo posible este proceso suele tender a automatizarse, aunque tiene sus limitaciones: no conoce el contenido de las imágenes o desconoce la semántica de los textos, y por tanto en muchos casos necesita de una supervisión manual, a no ser que el proveedor proporcione esta información explícitamente. La forma clásica de resolver este problema pasa por el trabajo de documentalistas y catalogadores, que en estrecho contacto con los redactores (en algunos casos son la misma persona) se encargan de caracterizar, clasificar y filtrar los contenidos.

Pág 15 de 39

Page 16: documatica v3.doc

Documática Tema BIII-11

Redacción. Esta fase involucra el proceso de incluir contenidos propios en el sistema. Normalmente suele ser de fácil implantación, debido a que los formatos de los contenidos y la lógica de negocio de la empresa son conocidos por los redactores.

Edición. En esta fase se hace uso de los contenidos, que han pasado a formar parte de la base de datos de contenidos una vez finalizados los procesos de clasificación, por lo que habrá que dotar al sistema de potentes herramientas que faciliten la búsqueda y localización de aquellos contenidos requeridos en cada momento (una misma noticia puede haber sido proporcionada por distintos proveedores y se debe localizar cuál es la más recomendable). Los redactores se encargan de retocar los contenidos procedentes de los proveedores, proporcionando un acabado periodístico, o al menos publicable. Los procesos de tratamiento de imágenes y las tareas de traducción suelen formar parte de esta fase.

Distribución. Esta fase también suele ser denominada como difusión o sindicación, y tiene como objetivo proporcionar a los clientes (entendiendo como clientes a los usuarios de servicios que proporcionan bienes digitales y aquellos sites sobre los que se está actuando como proveedor, independientemente que sean de la misma organización o agentes externos), de manera organizada y flexible, aquellos contenidos a los que se han suscrito. Para que esta difusión de información se realice con éxito, ambas partes deben poseer un vocabulario y protocolo de intercambio común.

La utilización de estándares como XML e ICE (Information & Content Exchange protocol) permitirán la reutilización de gran parte de los esfuerzos empleados en el desarrollo.

Por utilizar una terminología comúnmente aceptada en este tipo de entornos, se puede decir que el sistema actuaría como distribuidor o publicador, puesto que difunde información a otros que como afiliados o suscriptores aceptarían y harían uso de esa información.

Composición. Esta fase tiene como objetivo final el de previsualizar y autorizar la publicación de los contenidos procesados. Para ello, los maquetadores se encargarán de darles el formato final adecuado y de dotarles de los elementos gráficos y de los mecanismos de navegación necesarios para poder ser presentados a los distintos usuarios finales. De nuevo es conveniente automatizar y utilizar componentes de formateo para permitir que progrese automáticamente la información.

Publicación. En esta fase finaliza el workflow definido y es la encargada de poner los contenidos a disposición de los usuarios, tras recibir la debida autorización (procedente de lo que podría llamarse un "consejo de redacción"). Las plataformas de gestión de contenidos más comunes (Vignette, BroadVision, Portal-to-Go o Cold Fussion) hacen uso de plantillas (templates) para presentar de modo dinámico y transparente los contenidos en el formato requerido, según el dispositivo de acceso utilizado por el usuario, y en donde normalmente se suelen aplicar las reglas de personalización establecidas. El uso de plantillas cobra mayor importancia si se considera que, en el mundo wap, el estándar WML no funciona correctamente en todos los terminales, sino que depende en buena medida del dispositivo, modelo, o versión de microbrowser de cada fabricante.

Actualmente la tendencia más aceptada, a la hora de desarrollar plantillas para presentar los contenidos, pasa por el uso de XSL para interpretar contenidos XML. El uso de

Pág 16 de 39

Page 17: documatica v3.doc

Documática Tema BIII-11

estos estándares garantiza una completa abstracción entre la lógica de presentación y el contenido a mostrar.

4.4 Arquitectura lógica

Se presenta a continuación una posible arquitectura lógica para un sistema completo de gestión de contenidos y personalización, en la que destacan cuatro grandes módulos:

1. Gestión de contenidos.

2. Personalización.

3. Repositorio de contenidos.

4. Interfaz con otros sistemas.

De estos cuatro elementos, el primero y el tercero son elementos típicos de un gestor de contenidos, mientras que el módulo de personalización, aunque externo, aparece en casi todos los gestores de contenido usuales del mercado.

Pág 17 de 39

Page 18: documatica v3.doc

Documática Tema BIII-11

4.4.1 Gestión de contenidos

Tiene como cometido proporcionar el framework principal de la plataforma de gestión de contenidos. Sus capacidades abarcan todas aquellas tareas que normalmente se suelen asociar a una herramienta de este tipo y que cubren todo el proceso, desde la captura de contenidos hasta su presentación al usuario final, contemplando en todo momento la correcta gestión de los diferentes roles definidos en el sistema.

Estos componentes son:

1.- El servidor de gestión de contenidos. Este módulo se presenta como el núcleo del sistema, y su principal cometido es proporcionar la plataforma para el resto de los elementos involucrados en la arquitectura. Entre sus funciones destaca la gestión y almacenamiento de plantillas (tanto las que definen los formularios de entrada de datos como las que se encargan de proporcionar la presentación final), así como de la información asociada a los contenidos mantenidos por el sistema. Toda esa información queda almacenada en el repositorio, bien como registros de la base de datos o bien como ficheros estáticos accesibles por el sistema. Dentro de su ámbito también se encuentra el control sobre las tareas del sistema (tareas temporales programadas).

Los componentes para los que este módulo actúa de plataforma, y que normalmente suelen estar asociados a herramientas de backoffice o procesos automáticos, son:

El captador de contenidos. Este componente actúa de interfaz con los sistemas proveedores externos, a fin de garantizar la conversión de dichos contenidos a los requerimientos de estructura y almacenamiento impuestos en el sistema. Entre sus tareas

Pág 18 de 39

Page 19: documatica v3.doc

Documática Tema BIII-11

destacan la de proporcionar mecanismos automáticos de recogida de información, categorización y homogeneización, al formato interno de los contenidos gestionados por la plataforma. Asimismo, otro de sus cometidos será proporcionar mecanismos de aviso que garanticen que los contenidos de los proveedores son entregados en el periodo temporal y con la estructura de información acordada.

En la actualidad, el uso de XML/XSL en el intercambio de contenidos con los proveedores se convierte en la propuesta técnica más válida y es utilizada en muchas herramientas de gestión de contenidos. Asimismo, como la conversión de contenidos es muy dependiente del formato de cada tipo de contenido en concreto, este módulo deberá ser cubierto en la mayoría de los sistemas como una herramienta ad-hoc.

La gestión de usuarios. Se encarga de la gestión (alta, baja y modificación) de los usuarios del sistema (editores, personal de marketing, desarrolladores, diseñadores gráficos, etc.) y de la definición de los permisos de acceso a los diferentes componentes de la plataforma. El módulo de gestión de usuarios deberá proporcionar una estrecha relación con el módulo de workflow, ya que la plataforma deberá poder establecer capacidades de notificación y asignación de tareas a los usuarios y perfiles definidos en el sistema.

También puede encargarse de realizar la gestión de los usuarios que son externos al sistema, y que se conectan en busca de información. El sistema puede permitir la navegación anónima por determinadas zonas del portal, y solicitar la inscripción al portal cuando se acceda a determinadas zonas de contenido (o la introducción de usuario y contraseña si el usuario ya está inscrito). Esta gestión de usuarios debe ser siempre respetuosa con la legislación relativa a datos personales.

El gestor del árbol de navegación. Este componente se encarga de gestionar la estructura de navegación, proporcionando un nivel de abstracción entre los elementos de navegación y los contenidos reales. Entre otras tareas, es responsable de gestionar aquellas páginas que mantienen listas de enlaces a otras páginas, formando por tanto una estructura arborescente y ofreciendo una vuelta atrás controlada, hacia niveles superiores.

El workflow. Este componente proporcionará capacidades para la definición y control de los workflows definidos en el sistema, así como para la notificación a los usuarios o perfiles involucrados en cada proceso. En la definición de un workflow, gracias a la posibilidad de realizar una secuenciación restrictiva (no continuar hasta la completa finalización de la tarea anterior), se pueden plantear dentro de cada hito la paralelización de subtareas. Esta cualidad se establece como una premisa para poder facilitar la elaboración del trabajo de modo distribuido, que cobra especial importancia en aquellos sistemas disponibles 24 horas al día, 7 días a la semana, con una amplia distribución geográfica. La norma general, en las aplicaciones de gestión de contenidos, es definir un workflow genérico para cada tipo de tarea del sistema, pudiendo ser heredado por todas las tareas de similares características, y posteriormente particularizar cada uno en función de los subtipos de contenidos que se gestionen en concreto.

El editor de contenidos. Este componente proporciona capacidad para el tratamiento específico de los contenidos del sistema. Para ello, suele disponer de formularios que facilitan la introducción y edición tanto de los contenidos propios como de los que han proporcionado los proveedores externos. Este módulo deberá mantener una estrecha relación con el módulo de previsualización, de modo que se pueda garantizar la

Pág 19 de 39

Page 20: documatica v3.doc

Documática Tema BIII-11

visualización de los contenidos editados dentro de un entorno de preproducción similar al real, antes de realizar su publicación definitiva.

La previsualización. Este componente proporcionará un entorno de preproducción donde se pueda realizar una correcta previsualización de los contenidos gestionados por el sistema en un entorno equivalente al que tendrá en producción. Esto permitirá evitar posibles problemas derivados de su publicación directa en producción.

El gestor de distribución. Este componente se encargará de proporcionar una interfaz para la distribución de los contenidos, bien entre los diferentes entornos u organizaciones de una empresa, o bien a terceros, donde se actuaría como proveedor de contenidos. De considerarse esta última opción, deberán plantearse mecanismos que garanticen políticas de afiliación y suscripción, gestión de catálogos y mantenimiento de ofertas. Normalmente, suele llevar asociados procesos automáticos que se encargan de generar paquetes con los contenidos solicitados por los afiliados, en función de las ofertas y catálogos establecidos.

2.- El servidor de contenidos. Este módulo tiene asignada la función de obtener los contenidos requeridos, teniendo en cuenta políticas de caché y de personalización, y proporcionárselos al modulo de presentación. Debido al aspecto crítico de su labor, deberá tener una estrecha y optimizada relación con los módulos gestor de caché, buscador de contenidos y personalización (tendrá en cuenta los contenidos y resultados de personalización, a fin de montar las páginas definitivas a publicar).

3.- El gestor de caché. Este módulo mantiene la sincronización entre la base de datos de contenidos, la estructura de los contenidos estáticos en los sistemas de ficheros y los contenidos mantenidos en caché, a fin de liberar al servidor de contenidos de la tarea de obtención de los contenidos actualizados.

4.- El buscador de contenidos. Este módulo dispone de la capacidad de búsqueda de contenidos en la base de datos, planteándose como una API robusta y segura que recubra el acceso a los contenidos almacenados en la base de datos y que podrá ser accedida por los servicios del sistema.

5.- El servidor de presentación. El servidor de presentación puede ser entendido como el elemento sobre el que recae la responsabilidad de detectar y ajustar los contenidos a cada dispositivo en concreto. Este concepto lógico puede ser cubierto por herramientas comerciales o bien mediante la elaboración de un desarrollo ad hoc que implemente su funcionalidad, por ejemplo, a través de interpretación de páginas XML mediante XSL.

4.4.2 El módulo de personalización

Las demandas de los usuarios y las tendencias del mercado han propiciado que los servicios de Internet hayan evolucionado desde la simple publicación de información estática hasta convertirse en canales para el comercio electrónico. Sin embargo, ante la creciente oferta de nuevos servicios y portales web, los usuarios tienden a demandar una relación más estrecha con el site, en vez de disponer de un simple acceso a una gama de servicios y funcionalidades genéricas. Esto es lo que se llama personalización.

Algunos de los más prestigiosos analistas de mercado se atreven a enunciar que la clave del éxito de los negocios en la Red, pasa por la capacidad de atraer, y sobre todo retener, clientes on-line. Para ello, establecen como premisa conocer las preferencias y

Pág 20 de 39

Page 21: documatica v3.doc

Documática Tema BIII-11

necesidades de los clientes, y así tener la capacidad para prever y poder favorecer la rápida respuesta a sus peticiones.

Puede decirse que la personalización pasa por ofrecer al usuario aquello que quiere ver, en el momento adecuado.

El módulo de personalización es considerado en muchas ocasiones como un elemento cercano, pero independiente, a las plataformas de gestión de contenidos.

Aunque bastantes plataformas comerciales permiten poder integrar herramientas de recomendación y personalización de terceros, normalmente suelen incorporar uno en sus versiones comerciales.

Los principales componentes del módulo de personalización son:

El servidor de personalización. Este componente se presenta como el núcleo del sistema de personalización y su principal cometido es proporcionar la plataforma para el resto de los elementos, favoreciendo la gestión de los mecanismos necesarios para la correcta recogida de información de usuario, tanto de modo explícito como implícito, y de la aplicación de los criterios de personalización establecidos.

El servidor de observación. Este componente será el encargado de gestionar los puntos de observación (zonas identificadas para recoger información de los hábitos y acciones de los usuarios). Este elemento se presenta como crítico si se pretenden usar técnicas de personalización implícita. Por cuestiones de rendimiento debería actuar de modo aislado para no sobrecargar la labor del servidor de contenidos. Del mismo modo, deberá gestionar colas de eventos que permitan realizar un correcto tratamiento de las actualizaciones en la base de datos, para lo que deberá apoyarse en el módulo gestor de datos de personalización.

El gestor de segmentación. Este componente proporciona al sistema mecanismos para poder realizar una correcta segmentación de los usuarios que acceden al sistema, a fin de poder ofrecer recomendaciones en función del segmento en que se encuadre a cada usuario. Debe poder incorporar capacidades de datamining que puedan servir de fuente de información para el personal de marketing.

El gestor de reglas de negocio. Este componente tiene como objetivo gestionar y facilitar la definición de reglas de negocio que permitan establecer criterios de personalización. Este elemento deberá tener un conocimiento exhaustivo de la estructura de almacenamiento de los contenidos en la base de datos, a fin de propiciar la definición de reglas en función del modelo de datos empleado. Este elemento suele quedar restringido a su utilización por parte del personal de marketing y está muy relacionado con la aplicación de reglas del tipo "ofrecer a los usuarios mayores de x años tal tipo de contenidos" u "ofrecer a los usuarios de Ciudad Real tal tipo de contenidos", por lo que suelen basarse en la información recogida de modo explícito.

El motor de recomendaciones. Este módulo proporcionará la lógica que permite particularizar y adaptar los contenidos a presentar a cada usuario (en función de los valores obtenidos durante la navegación a través del servidor de observación), tras la aplicación de reglas de negocio explícitas (definidas normalmente por el personal de marketing), mediante políticas de segmentación y uso de filtros colaborativos (permite inferir preferencias de un usuario en función de las preferencias de los usuarios de su grupo), a través de la gestión de la información explícita (recogida normalmente mediante formularios que el usuario rellena) y con herramientas de análisis que

Pág 21 de 39

Page 22: documatica v3.doc

Documática Tema BIII-11

permiten analizar el comportamiento de los usuarios (en muchos casos involucran herramientas de datamining).

El gestor de informes. Este componente es el encargado de proporcionar al personal de marketing informes de las acciones realizadas por los usuarios en el sistema, estos informes posteriormente suelen ser utilizados para plantear reglas de negocio y orientación en las políticas de personalización.

El gestor de datos de personalización. Este componente es el encargado de proporcionar acceso a la información registrada en la base de datos. Entre sus principales labores destaca la de realizar una abstracción del modelo de datos respecto a la información requerida de personalización, proporcionar gestión de colas de eventos que actualicen la base de datos, mantener información de carácter general en memoria y proporcionar mecanismos para actualizar la misma.

4.4.3 El repositorio de contenidos

El repositorio de contenidos puede gestionar tres tipos de información: contenidos estáticos, contenidos estáticos reutilizables y contenidos dinámicos. A la hora de gestionar estos contenidos, el sistema procurará que esta subdivisión sea lo más transparente posible a todos los niveles.

El primer grupo estará formado por los contenidos estáticos puros que no necesitan ningún tipo de composición, como pueden ser las imágenes o los formularios (HTML o WML) que no presenten ningún tipo de variación, ni por personalización, ni por ningún tipo de lógica de negocio. Estos contenidos dependen directamente del servidor web o del servidor de presentación.

El segundo grupo estará formado por aquellos contenidos que, aunque se presentan como estáticos (por ejemplo, un XML con lista de provincias de España), pueden verse afectados por políticas de personalización, o requieren que el servidor de contenidos realice un proceso de composición con otros contenidos antes de la presentación al usuario. Estos contenidos están almacenados en documentos XML.

El tercer grupo estará compuesto por los contenidos almacenados en la base de batos que en la mayoría de los casos presentan un carácter dinámico, por lo que la elección del contenido a mostrar en cada momento podrá variar en función de la lógica de aplicación o de las políticas de personalización que se apliquen. Debido a que la base de datos puede ser accedida por diferentes sistemas, debería dejarse en manos de un servidor de aplicaciones las tareas de seguridad en las transacciones, la gestión de los pool de conexiones a la base de datos y las capacidades de clustering de los servicios.

4.4.4 Interfaz con otros sistemas

Debido a la necesidad de integrar la plataforma de gestión de contenidos y personalización con el resto de componentes que compondrían un portal, se plantea el uso de un middleware de tipo EAI que facilite las labores de integración.

Como ya se ha mencionado, en la actualidad el uso de XML como mecanismo de intercambio de datos e información se plantea como una opción muy recomendable. Siguiendo este criterio, se ha establecido, como una posible opción para el intercambio de información, el uso de SOAP, protocolo basado en el intercambio de XML sobre HTTP.

Pág 22 de 39

Page 23: documatica v3.doc

Documática Tema BIII-11

Otro aspecto a tener en cuenta es la obtención de contenidos de modo on-line, no mediante captura de contenidos, sino a través de invocaciones a servicios externos. Un ejemplo claro de servicios de estas características puede ser la venta de entradas o de billetes de avión, donde el sistema sólo puede actuar de intermediario, quedando siempre la validación y actuación en manos de terceros.

5 Sindicación de contenido

En la Web existen multitud de sitios que son de nuestro interés y que se actualizan regularmente. Hace pocos años, la rutina típica al empezar la jornada consistía en visitar estos sitios para estar al tanto de las últimas novedades. Con el paso del tiempo, la lista de sitios se ha incrementado notablemente y la frecuencia de actualización es cada vez mayor, llegando a decenas de actualizaciones diarias. En estas condiciones, estar al día de estas actualizaciones es una tarea complicada y, según se incrementa la lista de sitios, puede llegar a ser imposible.

La solución a este problema es lo que se conoce como sindicación de contenidos. Bajo este nombre se encuentra un conjunto de formatos y aplicaciones (RSS, Atom, feeds, agregadores...) que permiten crear un resumen unificado de una serie de sitios.

La base del sistema es RSS (Rich Site Summary), un formato especial, basado en XML, que permite indicar los cambios realizados. Un fichero RSS (también llamado alimentador, canal, feed, fuente o sumario) se puede ver, de forma simplificada, como un conjunto de actualizaciones, avisos, noticias... con sus datos asociados. Aunque es el más extendido, no es el único formato con este cometido, pudiendo usarse RDF o Atom.

Al tratarse de un formato estándar es posible desarrollar aplicaciones que puedan utilizar esa información: los agregadores. Un agregador, también llamado lector, es un programa al que se le indican una serie de RSS de ciertos sitios de interés (subscripciones) y que periódicamente comprueba si hay entradas nuevas y las almacena. De esta forma, el usuario puede ver en el lector todas las novedades de los sitios de su interés en un único lugar, en lugar de visitar todas las páginas. Además, suelen incorporar valores añadidos como búsquedas, gestión de categorías, estructurarlas en árbol, agregación de subgrupos, filtros, envío por correo electrónico...

Pág 23 de 39

Page 24: documatica v3.doc

Documática Tema BIII-11

La mayoría de los agregadores soportan el formato OPML. OPML es otro formato estándar basado en XML en el que se recogen todas las subscripciones de un agregador, es decir, es la lista de los canales RSS que tiene subscritos. Como la mayoría de los agregadores permiten importar/exportar este formato se puede utilizar para cargar las subscripciones cuando se cambia de agregador o para intercambiarlas.

En el mercado existen multitud de agregadores entre los que se pueden distinguir tres grandes grupos:

On-line: Son páginas web que muestran los titulares de las fuentes que se le indiquen. Cada una de ellas tiene unas características diferentes, por lo que lo mejor es probar varios servicios para ver cuál se ajusta a las necesidades. El primero en aparecer y el más utilizado es Bloglines.

De escritorio: Se trata de un pequeño programa que suele esconderse en el área de notificación y que realiza la misma labor avisando de las novedades encontradas y, habitualmente, descargando el contenido para poder verlo sin conexión. Al igual que en el caso anterior existen múltiples opciones para cada sistema operativo, por lo que se deben probar varias aplicaciones hasta encontrar la más apropiada.

Extensiones: Se trata de plugins o añadidos a otra aplicación para que soporte la descarga y presentación de los canales, por lo que la elección depende del uso del programa en cuestión. En algunos casos la extensión se ha incorporado como funcionalidad en el propio programa. Algunos ejemplos son Maxthon (incorporado desde la versión 1.0), Thunderbird (incorporado), Sage (Firefox) o RssPopper (para Outlook).

Todos los agregadores tienen un funcionamiento similar: Se busca en la página el icono de canal RSS (o el viejo con XML sobre fondo naranja) y se copia la dirección del feed en el agregador (en algunos, basta con dar la dirección de la página que ellos buscan las direcciones). A partir de ese momento el agregador comprobará las actualizaciones de ese sitio.

6 Sistemas de gestión de flujos de trabajos

6.1 Introducción

Los Workflows son sistemas que ayudan a administrar y automatizar procesos de negocios. Un workflow puede ser descrito como el flujo y control en un proceso de negocio.

La WfMC1 (Workflow Management Coalition) define los workflows como “la automatización de un proceso de negocio, total o parcial, en la cual documentos, información o tareas son pasadas de un participante a otro para efectos de su procesamiento, de acuerdo a un conjunto de reglas establecidas”.

1 La WFMC es una agrupación compuesta por compañías, vendedores, organizaciones de usuarios, y consultores. El objetivo de esta agrupación es ofrecer una forma de “diálogo” común a todos. De esta forma las diferentes herramientas que se implementen en esta área podrán tener cierto nivel de interoperabilidad, es decir, podrán comunicarse entre ellas para poder realizar las distintas tareas involucradas en un sistema de Workflow.

Pág 24 de 39

Page 25: documatica v3.doc

Documática Tema BIII-11

También definen lo que es un proceso de negocio como “un conjunto de uno o más procedimientos o actividades directamente ligadas, que colectivamente realizan un objetivo del negocio, normalmente dentro del contexto de una estructura organizacional que define roles funcionales y relaciones entre los mismos”.

Entre otros, tenemos multitud de ejemplos de procesos de negocios: procesamiento de órdenes, reportes de gastos, reporte de incidencias, procedimientos de desarrollo/producción, etc.

Cabe mencionar que las tecnologías de Workflows son sólo un camino para la información, para reducir tiempo, dinero y esfuerzo en la ejecución de un proceso de negocio.

Las funciones más comunes que proporcionan los Workflows son:

Optimizar las inversiones en TI, implementando una arquitectura abierta basada en estándares de la industria, simplificando la integración con cualquier sistema de “back-office”, Middleware o ERP en cualquier plataforma y sistema operativos. Como se observa en el gráfico existen diferentes capas en la arquitectura Empresarial. El objetivo del Worflow es gestionar de forma automatizada los procesos y flujo de actividades, documentos, imágenes y datos orquestando e integrando los recursos informáticos y los roles.

Asignar tareas y recursos (documentos, información o aplicaciones) a las personas de manera automática y según cualquier criterio o carga de trabajo.

Recordar a las personas sus actividades, las cuales son parte de una cola de Workflow.

Automatizar y controlar el flujo de documentos, datos e imágenes.

Definir y controlar “alertas” según criterios de tiempo, de evento o condición, provocando así algún mensaje al supervisor, un escalado automático a otras personas para la resolución o una reasignación automática. Alertas que se pueden notificar utilizando tecnologías Web, email, sms, o cualquier dispositivo.

Proveer una vista “On-Line” a los supervisores de los procesos.

Proveer de métricas para los responsables de organización, gestores de calidad y control de gestión.

Pág 25 de 39

Page 26: documatica v3.doc

Documática Tema BIII-11

6.2 Ventajas de los Workflows

La automatización de los procesos de negocio de una empresa trae grandes beneficios como la reducción del tiempo de búsqueda de papeles o el menor gasto en papelería. Estos problemas son los primeros que se abordaron con la tecnología de Workflow.

A continuación conoceremos algunas ventajas adicionales por las cuales las organizaciones adoptan una solución de Workflow:

Eficiencia en los procesos y estandarización de los mismos. Esto conlleva a:

o Una reducción de costos dentro de la organización.

o La estandarización de los procesos lleva a tener un mayor conocimiento de los mismos, lo que a su vez conduce a obtener una mejor calidad de estos.

o Administración de los Procesos. Utilizando la tecnología de Workflow es posible monitorizar el estado actual de las tareas así como también observar como evolucionan los planes de trabajo realizados. Detectar tareas críticas y cuellos de botella.

Asignación de tareas a la gente. La asignación de tareas se realiza mediante la definición de roles dentro de la empresa, eliminando la tediosa tarea de asignar los trabajos caso por caso.

Proveer de manera automática del acceso a datos y documentos necesarios para la ejecución del flujo en el formato necesario según el perfil del usuario.

Facilidad y flexibilidad a la hora de diseñar los procesos de la organización.

Control y monitorización operacional. Seguimiento del proceso en ejecución, histórico, tareas pendientes, bloqueos, alarmas, etc.

Asegura la participación y colaboración de todo el personal en el proceso.

Ejecución en paralelo de tareas.

Pág 26 de 39

Page 27: documatica v3.doc

Documática Tema BIII-11

Aunque no se ha mencionado, una de las ventajas directas del uso de sistemas de WorkFlow está en su aplicación en proyectos de reingeniería de procesos, siendo una herramienta prácticamente imprescindible para el diseño eficiente y eficaz de los nuevos procesos:

Optimización de recursos humanos y técnicos, alineándolos con la estrategia del negocio.

Eliminación de partes innecesarias en la secuencia de los procesos y la automatización de dicha secuencia.

6.3 Clasificación de los diferentes tipos de Workflow

Aunque existen distintos tipos de clasificación, la más extendida es la que siguiente:

a) Workflow de Producción

Frecuentemente este tipo de Workflow es llamado Workflow de Transacciones.

Esto se debe a que la transacción en una base de datos es considerada la clave de todo proceso. Este tipo de Workflow es el segmento más grande en el mercado.

En general automatizan procesos de negocios que tienden a ser repetitivos, bien estructurados y con gran manejo de datos.

b) Workflow de Colaboración

Las aplicaciones de Workflow que resuelven procesos de negocios donde participa gente para lograr una meta común son llamadas Workflow de Colaboración. Tienen mucha relación con el Groupware.

Los Workflows de colaboración estructuran o semi-estructuran procesos de negocios donde participan personas, con el objetivo de lograr una meta común.

Típicamente involucran documentos, los cuales son los contenedores de la información.

Se sigue la ruta de éstos paso a paso, además de las acciones que se toman sobre ellos. Los documentos son la clave, y por lo tanto es esencial para la solución de Workflow mantener la integridad de dichos documentos.

c) Workflow de Administración

El Workflow Administrativo como lo dice su nombre es aquel que involucra procesos de administración en una empresa tales como órdenes de compra, reportes de ventas, etc.

Estos workflows se emplean cuando existe una gran cantidad de procesos administrativos dentro de la empresa y es necesaria la distribución de soluciones a diferentes usuarios.

Una solución de Workflow Administrativo difiere para cada organización, y los cambios son frecuentes. Por esto, la posibilidad de poder hacer cambios de diseño es muy importante.

Pág 27 de 39

Page 28: documatica v3.doc

Documática Tema BIII-11

6.4 Modelo de Referencia de WorkFlow (WfMC)

El modelo de referencia de WorkFlow, mostrado en la figura siguiente, fue desarrollado por la WfMC como estándar para tener una estructura genérica en el desarrollo de aplicaciones de Workflow.

Motor de Workflow (Workflow Engine)

El motor de workflow es el software que provee el control del ambiente de ejecución de una instancia de Workflow. Típicamente el motor provee facilidades para:

Interpretación de la definición de procesos.

Control de las instancias de los procesos: creación, activación, terminación, etc.

Navegación entre actividades.

Soporte de interacción con el usuario.

Control de datos hacia el usuario o hacia otras aplicaciones.

Invocación de aplicaciones externas.

Servicio de Representación de Workflow (Workflow Enactment Service)

Este componente interpreta la descripción de procesos y controla las diferentes instancias de los procesos, secuencia de actividades, añade elementos a la lista de trabajo de los usuarios, e invoca las aplicaciones necesarias. Todas estas tareas son realizadas por uno o más motores de Workflow, los cuales manejan la ejecución de las distintas instancias de varios procesos.

La lista de trabajo forma parte de los datos del Workflow, ya que la interacción con los usuarios es necesaria en algunos casos. El motor de Workflow maneja esta lista de trabajo para controlar tal interacción. El motor deposita en la lista de trabajo los elementos que han ser ejecutados por cada usuario. La lista de trabajo puede ser visible

Pág 28 de 39

Page 29: documatica v3.doc

Documática Tema BIII-11

o invisible para los usuarios dependiendo del caso, ya que muchas veces se deja que el usuario seleccione elementos y los procese en forma individual.

Interfaz de Programación de Aplicaciones de Workflow (WAPI)

Las WAPI pueden ser vistas como un conjunto de APIs (Application Programming Interface) y funciones de intercambio soportadas por el servicio de representación de workflow. Las WAPI permiten la interoperabilidad del servicio de representación de workflow con otros recursos y aplicaciones.

Herramientas de definición de procesos (interfaz 1)

Existe una gran variedad de herramientas utilizadas para el análisis de procesos (Ej. Visio). Estas herramientas pueden variar desde las más informales hasta las más formales y sofisticadas. La salida de este proceso de modelado y diseño es una “definición de procesos” la cual puede ser interpretada en tiempo de ejecución por el o los motores de Workflow. En este caso será necesario que la herramienta disponga de los traductores adecuados para realizar la importación del nuevo “template” desde herramientas no incluidas en la solución de WF.

Aplicaciones clientes (interfaz 2)

En el modelo planteado la interacción entre las aplicaciones clientes y el motor de Workflow está sostenido en gran parte por el concepto de lista de trabajo ya descrito anteriormente. Parte de la información almacenada en la lista de trabajo es utilizada para trasmitirle al manejador de la lista de trabajo qué aplicaciones hay que invocar. La interfaz entre una aplicación cliente de Workflow y el motor de Workflow debe ser lo suficientemente flexible en los siguientes puntos: identificadores de procesos y actividades, estructuras de datos, diferentes alternativas de comunicación.

Aplicaciones Invocadas (interfaz 3)

Esta interfaz está orientada a interactuar con agentes de una aplicación, o con toda la aplicación. Dichas aplicaciones deben estar orientadas al contexto general de un sistema de Workflow, es decir, deben poder interactuar directamente con el motor de Workflow. La aplicación invocada es manejada localmente por un motor de Workflow, usando la información suministrada en la definición del proceso para identificar la naturaleza de la actividad.

La aplicación invocada puede ser local al motor de Workflow, es decir, residente en la misma plataforma, o estar en otra plataforma dentro de una red. En este caso la definición del proceso debe contener información necesaria para poder encontrar la aplicación que se va a invocar (por ejemplo la dirección dentro de la red).

Funciones de Interoperabilidad WAPI (interfaz 4)

Existen dos aspectos necesarios para la interoperabilidad:

Alcance de la interpretación común de la definición de procesos que será realizada.

Soporte en tiempo de ejecución para el intercambio de diferentes tipos de información de control y transferencia de los datos relevantes del Workflow, y/o de las aplicaciones entre los distintos servicios de representación.

Desde el punto de vista de la gestión de procesos de negocio, los servicios Web y SOA prometen también ser una tecnología clave. Por una parte, suponen un mecanismo de

Pág 29 de 39

Page 30: documatica v3.doc

Documática Tema BIII-11

comunicación idóneo para la integración de aplicaciones heterogéneas en los procesos de negocio internos de una organización. Por otra, permiten implementar procesos de negocio llevados a cabo entre distintas organizaciones.

Herramientas de administración y monitorización (interfaz 5)

El propósito de esta interfaz es permitir una vista completa del estado del flujo de trabajo, además de poder realizar auditorías sobre los datos y procesos del sistema, funciones habituales de operación de sistemas.

7 Búsqueda de información: robots, spiders, otros

7.1 Introducción

La Recuperación de la información (RI) es actualmente un campo multidisciplinario en el que investigan bibliotecarios, lingüistas, psicólogos y especialistas de la información de ordenadores, abordando problemáticas documentales tan diversas como análisis de textos, indexación y representación, almacenamiento, acceso y presentación del conocimiento.

Las dos tecnologías informáticas más próximas a la RI son los Sistemas de Gestión de Bases de Datos (SGBD) y la Inteligencia Artificial (IA), pero la RI, aún habiendo surgido a su abrigo, presenta características propias que la diferencia de ambas:

a) trabaja con información no estructurado, a diferencia de los S.G.B.D.

b) su objeto de trabajo es el texto, combinado normalmente con números e imágenes,

c) maneja volúmenes de información enormes, con frecuencia superiores a los de cualquier S.G.B.D. por un lado, y de carácter mucho más heterogéneo que el usual en el campo de la I.A. por el otro.

Una diferencia entre estos tres sistemas es el volumen de estructura usable en sus objetos de datos. Los documentos gestionados por un SRI, siendo, en general, primariamente de texto, poseen menos estructura usable que las tablas de datos gestionadas por un SGBDR, y estructuras tales como las redes semánticas usadas por un sistema IA.

Otra característica distinta de un SRI es que la recuperación es probabilística. Esto es, uno no puede estar seguro de que en un documento extraído se recoge la información exacta que necesita el usuario. En una búsqueda típica en SRI, algunos documentos relevantes se pierden y otros no relevantes son recuperados. Esto puede ser contrastado con resultados de búsqueda de un SGBDR, donde la recuperación es determinística. En este caso, la pregunta consiste en un par de atributo-valor que coinciden o no con los registros en una base de datos.

Un rasgo distintivo de los SRI, en comparación con muchos SGBDR, es que sus bases de datos son muy grandes (algunas veces en el rango de gigabyte). Las bases de datos de catálogos de bibliotecas, por ejemplo, pueden contener millones de registros. Los servicios comerciales de recuperación online (como Dialog o BRS) proporcionan a sus usuarios acceso en tiempo real a bases de datos de muchos gigabytes. La necesidad de buscar en colecciones tan grandes en tiempo real genera múltiples demandas en el sistema usado para buscar en ellas. La selección de la mejor estructura de datos y de los algoritmos para construir tales sistemas es a menudo crucial.

Pág 30 de 39

Page 31: documatica v3.doc

Documática Tema BIII-11

Otra característica de un SRI, que comparte con los SGBDR, es que los datos no son volátiles. Una colección de documentos gestionada por una típica aplicación SRI (como puede ser un sistema para bibliotecas o de consulta a servicios comerciales de recuperación de documentos), cambia constantemente a medida que se van añadiendo documentos (aunque algunos pueden modificarse o borrarse). En resumen, un SRI representativo debe tener los siguientes requerimientos funcionales y no funcionales:

Debe permitir a los usuarios añadir, borrar y cambiar documentos en la base de datos.

Debe proporcionar a los usuarios la manera de buscar documentos tecleando preguntas, y examinando los documentos recuperados.

Debe acomodar bases de datos en el rango de MB a GB

Debe permitir recuperar documentos relevantes en respuesta a preguntas interactivamente, en un tiempo de 1 a 10 segundos.

El mayor problema aún pendiente de los sistemas informatizados de recuperación continúa siendo la semántica, dada la dificultad de acertar con los términos exactos que solo aparezcan en los textos buscados y no en otros, y que el vocabulario (de las consultas) cambia con el tiempo y el punto de vista del emisor.

7.2 El software de recuperación de información

Tiene como función principal asistir la búsqueda de textos en bases de datos documentales o textuales para localizar los documentos o referencias interesantes o relevantes ignorando todas las demás, por lo que deben mostrar una precisión y una calidad de retorno elevadas.

Para un ordenador, la forma de búsqueda más sencilla es la secuencia, que podemos asimilar como equivalente a la lectura normal de una página, pero aunque existen algoritmos que aceleran la búsqueda e incluso algún hardware especial, la búsqueda exhaustiva pierde eficacia conforme las consultas aumentan de complejidad y crece el volumen de información a examinar.

Prácticamente todos los métodos de recuperación se basan en el mismo paradigma: identificación de claves (palabras, frases, fragmentos de palabras) contenidas en el texto de la consulta y su búsqueda en la base de información o en ficheros auxiliares.

7.3 Modelos y técnicas de recuperación

Lo insatisfactorio de los sistemas de recuperación por búsqueda exhaustiva y los problemas semánticos inherentes a la RI han generado una gran investigación y diversidad de modelos de recuperación. Aunque unos sean evolución de otros, y algunos de ellos no puedan ser considerados más que como meras técnicas que se presentan conjuntamente, los principales formalismos de recuperación son los siguientes:

7.3.1 Modelo booleano

Ha sido el más defendido y utilizado tradicionalmente, siendo necesarios buenos conocimientos del álgebra booleana y experiencia de las claves o términos de aparición más frecuente para lograr elaborar buenas consultas. Las consultas imprecisas suelen generar gran cantidad de ruido (textos indeseados o sin interés) mientras que las muy

Pág 31 de 39

Page 32: documatica v3.doc

Documática Tema BIII-11

precisas pueden ignorar textos interesantes. Los parámetros de recuperación habituales en una consulta booleana son a menudo bajos, generalmente con un 50% de textos interesantes (IR=0,5) y otro 50% de indeseados (IP=0,5).

Casi todos los sistemas de recuperación implementados sobre este modelo obligan al usuario a exponer el objeto de su consulta en términos de una expresión booleana que combina palabras claves y otros elementos unitarios (raíces, sinónimos, etc.) en cláusulas unidas mediante operadores booleanos Y, O y NO. Construir por tanto una buena consulta booleana resulta difícil y con frecuencia exige la colaboración de intermediarios expertos, cuya labor consiste en añadir términos no incluidos en principio (que se daban por supuestos), eliminar los generales o demasiado vagos, aportar sinónimos o reducir términos a sus raíces (stemming). La sintaxis de una consulta normal se compone habitualmente de sucesivas cláusulas O (con peligro de mucho ruido), concatenadas con cláusulas Y (con peligro de excesivo acotamiento) y raramente el operador NO (peligro de construcción mal elaborada por aplicación de las leyes de Morgan que originen grandes áreas de sombra en la búsqueda).

En aquellas ocasiones en que resulta necesario alcanzar una precisión elevada se recurre a operadores no booleanos, tales como operadores métricos de proximidad o de contigüidad, basándose en que la probabilidad de que dos términos aparezcan contiguos o cercanos en un mismo documento objeto es mucho más baja que la de que simplemente aparezcan.

El proceso de consulta basado en el modelo booleano se caracteriza por ser del tipo “prueba con reintento” con alto grado de retroalimentación hasta obtener una versión definitiva de la consulta que suministre una cantidad razonable de documentos, aunque dicha versión tendrá seguramente al final una sintaxis bastante compleja y una estructura semántica extraña y poco inteligible. Es habitual, una vez construida la consulta, que si esta se va a repetir periódicamente sea almacenada como un “perfil de búsqueda” para posteriores ocasiones.

7.3.2 Índices invertidos

En grandes bases el modelo booleano obliga a examinar cantidades enormes de textos irrelevantes con el fin de localizar los que importan, por lo que desde la década de los 50 la investigación realizada se ha orientado hacia el perfeccionamiento mediante métodos de acceso no booleanos.

La solución inmediata para minimizar el tiempo que representa la búsqueda exhaustiva fue la generación durante el proceso de catalogación de unos ficheros auxiliares, que o bien contienen índices de palabras o términos claves fichero de términos-, o bien mantienen la referencias -ficheros de apuntadores- de los documentos base donde aparecen -los ficheros de documentos fuente-.

Por cada término, bien sea palabra clave, frase especial, o ítem del tesauro existe una lista de todos los documentos en los que aparece, a la que se suele añadir la longitud de esa lista (número de referencias contenidas). El proceso de recuperación booleano se acelera así enormemente, ya que basta con aplicar los operadores O, Y y NO a las referencias contenidas en los índices o listas de cada palabras clave de la consulta.

Pág 32 de 39

Page 33: documatica v3.doc

Documática Tema BIII-11

7.3.3 Lenguaje natural

La dificultad de aprender los lenguajes de acceso booleanos ha limitado el uso de los sistemas de recuperación a quienes estaban dispuestos a esforzarse en dominarlos. Lo deseable para cualquier usuario sería disponer de un lenguaje “natural” en el cual establecer la consulta, considerando como natural aquel que permite expresar la búsqueda en un lenguaje corriente, sin necesidad de acudir a la lógica de Boole.

Existen sistemas de recuperación de información mediante texto coloquial sin formatear, que prescinden de la gramática y tratan los textos y las consultas como simples listas de palabras clave que se confrontan contra los índices invertidos para seleccionar las referencias comunes; a pesar de su simplicidad, con estos sistemas de recuperación se alcanzan resultados similares a los de acceso booleanos.

7.3.4 Indexación y recuperación automáticas vectoriales

Los sistemas booleanos presentan numerosos problemas y limitaciones: como es difícil de limitar a priori el número de documentos que deben ser recuperados una vez realizada la consulta, el resultado puede ser tanto un exceso de documentos como ausencia de ellos. Además, tampoco se pueden seleccionar los más relevantes ni tan siquiera pueden presentarse para su examen en orden de interés, provocando muchas veces que se desprecien los que están al final durante el examen exhaustivo de los documentos fuente.

Una solución a este problema consiste en almacenar junto a cada término el número de ocasiones que aparece el mismo en un documento, quedando los textos representados mediante vectores cuyos elementos son las frecuencias de todas las claves de dichos textos: un vector siempre tiene tantos elementos como claves distintas haya en el índice.

Teniendo los textos vectorizados de esta forma es posible realizar consultas mediante texto no estructurado o bien en lenguaje natural. Primeramente se examina el texto de la consulta para localizar en él las claves necesarias y eliminar los términos vacíos o irrelevantes. A continuación se construye el vector de búsqueda, cuyos elementos son las frecuencias de cada una de las claves de la búsqueda que trata de hacerse, normalmente ponderados por la función inversa de la frecuencia de cada clave en la base de datos. El criterio de recuperación se basa en la similitud entre los vectores de texto y los de consulta, representados por el producto interno de los vectores u otras funciones similares.

Este método proporciona resultados semejantes al booleano (índices del 50% en retorno y 50% en precisión), con la ventaja de que los textos pueden clasificarse por orden de relevancia respecto a la consulta.

7.3.5 Lógica borrosa

Una forma de mejorar la recuperación booleana consiste en admitir diversos grados de certeza mediante lo que se ha dado en llamar lógica borrosa, que permite la aplicación de técnicas de cuantificación del grado de relevancia de las claves y la combinación de los valores obtenidos con el fin de clasificar los textos con arreglo a su relevancia estimada.

Para poder especificar qué términos son los más importantes, se ha propuesto una notación para expresar la importancia relativa generalizando la lógica booleana de modo

Pág 33 de 39

Page 34: documatica v3.doc

Documática Tema BIII-11

que haya grados de verdad variables entre 0 y 1. De este modo, todo documento puede ser indexado parcialmente mediante un término, considerándose los valores de verdad como una medida de la similitud entre una consulta y un documento. Si reordenamos los documentos obtenidos de la consulta de acuerdo a sus grados de similitud, podremos entregar primero aquellos que probablemente son los más relevantes.

Las pruebas experimentales con sistemas basados en lógica borrosa muestran buenos resultados, ya que además de tener un IP superior, el IR aumenta de forma notable.

7.3.6 Modelos vectoriales y probabilísticos

Los modelos vectoriales y probabilísticos surgieron de las primeras investigaciones en torno a las propiedades estadísticas de las colecciones de textos. Se basan los primeros en la observación de las frecuencias de aparición de términos, - presumiendo que son indicativas de su importancia -, y los segundos en el teorema de Bayes, al suponer que la importancia de un término puede estimarse comparando las características de aparición en una serie de documentos relevantes con las correspondientes en el resto de la colección.

En ambos modelos es necesario construir primero una matriz M donde se almacenan las frecuencias de todos los términos del tesauro en todos los documentos de la base de datos. La matriz M es de dimensiones DxT, donde D son las filas que representan los documentos almacenados y T son las columnas con los conceptos o términos presentes en el tesauro.

El valor almacenado en una casilla M(i,j) indica la importancia del término Tj en el documento Di; una fila cualquiera Dn representará por tanto un determinado documento N desde el punto de vista de la importancia de su términos contenidos, mientras que una columna Tm revelará la importancia del término M a lo largo de todos los documentos de la base de datos.

La matriz así obtenida es muy grande pero también muy dispersa, lo que permite representarla en poco espacio. Si los datos se almacenan por columnas, esto es, por los términos T, se obtiene un fichero invertido ampliado, y si se almacena por filas el resultado será un fichero de vectores de documentos.

El procedimiento de la recuperación consistirá en localizar documentos próximos a la consulta con arreglo a una definición de proximidad adecuada. Como medida de la similitud se pueden calcular los valores ponderados M(i,j)xIFD, donde M(i,j) es la frecuencia del término Tj en documento Di e IFD es la inversa de la frecuencia del documento o logaritmo de N/FDj, siendo FD el número de documentos en que aparece el término.

7.3.7 Retroalimentación

La relación mutua que hay entre los índices de retorno y de precisión en los modelos booleanos y vectoriales es aceptable en bases pequeñas, pero constituyen un inconveniente grave en bases de datos grandes o muy grandes, con millones de páginas de texto. Sus limitaciones son dos: la primera es la imperfección e inexactitud de casi todas las consultas (dado que faltan muchas claves relevantes y existen otras irrelevantes) y la segunda es la interrelación (no independencia) de las claves, que no están distribuidas en la base de datos al azar.

Pág 34 de 39

Page 35: documatica v3.doc

Documática Tema BIII-11

Las funciones vectoriales de similitud exigen que las claves sean condicionalmente independientes, suponiéndose que las claves relevantes están distribuidas aleatoriamente en los textos relevantes, pero la realidad es que hay entre ellas un grado de dependencia muy variable. La operaciones booleanas Y y O permiten distinguir entre claves independientes (cláusula O) y dependientes (cláusula Y), pero no dan indicaciones sobre las situaciones intermedias.

En consecuencia, el empleo de cláusulas Y para detectar claves de las que se supone que aparecen juntas en los textos relevantes tiende a eliminar muchos de estos, y el uso de cláusulas O para detectar las que no aparecen juntas tiende a incluir muchos irrelevantes. Estas consultas imperfectas e imprecisas mejoran notablemente cuando se les incorpora un mecanismo de retroalimentación en el vector de recuperación.

El método consiste en que el usuario indica si entre los textos recuperados hay a algunos relevantes o no, y el sistema modifica el vector haciéndolo más parecido a los correspondientes a los textos relevantes y se aleja de los que no tienen importancia. La consulta que sigue a esa operación suele tener un Ir = Ip = 70%, y con dos o tres repeticiones se alcanzan valores del 80%, pero a partir de ahí apenas mejora nada el rendimiento.

7.3.8 Normas-Gamma

Una forma de obtener documentos ordenados con arreglo a su relevancia es interpretar las consultas booleanas con arreglo a la norma-gamma investigada por Salton, Fox y Wu en 1983. Además de asignar valores relativos de importancia a los términos de la consulta y grados de indexación (comprendidos entre 0 y 1) a los términos de cada documento, es posible modificar el rigor con que se interpretan los operadores O e Y.

Con ello la conjunción de varios términos recuperará documentos en los que no aparecerán necesariamente todos a la vez, aunque lógicamente con una similitud inferior a uno respecto a la consulta. A su vez la presencia de varios términos dará lugar a respuestas con similitud superior a la presencia de uno solo de ellos.

Si elegimos unos valores de Gamma comprendidos entre 1 e infinito (∞), donde 1 corresponde a la interpretación menos estricta, ese valor Gamma identifica a la familia de normas L(Gamma) que pueden emplearse para medir la distancia de los documentos a los puntos idóneos de la consulta (puesto que las consultas O han de estar alejadas del punto 0 y las Y del 1), siendo la distancia euclidiana normal cuando Gamma = 2. Situando todos los posibles valores L (Gamma) en una gráfica obtendremos unas curvas de equisimilitud que representan los puntos de conexión de los documentos de la base frente a consultas de dos términos. La familia completa de curvas recoge la variación del rigor entre Gamma = ∞ (cuando Y se considera mínimo y O máximo) y cuando Gamma = 1 (cuando Y = O = media).

Los experimentos demuestran que el uso de la norma-Gamma da lugar a recuperaciones más eficaces que las características de sistemas booleanos tradicionales. Las consultas de norma-Gamma pueden además construirse automáticamente a partir de listas sencillas de palabras clave. Asimismo es posible elaborar una nueva consulta con retroalimentación cuando el usuario recibe los primeros diez o veinte documentos correspondientes a una consulta de norma Gamma e indica los relevantes, presentando la segunda consulta unos resultados muy superiores a la primera.

Pág 35 de 39

Page 36: documatica v3.doc

Documática Tema BIII-11

7.3.9 Indexación Automática (IA) y Sistemas expertos

El campo de la Indexación Automática (IA) tiene muchas parcelas relacionadas con la Recuperación de la Información (RI) y es lógico que sus recientes avances tengan consecuencias en las técnicas de recuperación de información.

En particular, los bajos rendimientos de las consultas booleanas provocados por la imperfección e interdependencia de sus términos puede considerarse como un problema de conocimiento, en el sentido que los sistemas automáticos de recuperación ignoran las relaciones que hay entre las palabras: si pudiera incorporarse el conocimiento de tales relaciones al sistema de recuperación se obtendría un notable aumento del rendimiento.

Un sistema de recuperación automático podría servirse de un diccionario, como corpus continente de relaciones semánticas (redes semánticas de la IA) entre palabras ordenadas, para reemplazar (mediante relaciones es-un) las claves de consulta por grupos de claves relacionadas con ellas. Ello eleva el rendimiento hasta índices del 60% tanto de retorno como de precisión si se aplica añadido a otras técnicas de recuperación como el modelo vectorial.

Los diccionarios considerados como reflejo de redes semánticas representan conocimientos adquiridos y estructurados antes de que se produzcan las consultas de los usuarios. Pero si se dispone de esos conocimientos también pueden aplicarse las técnicas de los sistemas expertos basados en reglas a las técnicas de recuperación. Cada tópico conceptual del espacio problema motivo de la base documental se estructura en forma de conjunto de normas de acceso. Cada norma es una implicación o regla: la existencia de una determinada pauta implica, con un grado de confianza dado, la existencia de un tópico conceptual en el texto. Las normas se ordenan jerárquicamente en árbol, de forma que en cada nivel del árbol, los tópicos quedan implicados por pautas de subtópicos, y así sucesivamente hasta las de nivel inferior (hojas), donde se hacen referencia a pautas de palabras o a frases del texto. Todas ellas junto con el índice invertido conforman una base de conocimientos.

El método de recuperación consiste en expresar las consultas como solicitudes de textos relevantes con relación a un tópico particular, produciéndose a continuación la búsqueda en la base de conocimientos mediante activación de reglas, que producen finalmente una relación clasificada de textos potencialmente relevantes. Estos métodos son solamente aplicables en bases pequeñas, pero a cambio llegan a alcanzarse índices del 100% en retorno y del 93% de precisión. Es por lo tanto necesario investigar en su generalización en grandes bases, y desarrollar interfaces que permitan al usuario elaborar fácilmente y modificar sus propios conjuntos de normas de acceso.

7.3.10 Sistemas que hojean (hipertexto e hipermedia)

Los sistemas hipertexto son consecuencia directa de los últimos adelantos en la creación de punteros y dispositivos de presentación. Son relativamente menos complejos, y su modo de actuación reproduce el humano, consistente en rápidas ojeadas de selección buscando referencias en contextos sin análisis con profundidad de los contenidos, auxiliándose de señaladores implícitos y explícitos para saltar de un lado a otro cuando se busca algo en particular, tal como se realiza con un libro (índice, referencia, ojeo, etc.).

Pág 36 de 39

Page 37: documatica v3.doc

Documática Tema BIII-11

Las respuestas a una consulta pueden localizarse siguiendo esos vínculos o ligaduras, como pueden ser el índice de capítulos, del índice alfabético, de figuras o de otros señaladores o recurriendo a técnicas tradicionales de búsqueda de textos. Pero su mayor ventaja consiste en aprovechar la posibilidad de ventanas funcionales en pantallas de alta resolución, que permiten al usuario visualizar varios documentos simultáneamente, o tal vez diferentes partes o textos de un mismo documento, facilitando por tanto la exploración de relaciones entre documentos que no han sido preestablecidas ni previstas.

7.4 Evaluación de los resultados

La evaluación de los resultados es de gran importancia a la hora de hacer un análisis o una estimación del éxito en la recuperación de información, del grado de satisfacción de los usuarios, etc. Después de realizar una búsqueda, los resultados pueden ser evaluados bien por el buscador o bien por el usuario. En el caso del buscador, éste sólo puede valorar si los documentos o referencias bibliográficas coinciden con la demanda de información hecha por el usuario y con la estrategia de búsqueda ejecutada, determinando si son relevantes o no. En el caso del usuario, éste valorará si los documentos satisfacen su necesidad de información, determinando si son relevantes o no.

Como puede verse, la base para evaluar la eficacia de una búsqueda es el concepto de relevancia, sobre el que siempre ha existido mucho debate acerca de su carácter subjetivo u objetivo y otras cuestiones. Lancaster se refiere a la relevancia para indicar la relación que existe entre un documento y una petición de información desde el punto de vista de un evaluador, y a la pertinencia para indicar la relación entre un documento y una necesidad de información, basada en la decisión del usuario. Otros autores sólo hablan de relevancia, si bien distinguen la relacionada con la petición de información y la relevancia para la necesidad de información.

Para un tema o una necesidad de información determinada, existen en una base de datos documentos (registros) relevantes y no relevantes. Y cuando se realiza una búsqueda se recupera una cantidad de registros, pero se dejan de recuperar otros muchos. En base a esto, se puede construir una tabla de dos por dos para poder calcular de forma sencilla las medidas de evaluación, que se expresan mediante ratios.

Relevantes No relevantes Total

Recuperados A

Éxitos

B

Falsos recuperados

A + B

No recuperados

C

Docs. Perdidos

D

Correctamente rechazados

C + D

Total A + C B + D A +B + C + D

Toda la bd

Las medidas que se utilizan para evaluar los resultados de una búsqueda son los siguientes:

Pág 37 de 39

Page 38: documatica v3.doc

Documática Tema BIII-11

Índice de retorno o llamada: Proporción de documentos relevantes de una base de datos que son recuperados para una búsqueda determinada; es decir, A / (A + C)

Índice de pertinencia o de precisión: Proporción de documentos recuperados de una búsqueda que son relevantes; es decir, A / (A + B).

Estas dos medidas juntas expresan la capacidad de filtrado del sistema: dejar pasar lo que se busca y retener lo que no interesa. Lo ideal sería conseguir siempre un índice de retorno y de precisión del 100%, algo que en la práctica es sumamente improbable. Por consiguiente, hay que buscar un equilibrio entre el índice de retorno y el índice de precisión. Dicho equilibrio puede inclinarse a favor de un índice o de otro, según las necesidades de información del usuario.

Los índices complementarios de los dos anteriores son los siguientes:

Silencio: Es la proporción de documentos relevantes de una base de datos que no se han recuperado en la búsqueda: C / (A + C)

Ruido: Es la proporción de documentos recuperados de una base de datos que no son relevantes en la búsqueda: B / (A + B)

En un marco práctico se puede medir fácilmente la precisión; sin embargo, el retorno es más difícil, ya que no podemos saber con los resultados obtenidos cuál es el número de documentos relevantes que no se han conseguido recuperar.

7.5 Robots y motores de búsqueda

El rápido crecimiento del volumen de información disponible en Internet, ha hecho necesario mejorar los mecanismos de búsqueda y aprovechar al máximo las posibilidades que nos ofrece la propia Internet. Para ello es necesario conocer cómo funcionan los buscadores como herramienta básica, así como otros métodos para realizar búsquedas. Si se busca un documento en Internet que realmente existe, tarde o temprano lo encontraremos, pero se trata de encontrarlo en el menor tiempo posible. Un conocimiento de las características de los diferentes buscadores permite elegir el método de búsqueda en cada caso. Dentro de un mismo buscador, además, el resultado puede variar muchísimo, como veremos, refinando la interrogación a la base de datos. Por tanto, la idea principal es saber las posibilidades de los distintos buscadores, y establecer una comparación entre las características de cada uno de ellos.

Un motor de búsqueda o mecanismo de búsqueda (search engine) es un programa que realiza búsquedas dentro de una base de datos. En el caso que nos ocupa, la base de datos es de recursos web. Un robot, según el WWW Robots FAQ, es un programa que de manera automática atraviesa la estructura de documentos Web extrayendo un documento y a partir de éste extrayendo recursivamente todos los documentos que están referenciados por enlaces. Los documentos son introducidos en una base de datos e indexados para su posterior localización por un mecanismo de búsqueda. Un índice o directorio es una recopilación manual de documentos, que pueden mantenerse como directorio o bien ser introducidos también en una base de datos para permitir que se realicen búsquedas.

Los robots nacieron con la función de medir el tamaño del WWW, pero rápidamente se convirtieron en herramientas muy útiles para localizar documentos. El criterio para seleccionar las páginas que visita un robot depende de cada robot. En general parten de una lista de servidores inicial, y a partir de ahí va visitando los diferentes enlaces de

Pág 38 de 39

Page 39: documatica v3.doc

Documática Tema BIII-11

cada página hasta un nivel arbitrario respecto al inicial. Cuando un robot entra en un nuevo servidor, busca un fichero que se llama robots.txt, en el que se le indican los directorios permitidos y los prohibidos. Si este fichero no existe, considera todos permitidos. Además, se puede solicitar al robot direcciones de páginas para que sean visitadas e incluidas en la base de datos. Para esto se suele rellenar un formulario (submission form). La manera en que cada robot indexa el contenido de las páginas que visita también varía de unos a otros. Algunos robots indexan los títulos de páginas HTML, los primeros párrafos o el contenido entero del documento, etc. Últimamente se ha generalizado el uso del elemento HTML <META> (etiquetas META o metaetiquetas), que está oculto para el usuario, y que permite al creador de la página indicar al robot qué palabras clave quiere que sean indexadas y la descripción de la página que aparecerá cuando un usuario la localiza.

Los motores de búsqueda realizarán búsquedas dentro de una base de datos de documentos, que puede haber sido recopilada por un robot, o bien puede ser un índice recopilado manualmente. En cualquier caso, el motor de búsqueda recibe la interrogación del usuario (query), que consiste en una o varias palabras, realiza la búsqueda en la base de datos, y extrae una lista ordenada de documentos que cumplen entera o parcialmente con la interrogación. El orden depende de una puntuación (score) que asocia el programa a cada documento cuando realiza la búsqueda, y en cada caso varía. Normalmente se suelen tener cuánto antes aparecen las palabras, cuánto más juntas se encuentran entre sí, etc.

Sustancialmente, las técnicas de recuperación de información empleadas por los motores de búsqueda en Internet, en un principio, derivaban de las empleadas tradicionalmente en el campo de los S.R.I. y es por ello que han comenzado a surgir grandes problemas cuando realizamos operaciones de recuperación de información con ellos, en tanto que el entorno de trabajo no es el mismo y las características intrínsecas de los datos almacenados en los mismos difieren considerablemente. Además, en el entorno web surgen problemas nuevos tal como es el caso del famoso fenómeno denominado "spamming", por medio del cual los constructores de páginas webs introducen en la descripción de las mismas términos que nada tienen que ver con el contenido de las mismas, por ejemplo: "mp3", "sex", "pamela anderson", "microsoft" (términos todos ellos de uso muy frecuente por todos aquellos usuarios de los motores de búsqueda) y que provocarán que estos usuarios recuperen esas páginas "trucadas" cuando ellos pretenden recuperar documentos de otra temática. Otro problema importante que afecta a la efectividad de estos sistemas reside en el enorme tamaño del índice, que poco a poco llega a alcanzar magnitudes impresionantes.

Pág 39 de 39