Sistemas Basados en el Conocimiento

31
Universidad Técnica Particular de Loja Escuela de Ciencias de la Computación Sistemas Basados en el Conocimiento Arabel Aguilar Encalada Adriana Becerra Arciniegas Marcela Gómez González Nancy Loarte Aguinsaca Juan Pablo Pizarro Julio 2008

Transcript of Sistemas Basados en el Conocimiento

Page 1: Sistemas Basados en el Conocimiento

Universidad Técnica Particular de LojaEscuela de Ciencias de la ComputaciónSistemas Basados en el Conocimiento

Arabel Aguilar EncaladaAdriana Becerra Arciniegas

Marcela Gómez GonzálezNancy Loarte Aguinsaca

Juan Pablo PizarroJulio 2008

Page 2: Sistemas Basados en el Conocimiento

La recuperación de información es una actividad que el ser humano realiza tanto consciente como inconscientemente de forma continua, y en el marco de cualquier actividad.

La investigación en la recuperación de información intenta diseñar sistemas que acepten consultas en lenguaje natural y proporcionen documentos adecuados a las consultas hechas por los usuarios, ordenados según algún criterio del sistema, de acuerdo a las características de los documentos y a las necesidades informativas expresadas por el usuario en su consulta.

Page 3: Sistemas Basados en el Conocimiento

Desde los últimos años uno de los principales beneficios que se esperaba de la Web semántica es la Búsqueda semántica y recuperación de información. El primer paso es colocar los datos en la Web de modo en que las máquinas puedan entenderlos naturalmente o convertirlos a esa forma, de esta manera queda constituida una red de datos que pueden ser procesados directamente o indirectamente por máquinas.

Page 4: Sistemas Basados en el Conocimiento

La relevancia es una medida que le sirve al usuario para determinar si los resultados, en qué grado, son adecuados de acuerdo a sus necesidades informativas.

Existen 2 tipos de relevancia: formal y semántica.

La relevancia formal es cuando los resultados de una búsqueda responden a la ecuación de búsqueda planteada.

La relevancia semántica es cuando los resultados obtenidos responden a las necesidades del usuario.

Page 5: Sistemas Basados en el Conocimiento
Page 6: Sistemas Basados en el Conocimiento

Pre procesamiento. Consiste en eliminar aquellos fragmentos de texto que no tienen nada que ver con el documento a tratar. Se trata de un análisis de patrones léxicos en el flujo del texto. Como resultado obtenemos documentos delimitados y sin cabeceras informativas que no sean útiles.

Eliminación de palabras vacías. Las palabras vacías sólo son descartadas cuando se trate de obtener descriptores simples, ya que pueden formar parte de descriptores compuestos.

Page 7: Sistemas Basados en el Conocimiento

Stemming (reducción de la raíz). Este paso consiste en ofrecer al usuario la posibilidad de encontrar las variantes morfológicas de los términos que busque. Se procede por tanto a la reducción de la raíz de las palabras restantes.

Vectorización. Este método es ampliamente usado en operaciones de Recuperación de Información, así como también en operaciones de categorización automática, filtrado de información.

Page 8: Sistemas Basados en el Conocimiento
Page 9: Sistemas Basados en el Conocimiento

Se distinguen dos grupos de medidas principalmente entre el conjunto de documentos recuperados:

• Documentos relevantes recuperados, es decir aquellos que se han recuperados correctamente.

• Documentos no relevantes, recuperados erróneamente que provocan ruido en la salida.

Page 10: Sistemas Basados en el Conocimiento

Precisión. Es la proporción de material recuperado realmente relevante, del total de los documentos recuperados.

Exhaustividad. Es la proporción de material relevante recuperado, del total de los documentos que son relevantes en la base de datos, independientemente de que éstos, se recuperen o no. Esta medida es inversamente proporcional a la precisión.

Page 11: Sistemas Basados en el Conocimiento

Relación entre la precisión y la exhaustividad • Existe una relación entre la precisión y la

exhaustividad, en la que ambas se complementan, pues un sistema con una exhaustividad muy alta pero con baja precisión y viceversa no puede ser adecuado.

Page 12: Sistemas Basados en el Conocimiento

Querying. El usuario introduce en el buscador un conjunto de palabras clave, tras lo que el buscador devuelve una lista de resultados pertinentes para su consulta, generalmente ordenada de acuerdo a su relevancia.

Browsing. En esta estrategia el usuario explora visual y espacialmente el conjunto documental, sin necesidad de tener que expresar de forma previa cuáles son sus necesidades de información. Existen tres tipos de browsing:

Browsing de búsqueda directa. Browsing de propósito general. Browsing fortuito o por ‘serendipia.

Page 13: Sistemas Basados en el Conocimiento

Índices.- Son los buscadores que mantienen una organización de las páginas incluidas en su base de datos por categorías.

Motores de búsqueda. Son buscadores que basan su recolección de páginas en un robot, denominado araña.

Multibuscadores.  Estos últimos no

tienen una base de datos propia.

Page 14: Sistemas Basados en el Conocimiento
Page 15: Sistemas Basados en el Conocimiento

La gran cantidad de información contenida en la Web debería facilitar a los usuarios de la misma a encontrar resultados más exactos y eficaces a sus interrogantes, sin embargo en la realidad no sucede esto, sino mas bien el usuario consume mucho más tiempo tratando de encontrar los documentos que realmente contengan la información necesaria para realizar sus actividades.

Page 16: Sistemas Basados en el Conocimiento

El problema radica en que la mayoría de los métodos de recuperación de información requieren que sean los mismos usuarios los que indiquen cómo representar sus necesidades de información.

La necesidad de información del usuario debe ser expresada en forma de una consulta en lenguaje natural.

No es fácil concretar en un texto los pensamientos o ideas que han dado lugar a la necesidad de información.

Los documentos y términos muy populares pueden generar una carga mal repartida.

La falta de organización de la información produce que los resultados de las búsquedas sean inexactos.

Page 17: Sistemas Basados en el Conocimiento

La Web Semántica es una Web extendida, que posee un mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus búsquedas de forma rápida y sencilla, gracias a una información mejor definida en base a  estructuras formales y lenguajes que complementan.

En el modelo de recuperación de información semántica propuesto asume la existencia de Bases de Conocimiento asociadas a las fuentes de información o repositorio de documentos.  

Page 18: Sistemas Basados en el Conocimiento

Motor de búsqueda semántica: es una herramienta que recibe consultas basadas en ontologías (RDQL, RQL, SPARQL), que son ejecutadas hacía una base de conocimiento, y devuelve información que satisfacen la consulta .

La visión ideal del contenido de información, consiste en partes formales de conocimiento ontológico sin ambigüedad ni redundancia. 

De acuerdo a esta visión, un elemento de

conocimiento es una respuesta  correcta o incorrecta que proviene de la petición de información por ende los resultados de la búsqueda se suponen siempre 100% precisos. 

Page 19: Sistemas Basados en el Conocimiento

Un modelo de recuperación basado en ontologías, tiene sentido cuando la base de información puede ser completamente representado  como una base de conocimiento formal, de manera que los resultados de las  búsquedas sean datos precisos.  

Debido a la gran cantidad de información que se encuentra disponible (texto, contenidos multimedia no estructurados), convertir dicha información   en conocimiento ontológico, es un proceso muy complicado, por lo que cada documento se lo considera por su propio valor.

Page 20: Sistemas Basados en el Conocimiento

  Un buscador semántico realiza el rastreo de acuerdo al

significado del grupo de palabras que escribe el usuario.

Swoogle   Es un motor de recuperación especializado que descubre, analiza e indexa conocimiento codificado en documentos publicados en la Web Semántica. Swoogle "razona" sobre estos documentos y las partes que los componen y almacena metadatos significativos sobre ellos 

SicWebSearch.  Los criterios de búsqueda son más específicos, por lo que se obtiene un resultado de mayor calidad

Page 21: Sistemas Basados en el Conocimiento

NaturalFinder  Es la respuesta a los enfoques realizados por las empresas españolas Sitesa y Bitext, las mismas que obtuvieron este complemento, que  al ser integrado en los buscadores como Google es capaz de comprender el lenguaje natural.

Swootti  Creado por la empresa española BuzzTrend, este buscador rastrea las opiniones sobre los productos, apoyándose la web semántica.

 

Page 22: Sistemas Basados en el Conocimiento

Para que el ordenamiento de Resultados sea eficiente para el usuario final, los buscadores deben presentar los resultados obtenidos ordenados de mayor a menor calidad en relación a los requerimientos de búsqueda del usuario

Page 23: Sistemas Basados en el Conocimiento

Interoperabilidad.- Facilita el intercambio de información entre distintas aplicaciones de usuarios y herramientas, basada en estándares de Web Semántica como RDF, RDFS, OWL.  

Generalidad.- proporciona un marco común de trabajo en la documentación de métricas e indicadores.  

Simplicidad.- el uso de los repositorios por parte de los administradores, usuarios, o herramientas finales deba hacerse a través de interfaces y operaciones estándares.  

Extensibilidad.- facilita la publicación de nueva información y actualización de la existente tanto en la estructura como en la semántica de los datos.  

No-ambigüedad.- para que los resultados de la aplicación de distintos proyectos de evaluación puedan ser confiablemente comparados

Page 24: Sistemas Basados en el Conocimiento

Usabilidad. Es la medida en la cual una página web puede ser usada por usuarios para conseguir información específica con efectividad, eficiencia y satisfacción en la recuperación de información.  

    Accesibilidad. Se basa en la calidad y

facilidad de acceder a la información del sitio web y la posibilidad de realizar búsquedas.  

Page 25: Sistemas Basados en el Conocimiento

Ranking específicamente diseñado para un modelo de recuperación basado en ontologías, utilizando un sistema de indexado semántico utilizando ponderaciones de las anotaciones.

 Este algoritmo es un complemento de los dos métodos como KIM y TAP, los cuales se centran en el poblado de ontologías y la anotación automática de textos . 

Page 26: Sistemas Basados en el Conocimiento

[HAMON] HASSAN MONTERO, Yusef, Visualización y Recuperación de Información, [consultado en línea], Disponible en: [http://www.nosolousabilidad.com/hassan visualizacion_y_recuperacion_de_informacion.pdf].

[FRAKES92] Frakes, W. B. and Baeza Yates, R. (ed.) Information Retrieval: data structures and Algorithms. Mexico: Prentice-Hall, 1992

[SALTON83] Salton, G. y M. J. McGill.. Introduction to Modern Information Retrieval. New York: McGraw Hill. 1983[Korfhage 97] Korfhage, R., Information Storage and Retrieval, New York.: John Wiley, 1997.

[GAZAL02] GARCÍA FIGUEROLA, Carlos, ZAZO, Ángel Francisco, ALONSO BERROCAL, José Luis, La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia, 1992 [consultado en línea],  Disponible en: [http://ibersid.eu/ojs/index.php/scire/article/viewFile/1160/1142].

Page 27: Sistemas Basados en el Conocimiento

[PORTER] The Porter Steeming Algoritm [consultado en línea]. Disponible en: http://tartarus.org/~martin/PorterStemmer/

[MOREIRO] MOREIRO González José Antonio, Aplicaciones al análisis automatico del contenido provenientes de la teoría automática [consultado en línea]. Disponible en: http://www.um.es/ojs/index.php/analesdoc/article/viewFile/2101/2091

[GARCIA ] GARCIA Figuerola Carlos, ZAZO Ángel Francisco, ALONSO Berrocal José Luis, La interacción con el usuario en los sistemas de recuperación de información: realimentación por relevancia [consultado en línea]. Disponible en:http://ibersid.eu/ojs/index.php/scire/article/viewFile/1160/1142

[CASAFONT] Casafont Mercè Lorente. Ontología sobre economía y recuperación de información. [Consultado en línea]. Disponible en: http://eprints.rclis.org/archive/00008747/01/Ontología_sobre_economía_y_recuperación_de_información.pdf

[SALARQ05] SALVADOR OLIVÁN, José Antonio y ARQUERO AVILÉS, Rosario, Una aproximación al concepto de recuperación de información en marco de la ciencia de la documentación, 2005 [Consultado en línea]. Disponible en: [http://www.ejournal.unam.mx/ibi/vol20-41/IBI002004101.pdf

[NAVBAZ] NAVARRO, Gonzalo y BAEZA YATES, Ricardo, Recuperación de la información: Algoritmos, Estructuras de datos y Búsquedas en la web, Universidad de Chile, [Consultado en línea]. Disponible en: [http://www.irit.fr/~Jose.Arias/Homepage_files/docs/cc52d.pdf]

Page 28: Sistemas Basados en el Conocimiento

[LUQUE] LUQUE Maria, Modelos de Recuperación de la Información basados en Informacion Lingüística Difusa y Algoritmos evolutivos [consultado en línea]. Disponible en: http://hera.ugr.es/tesisugr/15350605.pdf

[EXTR] Extracción y Recuperación de Información. Según patrones: léxicos, sintácticos, semánticos y de discurso[en línea]. Disponible en: http://www.galeon.com/recuperacionpatrones/arquitectura.html

[ALGRAVI] ALONSO, Miguel, GRAÑA, Jorge y VILARES, Jesús, Recuperación de Información en Internet: Principios de Recuperación de Información, Departamento de Computación, Facultad de Informática, Universidade da Coruña, [Consultado en línea]. Disponible en: [http://coleweb.dc.fi.udc.es/docencia/rii/RII_3.pdf]

[GÓMEZ] Gómez Díaz Raquel. La evaluación en recuperación de la información. [Consultado en línea]. Disponible en: http://www.hipertext.net/web/pag238.htm

[Cornella] Cornella Alfons. LA IMPORTANCIA DE LA "RELEVANCIA" EN INFORMACIÓN. [Consultado en línea]. Disponible en: http://intranet.logiconline.org.ve/Techinfo/relevancia.html 

Page 29: Sistemas Basados en el Conocimiento

[CAST]  CASTELLS, Pablo, La web semántica [consultado en línea], disponible en: [http://arantxa.ii.uam.es/~castells/publications/castells-uclm03.pdf]

[Martin]Martín  María de los Ángeles, Indicadores con Potencia de Web Semántica, Grupo de Investigación y desarrollo en Ingeniería de Software (GIDIS),Calle 9 y 110, (6360) General Pico, La Pampa, Argentina, disponible en: [http://postgrado.info.unlp.edu.ar/Carrera/Magister/Ingenieria%20de%20Software/Tesis/MartinMA.pdf]  

[Beitmantt]Cárdenas Quintero Beitmantt Giovanni, “La Web semántica – técnicas para la recuperación de información”, ISSN 1909-9525 Volumen 1 - Año 2007, Revista Digital TIC@ Tecnología, Investigación y Ciencia Aplicada.  

  [ISO9126] ISO/IEC 9126-1:2001 International Standard, Software

Engineering – Product. 

[RIWS] Recuperación de informaciónen la Web Semántica, Escuela Politécnica Superior, Universidad Autónoma de Madrid. http://www.ati.es/novatica/2005/178/178-6.pdf. 

 

Page 30: Sistemas Basados en el Conocimiento

[Lassila,Swick] Lassila O. and Swick R:R (editores). “Resource description framework (RDF):Model and syntax specification”, 1999.W3C. Disponible en : [http://www.w3.org/TR/REC-rdf-syntax ]

[Javier] Javier, The bits and text company, buscadores semánticos, más información disponible en: [http://www.ojomicroformatos.com/noticias/buscadores-semanticos]

[Miriam] Miriam Fernández Sánchez, Recuperación de Información en la web semántica disponible en:  [http://www.ati.es/novatica/2005/178/178-6.pdf]  

[Fenmir] Fernandez Miriam, Universidad Autónoma de Madrid,  Escuela Politécnica Superior Ciudad Universitaria de Cantoblanco, c/ Tomás y Valiente 11, 28049 Madrid, disponible en: [http://www.ii.uam.es/esp/posgrado/proyectos/miriam.pdf]

  [BITEXT]  Información relacionada con el buscador semántico

NaturalFinder, disponible en: [http://demos.bitext.com/LIVE]

Page 31: Sistemas Basados en el Conocimiento

GRACIAS