Reporte Final del proyecto CGPI : “Búsquedas Semánticas ... · en la Web (e.g. “Hoteles cerca...

17
Reporte Final del proyecto CGPI : “Búsquedas Semánticas para Datos Espaciales en la Web “ Clave: 20061641 Director: M en C Miguel Félix Mata Rivera. Profesor de UPIITA-IPN en la Academia de Telemática. Resumen. En este proyecto se exploró el uso de expresiones en lenguaje natural para referirse a lugares, en particular aquellas que son usadas en las consultas para búsquedas geográficas en la Web (e.g. “Hoteles cerca del aeropuerto” ó “Hoteles a 15 minutos del Aeropuerto”). Este tipo de consultas requieren considerar aspectos geográficos y espaciales, para que los resultados se refieran a la semántica del objeto, en este caso a mapas o datos vectoriales y no a documentos donde aparezcan palabras como “cerca” pero que no se refieren a un contexto geográfico. El enfoque utiliza tres fuentes de datos heterogéneas, con el objetivo de auxiliar en la desambiguación del termino o relación, este proceso se realiza considerando aspectos geográficos y topológicos (e.g. enpuede refreírse a la relación topológica contenido_en” y “cerca” puede procesarse mediante la operación espacial “buffer”). Las expresiones de lugar denotan la posición de un objeto geográfico con respecto a una referencia (un lugar muy conocido, por ejemplo: El castillo de Chapultepec). Este tipo de expresiones representan una valiosa fuente de contexto geográfico, la cual esta inmersa en los documentos Web, los cuales no esta organizados de acuerdo a criterios geográficos. Nuestra propuesta se basa en la expansión de consulta, considerando criterios geográficos y que pueden ser implementados como un modulo extra en maquinas de búsqueda basadas en coincidencia de palabras. Introducción.- Actualmente, la inmensa cantidad de información relativa a un término geográfico o espacial está dispersa y disponible en numerosos formatos; tanto localmente como remotamente; es decir para realizar consultas, obtener datos, o simplemente visualizarlos se requiere acceder a bases de datos, archivos planos, sitios y servicios Web, entre muchos otras fuentes de datos.

Transcript of Reporte Final del proyecto CGPI : “Búsquedas Semánticas ... · en la Web (e.g. “Hoteles cerca...

Reporte Final del proyecto CGPI : “Búsquedas Semánticas para Datos Espaciales en la Web “

Clave: 20061641

Director: M en C Miguel Félix Mata Rivera. Profesor de UPIITA-IPN en la Academia de Telemática. Resumen. En este proyecto se exploró el uso de expresiones en lenguaje natural para referirse a lugares, en particular aquellas que son usadas en las consultas para búsquedas geográficas en la Web (e.g. “Hoteles cerca del aeropuerto” ó “Hoteles a 15 minutos del Aeropuerto”). Este tipo de consultas requieren considerar aspectos geográficos y espaciales, para que los resultados se refieran a la semántica del objeto, en este caso a mapas o datos vectoriales y no a documentos donde aparezcan palabras como “cerca” pero que no se refieren a un contexto geográfico. El enfoque utiliza tres fuentes de datos heterogéneas, con el objetivo de auxiliar en la desambiguación del termino o relación, este proceso se realiza considerando aspectos geográficos y topológicos (e.g. “en” puede refreírse a la relación topológica “contenido_en” y “cerca” puede procesarse mediante la operación espacial “buffer”). Las expresiones de lugar denotan la posición de un objeto geográfico con respecto a una referencia (un lugar muy conocido, por ejemplo: El castillo de Chapultepec). Este tipo de expresiones representan una valiosa fuente de contexto geográfico, la cual esta inmersa en los documentos Web, los cuales no esta organizados de acuerdo a criterios geográficos. Nuestra propuesta se basa en la expansión de consulta, considerando criterios geográficos y que pueden ser implementados como un modulo extra en maquinas de búsqueda basadas en coincidencia de palabras. Introducción.- Actualmente, la inmensa cantidad de información relativa a un término geográfico o espacial está dispersa y disponible en numerosos formatos; tanto localmente como remotamente; es decir para realizar consultas, obtener datos, o simplemente visualizarlos se requiere acceder a bases de datos, archivos planos, sitios y servicios Web, entre muchos otras fuentes de datos.

Entonces es evidente que los medios para acceder y encontrar una información particular son muy amplios, esto implica que las tareas de consulta sean muy costosas en términos de procesamiento y tiempo de exploración. Por ejemplo, una tarea tan común como lo es encontrar respuestas para una consulta espacial1, digamos “Ríos en México”, requiere de alto poder de cómputo, además, de algoritmos y mecanismos desarrollados para el ámbito geográfico, ya que los actuales solo lo hacen en un sentido sintáctico. También es importante mencionar que en la recuperación de información, el objetivo primordial consiste en encontrar una aproximación al mejor resultado para una consulta o pregunta dada, por ejemplo: la relación “cerca” implica que los resultados deben estar asociados a lo que el usuario entiende por “cerca”, es decir un documento que diga: “el científico está cerca de la solución” es irrelevante en un contexto geográfico y es evidente que un resultado como el anterior no es una aproximación al mejor resultado. Por otra parte la aproximación al mejor resultado, es un gran reto en los sistemas de recuperación actuales ya que se obtienen cientos o millones de respuestas (documentos) que el usuario debe explorar y navegar para averiguar cual satisface mejor el criterio de búsqueda original, entonces el éxito de la tarea ya no depende de la máquina o algoritmo sino de la habilidad del usuario para encontrar el resultado esperado. Además, esta problemática se acentúa, si consideramos que los métodos de recuperación actual se basan en mecanismos sintácticos, cuya principal debilidad es que sólo se enfocan en cuestiones relativas al texto, resultando no apropiados e insuficientes para procesar consultas geo-espaciales2.

Además, los resultados recibidos para una consulta, incluyen, con frecuencia, documentos que no guardan ninguna relación con los esperados, no importando su especialidad o tema de búsqueda, y en el caso de términos geo-espaciales, este problema se acentúa aun más. Para reforzar esta afirmación, consideremos el siguiente ejemplo: si un usuario desea encontrar información acerca de “Ríos” y utiliza una maquina de búsqueda como Google para realizar la búsqueda, con una consulta que incluye el siguiente termino: “Ríos”. Entonces como todo se realiza basado en la frecuencia de la ocurrencia de la palabra “Ríos”, la respuesta incluirá resultados de diferentes áreas y contextos tales como: “Ríos Martínez fue apresado” (noticia), “Ríos de color púrpura” (título de una película), “Los ríos son corrientes de” (definición), entre muchos otros más, entonces esto refleja el problema que representa la ambigüedad de una palabra cuando no se consideran aspecto geográficos, contexto de búsqueda, etc.

1 Una consulta espacial es aquella que incluye una relación topológica, como Adyacencia, vecindad, etc. 2 Una consulta geo-espacial es aquella que incluye relaciones geográficas: dirección, distancia; y topológicas: Adyacencia, vecindad, etc.

El problema de la ambigüedad de palabras ocurre porque la mayoría de las máquinas de búsqueda se basan en el enfoque keyword-matching, es decir en la ocurrencia de palabras, este criterio produce resultados irrelevantes, es por ello que una búsqueda basada en la interpretación semántica del query ofrecerá una alternativa de solución para este tipo de problemas, lo cual resultaría en una herramienta de gran utilidad tanto para usuarios comunes como para los especialistas en Geocomputación.

Otra solución a esta problemática, es la Semantic Web, es decir, la Web que está orientada hacia la explotación semántica de los datos: donde se realizan las mismas tareas de hoy en día pero, con base en el significado de los datos y de las tareas y procesos en los cuales participan estos datos, es decir, cambiando el enfoque sintáctico al enfoque semántico. Este enfoque ampliará el conjunto de alternativas y resultados que ofrezca cualquier sistema Web tradicional ya que el hecho de utilizar una metodología o técnica capaz de procesar semántica, permitirá emitir resultados de acuerdo al significado y contexto de la consulta. Hoy en día, algunos de los sistemas Web tradicionales ya ofrecen algunas características o servicios basados en la semántica, pero únicamente para datos convencionales (no espaciales) es decir, que dichos servicios no son factibles de implantarse en un dominio geo-espacial, ya que la naturaleza de los datos espaciales, implica considerar muchos otros aspectos que en los datos convencionales no son requeridos. Por ejemplo, uno de los aspectos a considerar es que al realizar una búsqueda, los resultados no pueden ser restringidos a páginas Web. Por ejemplo, para la siguiente consulta tendremos los siguientes diferentes tipos de resultados, que se muestran en la Figura 1, para la Consulta = Casas cerca de Lagos”

Figura 1 Posibles resultados que pueden asociarse para la consulta = casas cerca de Lagos”

Como se aprecia en la Figura 1, el usuario puede estar buscando capas de datos, resultados de procesos estadísticos, datos en formato vectorial3 o raster (e.g. formato jpg, o bmp), imágenes de sitios, páginas Web, entonces el proceso de recuperación debe considerar el contexto de la búsqueda para que el usuario recupere lo que esta buscando sin que otros resultados (que serían ruido) sean incluidos en los resultados. Para explicar esto de mejor manera, lo haremos mediante un ejemplo básico, donde consideraremos un contexto geográfico. Por lo tanto, supongamos que se desea recuperar información geográfica relacionada con la palabra “cerca”, en este caso los métodos tradicionales no bastan (e.g. sinonimias, clasificaciones, tesauros etc.) para ofrecer un resultado aproximado y de acuerdo al contexto geográfico, por ejemplo “cerca” puede aparecer dentro de un documento, en un fragmento como este: “él está cerca de la solución del problema matemático”, lo cual seria irrelevante en un contexto geográfico. Entonces los métodos (sintácticos) no podrían discernir entre la relevancia de un documento como el anterior o uno que realmente este inmerso en el dominio geográfico, por ejemplo: “el Río está cerca de una población rural” o “El huracán se aproxima a la población rural a una gran velocidad”, “El fenómeno meteorológico rodeará la península de Yucatán” , donde cada uno de estos documentos hablan de la relación de cercanía, pero en diferentes contextos y dominios geográficos. Es por ello que para ofrecer resultados de acuerdo al contexto y dominio geográfico, se requiere considerar otros aspectos como son: las primitivas de representación: puntos, líneas y polígonos ya que la forma de procesarlas puede filtrar los documentos irrelevantes para una consulta geográfica, ya que es diferente medir la “cercanía” entre objetos puntos, que entre objetos líneas o polígonos. Por otra parte, también es necesario considerar las operaciones de procesamiento espacial entre dichas primitivas (por ejemplo: el análisis de proximidad o buffer, que permite medir cercanía, influencia o afectación por un fenómeno climatológico), y esto se puede complicar aun más si se consideran también, las propiedades geográficas (por ejemplo: los sistemas de coordenadas) donde se requerirían conversiones adicionales, para trabajar con los datos, y posteriormente poder procesarlos bajo un enfoque semántico. Sin embargo, aún al día de hoy, los principales motores de búsqueda en Web tratan la terminología geográfica en la misma forma que otro tipo de terminología. Esto es lo que provoca que existan fallas para encontrar documentos relevantes y que se recuperen documentos irrelevantes. Las razones de que esto ocurra son muchas, por ejemplo: existen muchos sitios o lugares con el mismo nombre, por lo tanto para una recuperación exitosa se requiere un conjunto único de nombres geográficos, de otra forma el resultado será la recuperación de un lugar equivocado.

3 Un formato vectorial es aquel que almacena las primitivas de representación geográfica ( puntos , líneas y polígonos) así como su topología, en otras palabras se guardan la localización de los elementos geográficos y los atributos asociados a ellos

Por otra parte, los nombres de lugares tienen muchos usos por parte de la mayoría de las organizaciones y las personas en general, entonces la búsqueda depende de exista un coincidencia exacta de la palabra y del sentido de la misma, esto tendrá como consecuencia que se recuperen documentos que incluso no estén relacionados con el nombre del lugar. Además, existe el caso también de que las consultas incluyan preposiciones espaciales, como son cerca, fuera, etc. Las cuales requieren que motor de búsqueda las procese de forma inteligente o con un mecanismo diferente al que actualmente se usa (que no es adecuado para geografía). Otra problemática se presenta cuando los documentos relevantes no pueden ser recuperados, debido a que la consulta del usuario no contiene referencias explicitas a los lugares y entonces no se encuentran coincidencias con las expresiones de la consulta (por ejemplo: al norte al sur, dentro, etc.). Otros aspectos a considerar son que los GIS, inclusive aquellos que están disponibles en la Web, han sido construidos sin considerar la semántica en la recuperación de los datos espaciales. Y que aún cuando existen algunos trabajos orientados hacia la Web que utilizan técnicas o metodologías para extraer la semántica de las consultas y documentos; éstos se encuentran basados, únicamente, en los aspectos geométricos de los objetos (dirección y distancia), sin considerar la topología de los datos o las tareas que requieren y procesan dicha topología. Adicionalmente se han construidos sistemas comerciales, como Local Google4, los cuales tratan con búsquedas locales, pero sin considerar la semántica de cerca y además solo están disponibles para Europa o Estados unidos de América, además de que solo se soportan consultas en idioma inglés, la figura 2 ilustra este hecho.

4 http://local.google.com, y también tienen sus competidores como son Local Yahoo (http://local.yahoo.com/ ) y Microsoft (http://maps.live.com/)

Figura 2 Búsquedas Locales que no consideran semántica de la relación espacial “cerca” Estas limitaciones son las que han llevado a una creciente línea de investigación encargada de investigar y analizar varios aspectos de la recuperación de información geográfica. Esto incluye temas tales como el Geo-parsing para detectar terminología geográfica en documentos, Geo-coding para adjuntar una referencia a una ubicación única asociada a un documento. Así como también los temas de indexado espacial de documentos, ponderación geográfica, interfaces de usuario para GIR, recuperación de geo-data para usarse en GIS y aspectos relativos con el diseño y evaluación de sistemas GIR. Entonces, con los antecedente descritos se han generado propuestas como la Geospatial Semantic Web, es decir, llevar el concepto de Semantic Web al ámbito geo-espacial, lo cual es una tarea ardua y difícil, ya que implica desarrollar nuevas teorías, metodologías y técnicas que sean útiles para las tareas implicadas en la recuperación de información geográfica, donde el procesamiento semántico de datos geo-espaciales es una herramienta de gran utilidad en esta tarea. De igual forma, el uso e integración de ontologías como estructuras y representaciones de conocimiento, así como otros métodos ya consolidados en otras áreas de la computación y en particular de la geocomputación. Además, en la actualidad los sistemas de recuperación de información, buscadores y otros sistemas Web no ofrecen soporte para procesar e interpretar búsquedas geográficas por significado. Esto se debe en gran medida a que los formatos o estructura de los documentos no consideran el comportamiento o el significado de los datos u operaciones para la mayoría de las tareas comunes en Geocomputacion.

METODOLOGIA. Basándonos en la descripción de las problemáticas del estado del arte actual para búsquedas y recuperación de información geográfica, proponemos la siguiente arquitectura para realizar búsquedas geográficas, la cual se muestra en la figura 3.

Figura 3 Arquitectura propuesta para el sistema de búsquedas semánticas para datos geográficos

Como se puede apreciar en la Figura 3, se tienen módulos que se encargaran de procesar las consultas de acuerdo al contexto geográfico y a las propiedad de un objeto geográfico. El resto de los componentes son los mismos que se utilizan en los buscadores y sistemas de recuperación tradicional (basadas en texto, como Google) Nuestra metodología seguirá el siguiente orden : se expresará una consulta espacial en donde se identificarán los términos geográficos (e.g. “cerca de”) y espaciales (topológicos, e.g. “adyacencia”), así como los objetos espaciales (de acuerdo a su primitiva de representación) a continuación se realizará un análisis semántico de éstos, es decir, se explorarán las ontologías para extraer las relaciones y propiedades que permitan “conocer” los datos y documentos que satisfacen de mejor manera la consulta, los documentos se tienen previamente geo-indexados5.

5 Un geo-indexado se realiza asociando un documento con un lugar geográfico, por ejemplo una pagina que habla acerca de México se asocia a América del Norte ó a La Republica Mexicana.

Adicionalmente en este paso se incluirán las relaciones extraídas de fuentes de datos externas, en particular proyectos que incluyen shapefiles6. Esto ultimo para considerar la semántica de las tareas que operan sobre los datos expresados en una consulta. Como resultado de lo anteriormente descrito se tendrá un conjunto de documentos calificados como relevantes, donde este conjunto de resultados será ponderado por el mecanismo de concordancia y mostrados al usuario, para una mejor toma de decisión Por otra parte al considerarse un contexto espacial o geográfico es necesario tener en cuenta que es lo que deseamos obtener al realizar una búsqueda en específica, es decir, documentos, datos tabulares, imágenes, mapas, capas de datos, etc. El módulo de extracción y procesamiento de términos geográficos y espaciales, arroja como resultado una tabla como la que se muestra en la tabla 1. La consulta se realizó en ingles debido a que los diccionarios geográficos utilizados están en idioma inglés, sin embargo utilizando diccionarios geográficos en español, solo requeriría una adaptación al programa que realiza este proceso

QUERY: “HOTELS NEAR CONFERENCE VENUE”.

CONCEPT PROPERTIES AND RELATIONS

Within reach

Related to center

Related to periphery

Related to time

Related to place

Relies in some sort of distance

NEAR

Synonyms: close, approximately, vicinity

Tabla 1.Extracción de propiedades y relaciones para consultas geográficas. Esta extracción se lleva a cabo a través de la exploración de una ontología, el cual es análogo al proceso de recorrido de un árbol jerárquico, solo que se realizaron algunas modificaciones, ya que una ontología, contiene un mayor número de relaciones y no siempre tiene una implementación jerárquica. Esta extracción basada en la consulta, es enriquecida por el proceso de exploración de la ontología, el cual tiene como objetivo extraer relaciones topológicas y geográficas.

6 Un shapefile es un formato de datos vectorial del software ESRI, básicamente almacena información la información geográfica de un objeto y sus atributos asociados.

La figura 4 muestra un fragmento de dicha ontología:

Figura 4 .Fragmento de una Ontología para Proximidad. Mientras que en el caso de la extracción para consultas con términos geográficos se realiza a través de una análisis similar al utilizado en recuperación de información clásica (no espacial) con la diferencia de que las reglas utilizada no son enfocadas a la palabra, sino a un objeto geográficos. Por ejemplo para el objeto geográfico “Hotel”, se tiene como resultado:

• Hotel: “is a place which provides overnight lodging and offers other services”. • Output:

o Relations = {provide, is a, offer} o Properties related= {place, services, overnight, lodging}

Un ejemplo de la representación conceptual para relaciones topológicas se aprecia en la figura 5:

Figura 5 Relaciones Topológicas asociadas a “Dentro”

Como se puede observar, en la figura 5 las consultas expresadas en lenguaje natural, deben asociarse a la relación topológica correspondiente (realizar un matching) esto se logra a través de la tabla topológica obtenida previamente. Mientras que en la Figura 6 se aprecia un caso similar para la relación “Comparte”.

Figura 6 Relaciones Topológicas asociadas a “Comparte” Los objetos espaciales que se utilizan para el caso de estudio se clasificaron en cuatro temáticas, las cuales se muestra en la tabla 2: Temática Descripción Hidrología Esta temática organiza los objetos espaciales que

representan rasgos hidrológicos. Uso de Suelo Esta temática organiza los objetos espaciales que

representan los distintos usos de suelo. Vías de Comunicación Esta temática organiza los objetos espaciales que

representan las vías de comunicación. Asentamientos Urbanos Esta temática organiza los objetos espaciales que

representan asentamientos urbanos. Tabla 2 Temáticas utilizadas para la extracción de relaciones topológicas.

Y de acuerdo a dichas temáticas se realizaron las pruebas que son documentadas en la siguiente sección.

Resultados.- El módulo de extracción de relaciones topológicas arroja como resultado, lo que se aprecia en la Figura 7:

Figura 7 Resultado obtenido para la consulta “Teotihuacan esta dentro del estado de México“.

Como se puede apreciar la tabla obtenida, permite conocer las relaciones topológicas para la consulta expresada, el resto de los módulos permiten discriminar el resto de los resultados, mientras que el proceso de ponderación se realiza basado en las ontologías que tienen una implementación jerárquica. Módulo de análisis de Consultas Geográficas. Este módulo consistió en la interfaz que es presentada al usuario para expresar consultas geográficas y posteriormente mostrar los resultados que se obtienen para dicha consulta, La figura 8 muestra la forma en que deben expresarse las consulta, indicando el objeto geográfico, y el punto de referencia, la relación espacial en este caso es fija por que el caso de estudio se restringió a dicha relación de proximidad, sin embargo el uso de otras relaciones espaciales puede adaptarse si se sigue el proceso indicado en las secciones anteriores. La figura 8 ilustra la presentación de la interfaz para consultas geográficas.

Figura Interfaz para expresar consultas geográficas con la relación espacial “cerca” ( próximo de) Como se puede apreciar el módulo realizado permite al sistema identificar cada uno de los elementos de las consulta geográficas, en este ejemplo se utilizo únicamente una relación espacial, para mostrar la funcionalidad. Para incluir otras relaciones se requieren pruebas adicionales. Interfaz Final para las búsquedas geográficas en la Web, incluye el módulo de análisis geográfico. La figura 9 muestra los resultados obtenidos para una consulta que incluye el termino “cerca de” el cual es representado por “próximo de “, el enfoque empleado permite que los resultado obtenidos están más apegados a un criterio geográfico y no solo textual, sin embargo se requiere el uso de tesauros para evaluar la funcionalidad utilizando graficas de recall y precision, las cuales son ampliamente usadas en la línea de investigación de recuperación de la información.

Figura 9 Resultado para una búsqueda espacial relativa a la relación “cerca” Como se puede apreciar en la figura anterior, la interfaz permite expresar la consulta para localización, donde se tiene el objeto geográfico o lugar, en seguida la relación “próximo de” y por último el punto o lugar de referencia. Los resultados de esta forma son más cercanos a lo que se expresa en la consulta, es decir los resultados se enfocan a criterios geográficos y no a “keyword-matching” permitiendo de esta forma que los resultados sean mas acordes a la semántica de términos geográficos ( “cerca”, “a lo largo de”, “al lado de”, “en frente de”, etc.) El prototipo utiliza la API ( Application Program Interface) de Google, sin embargo el módulo de análisis geográfico es quien envía la consulta final a la API de Google, en otras palabras el módulo de análisis geográfico es quien procesa la consulta de acuerdo a la semántica geográfica o espacial del objeto o relación en cuestión.

Adicionalmente se generaron de forma semiautomática archivos KML (Keyhole Markup Language) para vincular los resultados al programa cliente de Google Earth. En la Figura se muestra el archivo KML construido para el CIC. Mientras que en la figura 10 se ilustra la representación en Google Earth para este archivo.

Figura 10. Archivo KML para ubicar al CIC

Mientras que en la figura 11 se muestra el despliegue del archivo mostrado en la Figura 10 en el programa Google Earth.

Figura 11. Despliegue del Archivo KML para ubicar al CIC en el Cliente Google Earth. Impacto.- Hoy en día, la gran diversidad y cantidad de datos geográficos que se encuentran disponibles en sistemas remotos, de escritorio, en red y en particular en la Web han experimentado un crecimiento mayúsculo en los últimos años. Es por ello que la búsqueda de información que incluye un criterio espacial y/o geográfico, se ha extendido hacia cualquier usuario, ya no se trata de una tarea que sea realizada por especialistas GIS ni tampoco se requiere que el usuario conozca mayores detalles acerca del funcionamiento de un GIS. La gente, con frecuencia, utiliza los buscadores para encontrar información útil y relacionada con sus tareas y actividades diarias, por consecuencia los tópicos de búsqueda son de cualquier índole y el nivel de detalle varía para cada usuario. También, de manera particular se realizan búsquedas con criterios geográficos, lugares turísticos, localización de algún servicio, ubicación de un punto de interés, cercanía y afectación a causa de ciertos fenómenos, etc.

Por lo tanto, procesar las búsquedas orientas a localización, ubicación o con algún criterio geográfico-espacial (típicamente expresados en lenguaje natural) son, hoy en día, una tarea que demanda atención en el ámbito de Web-GIS. Entonces, considerando estos antecedentes, uno de los beneficios que aportará el desarrollo de mecanismos de recuperación como el de esta propuesta, es que el conjunto de resultados podrá ser utilizado en la asistencia de la toma de decisiones. Este tipo de asistencia puede ser tanto de forma visual (tabular y gráfica) como interactiva (modificando datos y pre-visualizando los efectos de dichas modificaciones). Derivado de esta declaración, reiteramos que el tratamiento semántico de la información espacial es de importancia vital en todas las tareas en las que interactúan los GIS y que aquellos basados en la Web, no son la excepción, a pesar de que representan un reto mayor, porque deben garantizar interoperabilidad (no importa el formato y fuente de los datos), ofrecer resultados relevantes (aun cuando los datos se encuentren en diferentes sistemas de coordenadas) así como la recuperación basada no tan sólo en la semántica de los datos sino en los procesos y tareas en las cuales estos participan. Por lo tanto, el sistema prototipo desarrollado considera y trata las relaciones espaciales de acuerdo al contexto expresado en la consulta. Este proceso de contextualización, se realizó apoyándose en técnicas de análisis sintáctico tradicional en conjunción con una técnica de exploración de ontologías geográficas y espaciales. El objetivo del proceso de exploración consistió en encontrar los términos relacionados con el expresado en la consulta, entonces esto garantiza que la búsqueda sea contextualizada. Adicionalmente se usaron de fuentes de datos externas para extraer sus relaciones y posteriormente vincularlas con el proceso de contextualización, estas fuentes externas son las que permitirán, además, enriquecer al proceso de recuperación. Por lo tanto, el hecho de poder incluir en las búsquedas las propiedades y relaciones topológicas permitió que los resultados se restringieran al dominio geográfico. Además, se incluyeron criterios topológicos y geométricos para interpretar el significado inherente en una consulta geográfica, espacial y geo-espacial. Es decir aquellas consultas que impliquen aspectos tales como la distancia, dirección, sistemas de coordenadas y topología. De esta forma, la integración de la semántica a un sistema de recuperación de información permitió conservar el mecanismo de ponderación de acuerdo al grado de concordancia (matching) entre un documento y un query geográfico o espacial, pero el criterio ya no se basaría en frecuencia de términos, sino en el significado de los términos o del query en conjunto. Finalmente, como es posible generar de forma dinámica archivos KML; la interfaz de visualización se ve enriquecida al utilizar el programa cliente de Google Earth para mostrar imágenes satelitales de los sitios buscados previamente, tal y como se mostró en la Figura 11 de la sección Resultados.

Referencias [1] Wordnet: network which models the relationships between words, for example, synonyms, antonyms,

hyponyms. http://www.wordnet.com [2] Max Egenhofer, Interaction with Geographic Information Systems via Spatial Queries Journal of Visual Languages and Computing 1 (4): 389-413, 1990. [3] A.R.Walker, B.Pham, M. Moody, Spatial bayesian learning algorithms for geographic information retrieval, Proceedings of the 13th annual ACM international workshop on Geographic information systems, GIS’05, November 4-5, 2005, Bremen, Germany. [4] Tiago M. Delboni, Karla A. V. Borges, Alberto H. F. Laender, Geographic web search based on positioning expressions, Proceedings of the workshop on Geographic information, 2005,Bremen, Germany [5] A. Maedche, S. Stabb , N. Stojanovic, R. Studer, Y. Sure, “ A framewok for developing Semantic Web Portals”. Lecture notes in computer Science v. 2097, 2001. [6] I. Budak Arpinar, Amit Sheth & Cartic Ramakrishnan ,Geospatial Ontology Development and Semantic Analytics, Handbook of Geographic Information Science, Eds: J. P. Wilson and A. S. Fotheringham, Blackwell Publishing, 2004. [7] N. Guarino, Formal ontology and information systems, In Proceeding of the 1st International conference, Trento , Italy, IOS press, june 1998. [8] Harding, J., Geo-ontology Concepts and Issues, Report of a workshop on Geo-ontology, Ilkley UK, September, 16–17, 2003 [9] S. Koo, S. Lim, S. Lee, Building an ontology based on hub words for information retrieval, Proceedings of the IEEE/WIC International Conference on Web Intelligence, Page: 46, 2003. [10] C.A. Davids Jr.,F.Fonseca,and K. Borges. A Flexible Addresing System for approximate Geocoding. In Proceedings of V brazilian symposium on Geoinformatics, Campos do Jordäo, Brazil, 2003. [11] S. Stabb et al, “ Semantic Community Web Portals”, 2000, in WWW9/ computer Networks (Special Issue: WWW9 – Proceedings of the 9th international world wide web conference, Amsterdam, the Netherlands, Maio, 15-19, 2000). [12] F. Heinzle, M Kcopczynsky, and M. Sester. Spatial Data Interpretations for the intelligent access to spatial information in the internet, in Proceedings of the 21th international cartographic conference, Durban, South Africa 2003. [13] F.shilder , Y. Versley, and C . Habel. Extracting Spatial Information: grounding, classifying and linking spatial expressions. In proceedings of the ACM SIGIR workshop on Geographic Information Retrieval, Sheffield, UK, 2004.