Presentación Geolocalización Noticias (geo news).2012
-
Upload
guillermo-santos -
Category
Technology
-
view
558 -
download
1
description
Transcript of Presentación Geolocalización Noticias (geo news).2012
Geolocalización de Noticias (GEONews)
Proyecto Fin de Grado
Julio - 2012
Guillermo Santos García
[email protected] @gsantosgo
Contenido
� Introducción
� Proceso General de Geolocalización
� Arquitectura Tecnológica
� Detalles Implementación� Detalles Implementación
� Demo Aplicación
� Evaluación
� Conclusiones
� Futuros Trabajos
Introducción
� Visión general de la aplicación Geolocalización de
Noticias
Introducción
� Información estructurada vs no estructurada.
� Inteligencia artificial y procesamiento del lenguaje
natural (PLN).
� Extracción de la información (IE). Extracción de � Extracción de la información (IE). Extracción de
conocimiento estructurado, a partir de información
textual no estructurada en lenguaje natural.
� Reconocimiento y clasificación de entidades
nombradas (NERC). Extracción de entidades dentro
del texto y posterior clasificación en categorías
(nombres de personas, organizaciones, nombres de
lugares,..)
Proceso General de Geolocalización
� Tarea 1. Captura de noticias
� Tarea 2. Reconocimiento y Clasificación de entidades
nombradas
� Tarea 3. Resolución de nombres de lugares
� Tarea 4. Visualización
Proceso General de Geolocalización
� Reconocimiento y Clasificación de entidades
nombradas (NERC)� Basados en Gazetteer.
� Basados en Reglas.
� Basados en Aprendizaje Automático.Basados en Aprendizaje Automático.
“El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo
ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana
ante el proyecto que propone la instalación de un cementerio nuclear en la
localidad de Zarra (Valencia).”
“El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra]
[Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria]
[Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto
que propone la instalación de un cementerio nuclear en la localidad de [Zarra]
[Location] ([Valencia] [Location]).”
Proceso General de Geolocalización
� Resolución de nombres de lugaresRecibe una lista de nombres de lugares o topónimos, y debe determinar cuál es
el topónimo mas adecuado para posicionar geográficamente una noticia sobre
un mapa cartográfico.
Ej. Asturias, España � Asturias (Latitud: 43.33333, Longitud: -6)
Uso de servicio web search de Geonames para obtener coordenadas geográficas. Uso de servicio web search de Geonames para obtener coordenadas geográficas.
� Problema de ambigüedades.
� Homografía de nombres de lugares con palabras comunes.
� Homografía de nombres de lugares con nombre y apellidos de
personas.
� Homografía de nombres de lugares con el mismo nombre.
Arquitectura Tecnológica
� Aplicación Web con tecnología Java/J2EE
� Tecnologías
� GWT (Google Web Toolkit).
� Google Maps
� Servicios
� Servicio RSS.
� Servicio de reconocimiento y clasificación de entidades
nombradas.
� Servicio de resolución de lugares (topónimos).
� Servicio Cache Local (Guava Cache).
Arquitectura Tecnológica
� Arquitectura Web con tecnología Java/JEE
(gwtnewsgeolocation.war)
Arquitectura Tecnológica
� Tecnologías empleadas
� GWT (Google Web Toolkit). Patrón MVP. Llamadas
asíncronas.
� Integración GWT con cartografía de Google Maps (acceso
API de Google Maps).API de Google Maps).
� Servicios
� Servicio RSS.
� Servicio de reconocimiento y clasificación de entidades
nombradas (GATE-ANNIE)
� Servicio de resolución de lugares (topónimos) mediante el
apoyo de los servicios Web de Geonames.
� Servicio cache local (Guava Cache).
Arquitectura Tecnológica
� Arquitectura aplicación Geolocalización de Noticias
Detalles Implementación
� Servicio RSS� Permite acceder remotamente a fuentes de información RSS para obtener y
analizar cada item (elemento) con el objetivo de extraer el título, descripción
y categorías.
� Formato RSS 2.0 (Lenguaje XML)
� Información� Información
� Titulo
� Descripción
� Categorías
� OJO!! Existen fuentes RSS con
Publicidad
Detalles Implementación
� Servicio de reconocimiento y clasificación de
entidades nombradas (NERC)
� Identificación de nombres propios dentro del texto, y
clasificación dentro de un conjunto de categorías
predefinidas de interés (nombres de personas, predefinidas de interés (nombres de personas,
organizaciones , nombres de lugares, …)
� GATE-ANNIE. Reconocedor genérico de entidades.
Detalles Implementación
� Servicio de reconocimiento y clasificación de
entidades nombradas
� Recursos de procesamiento
� ANNIE Tokenizer
� Sentence Splitter� Sentence Splitter
� Gazetteer
� Part-Of-Speech
� ANNIE NE Transducer
OJO!! Problemas de recursos disponibles en español
Detalles Implementación
� Servicio de reconocimiento y clasificación de
entidades nombradas
� GAZETTEER (Basado en listas)
� Creación e Incorporación de listas de nombres de lugares o
topónimos obtenidos a partir de Geonames (continentes, países, topónimos obtenidos a partir de Geonames (continentes, países,
aeropuertos, regiones, estados, provincias, ciudades, mares,
océanos,…)
� Creación e incorporación de listas de nombres de personas y
organizaciones obtenidos de JRCNames.
� Lista de palabras de paradas o vacías (stopwords)
� …
� ¿Qué es Geonames?
� Base de datos de topónimos (alrededor de 8 millones).
� Dispone 35 servicios Web (countryInfo, search,…)
Detalles Implementación
� Servicio de resolución de nombres de lugares
� Problema de ambigüedades
� Homografía de palabras comunes
� Homografía de nombres de personas y apellidos (Ej. Javier Solana,
Monserrat).
� Homografía de lugares con el mismo nombre.
Detalles Implementación
� Servicio de resolución de nombres de lugares
� Algoritmo de desambiguación de lugares.
� Basado en heurísticas
� Cache de continentes y países
� Implementación � Implementación
� Homografía basado en nombres de
lugares.
Ej. Asturias, España
� Paso 1. Obtención de topónimos
� Continentes, Países, Localizaciones (search)
Ej.: Asturias, España
Coordenadas Geográficas WGS84 (latitud y longitud)
Detalles Implementación
� Servicio de resolución de nombres de lugares
� Implementación
� Paso 2. Nombre de lugar con un sólo
topónimo.
� Lista de países elementos para
eliminar ambigüedades de topónimos.
Detalles Implementación
� Servicio de resolución de nombres de lugares
� Implementación
� Paso 3.
� Eliminación de topónimos que no
pertenezcan a listas de países, usando
cuadro delimitador.
� Sistema de puntuación de 0..3, en función
clase característica y código característica de
Geonames.
Demo Aplicación
Demo Aplicación
Evaluación
� Conjunto de 35 noticias nacionales.
� Conjunto de 35 noticias internacionales.
� Comparativa con servicio “Conversor RSS a GeoRSS”
de Geonames de Geonames
� Precisión o eficiencia de 35 noticias nacionales
� (0%)
� (39,39%)
� (60,61%)
GEONews Geonames
Falsamente localizadas
0% 0%
Incorrectamente localizadas
39,39% 21,21%
Correctamente localizadas
60,61% 78,79%
Evaluación
� Precisión o eficiencia de 35 noticias internacionales
GEONews Geonames
Falsamente localizadas
2,86% 0%
Incorrectamente 37,14% 23,53%Incorrectamente localizadas
37,14% 23,53%
Correctamente localizadas
60,00% 76,47%
Conclusiones
� Necesidad de tener un mayor conocimiento de la
información no estructurada ( Ej. representación y
posicionamiento de información geográfica )
� Campo del procesamiento del lenguaje natural (PLN)
cada vez tiene mas importancia.cada vez tiene mas importancia.
� Geolocalización de Noticias es una aplicación Web
donde se integran diversas tecnologías y
herramientas (GWT, Google Maps, Reconocedor y
Clasificador de Entidades Nombradas, Geonames, ...)
Futuros Trabajos
� Soporte para formatos adicionales de alimentadores
Web (Web Feed). RSS (multiples versiones), Atom u
otros formatos actuales.
� Implementación para que la aplicación sea
completamente accesible y usable desde dispositivos completamente accesible y usable desde dispositivos
móviles.
� Mejora de la inferfaz de usuario.
� Usar otras alternativas a Google Maps (Cartografía
de OpenStreetMap).
Futuros Trabajos
� Mejora del reconocimiento y clasificación de
entidades nombradas, dotándole de un mayor
rendimiento, de una mayor inteligencia y eficiencia.
� Reducción de latencia de red a servicios de
Geonames, mediante la implementación un índice Geonames, mediante la implementación un índice
con tecnología Lucene/SOLR en local.
� Mejoras en el algoritmo de desambiguación de
topónimos, mejorar el rendimiento e inclusión de
otras heurísticas.