EL WEB MINING

download EL WEB MINING

of 7

Transcript of EL WEB MINING

  • 8/14/2019 EL WEB MINING

    1/7

    1

    EL WEB MINING: UNA TECNOLOGA PARA LA INDAGACIN EN LA WORLDWIDE WEB

    AUTORA: LOLA GARCA-SANTIAGO

    Resumen:

    Este trabajo presenta a nivel divulgativo, las caractersticas generalesde la extraccin de informacin en la World Wide Web (W3) mediantenuevas tcnicas. Esta rama nueva, denominada Web Mining en el mundoanglosajn, trata de profundizar en todos los aspectos de la W3 y que nose encuentran fcilmente al alcance del usuario. Adems, se diferenciaeste concepto de otros similares como la extraccin textual (el TextMining) o la minera de datos (el Data Mining). Se presentan las lneas deinvestigacin en las que se trabaja y las dificultades con las que an seenfrenta. Finalmente, se indican los potenciales usos del Web Mining.

    Palabras clave: Web Mining; Extraccin de informacin; World Wide Web;Hipertexto.

    1 Introduccin

    1.1 La World Wide Web (W3)

    La W3 establece conexiones, enlaces entre el universo propio de cada uno ylos universos de los otros. Existen lazos entre usuarios, activos y pasivos, a travsde los productos informativos que establecen el universo de cada autor. En Internetexisten recursos que ofrecen una nueva forma de comunicacin interpersonal atiempo real (ej. Los Internet Relay Chat, IRC) o no (ej. Listas de distribucin). En laW3 es diferente, la comunicacin se establece a travs de los enlaces que formanun entramado, una textura (origen etimolgico del vocablo texto). Nos movemos enla red digital y nos proyectamos de un continente a otro sin que exista una

    verdadera separacin. Saltamos de un enlace a otro sin que notemos barrerasgeogrficas ni tecnolgicas. La posibilidad tcnica de estos enredos deriva de lacaracterstica principal de la W3, la hipertextualidad. Concepto, a su vez, muyallegado al de transversalidad.

    Nuestra personalidad de red, la imagen que presentamos segn la informacinque mostremos en la W3, se compone de la combinacin de varios papeles,identidades y funciones que nos permiten aislarnos o conectarnos con otros. Y esque el ciberespacio ya es la casa de miles de grupos de personas que se renenpara compartir informacin, discutir intereses comunes, jugar y llevar a cabonegocios. El concepto de comunidad aparece como el conjunto de interaccionesentre personas en un espacio determinado.

    1.2 Informacin en la W3Existe mucha informacin en la W3 o derivada de ella. Por un lado la que

    percibimos a simple vista, los documentos hipermedia que conforman la W3 demanera explcita y que abunda cada vez ms. Y, por otro lado, la informacinsubyacente y que se encuentra en capas ms profundas.

    Ya no nos conformamos con lo primero que nos llega a las manos, cada vezexigimos mayor precisin. Nos sumergirnos en niveles ms profundos para conocerqu otros datos podemos extraer y que nos pueden servir de utilidad. Paraconseguir esto, nos basamos en otras caractersticas de la W3.

    1.3 Las relaciones en la W3.

    Las relaciones son representadas en forma de enlaces. Estos, se incluyen enlos documentos hipermedia que alberga la W3. Pueden ser objetivos o subjetivos

  • 8/14/2019 EL WEB MINING

    2/7

    2

    segn su funcin y reflejan las relaciones y las redes de relaciones que dichosdocumentos establecen.

    o Relaciones de informacin: cuando nos referimos a las establecidas entrelos textos y contextos.

    o Relaciones entre los autores o las instituciones que generan o albergan

    dichos documentos, hasta llegar a establecer verdaderas redes dentro dela comunidad.

    o Relaciones entre los usuarios que utilizan los recursos que tiene la W3.

    [Fig.1: Tipos de relaciones en la W3]

    1.4 Problemas a la hora de encontrar tanta informacin

    El browsing, el serendipity, son maneras de buscar y encontrar informacinsaltando de una pgina web a otra a travs de los enlaces. A partir de unaubicacin concreta se decide navegar y amplar la bsqueda a otras pginasremitidas por la pgina de partida y as sucesivamente. Este sistema provoca unfenmeno de desorientacin dentro de la W3, que no siempre nos conduce a lainformacin deseada. Algunas razones para que se produzca este fenmeno son:

    o La ingente cantidad de documentos web en este territorio delciberespacio.

    o La cobertura limitada de la W3. Con recursos ocultos o poco accesibles(licencias, suscripciones y acceso previo pago), generalmente datosprocedentes de bases de datos.

    o Programa de consulta basado en bsquedas por palabra clave.

    o Personalizacin para usuarios individuales.

    Con el uso de buscadores tenemos solventado el problema de la desorientacin alobtener listados de direcciones. Se trata de una recuperacin automatizada, previa

    bsqueda en las bases de datos de estos recursos. La pertinencia de los resultadosvendr en funcin de la calidad de las tcnicas utilizadas para la bsqueda,

  • 8/14/2019 EL WEB MINING

    3/7

    3

    almacenamiento y elaboracin de las consultas. Estos robots, han idoevolucionando con el paso del tiempo.

    En una primera fase, los buscadores, se basaban nicamente en lacomparacin de cadenas de caracteres. En la segunda generacin, se tienenen cuenta las direcciones que ms han sido enlazadas. Y en la tercera, se

    establecen ponderaciones sobre los enlaces relacionados y que adems quecontengan dichas cadenas de caracteres.

    Pero un inconveniente que todava persiste en los buscadores es la barreralingstica. La bsqueda de informacin y la forma de interrogar al motor debsqueda queda an limitado por el idioma.

    2 El Web Mining

    2.1 Qu es?

    La minera de datos o web mining se refiere al proceso global de descubririnformacin o conocimiento potencialmente til y previamente desconocido a partirde datos de la Web (Etzioni 1996).

    Es un campo multidisciplinar donde convergen reas como la recuperacin deinformacin, el data mining, la estadstica, la visualizacin de datos, lenguajes deetiquetas, tecnologa web, etc, con el objetivo de descubrir redes de relacionesexistentes en la W3, utilizando su informacin desestructurada o semi-estructurada.

    Es decir, una vez transformados los datos y planteado el algoritmo a seguir, es elsistema el que muestra representaciones y sugiere modelos. Esta visin esdiferente al tradicional planteamiento de leyes (modelos preestablecidos porinvestigadores) o cualquier otra hiptesis que, una vez reconvertidos los datos, esese analista el que comprueba si los resultados se ajustan al patrn previamenteplanteado. Y este campo se diferencia de la minera de datos o data mining en queste pretende descubrir modelos existentes dentro de bases de datos

    estructurados.

    2.2 Origen del trmino

    La primera aparicin del trmino Web Mining es en 1996 en un artculo deOrenEtzioni [Etzioni 1996]. Y los define como el uso de las tcnicas de data mining conel fin de descubrir y extraer informacin de los servicios y documentos de la WorldWide Web de manera automtica.

    2.3 Cules son sus objetivos?

    Mejorar la navegacin del usuario en un espacio tan vasto y cambiante comoes la W3. Tener representaciones grficas que reflejen los cambios sufridosy/o representar la estructura general de la red.

    Descubrir recursos, extraer informacin, analizar datos e inferirgeneralidades.

    Encontrar informacin relevante

    Obtener nuevos conocimientos provenientes de la informacin disponible enla W3

    Personalizar la informacin

    Saber ms sobre usuarios o clientes

  • 8/14/2019 EL WEB MINING

    4/7

    4

    2.4 Cmo se trabaja en el Web Mining

    2.4.1 Seleccin y recopilacin de los datos

    En primer lugar decidir qu se quiere estudiar y cules son los datos que nosfacilitarn esa informacin. Posteriormente se localizan los documentos o archivos aadquirir. Estos se capturarn y se almacenarn los datos pertinentes.

    2.4.2 Tratamiento previo de los datosSe trata de filtrar y limpiar los datos recogidos. Una vez extrada una determinadainformacin a partir de un documento, ya sea HTML, XML, texto, ps, PDF, LaTeX,FAQs, ...., se realizan tareas de criba y normalizacin, eliminando los datoserrneos o incompletos, presentando los restantes de manera ordenada y con losmismos criterios formales hasta conseguir una homogeneidad formal, etc. y demslabores enfocadas a la obtencin de unos datos originales listos para sutransformacin por medios automticos.

    2.4.3 Transformacin de los datos

    En esta fase se utilizan algoritmos inteligentes de bsqueda de patrones decomportamiento y detectar asociaciones. Estos algoritmos se elaboran previamenteutilizando recursos estadsticos, tcnicas procedentes del data mining, etc, seprocede a transformar los datos para obtener como resultado, informacin sobreellos.

    Los principales algoritmos se basan en la reunin de grupos homogneos (ej.Usuarios que visitan ms de un nmero determinado de pginas), reglas deasociacin de pginas, seguimiento de rutas o historial de navegacin de unapersona, etc.

    Esta metamorfosis suministra informacin que englobe a la mayor parte de losdatos estudiados. En esta fase se consiguen generalizaciones que se perciben en elestablecimiento de enlaces, en muchas ocasiones en forma grfica. Esta fase, juntocon la prxima, son las ms cercanas al campo de la visualizacin, especialmenteen mtodos de visualizacin.

    2.4.4 Anlisis de las inferencias sobre los datos

    La simple inferencia no tendra un sentido completo si no se razonan los resultados,si no se logra encontrar una justificacin a dichos resultados. Es aqu donde,dependiendo del tipo web mining, utilizaremos recursos de las ciencias sociales yeconmicas. Ya que, como bien se ha comentado, la W3 es una comunidad, unterritorio donde los comportamientos automatizados de relaciones y contenidosvienen decididos por personas que se encuentran tras cada ordenador conectado ala red.

    3 Tipos de Web Mining

    El Web Mining nos ayuda a descubrir informacin, encontrar documentosrelacionados, mostrar temticas, averiguar el grado de satisfaccin de recursosweb, etc. Segn el fin deseado, la actividad de excavar en la web se desglosa entres lneas.

    3.1 El Web Mining de contenido

    Busca la regularidad y dinmica de los contenidos en la W3. Los documentos Webpueden ser datos sin estructurar, archivos html parcialmente estructurados, oinformacin procedente de bases de datos generadas en pginas con formato html.

    Estos documentos hipertexto incluyen texto y tambin a imagenes, audio, vdeo,metadatos e hiperenlaces.

  • 8/14/2019 EL WEB MINING

    5/7

    5

    La metodologa utilizada en este apartado, va desde las tradicionales relacionesentre trminos hasta la tecnologa que se utiliza en la minera textual (text mining).Esta ltima consiste en analizar elementos textuales con el fin de identificar,deducir y ampliar conocimiento a partir de cualquier organizacin de documentos(por ejemplo, bases de datos, web).

    La extraccin (mining) de informacin, intenta inferir la estructura del sitio web(web site) para transformarla y convertirla en una base de datos a nivel lgico.

    3.2 El Web Mining de estructura

    Web Mining de estructura, intenta descubrir la organizacin de los enlaces delconjunto de hiperenlaces dentro del documento para generar un informe estructuralsobre la pgina y el sitio web. Segn el objetivo a estudiar, se pueden dar tres tiposde informes:

    o Basndose en los hiperenlaces, clasifica las pginas Web y genera elinforme.

    o Revelando la estructura del documento Web en s.o Descubriendo la naturaleza de la jerarqua o de la red de

    hiperenlaces del sitio Web de un dominio particular.

    Suele dar como resultado representaciones grficas para una mejor visin delconocimiento obtenido y pueden utilizarse como gua para el usuario en busca deinformacin.

    3.3 El Web Mining de uso

    El Web Mining de uso es la aplicacin de las tcnicas de data mining para descubrirpautas de conducta a la hora de utilizar la web por parte de los usuarios. Pautas

    sobre:

    o el acceso que utilizan los clientes cuando consultan el sitio web deuna empresa

    o los usuarios que interrogan a una aplicacin que precede a una basede datos

    o los individuos que navegan por pginas determinadas,

    A partir de datos secundarios derivados de interacciones automticas de losusuarios mientras navegan por la web se pueden cubrir mejor las necesidades quese solicitan a travs de aplicaciones basadas en protocolos W3.

    4 Herramientas para el Web Mining

    Como ya he comentado al principio, en los tres tipos de extraccin de informacinweb se utilizan tcnicas que se venan utilizando con la minera de datos y otrasque se han planteado y perfeccionado en ambos casos. Se trata de camposextremadamente ligados, el primero centrado en datos hipertextuales en red (W3)y el segundo aplicado a informacin estructurada o semi-estructurada que seencuentra en bases de datos.Segn pues la rama en la que se est trabajando dentro de la extraccin deinformacin web, se utilizan ms los elementos formales o los elementos decontenido. Apuntamos algunos de ellos.

  • 8/14/2019 EL WEB MINING

    6/7

    6

    4.1 Metadatos

    Los metadatos, entendidos como normas de representacin de laestructura autoidentificativa del documento. El anlisis de estos proporciona unmecanismo formal para la categorizacin y clasificacin automtica dedocumentos. Aplicando a los metadatos unas determinadas escalas

    conceptuales, se pueden construir espacios conceptuales facetados segn laperspectiva que le interese a cada usuario. Esta modalidad de identificacinpermite el uso de programas y servicios informticos.

    Utilizado principalmente en el Web Mining de Contenido. Con estoselementos y con la ayuda de la inteligencia artifical, se intenta conseguirdeducciones terminolgicas, predicciones en respuestas a consultas complejas,todo ello cuando las relaciones entre trminos y los conceptos que representanno mantienen una relacin lineal directa.

    4.2 Hiperenlaces

    En la tecnologa hipertextual, cada bloque de texto contiene una multitud depalabras clave, pictogramas y/o dibujos que son susceptibles de ser marcados con

    el ratn. Estos puntos de interseccin, denominados "enlaces".Estos enlaces se pueden desglosar en:Externos: entre documentos diferentesInternos: que a su vez pueden ser estructurales (incluyendo elementos multimediaen el documento, o de referencia a otros puntos del mismo documento.

    4.3 Logs

    Los ficheros logs son una grabacin de la actividad de un servidor o de un sitio weba lo largo de un perodo de tiempo determinado. La informacin se generaautomticamente y suelen incluir la direccin IP de los visitantes, la pginasolicitada junto con la fecha y hora de la consulta, tiempo de lectura, si han

    accedido desde buscadores, Suelen ser ficheros voluminosos y registran visitas automticas de robots, noefectuadas por usuarios de manera voluntaria y con una intencin.

    4.4 Mtodos estadsticos

    Como el clustering o proceso de encontrar grupos tras un procesamiento de losdatos. Es decir, a priori se desconoce el nmero de grupos o las caractersticas delos mismos. Otro mtodo es el escalamiento multidimensional (MDS),

    4.5 Reglas de Asociacin

    Las relaciones planteadas entre elementos web (contenidos, documentos,instituciones, usuarios,) se materializan con la inclusin de hiperenlaces. El poderde decisin a la hora de incluir o no un nuevo enlace muestra el grado de intershacia ese enlace establecido.Una de las herencias procedentes del campo de la recuperacin de informacin sonlos anlisis de citas. Bajo este planteamiento, se establecen relaciones entreelementos u actores sociales. Las asociaciones entre usuarios que consultan unamisma pgina, los entes que son enlazados por otros entes, los textos msutilizados a lo largo del tiempo y su conexin con otros textos,son claros ejemplosde relaciones sincrnicas y diacrnicas.Estas reglas son una tcnica alternativa para detenerse en modelos que se repitenentre usuarios que comparten caminos transversales similares. En algunos motoresde bsqueda se ha implantado ya esta filosofa de relaciones para una mayorprecisin en los resultados obtenidos.

  • 8/14/2019 EL WEB MINING

    7/7

    7

    5 Futuro del Web Mining

    El potencial que tiene el Web Mining o extraccin de informacin web para detectarcolegios invisibles es muy alto y adems de prctico, necesario ante el crecimientode la informacin en todo tipo de formatos, ms an en la W3. Estos colegiosinvisibles se establecen como redes de relaciones existentes, directas o indirectas,

    entre autores de documentos web que versan sobre una misma temtica o lnea deinvestigacin concreta.El reconocimiento y representacin de las comunidades cientficas latentes,permitirn a las personas a navegar, a buscar y ver los contenidos que alberga laW3.Por una parte permite descubrir y describir redes de relaciones y pautas decomportamiento en la W3, lo que proporciona guas para el usuario y la navegacinpor mbitos concretos. Por otro lado, facilita el poder de prediccin y el grado deexactitud a la hora de recuperar informacin tras una consulta compleja y sin laayuda de lenguajes controlados que analicen el contenido de los documentos.Con esta introduccin se ha pretendido hacer un esbozo de lo que es el Web Mininglos usos para la mejora en la recuperacin de informacin web y para proporcionarms informacin sobre la red hipertextual y mostrar las dificultades con las quetrabaja dadas las caractersticas de la red. Se trata de una red poco estructurada,pero menos aleatoria de lo que se puede percibir en un primer momento.El Web Mining nos da la oportunidad de encontrar nuevos recursos, extraer lainformacin ms interesante y, tras un proceso de anlisis, finalmente mostrarmodelos de informacin de carcter general en la W3.

    6 Bibliografa

    o COOLEY, R. (2000)http://www.cyberartsweb.org/cpace/ht/lanman/bibli.htm [Cooley 2000]

    o ETZIONI, O. (1996). The World-Wide Web: Quagmire or Gold Mine?.

    Communications of the ACM, november 1996, Vol. 39, No. 11o JIAWEI, H. y MICHELINE, K. Data Mining: Concepts and Techniques

    http://www.cs.uiuc.edu/~hanj

    o WANG, Y. Web mining and knowledge discovery of usage patterns - Asurvey