Artículo Minería textual - El profesional de la información · nes de datos estructurados que se...

17
El profesional de la información, v. 13, n. 1, enero-febrero 2004 11 Artículo Minería textual Por Ricardo Eíto Brun y Jose A. Senso Resumen: Este artículo trata de establecer una definición de minería de textos así como delimitar su relación con otras disci- plinas: recuperación textual, minería de datos y lingüística com- putacional. Se analizan además el impacto de la minería textual, algunas de las aplicaciones comerciales existentes en el mercado y, por último, se realiza una breve descripción de las técnicas uti- lizadas para desarrollar e implementar sistemas de minería de tex- tos. Palabras clave: Minería de texto, Minería de datos, Recuperación de información, Agrupación de documentos, Categorización, Cla- sificación de conceptos. Title: Text mining Abstract: This article attempts to establish a definition for "text mi- ning" and, at the same time, to identify its relationship with other fields: text retrieval, data mining and computational linguistics. In addition, there is an analysis of the impact of text mining, a referen- ce to existing commercial applications on the market and, lastly, a brief description of the techniques used for developing and imple- menting text mining systems. Keywords: Text minig, Data mining, Information retrieval, Cluste- ring, Categorizing, Concept classification. Eíto Brun, Ricardo y Senso, Jose A. "Minería textual". En: El pro- fesional de la información, 2004, enero-febrero, v. 13, n. 1, pp. 11-27. Artículo recibido el 2-11-03 Aceptación definitiva: 7-01-04 Ricardo Eíto Brun, licen- ciado en documentación, es profesor de la Universidad Carlos III de Madrid, trabajo que compagina con el de responsable de documenta- ción en Adecco Wwit. Ha publicado numerosos artícu- los sobre lenguajes de eti- quetado, autor de un libro sobre XML y responsable de numerosos cursos especiali- zados para profesionales. Jose A. Senso, doctor en Documentación, es profesor de la Universi- dad de Granada desde 1998 y subdirector de la revista El profesional de la información. Sus líneas de investigación se cen- tran en sistemas de meta- datos, especialmente rdf, el desarrollo e implemen- tación de la web semánti- ca y Topic Maps. Introducción La minería textual es una de las tecnologías que, desde su formulación inicial a principios de la década de los noventa, ha tenido un mayor impacto en las ac- tividades relacionadas con la inteligencia militar. Si bien este impacto nunca ha alcanzado el nivel de ge- neralización de la minería de datos, los desafortunados acontecimientos del 11 de septiembre de 2001 hicieron que distintos medios prestasen atención a las tecnolo- gías empleadas por las organizaciones policiales en- cargadas de luchar contra el terrorismo. Así, a partir de esa fecha podemos encontrar un mayor número de re- ferencias al uso de la minería textual y de datos con es- te propósito. En este trabajo se ofrece una visión introductoria a la “minería textual” —text mining—. La minería tex- tual es una aplicación de la lingüística computacional y del procesamiento de textos que pretende facilitar la identificación y extracción de nuevo conocimiento a partir de colecciones de documentos o corpus textua- les. Relacionada con la minería de datos (desde una perspectiva comercial podríamos decir que la minería textual es “la hermana pequeña” de la minería de da- tos), la diferencia entre estas dos aplicaciones está en que con esta última se pretende extraer conocimiento a partir de los patrones observables en grandes coleccio- nes de datos estructurados que se almacenan en bases de datos relacionales. En el caso de la minería textual, se tomará como punto de partida para la extracción de nuevo conocimiento repositorios documentales o tex- to. Es decir, información no estructurada. Definición de minería textual En primer lugar debemos delimitar el alcance del término “minería textual” o “minería de textos”, que utilizaremos como sinónimos en este documento. Aco- tar el significado de este término —y de la minería tex- tual como disciplina—, no resulta fácil, ya que en ella confluyen distintas técnicas y principios teóricos desa- rrollados en otras disciplinas, mucho antes de que se comenzase a hablar de minería textual y de datos co- mo tales. La minería textual recoge distintas técnicas

Transcript of Artículo Minería textual - El profesional de la información · nes de datos estructurados que se...

El profesional de la información, v. 13, n. 1, enero-febrero 2004 11

Artículo Minería textualPor Ricardo Eíto Brun y Jose A. Senso

Resumen: Este artículo trata de establecer una definición deminería de textos así como delimitar su relación con otras disci-plinas: recuperación textual, minería de datos y lingüística com-putacional. Se analizan además el impacto de la minería textual,algunas de las aplicaciones comerciales existentes en el mercadoy, por último, se realiza una breve descripción de las técnicas uti-lizadas para desarrollar e implementar sistemas de minería de tex-tos.

Palabras clave: Minería de texto, Minería de datos, Recuperaciónde información, Agrupación de documentos, Categorización, Cla-sificación de conceptos.

Title: Text mining

Abstract: This article attempts to establish a definition for "text mi-ning" and, at the same time, to identify its relationship with otherfields: text retrieval, data mining and computational linguistics. Inaddition, there is an analysis of the impact of text mining, a referen-ce to existing commercial applications on the market and, lastly, abrief description of the techniques used for developing and imple-menting text mining systems.

Keywords: Text minig, Data mining, Information retrieval, Cluste-ring, Categorizing, Concept classification.

Eíto Brun, Ricardo y Senso, Jose A. "Minería textual". En: El pro-fesional de la información, 2004, enero-febrero, v. 13, n. 1, pp. 11-27.

Artículo recibido el 2-11-03Aceptación definitiva: 7-01-04

Ricardo Eíto Brun, licen-ciado en documentación, esprofesor de la UniversidadCarlos III de Madrid, trabajoque compagina con el deresponsable de documenta-ción en Adecco Wwit. Hapublicado numerosos artícu-los sobre lenguajes de eti-quetado, autor de un librosobre XML y responsable denumerosos cursos especiali-zados para profesionales.

Jose A. Senso, doctoren Documentación, esprofesor de la Universi-dad de Granada desde1998 y subdirector de larevista El profesional dela información. Sus líneasde investigación se cen-tran en sistemas de meta-datos, especialmente rdf,el desarrollo e implemen-tación de la web semánti-ca y Topic Maps.

Introducción

La minería textual es una de las tecnologías que,desde su formulación inicial a principios de la décadade los noventa, ha tenido un mayor impacto en las ac-tividades relacionadas con la inteligencia militar. Sibien este impacto nunca ha alcanzado el nivel de ge-neralización de la minería de datos, los desafortunadosacontecimientos del 11 de septiembre de 2001 hicieronque distintos medios prestasen atención a las tecnolo-gías empleadas por las organizaciones policiales en-cargadas de luchar contra el terrorismo. Así, a partir deesa fecha podemos encontrar un mayor número de re-ferencias al uso de la minería textual y de datos con es-te propósito.

En este trabajo se ofrece una visión introductoria ala “minería textual” —text mining—. La minería tex-tual es una aplicación de la lingüística computacionaly del procesamiento de textos que pretende facilitar laidentificación y extracción de nuevo conocimiento apartir de colecciones de documentos o corpus textua-les. Relacionada con la minería de datos (desde una

perspectiva comercial podríamos decir que la mineríatextual es “la hermana pequeña” de la minería de da-tos), la diferencia entre estas dos aplicaciones está enque con esta última se pretende extraer conocimiento apartir de los patrones observables en grandes coleccio-nes de datos estructurados que se almacenan en basesde datos relacionales. En el caso de la minería textual,se tomará como punto de partida para la extracción denuevo conocimiento repositorios documentales o tex-to. Es decir, información no estructurada.

Definición de minería textual

En primer lugar debemos delimitar el alcance deltérmino “minería textual” o “minería de textos”, queutilizaremos como sinónimos en este documento. Aco-tar el significado de este término —y de la minería tex-tual como disciplina—, no resulta fácil, ya que en ellaconfluyen distintas técnicas y principios teóricos desa-rrollados en otras disciplinas, mucho antes de que secomenzase a hablar de minería textual y de datos co-mo tales. La minería textual recoge distintas técnicas

El profesional de la información, v. 13, n. 1, enero-febrero 200412

Ricardo Eíto Brun y Jose A. Senso

formuladas en el ámbito de la recuperación textual—o text retrieval— y la lingüística computacional.

Por otra parte, desde una perspectiva comercial, al-gunos fabricantes de aplicaciones para minería textualla presentan como una aplicación complementaria a laminería de datos que analiza y pretende identificar pa-trones en los datos almacenados en repositorios de in-formación estructurada (bases de datos relacionales yalmacenes de datos o data warehouses).

Si recurrimos a la literatura publicada sobre el te-ma, encontramos distintas definiciones. Dan Sullivan(2001, p. 324), autor de una de las pocas monografíasdedicadas en exclusividad al tema, recoge dos de ellas:la primera define minería textual como cualquier ope-ración realizada para extraer y analizar textos proce-dentes de distintas fuentes externas con el objetivo deobtener inteligencia. La segunda define minería tex-tual como el descubrimiento de información y conoci-miento que anteriormente no se conocía, a partir decorpus textuales.

Esta segunda definición coincide en líneas genera-les con la que quizá sea la más popular y que formulóMarti A. Hearst en su artículo Untangling text datamining. En ese texto, que se considera una lectura obli-gada como introducción a la minería textual, Hearstseñala que ésta tiene como objetivo descubrir infor-mación y conocimiento que previamente se descono-cía, y que no aparecía en ninguno de los documentosanalizados. De acuerdo con esta definición, la mineríatextual sería un proceso con el que se pretende descu-brir nueva información o conocimiento, y en el que lainformación que se descubre debe ser desconocida deantemano, incluso por los autores de los documentosque se hayan tomado como punto de partida del pro-ceso.

En un trabajo sobre la permeabilidad de las disci-plinas científicas, Don Swanson señaló las limitacio-nes derivadas del desconocimiento que los expertos enun área determinada tienen de la literatura publicadaen otras áreas de conocimiento, y que pueden ser rele-vantes para sus temas de estudio.

Estas limitaciones se ilustran con un ejemplo sobrela migraña. Swanson extrajo una serie de enunciadosde distintos artículos publicados por expertos en dis-tintas áreas, con lo cual la probabilidad de que un mis-mo científico accediese a todos ellos resultaba remota.Los enunciados utilizados por Swanson son los si-guientes:

—El estrés está relacionado con las migrañas.

—El estrés puede producir pérdidas de magnesio.

—Los bloqueos de calcio previenen a las migra-ñas.

—El magnesio es un bloqueante natural del calcio.

—Los niveles altos de magnesio inhiben la SCD.

—Etc.

A partir de estos enunciados —que recordamosproceden de una colección de artículos inconexos—,se podía deducir una relación entre las deficiencias demagnesio y las migrañas. Lo que interesa es que estahipótesis no se encontraba documentada en ninguno delos artículos. Es decir, se trata de nuevo conocimientoque podía extraerse directamente a partir de un corpusde textos inicialmente inconexos. Facilitar y permitireste tipo de deducciones a partir de las conexionesocultas existentes entre distintos textos sería el objeti-vo que realmente persigue la minería textual.

La minería textual como herramientapara el análisis

El objetivo de la minería textual —extraer nuevoconocimiento a partir del análisis de corpus textua-les— puede resultarnos un tanto “esotérico”, aún a pe-sar de la claridad del caso propuesto por Swanson. ¿Seexige a una herramienta de minería textual que extrai-ga las conclusiones o el nuevo conocimiento, o sim-plemente que facilite el análisis a un investigador hu-mano?

«El objetivo de la minería tex-tual es extraer nuevo conoci-miento a partir del análisis decorpus textuales, pero no de

deducirlo»

Inicialmente, la minería textual debe facilitar elanálisis de corpus textuales que a priori nos resultaríaninmanejables debido a su tamaño. Así, un investigadorpodrá analizar esos datos, identificar relaciones entredocumentos y extraer conclusiones. Hearst deja claroel alcance de la minería textual, al indicar que para ha-cer progresos no es necesario un análisis del textopropio de la inteligencia artificial, sino que una mez-cla de análisis humano y automatizado puede dar ex-celentes resultados. La autora llega incluso a definirminería textual como el descubrimiento semi-automa-tizado de patrones y tendencias en grandes conjuntosde datos.

Así pues, la minería textual tendrá como objetivointermedio —y previo al descubrimiento de nuevo co-nocimiento— procesar y presentar la información dis-ponible en grandes colecciones de documentos en unformato que facilite su comprensión y análisis. Con es-ta definición nos acercamos a una definición más prag-mática para esta disciplina.

El profesional de la información, v. 13, n. 1, enero-febrero 2004 13

Minería textual

En esta misma línea, Sullivan señala cómo la mi-nería textual es el proceso de compilar, organizar yanalizar grandes colecciones de documentos para apo-yar en la distribución de información a los analistas ya las personas encargadas de tomar decisiones, y paradescubrir relaciones entre hechos relacionados que sereparten entre distintos dominios de investigación.

Partiendo de la tesis de Hearst —quizás demasia-do ambiciosa— hemos llegado a una definición máspráctica que nos permite situar la minería textual en unmarco más próximo a su uso real y a la funcionalidadque nos ofrecen las aplicaciones software de mineríatextual disponibles en el mercado.

Obviamente, esto no significa que en un futuromás o menos inmediato ampliemos nuestras exigen-cias a las aplicaciones de minería textual, hasta el pun-to de que la capacidad de deducir nuevos conocimien-tos de forma automatizada o desatendida llegue a for-mar parte de la definición de minería textual.

Pero no queremos concluir este apartado sin reco-ger una definición que aparece en distintos documen-tos oficiales de IBM —fabricante de una de las herra-mientas comerciales de minería textual a la que nos re-feriremos en un apartado posterior—. En estos docu-mentos se define la minería textual como el proceso deextracción automática de información fundamental detextos, detección automática de temas predominantesen un conjunto de documentos y búsqueda de textos re-levantes mediante consultas de grandes prestaciones yflexibilidad (IBM, 1998, p. 50).

Esta definición comparte el pragmatismo al quenos hemos referido anteriormente. En ella se evitacualquier referencia a la posibilidad de identificar nue-vos conocimientos a partir de documentos existentes,con lo que se aleja de la propuesta inicial de Hearst.En esta definición se llega a incluir entre las activida-des propias de la minería textual la recuperación de in-formación. Nos parece acertada esta definición porquerecoge la funcionalidad real que, a día de hoy, imple-mentan las aplicaciones de minería textual de las quehemos podido obtener información.

Otra definición recogida de un documento comer-cial, en este caso del fabricante de aplicaciones analí-ticas SAS, señala que la minería textual es el procesode investigar una gran colección de documentos entexto libre, para descubrir y usar el conocimiento dis-ponible en la totalidad de la colección. Esta definiciónresume la funcionalidad que podemos encontrar en lasaplicaciones comerciales: una ayuda para facilitarnosla comprensión y la interpretación de la informaciónrecogida en grandes colecciones de documentos.

Para concluir, podríamos matizar la definición ini-cial de Hearst e incluir entre los objetivos de la mine-ría textual la extracción y visualización de la informa-ción procedente de grandes corpus textuales en un for-mato que facilite su análisis y la deducción de nuevasconclusiones.

La minería textual y su relación conotras disciplinas

La minería textual recoge diferentes técnicas yplanteamientos desarrollados en otras disciplinas.Existe una clara relación entre minería textual, mineríade datos, recuperación de información y lingüísticacomputacional.

Minería textual y minería de datos. En numero-sas ocasiones la minería textual se presenta como unaactividad complementaria a la minería de datos, si bienno ha logrado el impacto de esta última.

La minería de datos pretende obtener informacióna partir de los patrones y tendencias que pueden ob-servarse en grandes volúmenes de información estruc-turada. Es decir, información disponible en bases dedatos relacionales. Frente a esto, la minería textualbusca un mismo objetivo en corpus textuales o infor-mación no estructurada.

Los principales fabricantes de aplicaciones infor-máticas para la minería de datos promueven la imagende la minería textual como una disciplina complemen-taria a la primera, y han acoplado a sus programas di-ferentes módulos para la extracción y análisis de tex-tos. Este planteamiento comercial tiene un fundamen-to práctico: si la mayor parte de la información quegestionan las organizaciones es textual plasmada endocumentos, la minería textual resulta el complemen-to idóneo para los programas de minería de datos. Enla literatura comercial los fabricantes presentan nume-rosos escenarios en los cuales la minería textual resul-ta un complemento clave para facilitar una mayorcomprensión de las necesidades de los clientes y per-mitir el seguimiento de la competencia: gestión de re-clamaciones, transcripciones de las llamadas registra-das en los call-center, patentes, noticias de prensa, etc.

Así, existe una similitud entre minería textual y dedatos, ya que ambas persiguen una misma finalidad:deducir nueva información a partir de la informaciónya existente. Cambiará, únicamente, el tipo de infor-mación que se toma como base del análisis: datos es-tructurados en el primer caso, e información no estruc-turada (texto) en el segundo.

Llegados a este punto es conveniente recordar quepor medio de la minería textual sólo se pueden deducirrelaciones que se encuentren explicitadas en los docu-mentos que forman el corpus de trabajo y, en ningún

El profesional de la información, v. 13, n. 1, enero-febrero 200414

Ricardo Eíto Brun y Jose A. Senso

caso, se podrá deducir información implícita, al care-cer estos sistemas de razonamiento lógico.

Minería textual, lingüística computacional y re-cuperación de información. Desde el punto de vistatécnico, la minería de datos recoge técnicas usadas tra-dicionalmente en la recuperación textual, y en la lin-güística computacional. Esta influencia llega a tal pun-to que resulta difícil poder afirmar que la minería tex-tual haya incorporado técnicas propias.

Hearst establece las diferencias entre minería tex-tual, minería de datos y recuperación textual (tabla 1).En este cuadro se muestran las diferencias —y tambiénlas áreas de influencia— entre las cuatro disciplinas.

La diferencia entre minería textual y recuperaciónde información se encuentra en que el objetivo de éstaúltima es identificar los documentos relevantes para unusuario dentro de una colección. La recuperación tex-tual parte de una representación formal de los docu-mentos sobre los que se realizará la búsqueda, y de laformulación de las necesidades de información delusuario mediante un sistema de representación equiva-lente.

Sin embargo, la recuperación textual no pretendefacilitar el proceso de análisis ni la extracción de nue-vos conocimientos, como sí pretende la minería tex-tual. Hearst hace hincapié en esta diferencia y señalacómo se ha extendido una apreciación incorrecta queiguala minería textual con sistemas de recuperación deinformación avanzados, o sistemas de recuperación deinformación adaptados para la web. Otro dato impor-tante a tener en cuenta es que el objetivo de la recupe-ración de información se centra en establecer los me-canismos para satisfacer las necesidades de informa-ción de un usuario. Sin embargo, en la minería textualno sólo no existe esa necesidad sino que tampoco esdel todo necesario que se cuente con una pregunta con-creta que realizar al sistema.

La lingüística computacional, por su parte, agrupauna serie de técnicas para procesar textos y tratar dehacerlos comprensibles para un ordenador. La lingüís-tica computacional permite el análisis sintáctico y gra-matical de textos en formato electrónico, la alineación

e identificación de correspondencias entre textos escri-tos en diferentes idiomas, etc. Sus principales resulta-dos se han materializado en los sistemas de traducciónautomática. También en este caso, si bien la mineríatextual ha adoptado algunas de las técnicas desarrolla-das por esta disciplina, sus objetivos son diferentes.

Usos de la minería textual

Como ya se ha comentado anteriormente, el obje-tivo de la minería textual es facilitar el análisis de la in-formación disponible en grandes colecciones de docu-mentos, y así la deducción de nuevo conocimiento. Pe-ro, ¿cómo lograr esto?, ¿qué nos ofrece una herra-mienta de minería textual para lograr este propósito?

Las funciones que principalmente debería satisfa-cer una herramienta de minería textual, o el output quepodemos esperar de ellas, incluiría:

—Identificar “hechos” y datos puntuales a partirdel texto de los documentos, a lo que nos referiremoscon el término inglés feature extraction.

—Agrupar documentos similares (clustering).

—Determinar el tema o temas tratados en los do-cumentos mediante la categorización automática delos textos.

—Identificar los conceptos tratados en los docu-mentos y crear redes de conceptos.

—Facilitar el acceso a la información repartida en-tre los documentos de la colección, mediante la elabo-ración automática de resúmenes, y la visualización delas relaciones entre los conceptos tratados en la colec-ción.

—Visualización y navegación de colecciones detexto.

A continuación se analizarán estas funciones conmás detalle.

Identificar “hechos” y datos puntuales de losdocumentos: feature extraction. Una de las aplica-ciones de la minería textual es la identificación de “he-chos” presentes en los documentos. Traducimos así lafuncionalidad referida como “feature extraction” por

Tabla 1

El profesional de la información, v. 13, n. 1, enero-febrero 2004 15

Minería textual

Sullivan. Se trata de extraer del texto de los documen-tos referencias a nombres de personas, organizaciones,fechas, eventos, y las relaciones que existen entreellas.

Por ejemplo, en un documento podrían extraerse:a) referencias a “José María Aznar”, “intervenciónen Irak” y “gobierno de España” y b) relaciones entreestos conceptos, como “José María Aznar preside elgobierno de España” o “José María Aznar se mani-fiesta a favor de la intervención en Irak”.

Esta aplicación difiere de la extracción de términoso de la indización automática tradicional, ya que no setrata de ver cuáles son los temas o las ideas que se tra-tan en el documento, sino de identificar personas, ins-tituciones, eventos y la relación que existe entre ellos.

Si bien es posible que esta extracción de “hechos”se apoye en diccionarios y listados de autoridad exis-tentes, las aplicaciones de minería textual deberían sercapaces de identificar de forma desatendida aquellosfragmentos o cadenas de texto que hagan referencia apersonas, organizaciones y eventos de los que no setengan referencias previas.

Como ejemplo de la aplicación de esta funcionali-dad, Hearst cita un proyecto de análisis bibliométricoque estudió el impacto de la investigación financiadacon fondos públicos en el desarrollo tecnológico y enla redacción de patentes en norteamérica.

El estudio realizó un análisis de la bibliografía ci-tada en una amplia colección de patentes, e identificóla procedencia de la financiación que había permitidoel desarrollo de los estudios descritos en los artículoscitados. Si bien no se clarifica que se hayan aplicadotécnicas de minería textual en la obtención de los re-sultados, la autora sí señala que la extracción automá-tica de datos resultaría una gran ayuda para identificarautores y fuentes de financiación en los artículos cita-dos desde las patentes.

Agrupación de documentos similares o cluste-ring. Consiste en unir documentos entre los que exis-te cierta similitud. La similitud se establecerá a partirde la terminología utilizada por los autores en la re-dacción de los textos. Esta funcionalidad de las aplica-ciones de minería textual aplica una de las técnicas ca-racterísticas de la recuperación textual: el clustering oagrupación automática de documentos.

Evitamos hablar de “clasificación automática dedocumentos” —si bien este término sería también co-rrecto— por una diferencia de matiz existente entre lastécnicas de clustering y la categorización automática ala que nos referiremos en un apartado posterior.

En el caso del clustering se trata de crear agrupa-ciones entre documentos de forma desatendida. Es de-

Los ataques terroristas del 11 de septiembre de 2001hicieron manifiesta la capacidad de los grupos terroristas deutilizar la red internet para planificar atentados. Estudios pos-teriores demostraron que las organizaciones terroristas comoAl Qaeda se orquestan en torno a complejas cédulas en lascuales se utiliza la Red con distintos propósitos: desde la cap-tura de datos sobre las posibles debilidades de las infraestruc-turas de las instituciones o estados objeto de sus ataques, has-ta la captura de financiación y la captación de nuevos adeptos.

En un artículo publicado en la revista Parameters, TimothyThomas de la Foreign military studies office de los Estados Uni-dos recoge distintas muestras de sitios web utilizados o vincu-lados por la organización terrorista: alneda.com, assam.com,drasat.com, jehad.net y un largo etcétera.

En este nuevo contexto, la red Internet se convierte en un“campo de batalla” más en la lucha contra el terrorismo. Laidentificación de sitios web y el seguimiento de foros de discu-sión como el Muslim Hackers Club [dash]en el que según Tho-mas se discutía sobre sitios web norteamericanos en los quepodía obtenerse datos sobre radiofrecuencias y códigos secre-tos utilizados por el servicio secreto norteamericano[dash]forman parte de las actividades de las unidades de inteligencia.

El proyecto TIA (Total Information Access)

Los planes de utilizar la tecnología de minería de datos enla lucha anti-terrorista se han materializado en el proyecto To-tal information access, TIA. Se trata de un programa con unaduración inicial de cinco años dirigido desde la Defense advan-ced research project agency (Darpa); concretamente, desde laInformation awareness office.

TIA desarrollará una serie de herramientas que faciliten elanálisis de información a los agentes de inteligencia y la inte-gración de datos disponibles en las bases de datos de distintasagencias. Las líneas de desarrollo básicas son:

—Traducción automática: para facilitar el análisis de publi-caciones escritas en diferentes idiomas.

—Identificación de patrones en bases de datos: ya que laco-ocurrencia de cierta información (la petición de pasaportes,visados o permisos de trabajo, el alquiler de automóviles o lacompra de productos químicos) pueden ser indicadora de unaacción terrorista potencial.

La principal flaqueza de este sistema reside en el hecho deque se desconoce la fiabilidad de la combinación de estas prác-ticas. Si las técnicas de minería de datos han fallado en el dise-ño de campañas de marketing, ¿por qué no pueden fallar en laidentificación de un ciudadano como un supuesto terrorista osospechoso? Por otra parte, también se cuestiona la efectivi-dad real de la minería de datos en la identificación de sospe-chosos, y el que pueda ser una herramienta útil en la luchacontra el terrorismo.

PathFinder

Otra aplicación utilizada por los Estados Unidos y por laOtan para actividades de minería de datos es PathFinder, de-sarrollado por la empresa PreSearch. Esta compañía cuentacon 37 años de experiencia en el desarrollo de aplicaciones pa-ra la inteligencia y la seguridad. PathFinder ha sido usada ex-clusivamente por agencias del gobierno norteamericano, y du-rante 14 años la han utilizado en exclusividad. Actualmenteexiste una versión comercial. La enumeración de característi-cas del programa la sitúa como una aplicación mucho más avan-zadas que el resto de programas analizados en este artículo.Por ejemplo, junto a herramientas para el análisis lingüístico,PathFinder incluye funcionalidad para dibujar mapas y trabajarcon datos geográficos.

Tabla 2. Ejemplos prácticos en el uso de la minería textual

El profesional de la información, v. 13, n. 1, enero-febrero 200416

Ricardo Eíto Brun y Jose A. Senso

cir, un programa informático decidirá qué grupos va agenerar a partir de la similitud que calcule entre los do-cumentos de la colección. En el caso de la categoriza-ción automática, el programa informático deberá deci-dir a qué clase —dentro de un conjunto de clases pre-definidas por nosotros— pertenece cada uno de los do-cumento disponibles en una colección. En ambos ca-sos se trata de un proceso de clasificación, por lo queno utilizaremos este término para referirnos a ningunode ellos en concreto.

La agrupación automática tiene distintas aplicacio-nes, entre ellas:

—Facilitar la comprensión de una colección de do-cumentos. Al agrupar aquellos que son similares enuna misma clase, será posible obtener una visión ge-neral de los temas tratados en todos los documentos dela clase con sólo leer unos pocos de los textos inclui-dos en ella.

—Juzgar la relevancia de los documentos inclui-dos en cada grupo tras la lectura de tan sólo uno de susrepresentantes.

—Identificar relaciones entre documentos en unacolección que previamente se desconocían.

—Identificar duplicados potenciales y documentosque — por tener una información similar— pueden noser relevantes.

—Mejorar la organización de los resultados de-vueltos por un motor de indexación. El clustering su-pondría una mejora sustancial frente a los mecanismosde visualización de resultados actualmente generaliza-dos, en los que cada documento recuperado se muestrade forma independiente.

Determinar el tema tratado por los documentoso categorización automática. Se trata de un procesode clasificación automática con el que se pretendeasignar un documento a una clase o tema definido conanterioridad. Un ejemplo de esta aplicación sería laasignación automática de un encabezamiento de mate-ria o una notación de un sistema de clasificación bi-bliográfico a un documento.

La categorización automática parte de un entrena-miento previo del programa informático encargado derealizarla. Así, se facilitará al programa informáticouna serie de documentos a los que ya se ha asignadoun tema o clase. De esta forma, el programa podrá ana-lizar las características que determinan la asignaciónde los documentos a una u otra clase. Posteriormente,cuando se procese un nuevo documento el programapodrá “deducir” a qué clase pertenece. Esta deducciónse basará en la similitud que exista entre el nuevo do-cumento y los utilizados durante la fase de entrena-miento.

En la figura 1 podemos ver como tanto en el clus-tering como en la categorización automática se partede una misma base: el cálculo de las similitudes entredocumentos, normalmente mediante la identificaciónde los términos que aparecen de forma conjunta en losdocumentos.

Queremos señalar que Hearst no incluye la cate-gorización automática entre las técnicas propias de laminería textual, si bien recoge un ejemplo en el cualesta técnica se puede aplicar en la deducción de nuevoconocimiento: el proyecto Darpa topic detection andtracking, que consiste en el análisis de noticias recibi-das y procesadas en orden cronológico, con el fin dedetectar si alguna de ellas hace referencia por primeravez a un hecho novedoso. Es decir, se trata de identifi-car cuando es la primera vez en la que se hace refe-rencia a un hecho en cuestión. La autora señala que sepuede considerar un caso de minería textual porquenos cuenta algo sobre el mundo fuera del la colecciónde textos procesados propiamente dicha.

Identificar los conceptos tratados por los docu-mentos. Esta función permitiría extraer los principalestemas o ideas tratados en los documentos. No se tratade un proceso de categorización automática, ya que nose pretende asignar un documento a una clase, sino ex-traer un conjunto de términos que son representativosdel contenido de los documentos.

Esto coincide con una de las técnicas utilizadas enla indización automática de documentos, si bien laidentificación de conceptos que pretende la mineríatextual sería más compleja que la mera extracción detérminos tal y como aparecen escritos en los textos ca-racterística de los motores de indexación automática yrecuperación textual.

En el contexto de la minería textual, un conceptorepresentaría una idea tratada en el documento. La ca-pacidad de identificar un concepto se basaría en la

Figura 1. Ejemplo de categorización automática

El profesional de la información, v. 13, n. 1, enero-febrero 2004 17

Minería textual

ocurrencia de determinados términos y combinacionesde términos en el texto del documento.

Una vez identificados los conceptos tratados porun documento, será posible identificar documentosque traten de ese mismo concepto (incluso en aquelloscasos en los cuales los autores no hayan utilizado unaterminología idéntica), y crear redes conceptuales através del contenido de la colección (figura 2).

La posibilidad de crear estas redes de conceptossería una de las principales ventajas de la minería tex-tual. Podríamos decir que el ejemplo clásico propues-to por Swanson es un caso particular de esta aplica-ción:

—En primer lugar se extraen los principales con-ceptos de cada documento individual (por ejemplo, delprimer documento se extraen los conceptos “estrés” y“migrañas”; del segundo “estrés” y “pérdida de mag-nesio”, y así sucesivamente).

—A continuación se puede crear una red de con-ceptos o una trama que fusione los conceptos proce-dentes de distintos documentos que, a priori, eran in-conexos. Esta red se podrá tomar como base para unproceso de análisis y obtención de conclusiones.

Esta funcionalidad estaría próxima a los intentosde creación automática de tesauros que se han realiza-do en el área de la documentación automatizada, a laque nos referiremos posteriormente.

Una de las aplicaciones de minería textual que des-cribimos en un apartado posterior —Megaputer TextAnalyst— ofrece un mecanismo para identificar lostérminos más representativos de una colección de do-cumentos y las relaciones que existen entre ellos, nue-vamente a partir del recuento de las ocurrencias con-juntas de los términos.

Elaboración automática de resúmenes. Entre lastareas necesarias para facilitar el análisis de grandesvolúmenes de documentos, la elaboración automática

de resúmenes es otra de las aplicaciones y funcionali-dades que caracterizan a los programas informáticosde minería textual. Las técnicas de elaboración de re-súmenes por parte de programas informáticos se re-montan a la década de los sesenta, y se han desarrolla-do distintos enfoques basados en el análisis sintácticoy en el estudio estadístico de los textos.

En el enfoque más simple —basado en la frecuen-cia estadística de los términos y en la ponderación dela importancia de las frases y la posición que estasocupan en el documento— los resúmenes se generanmediante la extracción literal de frases o fragmentosdel documento original, sin hacer una “reescritura”posterior.

La elaboración automática de resúmenes constitu-ye un componente clave para facilitar el proceso deanálisis, especialmente cuando éste se realiza a nivelde colección —en lugar de hacerlo a nivel de docu-mento individual—, ya que permite lograr una de losobjetivos de la documentación: ahorrar tiempo al lec-tor.

Visualización y navegación de colecciones detexto. Hasta ahora hemos analizado las funciones quedebería satisfacer cualquier herramienta de mineríatextual. Todas estas funciones ofrecen como resultadode su análisis listados de términos o redes de concep-tos, grupos de documentos relacionados, nombres depersonas, hechos, organizaciones, etc., que procedende una colección de documentos analizada.

Para permitir la comprensión de esta información,un componente clave en un sistema de minería textuales la interface de usuario a través del cual se va a vi-sualizar esta información. La interface deberá mostrarlos datos en un formato que haga posible su interpre-tación y permita al usuario moverse con facilidad en-tre los distintos textos analizados.

Si bien el estudio de las interfaces de las aplica-ciones de minería textual queda fuera del alcance deeste trabajo introductorio, en el último apartado reco-gemos algunos ejemplos de herramientas comercialesy de las interfaces que implementan.

Las técnicas de la minería textual

Para lograr los resultados citados en el apartadoanterior la minería textual adopta una serie de técnicasprocedentes de la recuperación de información y de lalingüística computacional. Estas técnicas incluyen:

—Pre-procesamiento de los documentos, que con-tendría la extracción de términos, eliminación de laspalabras vacías y normalización de los términos res-tantes mediante stemming.Figura 2. Extracción de conceptos y red conceptual

El profesional de la información, v. 13, n. 1, enero-febrero 200418

Ricardo Eíto Brun y Jose A. Senso

—Identificación de nombres propios. Análisis sin-táctico y gramatical de los textos.

—Representación de los documentos mediante elmodelo vectorial. Fórmulas para el cálculo de la simi-litud entre pares de documentos.

—Clustering o agrupación automática de docu-mentos, que a su vez también toma como punto de par-tida la representación de los documentos según el mo-delo vectorial y el cálculo de similitudes.

—Categorización automática.

—Relaciones entre términos y conceptos.

Pre-procesamiento de los documentos. Esta téc-nica consiste en extraer las palabras utilizadas en undocumento, o segmentar el texto en distintas formasgráficas (Etxeberría, p. 146). Una forma gráfica sedefine como una secuencia de caracteres no delimita-dores (en general, letras), comprendida entre dos ca-racteres delimitadores (espacios o signos de puntua-ción) (Etxeberría, p. 147).

El pre-procesamiento incluye la eliminación de lossignos de puntuación y la extracción de las palabrasseparadas entre sí por espacios en blanco o signos depuntuación (si éstos no se han eliminado en el pasoprevio). Para completar esta tarea, el programa infor-mático debe convertir el documento que se va a proce-sar a un formato texto plano, no binario.

Una tarea habitual en el pre-procesamiento de losdocumentos es la eliminación de palabras vacías, ca-rentes de significado, como son preposiciones, artícu-los, conjunciones, etc. Sin embargo, no todos los auto-res coinciden en la conveniencia de eliminar las pala-bras vacías.

Finalmente, como parte del pre-procesamiento sesuele realizar la normalización de las palabras extraí-das del documento. Esta normalización —también lla-mada lematización— consiste en dividir cada palabraen los lemas que la forman. Por ejemplo, las palabrasalumno, alumna, alumnado, alumnos, etc., compartenuna misma raíz léxima (alumn-) que les da el mismosignificado semántico.

La lematización reduciría y representaría todas laspalabras que comparten la misma raíz mediante ésta.Este proceso tiene una gran importancia de cara a ha-cer el recuento de las ocurrencias de una palabra y es-coger así aquellos términos que son los mejores candi-datos para representar el contenido del texto. Normal-mente la lematización reducirá las variaciones de gé-nero y número en los sustantivos y adjetivos, así comolas flexiones de los tiempos verbales. Para poder reali-zar esta tarea el programa informático necesitará acce-so a un diccionario y a una base de conocimiento so-

bre las distintas flexiones, conjunciones de verbos,etc., que le permita extraer correctamente los lexemasque forman cada palabra.

Un aspecto importante en el pre-procesamiento esla identificación de los llamados “segmentos repeti-dos” (siguiendo la terminología utilizada por Etxebe-rría) o “frases”. Es decir, secuencias de palabras queaparecen contiguas en el texto y que usadas de estaforma tienen un significado especial. Por ejemplo“marketing relacional”, “instrumentos de análisis”,etc. Dividir estos segmentos repetidos en los distintostérminos que lo forman acarrearía una descontextuali-zación y pérdida de significado. Normalmente, lasaplicaciones de indexación y recuperación textual hanprestado poca atención a este problema y han tendidoa dividir los segmentos de repetición potenciales. Esteenfoque es lógico: si un sistema de indexación permi-te formular búsquedas con operadores adyacentes (deltipo “recuperar los documentos que contengan la pala-bra marketing seguida de la palabra relacional”), no esnecesario identificar los segmentos de repetición.

Sin embargo, en el caso de la minería textual, la ex-tracción de estos términos compuestos sí es importan-te, ya que buscamos el conjunto de conceptos que re-presentan el contenido de un documento. Identificar lossegmentos repetidos que aparecen en un texto podríahacerse fácilmente teniendo acceso a un diccionarioque permita identificar la categoría gramatical de cadapalabra (sustantivo, adjetivo, preposición, verbo, etc.).El problema consiste en identificar qué segmentos re-petidos tienen realmente una significación especial, ydeberían tratarse como “términos” o “conceptos”.

En cualquier texto podemos identificar un gran nú-mero de segmentos de repetición con una misma es-tructura sintáctica (sustantivo->adjetivo, sustantivo->preposición->sustantivo), pero de todos ellos tan só-lo una mínima parte tendrán un significado especial,resultado de la unión de los dos términos. Para solu-cionar este problema, cabe la posibilidad de aplicartécnicas estadísticas que seleccionen únicamente aque-llos segmentos de repetición que ocurren con mayorfrecuencia en los documentos, o reglas heurísticas que—por ejemplo—, identificasen únicamente los seg-mentos de repetición que aparecen en los títulos, títu-los de sección, etc., de los documentos.

Identificación de nombres propios. La extrac-ción de nombres propios relativos a personas, organi-zaciones, eventos, funciones, así como cantidades mo-netarias y fechas es una de las principales funcionesque debe satisfacer la minería textual. Además, la mi-nería textual también debería permitirnos identificarlas relaciones que existen entre estos nombres propiosy constatar así “hechos” descritos en los documentos.

El profesional de la información, v. 13, n. 1, enero-febrero 2004 19

Minería textual

Un resumen de las dificultades que implica laidentificación de nombres propios en el texto de losdocumentos lo encontramos en el informe Extractingnames from natural-language text, de Yael Ravin yNina Wacholder. En este informe los autores descri-ben la herramienta Nominator, desarrollada como pro-yecto de investigación por el T. J. Watson researchcenter de IBM. Sospechamos que los resultados de es-te proyecto se aplicaron en uno de los módulos de laaplicación IBM Intelligent Miner for Text.

El proyecto consistió en el desarrollo de un proto-tipo basado en reglas heurísticas, con capacidad paraidentificar aquellos fragmentos que pueden correspon-der a un nombre propio, identificar su tipo (es decir, sise refiere a una persona, organización, lugar, etc.) y lasformas alternativas que se utilizan en el texto para ha-cer referencia a esa misma entidad.

En Nominator no se utilizaron reglas sintácticas, apesar de lo cual se obtuvieron resultados satisfactorios:los autores señalan un porcentaje del 97.8% de éxitoen las pruebas realizadas con el prototipo.

Un tema más complejo en la identificación denombres propios, es la extracción de las relaciones queexisten entre los términos. En este sentido, es necesa-rio recurrir a técnicas de parsing y análisis sintácticode las sentencias, para identificar los verbos que sirvende nexo entre los nombres propios y tratar de deducirasí posibles relaciones.

Representación de documentos mediante el mo-delo vectorial. Una premisa en cualquier aplicaciónde recuperación y tratamiento documental es la nece-sidad de representar el contenido de los documentosmediante un modelo. El modelo generalizado a día dehoy, tanto en los sistemas de indexación como en lasaplicaciones de minería textual, es el vectorial.

En este modelo, un documento se caracteriza me-diante el conjunto de términos que representan su con-tenido. Estos términos podrían ser términos extraídosdirectamente del texto completo del documento (tal ycomo se ha descrito al referirnos al pre-procesamien-to), o descriptores asignados al documento por un do-cumentalista o por una aplicación informática, toma-dos o no de un lenguaje documental externo.

Cualquiera que sea el caso, el documento se repre-sentará mediante una secuencia de términos o “com-ponentes” que corresponden con los distintos términosutilizados para describir el contenido del documento.

Un vector es una estructura consistente en un nú-mero fijo de elementos o componentes, en la cual laposición de cada uno de ellos es significativa. En elmodelo vectorial, cada documento se considera un

vector, y cada término que aparece en al menos un do-cumento, será un componente del vector.

En este método la recuperación de información serealiza mediante la comparación de la distancia queexiste entre los vectores correspondientes a los docu-mentos, y un vector utilizado para representar la ecua-ción de búsqueda.

Entre las ventajas del modelo vectorial —frente aotros modelos como el booleano— se encuentra el he-cho de calcular la similitud entre la ecuación de bús-queda y los documentos. Esto permite realizar un ran-king u ordenación de los documentos recuperados,mostrando al principio de la lista aquellos documentosque son más similares a la ecuación de búsqueda, y alfinal de la lista los que son menos.

«Existe una similitud entre mi-nería textual y de datos, ya queambas persiguen una misma fi-nalidad. Sin embargo, cambiael tipo de información que setoma como base del análisis»

Análisis de clusters. Se trata de una técnica quepermite identificar grupos o clases de objetos simila-res a partir de un espacio multidimensional (Arenas,1992, p. 369). Según esta autora, su formulación se de-be a B. S. Everitt en la obra Cluster analysis, publica-da en 1974. En otra fuente1 se señala cómo el términofue usado por primera vez por Tryon en 1939. Jain etal. definen el análisis de cluster como la organizaciónde una colección de patrones (normalmente represen-tados mediante vectores o como puntos en un espaciomultidimensional), en clusters o grupos en base a susimilitud. Aquellos patrones que pertenezcan a un mis-mo cluster o grupo serán más similares entre sí, quecon los patrones que pertenecen al resto de los grupos.

El análisis de cluster consiste en una clasificacióndesatendida o no supervisada. Esto diferencia al análi-sis de cluster de las técnicas de clasificación supervi-sada (como el análisis discriminante), y que se aplicanen la categorización automática.

En la clasificación supervisada se debe ordenar unconjunto de objetos en una serie de grupos predefini-dos con anterioridad. En el caso del análisis de clusterno existirán grupos predefinidos a los que haya queasignar los objetos durante el proceso de clasificación.

En el análisis de cluster se deben tomar una seriede decisiones relativas a:

—La forma de representar a los objetos que se vana clasificar (a los que nos referiremos de ahora en ade-lante como “patrones”).

El profesional de la información, v. 13, n. 1, enero-febrero 200420

Ricardo Eíto Brun y Jose A. Senso

—La fórmula que vamos autilizar para calcular la similitudentre patrones.

—El algoritmo de clusteringque se va a utilizar.

—El método utilizado paraabstracción los datos o patronesincluidos en un mismo grupo, ypoder así representarlos y visua-lizarlos.

—La evaluación del resulta-do del proceso de clustering.

Volviendo a las característi-cas del análisis cluster, éste partede la descripción previa de losobjetos que se quieren clasificar.Esta descripción nos permitirágenerar grupos de objetos con uncoeficiente de similitud signifi-cativo. En el caso de la agrupa-ción de documentos la descrip-ción que tomaremos como baseserá la representación de los do-cumentos según el modelo vecto-rial.

Categorización automática.Esta técnica se utiliza en la mine-ría textual para clasificar docu-mentos en una serie de categorí-as preestablecidas. Su origen seremonta a la década de los sesen-ta (Maron, 1961), si bien el augede internet y los contenidos enformato electrónico vivido en losúltimos seis años ha propiciadoun aumento en el interés haciaestas técnicas.

Así, la categorización auto-mática es aplicable en distintosprocesos:

—Clasificación e indizaciónautomática de documentos.

—Filtrado de contenidos(por ejemplo, en la distribuciónde noticias o newsfeeds).

—Asignación de páginas ysitios web a listas de categoríaspredefinidas en portales tipo Ya-hoo o dmoz.org.

—Resolver la ambigüedad enpalabras con polisemia.

Páginas personales y de gruposde trabajo

Página personal de Marti Hearst. Con en-laces a distintas publicaciones y artículos de laautora. http://www.sims.berkeley.edu/~hearst/

Página personal de Wanda Pratt, profeso-ra de la Universidad de Washington. Entre loscursos que imparte se encuentra el ICS 280text mining (la última edición se celebró en pri-mavera del 2001).http://www.ischool.washington.edu/wpratt/

Página personal de Fabrizio Sebastiani, delIstituto di scienza e tecnologia dell'informazio-ne consiglio nazionale delle ricerche area dellaricerca di Pisa. Contiene numerosos artículosen texto completo escritos por el autor sobrecategorización automática.http://faure.iei.pi.cnr.it/~fabrizio/

Página personal de Haym Hirsh, profesoren Rutgers University. Incluye unos pocos artí-culos publicados por el autor sobre mineríatextual.http://www.cs.rutgers.edu/~hirsh/

Mitre. Se trata de una organización consedes en Bedford, Massachusetts y McLean, Vir-ginia, fundada en 1959 como una ramificacióndel MIT. Se dedica a ofrecer servicios de apoyoa la administración norteamericana en temasrelacionados con las tecnologías de la informa-ción y la ingeniería. Cuenta con varios “centrosde investigación”, y entre sus líneas de trabajose encuentra la lingüística computacional (resu-men automático, etc.) Se pueden descargar tu-toriales, artículos, etc.http://www.mitre.org

Sitio web de un grupo de trabajo sobreminería textual de la Universidad de Waikato,en Nueva Zelanda. Los documentos publicadospor los miembros del grupo están disponiblesen el sitio. Este grupo inició el desarrollo de unaplataforma de minería textual open source.http://www.cs.waikato.ac.nz/~nzdl/textmining/

Grupo de trabajo Computational linguis-tics and text mining de IBM. Está disponible eltexto completo de algunos de los artículos pu-blicados por sus miembros.http://www.research.ibm.com/dssgrp/papers.html

Página del grupo de trabajo Multilingualtext mining de Xerox. Este proyecto ya finalizó.http://www.xrce.xerox.com/competencies/con-tent-analysis/past-projects/dmhead/home.en.html

Páginas Web con enlacessobre minería textual

Página con numerosos enlaces relaciona-dos con la minería textual, recopilados por unestudiante de doctorado de la Universidad deTexas. Probablemente se trata de la recopila-ción de recursos más completa.http://www.cs.utexas.edu/users/pebronia/text-mining/

Detallada recopilación de enlaces a cargode la Office for naval research (ONR). Ademásde la minería textual, incluye enlaces relaciona-

dos con la transferencia tecnológica, biblio-metríca, etc.http://www.onr.navy.mil/sci_tech/special/technowatch/linkd.htm

Página con numerosos enlaces relaciona-dos con la minería textual. Recopilados porWeiguo Fan, profesor de Virginia Tech.http://filebox.vt.edu/users/wfan/text_mining.html

Congresos dedicados total o parcialmen-te a la minería textual

Sitio web del ACM Special Interest Groupin Knowledge Discovery and Data Mining. Or-ganiza la conferencia anual SIGKDD.http://www.acm.org/sigs/sigkdd/

Text Retrieval Conference, organizadaanualmente por el Nist (National Institute ofStandards and Technology) y Darpa desde1992.http://trec.nist.gov/

Ofrece un listado de conferencias y con-gresos relacionados con el procesamiento dellenguaje natural y la recuperación textual.http://www.cs.technion.ac.il/~gabr/resources/jour_conf.html#conferences

Sitios web de fabricantes de aplicacionescomerciales

http://www-4.ibm.com/software/data/iminer/fortext/

http://www.leximancer.com/overview.html

http://www.pertinence.net

http://www.eidetica.com/

http://www.xanalys.com

http://www.themis-group.com

http://www.simstat.com/wordstat.htm

http://www.textanalysis.com

http://www.textmining.com (SRA)

Revistas especializadas

Information retrieval. Revista dedicada a larecuperación de información, publicada porKluwer Academic Press bajo de dirección dePaul Cantor, Josiane Mote y Justin Zobel.http://www.kluweronline.com/issn/1386-4564

Journal of machine learning research, pu-blicada por el MIT. Artículos de números ante-riores están disponibles en texto completo enformato pdf.http://www.ai.mit.edu/projects/jmlr/

Computational linguistics, publicada tam-bién por el MIT.http://mitpress.mit.edu/journal-home.tcl?issn=08912017

Natural language engineering. Publicadapor la Universidad de Cambridge.http://titles.cambridge.org/journals/journal_ca-talogue.asp?mnemonic=nle

Journal of classification, publicada por laClassification Society of North America ySpringer Verlag.http://www.pitt.edu/~csna/joc.html

Data mining and knowledge discovery. Pu-blicada por Kluwer.http://www.kluweronline.com/issn/1384-5810

Tabla 3. Recursos web sobre minería de texto

El profesional de la información, v. 13, n. 1, enero-febrero 2004 21

Minería textual

Existen dos tipos de categorización: single-label yde multilabel. En el primero se asignará cada docu-mento a una única categoría. En el segundo, un mismodocumento podrá asignarse a más de una categoría. Enambos casos se procederá de forma similar. Así, en elcaso de la categorización multilabel el proceso de cla-sificar un documento en una serie de categorías puedetratarse como problemas independientes consistentesen saber si se debe clasificar al documento en la cate-goría primera, segunda...

También se suele diferenciar entre procesos de ca-tegorización basados en los documentos (document-pivoted categorization) y procesos de categorizaciónbasados en las categorías (category-pivoted categori-zation). En el primer caso, el proceso recibe como en-trada un documento que debe clasificar y un conjuntode categorías, y debe decidir cual de ellas correspondeal documento. En el segundo enfoque el proceso reci-be como entrada un conjunto de documentos y una ca-tegoría, y debe decidir qué documentos pertenecen aesa categoría.

Una última distinción que se utiliza para describirlos procesos de categorización diferencia entre hardcategorization y ranking categorization. En el primercaso, el sistema tomará una decisión sobre si se va aclasificar un documento en cada categoría. La decisiónserá “verdadero” o “falso”. En el segundo el sistemaresponderá con un valor que indicará la convenienciao probabilidad estimada de que un documento perte-nezca a una o más categorías. Estos valores probablespueden ordenarse formando un ranking, donde las ca-tegorías más probables aparecerán al comienzo de lalista y las menos probables al final. Se recomiendaaplicar este segundo enfoque en aquellos casos en losque la categorización vaya a ser supervisada o valida-da posteriormente por una persona.

Relaciones entre términos y conceptos. Entre lastécnicas utilizadas por la minería de textos se encuen-tra la extracción de términos o conceptos y la identifi-cación de relaciones entre estos términos. En aparta-dos anteriores nos hemos referido a la extracción detérminos y a su ponderación para identificar aquellosque resulten más significativos del contenido de losdocumentos. Otras aproximaciones más complejas,como la Latent Semantic Indexing o el clustering, tam-bién podrían aplicarse con este propósito.

Debemos señalar que en las aproximaciones clási-cas para identificar relaciones entre términos, éstas sededucen a partir de su co-ocurrencia (es decir, la ocu-rrencia conjunta de dos palabras en los mismos docu-mentos o fragmentos).

Tradicionalmente estas asociaciones se han venidousando en proyectos de recuperación de información

experimentales para paliar los problemas vinculados aun escaso índice de llamada. Mediante estas asocia-ciones entre términos se permitía al usuario recuperardocumentos potencialmente relevantes, que no habíansido indexados con los mismos términos que se hanutilizado en la ecuación de búsqueda. Esta idea es si-milar a la propuesta pionera que Maron y Kuhn hi-cieron en 1960 con su concepto de recuperación arit-mética o asociativa.

En relación al clustering, de la misma forma quepodemos agrupar documentos a partir del número detérminos que comparten, sería también posible agrupartérminos a partir de los documentos en los que apare-cen de forma conjunta. Esta aproximación ha sido des-crita por Salton y otros autores.

Una propuesta similar es la del llamado thesaurusdifuso, descrito por Miyamoto (p. 104). Este términose ha propuesto en distintas ocasiones con distintossignificados. Así, se ha recurrido a expertos en un áreade conocimiento determinada para que propusiesen elgrado de asociación semántica entre términos de unvocabulario especializado, aplicando técnicas de la ló-gica borrosa para promediar las propuestas datas porlos distintos expertos (Klir y Yuan, p. 388).

Las asociaciones entre términos —como las des-critas en el caso de los thesaurus difusos de Klir— sonun ejemplo de cómo explotar las relaciones entre tér-minos en el proceso de recuperación textual. En el ca-so de las herramientas de minería textual las asocia-ciones entre términos permitirían identificar y mostraral analista conceptos relacionados, para así facilitar elanálisis y la extracción de la información repartida en-tre distintos documentos.

Herramientas para la minería textual

En este apartado describimos brevemente algunasaplicaciones comerciales desarrolladas especialmentepara la minería textual. Únicamente ha sido posibleobtener una versión de evaluación de Megaputer Tex-tAnalyst. Del resto de aplicaciones (IBM IntelligentMiner for Text, SAS Text Miner y Spss LexiQuest) a lasque se hace referencia tan sólo se ha podido consultarla documentación oficial de los fabricantes.

En el mercado podemos encontrar multitud deaplicaciones de este tipo. Ah-Hwee Tan cita algunasaplicaciones en un estudio comparativo presentado en1999. Una enumeración exhaustiva la encontramos enel artículo Text Mining Tools on the Internet de Janvan Gemert. La descripción la limitamos a cuatroaplicaciones ya que el único propósito es ilustrar cómodistintos fabricantes han adoptado e implementado lastécnicas descritas en los apartados anteriores, y deli-mitar así con una visión real de las ofertas tecnológi-

El profesional de la información, v. 13, n. 1, enero-febrero 200422

Ricardo Eíto Brun y Jose A. Senso

cas disponibles en el mercado el concepto de mineríatextual.

El primer caso —TextAnalyzer— consiste en unaaplicación desarrollada exclusivamente para la mineríatextual. IBM Intelligent Miner for Text quizá sea laúnica aplicación desarrollada por uno de los grandesfabricantes de software a nivel mundial. En el caso deSpss LexiQuests y SAS Text Miner se trata de dos pro-gramas adquiridos por fabricantes de entornos de aná-lisis y minería de datos tradicionales —SAS y Spss—con el propósito de integrarlas en sus plataformas ana-líticas.

Spss adquirió LexiQuest —hasta entonces una em-presa independiente— el 22 de febrero del año 2002para completar su plataforma de minería de datos contecnología textual. Por otra parte, SAS anunció la dis-ponibilidad de Text Miner el 31 de mayo de 2002.También se trató de una adquisición. ConcretamenteSAS adquirió tecnología de la empresa Inxight (unaempresa “derivada” de un proyecto de Xerox y que si-gue trabajando de forma independiente a SAS).

La publicación de estas dos aplicaciones hace po-co más de un año por parte de empresas líderes en elmercado de aplicaciones analíticas es una muestra dela importancia que se presta a esta tecnología, y unaseñal de la demanda que puede existir de este tipo deaplicaciones.

Megaputer TextAnalyst 2.3. Es una de las aplica-ciones comerciales para minería textual a las que hacereferencia Dan Sullivan en su libro Document ware-housing and text mining.

La aplicación funciona de la siguiente forma: apartir de un texto o colección de textos en formato as-cii o rtf se identifican los principales términos. A cada

término se le asigna una ponderaciónque representa en qué medida es signi-ficativo en la colección y en el textoprocesado. Los términos pueden estarformados por dos o más palabras. Paraidentificar términos formados por va-rias palabras la aplicación también sebasa en la frecuencia con la que apare-cen juntas. No se aplican reglas de tiposintáctico o gramatical.

A su vez, a cada par de términos se lesasocia un valor que representa la rela-ción que existe entre ellos. Con esta in-formación se forma una “red semánti-ca”, que se visualiza mediante una es-tructura jerárquica. Cada concepto re-presenta un nodo en el árbol. Sus nodoshijo representan los conceptos con los

que está relacionado.

La figura 3 muestra la interface gráfica utilizadapor Megaputer para mostrar las relaciones entre losconceptos. En la parte superior izquierda de la ventanase listan los conceptos con su ponderación (escrita a laizquierda del nombre).

Al desplegar un término aparecen indicados losconceptos con los que está relacionado. En la imagendel ejemplo, el concepto European identity está rela-cionado con identity, citizenship, European Union,creation, etc. Los dos números que aparecen a la iz-quierda de cada término relacionado representan, res-pectivamente, el valor asignado por el programa a larelación entre los dos términos y el valor asignado altérmino hijo en el documento (y que es independientede la relación).

Esta jerarquía permite identificar conceptos o tér-minos relacionados con un término tomado como pun-to de partida. La relación jerárquica cuenta con múlti-ples niveles.

Para facilitar la identificación de los fragmentosdel texto en los que aparece cada término, al hacer clicsobre cada nodo del árbol el panel de la derecha mos-trará los fragmentos en los que éste aparece. Es posi-ble descubrir únicamente aquellos fragmentos en losque aparezca el término junto con sus términos “pa-dre” en la jerarquía. Es decir, los fragmentos en loscuales los dos términos relacionados co-ocurren.

Finalmente, el panel inferior recoge el texto com-pleto del documento. Si en el panel superior derechoidentificamos una frase que puede ser relevante, al ha-cer clic en ella podremos ver —en el panel inferior—la frase contextualizada en la totalidad del documento.

Figura 3. Megaputer TextAnalyst 2.3

El profesional de la información, v. 13, n. 1, enero-febrero 2004 23

Minería textual

La aplicación también ofrece un sistema de bús-queda a texto completo. La consulta no sólo ofrece co-mo resultado los fragmentos en los que ocurre el tér-mino buscado, sino que también muestra un listado delos conceptos o términos relacionados con los de bús-queda en un formato jerárquico similar al que se utili-za para recorrer la red semántica.

Esta funcionalidad resulta útil, ya que podemos re-correr una gran colección de textos con mayor facili-dad, viendo aquellos conceptos que pueden resultarmás relevantes, pero: ¿realmente se trata de una apli-cación con un comportamiento inteligente, o que faci-lita el descubrimiento de nuevo conocimiento en la lí-nea promulgada por Hearst?

Para resolver esta duda hemos realizado una prue-ba con una colección de noticias sobre la Guerra deIrak recogidas del sitio web BBC Mundo. Un primerproblema ha sido la identificación del idioma, ya queel sistema no ha reconocido las palabras vacías en cas-tellano.

Sin embargo, en muchos casos la identificación deconceptos no ha sido todo lo inteligente que podríamosesperar. Por ejemplo, el hecho de que Rigoberta Men-chú opine sobre la guerra no queda plasmado en el ár-bol de conceptos generado por la aplicación. Obvia-mente, si el término no aparece con la frecuencia ne-cesaria, la aplicación lo descarta y se pierde esta infor-mación en la red semántica. Sí aparece, por ejemplo,Koichiro Matssusa —director general de la Unesco—, relacionado con el término “saqueos”, o la empresaBechtel con el término “reconstrucción” (figura 4).

El problema de las palabras vacías se puede solu-cionar añadiendo un diccionario de palabras no anali-zables a la aplicación. Tras añadir este diccionario, la

relación entre los conceptos identificados mejora os-tensiblemente.

Podemos decir que esta aplicación supone una in-teresante ayuda para facilitar la lectura de textos pro-cedentes de distintas fuentes, contrastar información, ysintetizar múltiples documentos.

Sin embargo, no ofrece todas las funciones propiasde una aplicación de minería textual, como serían lacategorización de documentos, el análisis cluster, o laextracción de hechos. Por ejemplo, el sistema identifi-ca términos relacionados a partir de su índice de co-ocurrencia, pero no es capaz de identificar la relaciónreal que existe entre ellos, incluso si esta está presenteen el texto analizado.

Como resumen, podemos decir que TextAnalyzeractúa como un índice inverso de una base de datos do-cumental que facilita la navegación entre los fragmen-tos indexados y la identificación de conceptos o térmi-nos relacionados a partir de la co-ocurrencia.

IBM Intelligent Miner 2.3.1. Esta es otra aplica-ción comercial descrita en el libro de Sullivan. Paraanalizar las funciones de este programa hemos consul-tado el libro de Sullivan y la documentación oficial deIBM disponible en su sitio web. No ha sido posible ob-tener una copia de evaluación para esta aplicación.

Intelligent Miner for Text es una herramienta com-plementaria a Intelligent Miner for Data, si bien am-bas funcionan de forma independiente.

La aplicación consiste en una serie de ficheros eje-cutables en entornos Windows y Unix desde línea decomandos. Intelligent Miner es un buen ejemplo deaplicación comercial que soporta las principales técni-cas características de la minería textual y que hemos

descrito en los apartados anteriores.

La aplicación incluye las siguientes uti-lidades:

—Language Identification: para identi-ficar el idioma de un documento.

—Topic Categorization: para la clasifi-cación automática de documentos encategorías predefinidas.

—Feature extraction: para extraernombres de personas, lugares, organiza-ciones, etc., de los documentos y tam-bién relaciones entre ellas.

—Clustering: para agrupar automáti-camente los documentos, pudiéndoseaplicar un clustering binario y jerár-quico.Figura 4

El profesional de la información, v. 13, n. 1, enero-febrero 200424

Ricardo Eíto Brun y Jose A. Senso

—Summarizer: para extraer los fragmentos mássignificativos de un documento y obtener un resumende manera automática.

Estas cinco utilidades reciben el nombre de herra-mientas Text Analysis. También forma parte de Intelli-gent Miner for Text un motor de indexación —Text Se-arch Engine—, un indexador de sitios web remotosWeb Crawler y un indexador de intranets llamado Net-Question Solution.

El módulo de identificación de idiomas está prepa-rado para reconocer distintos idiomas. Sin embargo lasherramientas de análisis de textos (clustering, catego-rización y feature extraction) únicamente están prepa-radas para trabajar con inglés. Esto no significa que nose puedan utilizar con documentos en otros idiomas.Simplemente, los resultados no serán los óptimos nitendrán la misma exactitud y precisión que si se traba-ja con una colección de documentos en inglés.

Sobre Feature Extraction únicamente señalaremosque se apoya en una serie de diccionarios de autorida-des y en unas reglas heurísticas. Estas reglas se basanen el contexto o los patrones en los que aparecen laspalabras que pueden ser consideradas nombres pro-pios. A partir de la regla más simple (toda palabra queempiece con una mayúscula es potencialmente unnombre propio salvo si se encuentra al principio de lafrase, en cuyo caso podrá serlo o no), se compruebanreglas adicionales, como las palabras que la precedeno la siguen y que pueden indicar cual es su tipo (per-sona, lugar, organización, cantidades monetarias, fe-chas, etc.).

Otra característica destacable es la capacidad deidentificar qué nombres propios —de los identificadosen el texto—, pueden corresponder a una misma enti-dad. Por ejemplo, el sistema identificaría los nombrespropios José María Aznar y Sr. Aznar como referen-tes a una misma persona, y optaría por uno de ellos co-mo su forma “canónica” o autorizada. Se define la for-ma canónica de un nombre como “el nombre más ex-plícito y menos ambiguo construido a partir de las dis-tintas variantes que aparecen en un documento”.

La segunda característica importante de esta herra-mienta, es la capacidad de identificar relaciones entrelos nombres propios. Las relaciones citadas en la do-cumentación son: “edad”, “status profesional”, “hace”,“dependencia”, “relación familiar”, “origen”, “simili-tud”, etc. Estas relaciones se pueden deducir a partir delos verbos y del contexto que circunda a los términos(por ejemplo, la presencia de los términos “fabricar” o“en la fabricación de” indicaría un caso de correspon-dencia con “hacer”). Las relaciones se expresan me-diante tripletas del tipo <objeto1> <relación> <obje-to2>.

En relación al funcionamiento de las herramientasque forman IBM Intelligent Miner, ya hemos señaladoque se ejecutan mediante línea de comandos. Los do-cumentos procesados deben estar en formato ascii ohtml. El resultado de su ejecución es un documento entexto plano con marcas.

Sobre la herramienta Summarization —para reali-zar resúmenes automáticos—, en la documentación deIBM se señala cómo la herramienta seleccionará aque-llas frases o fragmentos:

—Que contengan a los términos con una pondera-ción en el documento superior a la que tienen en el to-tal de la colección, que aparezcan más de una vez, y

—también se dará más peso a las frases más pró-ximas al principio y al fin de cada párrafo.

En la realización de resúmenes se combina tantolas técnicas estadísticas y la frecuencia de los términoscomo la posición que éstos ocupan en el documentoprocesado.

Las distintas herramientas que conforman Intelli-gent Miner for Text están dirigidas a programadores eintegraciones de soluciones para minería textual. Co-mo podemos ver, en muchas ocasiones será necesarioutilizar de forma conjunta más de una herramienta, eintegrarlas en una aplicación consistente y fácil de usarpara un usuario final. Por ejemplo, Summarization sesuele utilizar tras haber ejecutado previamente Featu-re Extraction, ya que el resultado obtenido por éstapuede resultar útil para identificar las frases o frag-mentos relevantes para hacer el resumen.

SAS Text Miner. Esta aplicación incorpora lasfuncionalidades características de la minería textual, yque hemos descrito en los apartados anteriores. Entreellas:

—Capacidad de procesar documentos en distintosformatos (pdf, ascii, html, Microsoft Office, etc.), y ex-traer términos simples y compuestos (formados pormás de una palabra), eliminar palabras vacías y redu-cir las palabras a lexemas. El sistema está optimizadopara los idiomas inglés, francés y alemán.

—Identificar la función gramatical de la palabra enel texto con el objeto de evitar posibles ambigüedades(part-of-speech tagging).

—En el caso del idioma alemán, posibilidad paradescomponer palabras en los distintos “lexemas” quela forman.

—Representación de documentos mediante unvector de términos ponderados según su frecuencia es-tadística.

El profesional de la información, v. 13, n. 1, enero-febrero 2004 25

Minería textual

—Identificación de nombres propios (feature ex-traction).

—Agrupación automática (clustering) de docu-mentos, aplicando algoritmos de clustering jerárquicoy difuso.

—Categorización automática de documentos.

Todas estas funciones están disponibles a través deuna interface de consulta que permite ver simultánea-mente documentos, términos, conceptos y clusters, yrecorrer y analizar la colección de documentos a travésde estos listados.

Sin embargo, en la documentación consultada nose cita de forma explícita ni el resumen automático nila creación de relaciones entre términos a partir de suco-ocurrencia. Según estos documentos, SAS Text Mi-ner considera las tareas de categorización y agrupa-ción automática como el principal objetivo de la mine-ría textual; las actividades previas (identificación detérminos simples y compuestos, extracción de nom-bres propios, ponderación, etc.) son tareas de pre-pro-cesamiento, que deben realizarse previamente para ha-cer posible la categorización y la clasificación.

Spss LixiQuest. En este caso se trata de tres pro-ductos: LexiQuest Mine, LexiQuest Categorize y Lexi-Quest Guide. Los dos primeros ofrecen funcionalidadpropia de la minería textual. El último consiste en tec-nología de indexación y búsqueda de documentos enintranets e internet.

LexiQuest Mine se presenta como una herramientacuyo propósito es “automatizar el proceso de leer do-cumentos para así descubrir su contenido”. En la pre-sentación de esta herramienta se recurre al hecho deque, de un documento de treinta páginas, tan sólo trespárrafos pueden resultarnos relevantes. El problema seacentúa cuando tenemos que leer un gran número dedocumentos.

LexiQuest Mine ofrece la posibilidad de procesarun gran número de documentos e identificar los térmi-nos y nombres propios que aparecen en ellos, así comomantener información sobre términos relacionados apartir de su co-ocurrencia.

LexiQuest Categorize ofrece la función de catego-rización automática de documentos a partir de un en-trenamiento previo (no se trata de clustering).

Conclusiones. Minería textual yrecuperación de información:

¿diferencias reales?

Tras analizar la forma de trabajar de algunas de lasaplicaciones que se presentan como sistemas de mine-ría textual nos surge la duda de si realmente existen di-

ferencias significativas entre estas aplicaciones y lasde búsqueda y recuperación de información tradicio-nales.

Los fabricantes de motores de indexación tradicio-nales (Verity, Autonomy, Fulcrum, etc.) —claramenteposicionados en el mercado de gestión documental yrecuperación textual para internet e intranet— vienenofreciendo desde hace bastante tiempo funciones parala categorización automática de documentos y la gene-ración de clusters y resúmenes. La función “buscarmás documentos similares” que estamos acostumbra-dos a utilizar en los motores de búsqueda para la webse basan en el mismo modelo de agrupación automáti-ca y cálculo de similitudes que la técnica de genera-ción de clusters.

Por otra parte, tanto las aplicaciones de mineríatextual como los indexadores parten de un mismo mo-delo para representar los documentos que procesan: elvectorial y la ponderación de los términos para identi-ficar aquellos que resulten más significativos para re-presentar el contenido de los documentos.

El hecho de partir de un mismo modelo de repre-sentación de los documentos y compartir funcionalida-des críticas dificulta el trazar una línea divisoria claraentre minería textual y recuperación de informaciónavanzada. Podríamos decir que la principal diferenciaentre estas dos corrientes de la informática documen-tal consiste en:

1. La minería textual hace explícitas algunas de lascaracterísticas utilizadas tradicionalmente por los sis-temas de recuperación de información, pero que per-manecían ocultas para los usuarios de estos sistemas.

Así, la navegación entre términos que ofrecen apli-caciones como Text Analyzer de Megaputer podríaconsiderarse como una exteriorización de los índicesinversos utilizados por las aplicaciones de recupera-ción textual. En la misma línea, la visualización declusters sería el resultado de mostrar la lógica que seencuentra detrás de la popular función de búsqueda“ver documentos similares”.

La función de generar resúmenes de forma auto-mática —que hemos citado como característica de lasaplicaciones de minería textual—, también forma par-te de los sistemas de recuperación de información. Porejemplo, la mayoría de los indexadores ofrecen unasíntesis de cada documento recuperado consistente enlos fragmentos que el sistema juzga más representati-vos.

2. Otra diferencia entre minería textual y sistemasde recuperación de información la encontramos en lasinterfaces que usamos para interactuar con las colec-ciones de documentos.

El profesional de la información, v. 13, n. 1, enero-febrero 200426

Ricardo Eíto Brun y Jose A. Senso

Las aplicaciones de minería textual ofrecen una in-terface que facilita el análisis y la lectura de los datosextraídos de distintos documentos. Es posible recupe-ración y visualización fragmentos de distintos docu-mentos, ver las relaciones entre términos de una formaexplícita, etc.

Frente a esto, las interfaces de los sistemas de re-cuperación de información están más centradas en eldocumento (y no en la colección o en el conocimientoque éstos contienen), con interfaces excesivamente ru-dimentarios que únicamente permiten la interacciónbasada en el patrón “formulación de la búsqueda->lis-ta de resultados->visualización individual de cada do-cumento recuperado”.

3. Por último, recordar algo comentado con ante-rioridad en este texto, y es que el objetivo de la recu-peración de información se centra en establecer losmecanismos para satisfacer las necesidades de infor-mación de un usuario. Sin embargo, en la minería tex-tual no sólo no tiene por qué existir esa necesidad sinoque tampoco es necesario formular una pregunta con-creta al sistema.

Estas similitudes y diferencias nos permiten consi-derar a la minería textual como una evolución de lossistemas de recuperación de información tradicionales,con un cambio en su alcance y objetivo. Quizás laprincipal diferencia entre estas dos aproximaciones seael mayor énfasis de la minería textual en la identifica-ción de nombres propios, conceptos y en la identifica-ción de las relaciones que existen entre ellos.

Por otra parte, un aspecto importante a favor de laminería textual es que con ella se están materializando(en forma de aplicaciones software comerciales y pro-yectos en empresas e instituciones), muchas técnicasdesarrolladas en el marco de la recuperación de infor-mación años atrás, y que hasta hace poco tiempo habí-an únicamente tenían un interés académico. El hechode que las herramientas de clustering aún no estén ge-neralizadas en las aplicaciones comerciales de recupe-ración textual a pesar de que su desarrollo teórico seremonta a los años 70 es una muestra de esta situación.

Como resumen, podemos afirmar que las herra-mientas de minería textual ofrecen una ayuda impor-tante en el proceso de acceder e interpretación la in-formación disponibles en los documentos. Probable-mente, en un futuro se complete la función actual conmayores capacidades deductivas por parte de las apli-caciones informáticas. Esto exigirá una mayor capaci-dad de los ordenadores para interpretar el lenguaje na-tural (y no sólo procesarlo, como pueden hacer a día dehoy). A la espera de que esto ocurra, los primeros re-sultados que podemos apreciar en las aplicaciones ci-

tadas en el apartado anterior pueden juzgarse satisfac-torios.

Notas

1. Concretamente en el StatSoft electronic textbook, disponible en:http://www.statsoft.com/textbook

Bibliografía sobre el tema

Berry, Michael W. Survey of text mining: clustering, classification, andretrieval. Septiembre, 2003.

Chang, George; Healey Marcus J. (eds.). Mining the world wide web -an information search approach-. [Dordrecht]: Kluwer, junio, 2001.192 p.

Franke, J.; Nakhaeizadeh, G.; Renz, I. (eds.). Text mining: theoreticalaspects and applications. Heidelberg: Physica Springer-Verlag, 2003.

Halliman, Charles. Business intelligence using smart techniques: envi-ronmental scanning using text mining and competitor analysis using sce-narios and manual simulation. 2001, 223 p.

Thuraisingham, Bhavani M. Web data mining and applications in busi-ness intelligence and counter-terrorism. [s.l.]: CRC Press, junio, 2003,592 p.

Tramullas Saz, Jesús. "Perspectivas en recuperación y explotación de in-formación electrónica: el data mining”. En: Scire, 1997, v. 3, n. 2,pp. 75-83.

Bibliografía utilizada

Arenas, Lourdes; Moral, Anselmo del. “Automatic indexing of docu-ments”. En: Nuevas tendencias en inteligencia artificial. Bilbao: Univer-sidad de Deusto, 1992, pp. 355-367.

Ananyan, Sergei; Kharlamov, Alexander. Automated analysis of natu-ral language texts. White paper de Megaputer. Consultado en: 27-12-03.http://www.megaputer.com/tech/wp/tm.php3

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information re-trieval. Harlow: Addison-Wesley , 1999, 514 p.

Berry, Michael W.; Drmac, Zlatko ; Jessup, Elizabetch R. “Matrices,vector spaces and information retrieval”. En: Siam Review, abril, 1999, v.41, n. 2, pp. 335-362. Consultado en: 27-12-03.http://www.siam.org/journals/sirev/41-2/34703.html

Chakrabarti, Soumen. Mining the Web: Discovering Knowledge FromHypertext Data. Amsterdam: Morgan Kaufmann, 2003, xviii, 345 p.

Cutting, Douglas R. [et al.]. “Scatter/gather: a cluster-based approach tobrowsing large document collections”. En: 15th Annual International Sirgi92. Consultado en: 27-12-03.http://citeseer.nj.nec.com/cutting92scattergather.html

Darpa information access office web site. Consultado en: 27-12-03.http://www.darpa.mil/iao

Deerwester, Scott [et al.]. “Indexing by latent semantic analysis”. En:Journal of the American Society for Information Science, 1990, v. 41, n.6, pp. 391-407. Consultado en: 27-12-03.http://lsa.colorado.edu/papers/JASIS.lsi.90.pdf

Etxeberría Murgiondo, Juan [et al.]. Análisis de datos y textos. Madrid:Ra-ma, 1995, xi, 372 p.

Kent, Allan; Lancour, Harold (ed.). Encyclopedia or library and infor-mation science. New York: Marcel Dekker, 1968-1989.

FAS (Federation of American Scientist) web site. Consultado en: 27-12-03.http://www.fas.org

Gemert, Jan Van. “Text mining tools on the internet: an overview”. En:Isis Technical Report Series, septiembre, 2000, v. 23. Consultado en: 27-12-03.http://www.ai.mit.edu/people/jimmylin/papers/Gemert00.pdf

El profesional de la información, v. 13, n. 1, enero-febrero 2004 27

Minería textual

Hearst, Marti. “Untangling text data mining”. En: Proceedings ofACL'99: the 37th annual meeting of the Association For ComputationalLinguistics, junio, 1999. Consultado en: 27-12-03.http://www.sims.berkeley.edu/~hearst/papers/acl99/acl99-tdm.html

IBM. Intelligent miner for text: guía de iniciación versión 2.3. 2ª ed. [S.l.]:IBM, diciembre, 1998. vii, 53 p. Publicación número SH 10-9238-01.

IBM. Text analysis tools: intelligent miner for text version 2.3.1. [S.l.]:IBM, junio 2000, viii, 92 p. Publicación número SH 12-6370-01.

Frakes, William B.; Baeza-Yates, Ricardo (eds.). Information retrieval:data structures & algorithms. New Jersey: Prentice Hall, 1992, viii, 504 p.

Jain, A. K.; Murty, M. N.; Flynn, P. J. “Data clustering: a review”. En:ACM Computing Surveys, septiembre, 1999, v. 31, n. 3, pp. 265-323.Consultado en: 27-12-03.

http://citeseer.nj.nec.com/jain99data.html

Klir, George J.; Yuan, Bo. Fuzzy sets and fuzzy logic: theory and appli-cations. New Jersey: Prentice Hall, 1995, xv, 574 p.

Landauer, Thomas K.; Foltz, Peter W.; Lahan, Darrell. “An introduc-tion to latent semantic analysis”. En: Discourse Processes, 1998, n. 25,pp. 259-284. Consultado en: 27-12-03.http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Lucas, Marty. Mining in textual mountains. [Entrevista a Marti Hearstrealizada el 18 de noviembre de 1999]. Consultado en: 27-12-03.http://mappa.mundi.net/trip-m/hearst

Maron, M. E.; Kuhns, J. L. “On relevance, probabilistic indexing andinformation retrieval”. En: Journal of the ACM, 1960, v. 7, n. 3, pp. 216-244.

Miyamoto, Sadaaki. Fuzzy sets in information retrieval and clusteranalysis. Dordrecht : Kluwer Academic Publishers , 1990, x, 258 p.

National strategy for combating terrorism. Febrero 2003. Consultado en:27-12-03.http://www.whitehouse.gov/news/releases/2003/02/counter_terrorism/counter_terrorism_strategy.pdf

Pao, Miranda Lee. Concepts of information retrieval. Englewood, Colo-rado: Libraries Unlimited, 1990.

Ravin, Yael. Extracting names from natural-language text: IBM researchreport. Almaden: IBM research division, 04/10/1997 (RC 20338 digitallibraries), 30 p.

Rijsbergen, C. J. Van. Information retrieval. 2ª ed. London [etc.]: But-terworths, 1979 (reimp. 1980).

Salton, Gerard; McGill, Michael J. Introduction to modern informationretrieval. New York [etc.]: McGraw Hill, 1983.

SAS Institute Inc. Getting started with SAS text miner software, release8.2. Pubcode: 58859. Consultado en: 27-12-03.http://www.sas.com

SAS text miner: distilling textual data for competitive business advanta-ge: a SAS white paper. Consultado en: 27-12-03.http://www.sas.com

“SAS signs text mining alliance with Inxight”. En: eWeek, 19 de enero de2002. Consultado en: 27-12-03.http://www.eweek.com

Sebastiani, Fabrizio. “Machine learning in automated text categoriza-tion”. En: ACM Computing Surveys, marzo, 2002, v. 34, n. 1, pp. 1-47.

StatSoft textbook. Consultado en: 27-21-03http://www.statsoft.com/textbook

Sullivan, Dan. Document warehousing and text mining. New York [etc.]:Wiley Computer Publishing, 2001, xviii, 542 p.

Swanson, Don R. “Assessing a gap in the biomedical literature: Magne-sium deficiency and neurologic disease”. En: Neuroscince Research Com-munications, 1994, n. 15, pp. 1-9.

Swanson, Don R. “An interactive system for finding complementary lite-ratures: a stimulus to scientific discovery”. En: Artificial Intelligence,1997, n. 91, pp. 183-203.

Swanson, Don R. “Two medical literatures that are logically but not bi-bliographically connected”. En: Journal of the American Society for In-formation Science, 1987, v. 38, n. 4, pp. 228-233.

Tan, Ah-Hwee. “Text mining: the state of the art and the challenges”. EnProceedings Pakdd'99 workshop on knowledge discovery from advanceddatabases, abril, 1999, pp. 71-76. Consultado en: 27-12-03.http://textmining.krdl.org.sg/people/ahhwee/

Thomas, Timothy L. “Al qaeda and the internet: the danger of ‘cyber-planning’”. En: Parameters, primavera, 2003. Consultado en: 27-12-03.http://fmso.leavenworth.army.mil/fmsopubs/ISSUES/alqaedainternet.htm

Watkins, D. S. Fundamentals of matrix computations. New York: JohnWiley & Sons, 1991.

Yang, Y.; Pedersen, J. O. “A comparative study on feature selection intext categorization”. En: Proceedings of the fourteenth international con-ference on machine learning, 1997.

Ricardo Eíto [email protected] A. [email protected]

Taylor & Francis The Netherlands, editora de esta revista, tiene encargada ladistribución de sus publicaciones a la siguiente empresa:

Extenza-Turpin. Blackhorse Road, Letchworth, SG6 1HN, Herts, Reino Unido.

Tel.: +44-146 267 2555; fax: 146 248 0947

[email protected]

Rogamos a nuestros suscriptores que para solventar cualquier asunto administra-tivo se dirijan siempre directamente a Extenza-Turpin. Recordamos que continúanen funcionamiento los números de teléfono de atención al suscriptor en Barcelona:

Tel.: +34-932 081 970; fax: 932 081 971