Punto de transicion

download Punto de transicion

of 8

Transcript of Punto de transicion

  • 8/16/2019 Punto de transicion

    1/8

  • 8/16/2019 Punto de transicion

    2/8

    (Salton y Buckley, 1988); esto es, el peso deun término, para un determinado documen-to, est á en funci ón directa de su frecuenciade aparici ón en el documento ( tf ), y en fun-ción inversa del n úmero de documentos quelo utilizan ( idf ).

    El modelo de espacio vectorial no es sola-mente usado para agrupar documentos conun alto n úmero de palabras, sino tambíenpara agrupar documentos cortos (alrededorde 50 a 100 palabras), por ejemplo, noticias,o informaci ón sobre publicidad, res´umenes deart́ıculos cient́ıcos, patentes, etc. Los docu-mentos de este tipo son los m´as interesantes,ya que la mayoŕıa de bibliotecas digitales, yotros almacenes basados en el web que ponen

    a disposici ón documentos cient́ıcos y de in-formaci ón técnica, actualmente proporcionanacceso libre únicamente a los res´umenes y noal texto completo de los documentos. Sin em-bargo dichas colecciones de documentos im-ponen retos importantes. Si suponemos quela colección contiene textos pertenecientesa dominios diferentes , tales como deportes,poĺıtica, etc; entonces éstos tendr´ an pocos oningún término en com´ un en sus vocabula-rios. En este caso, el tama˜no de los docu-mentos no es importante para los algoritmosde agrupamiento, ya que cualquier proce-dimiento de agrupamiento dividir´ a tales tex-tos en grupos (considerados como domi-nios) bien denidos (Dhillon, Guan, y Ko-gan, 2002); los documentos seŕ an mapead-os a subespacios de términos completamentedisjuntos dentro del espacio total de la cole-cción. Cuando trabajamos con textos de un solo dominio , la situaci ón es bastante diferen-te al caso anterior. Los grupos a identicartienen una gran cantidad de términos en laintersecci´on de sus vocabularios, y la diferen-cia entre estos grupos no solamente consistedel conjunto de términos ı́ndice sino tambiénde su proporci ón.

    En este trabajo abordamos el problemade agrupamiento de textos cortos, usandoel concepto de punto de transici´ on, una fre-cuencia intermedia del vocabulario de un tex-to. Te´oricamente, alrededor de esta frecuen-cia se encuentran las frecuencias de palabrascon mayor contenido sem´antico del texto.Por ello, se tiene conanza en que este en-

    foque permita elegir “mejores” términos queotros métodos de selecci´ on. Particularmente,la sencillez del método que ser´a presentado,no supervisado y sin el apoyo de fuentes de

    conocimiento externas, ofrece ventajas sobreotros métodos, a la vez que reduce el n´ umerode t́erminos.

    En las secciones que restan en este do-cumento, se presentan algunos trabajos rela-cionados con el tema de agrupamiento de tex-tos y selección de términos, una breve funda-mentaci´on del punto de transici´ on, los méto-dos de selección de términos que ser´ an utiliza-dos, la descripci ón del experimento llevado acabo, y las conclusiones.

    2. Trabajos relacionadosExisten muy pocos trabajos relacionados

    con el agrupamiento de textos cortos. Los tra-bajos presentados por Hynek et al. (Hyneky Rohlikm, 2000) y Zizka et al. (Zizka yBourek, 2002) usan métodos supervisadosque obtienen excelentes resultados, sin em-bargo requieren un conjunto de textos parael proceso de entrenamiento. En nuestro ca-so, como en el presentado por Mikhail et al.(Mikhail, Gelbukh, y Rosso, 2005), se usa unmétodo no supervisado, de tal manera que sedesconoce de antemano la cantidad de gruposa generar, aśı como las categorı́as de éstos.Makagonov et al. (Makagonov, Alexandrov,y Sboychakov, 2000) consideraron el proble-ma de agrupamiento de res´ umenes, sin em-bargo, en su trabajo, la colecci´ on de docu-mentos usada conteńıa textos pertenecientesa dominios f ácilmente distinguibles, y adem´ asel número de dominios era conocido de ante-mano.

    Makagonov et al. (Makagonov, Alexan-drov, y Gelbukh, 2004) usaron criteriosfuertes para la selecci´on de términos y unamedida combinada de cercańıa entre los do-cumentos (medidas del coseno y polinomial).Estos criterios pueden dar mayor conabi-lidad a los términos con frecuencias absolu-tas bajas de ocurrencia en los res´ umenes; lamedida combinada puede acercar los resulta-dos a la opini ón del experto. Sin embargo,ambas técnicas no son totalmente conablesya que no son justicadas adecuadamente,adem ás de haberse probado sobre situacionesen donde se conoce de antemano el n´ umerode grupos a generar.

    Es importante remarcar que los métodospara encontrar términos ı́ndice pueden ser,

    también supervisados o no. Un trabajo en es-ta direcci ón es (Kerner, Gross, y Masa, 2005).En él se presenta un conjunto de métodossupervisados y no supervisados para encon-

    H. Jiménez, D. Pinto, P. Rosso

    384

  • 8/16/2019 Punto de transicion

    3/8

    trar frases clave de un texto. En este traba- jo, como es de suponerse, los supervisados sonmejores pero, adem´as, se parte de los textoscompletos, y no solamente de los res´umenes.

    Mikhail et al. (Mikhail, Gelbukh, y Rosso,2005), proponen un método basado enfuentes de conocimiento externas ( corpus general balanceado) para la selecci´ on detérminos en documentos cortos y, posterior-mente, usan algoritmos de agrupamiento nosupervisados para generar grupos, particular-mente, el algoritmo de agrupamiento Major-Clust.

    Liu et al. (Liu et al., 2003) evaluaron al-gunos métodos de selecci´on de términos paraagrupamiento de textos aplicado a una sub-

    colección de Reuteres 21578. Se ñalan la di-cultad de realizar una buena selecci´ on parael caso de los métodos de selecci ón no su-pervisados, y proponen una técnica iterativapara elegir términos.

    3. El punto de transicí on

    El punto de transici´ on (PT) es una conse-cuencia de las observaciones de George Kins-ley Zipf, quién formul´o la ley de frecuenciasde palabras de un texto (Ley de Zipf), la cualestablece que el producto del rango por lafrecuencia de una palabra es constante (Zipf,1949). Esta regularidad estad́ıstica provienede la tensi ón entre dos fuerzas inherentesa los lenguajes naturales: unicaci´ on y di-versicaci´ on . La primera conduce a empleartérminos de ı́ndole general, mientras que lasegunda al uso de términos espećıcos. Lostérminos ligados a la primera fuerza estable-cen nexos con el entorno del texto, y los de lasegunda detallan su contenido. Esto sugiereque las palabras que caracterizan un texto nosean ni las m ás frecuentes ni las menos fre-cuentes, sino las que se encuentran en una fre-cuencia media de ocurrencia dentro del texto(Luhn, 1958).

    Algunos autores, llevaron a cabo experi-mentos con las ideas anteriores; la indizaci´ onautom ática de textos, y la identicaci´ on depalabras clave de un texto (Urbizag´ astegui,1999). A partir de la ley de ocurrencia depalabras con baja frecuencia propuesta porBooth (Booth, 1967), fue posible derivar una

    fórmula para localizar la frecuencia que di-vide en dos al vocabulario de un texto: laspalabras de baja, y alta frecuencia; justa-mente, el llamado punto de transici´ on. La

    fórmula para calcular el PT es:

    P T =√ 1 + 8 ×I 1 −1

    2 , (1)

    donde I 1 representa el n´umero de palabrascon frecuencia 1. De acuerdo con la carac-terizaci ón de las frecuencias medias (Booth,1967), el PT puede localizarse, en el vocabu-lario de un texto, identicando la frecuenciamás baja, de las altas, que no se repita. Estemétodo es particularmente ´ util para textoscortos; en la obtenci´on del extracto de un tex-to (Bueno, Pinto, y Jiménez-Salazar, 2005),y la identicaci ón de las palabras clave de untexto (Pinto y Pérez, 2004).

    Ha habido algunas aplicaciones que reve-lan la utilidad del PT. Espećıcamente, en elcorte de la selecci ón de términos por los méto-dos clásicos de selección (Moyotl y Jiménez,2004), y la selección de términos para ca-tegorizaci ón de textos (Moyotl-Hern´ andez yJiménez-Salazar, 2005).

    Debido a que un resumen re´ une las carac-teŕısticas de cualquier texto, el problema defrecuencia baja de los términos, decisivo enla representaci´on para procesamiento, puedeatenuarse considerando que se cumplen lasleyes derivadas de la de Zipf. En esencia, estahip ótesis es la que se pretende reforzar en elpresente trabajo.

    4. Eleccí on de t́erminos ı́ndiceEn numerosas tareas de procesamiento de

    texto (CT, RI, y AT, entre otras) es nece-sario representar los textos usando los térmi-nos contenidos en ellos. Sin embargo, suelehacerse una reducci´on de estos términos, de-bido a la gran cantidad de términos que ocur-ren en una colecci ón; adem ás de que el empleode todos los términos vicia el procedimiento,sea éste de clasicaci´on, resumen, etc. Aśı, seusan variados métodos para elegir los térmi-nos que representar´ an a los textos; es decirlos términos ı́ndice. La selecci´ on se hace conbase en una puntuaci´ on que el método asignaa cada término: se toma un porcentaje del to-tal de términos de los textos con la m´ as altapuntuaci´on.

    Los métodos de selecci´on pueden ser su-pervisados o no supervisados; esto es, lossupervisados utilizan informaci´ on acerca de

    los términos que tienen mayor capacidadpara determinar una clase, seg´ un la colecciónde entrenamiento (Sebastiani, 2002). Dos delos métodos supervisados m´ as efectivos son:

    Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos

    385

  • 8/16/2019 Punto de transicion

    4/8

    CHI, que mide la independencia entre la clasede un texto y un término contenido en eltexto; e IG cuya puntuaci´ on representa lacarencia de informaci´on que provee un térmi-no para predecir la clase del texto en el queocurre. En este trabajo utilizaremos métodosno supervisados puesto que resulta m´ as útilpara el tipo de problema que se pretende re-solver. Consideremos una colecci´ on de textosD = {T 1 , . . . , T k }. Tres son los métodos queabordaremos:Frecuencia entre documentos (DF).

    Asigna a cada término t el valor df t , quees el número de textos de D en los queocurre t. Se supone que los términosraros (baja frecuencia) dif́ıcilmenteocurrir án en otro texto y, por tanto, notienen capacidad para predecir la clasede un texto.

    Fuerza de enlace (TS). La puntuaci´onque se da a un término t está denidapor:

    ts t = Pr( t ∈ T i |t ∈ T j ),donde sim (T i , T j ) > β , y β es un umbralque debe ajustarse observando la matrizde similitudes entre los textos. Con baseen su denci ón, puede decirse que un va-lor alto de ts t signica que t contribuy´o aque, al menos, dos documentos fueranmás similares que el umbral β .

    Punto de transici´ on (PT). Los términosreciben un valor alto entre m´ as cercaesté su frecuencia del PT. Una forma dehacerlo es calcular el inverso de la dis-tancia entre la frecuencia del término yel PT:

    idtp t = 1

    |P T

    −f r (t )

    |+ 1

    ,

    donde f r (t) es la frecuencia local, (enel texto, y no en la colecci ón); esto es,los términos reciben una puntuaci´ on encada texto.

    DF es un método muy simple pero efectivo,por ejemplo, en categorizaci´ on de textos (CT)compite con los cl ásicos supervisados CHI eIG.

    También el método PT tiene un c´ alculosimple, y puede usarse de diversas formas.

    En especial para CT se ha visto mejor de-sempeño con P T df , o PT global; esto es, seconsidera df t , en lugar de la frecuencia localde los términos en cada texto de la colecci´ on.

    Los métodos DF y PT est´ an en la clase decomplejidad lineal con respecto al n´ umero detérminos de la colecci´on.

    El método TS ( Term Strength ) es muy dis-pendioso en su c álculo, pues requiere calcu-lar la matriz de similitudes entre documen-tos; cuadr´atico en el n úmero de textos. Perose reportan resultados de AT cercanos a losmétodos supervisados (Liu et al., 2003).

    4.1. Enriquecimiento de términosı́ndice

    Es común enriquecer los términos ı́ndice,por ejemplo, incluyendo sus sin´ onimos. Es-ta idea se emplea en diversos contextos; porejemplo, en RI se reere a la expansi´on de

    consultas. La expansi´on de un término tañade términos relacionados con t. El n esdetectar textos relevantes a la consulta me-diante los términos relacionados (Voorhees,1994). La expansi ón habr á de apoyarse enuna fuente que disponga los términos rela-cionados para cada término, un thesaurus .Aunque se dispone de ricas fuentes de infor-mación léxica, como WordNet, éstas son decar ácter general y no abarcan dominios espe-cializados.

    Empleamos una técnica basada en la pro-

    puesta de Hindle (Hindle, 1990) que apoyalos métodos de construcci´ on de thesauri . Sedice que dos términos son vecinos cercanos cuando uno de ellos coocurre con el otro en-tre los de mayor frecuencia, y viceversa. Enestos métodos es com´un utilizar una medi-da de asociaci ón como la informaci ón mutua.Sin embargo, estas medidas se usan en textosgrandes, y por ello nos limitamos a utilizarsolamente la frecuencia de los términos.

    A cada uno de los términos del vocabulariode una colecci ón de textos se asocia una lista

    de términos que coocurren frecuentemente enlas oraciones de la colecci ón. Si consideramosque los términos ı́ndice representan a cadatexto, entonces los términos asociados a losı́ndice representar´ an de una manera m´ as ricaa los textos.

    La lista de asociaci´on para cada términoı́ndice se calcula como sigue. Para cada térmi-no, x , en el vocabulario de la colecci ón su listaes:

    L (x ) =

    {(y, k )

    |k = # Ctx (x, y )

    },

    donde Ctx (x, y ) es el conjunto:

    {O |(existe T j ∈ D )∧(O ∈ T j )∧(x, y ∈ O )},

    H. Jiménez, D. Pinto, P. Rosso

    386

  • 8/16/2019 Punto de transicion

    5/8

    i.e. Ctx (x, y ) es el conjunto de contextos(tomados como oraciones) en los que coocur-ren x e y para alguna oraci´on de un texto dela colección.

    Denotemos con T los términos ı́ndice deT . Consideramos para cada término ı́ndice t(t ∈ T ) su lista de asociaciones, L(x ), or-denada por la segunda componente de susmiembros: [( y1 , k 1 ), (y2 , k 2 ), . . . ], ki ≥ ki +1(1 ≤ i ≤ # L (x ) −1). En ésta se realiza unrecorte de las parejas con df y = 1, debido aque son términos que no contribuyen al agru-pamiento aśı como los términos con frecuen-cias muy altas 1 .

    Sea L (x ) la lista de palabras asociadas alt́ermino x después de la eliminaci´ on de t́ermi-

    nos con frecuencias extremales. La expansi´ ondel conjunto de términos ı́ndice T es:

    T =x∈T

    {y|(y, k ) ∈ L (x )}.

    T es, entonces, una manera alternativa derepresentar el texto T .

    5. Experimento

    Ya que nos propusimos averiguar el de-sempeño del PT en la selecci´on de términosı́ndice, elegimos dos métodos no supervisadospara confrontar los resultados basados en elPT. Estos métodos fueron DF y TS.

    5.1. Colecci´ on de pruebaUna manera de medir la calidad de los

    grupos generados es trav́es del llamado gold standard , el cual consiste en el agrupamientomanual de textos completos. De esta manerapodemos determinar la utilidad de los gruposgenerados.

    Se utiliz ó una colección de prueba forma-da por 48 res úmenes de textos del dominioLing¨ úıstica Computacional y Procesamientode Textos , correspondiente al evento CiCLing 2002 . Los textos de la colecci ón est án repar-tidos en 4 clases:

    1. Lingǘıstica (sem´antica, sintaxis, mor-foloǵıa y parsing ).

    1 En este trabajo se descartaron las palabras cuyafrecuencia fuera mayor o igual al P T df calculado enla colección: paper , present , y use . Claramente ve-mos que estas palabras son iniciales comunes de losresúmenes. Adem´as, los métodos de selecci´ on har ánel trabajo de eliminar al menos un buen n´ umero depalabras de baja frecuencia.

    2. Ambigüedad (WSD, an´afora, etique-tamiento, y spelling ).

    3. Léxico (léxico, corpus , y generaci ón detexto).

    4. Procesamiento de texto (recuperací onde informaci ón, resumen autom´ atico, yclasicación de textos).

    Después de eliminar las palabras cerradas yaplicar un algoritmo de Porter para truncarel resto, el n úmero total de términos de lacolección fue 956, y cada texto contuvo 70.4términos en promedio.

    5.2. Método

    Consideramos en nuestro experimento unacolección de textos D = {T 1 , . . . , T k} con vo-cabulario V D . Los textos se encuentran clasi-cados en m clases C = {C 1 , . . . , C m }, for-mando una partici´ on de D ; D = ∪i C i yC i ∩i = j C j = ∅. Nuestro objetivo es obte-ner un agrupamiento de D ; i.e. una parti-ción, G = {G 1 , . . . , G n } lo “más parecida” aC . Aśı, es necesario conocer C , el gold stan-dard , para evaluar los resultados.

    Los términos ı́ndice de un texto se de-terminaron siguiendo los métodos presenta-dos en la sección 4. Denotaremos con Q p(D )el conjunto formado con p % de términosı́ndice determinados por el método Q sobrela colección D . Si nuestro método es DF ,DF 10 (D ) comprender´a el diez por ciento delos términos t con mayor valor df t en la colec-ción D . Cada texto ser´a representado por sustérminos ı́ndice ltrando su vocabulario conQ p(D ); tomado T como conjunto de térmi-nos, sus ı́ndices son: T = T ∩Q p(D ).Una vez representado cada texto por sustérminos ı́ndice se aplica el algoritmo star (Shin y Han, 2003), el cual inicia construyen-do la matriz de similitudes entre todas lasinstancias por agrupar. Utilizamos, en estaetapa, un umbral can´ onico denido como elpromedio de las similitudes. En el siguientepaso se realiza una iteraci´ on, en tanto existaninstancias que rebasen el umbral, se elige elpar de textos con m´axima similitud para for-mar el grupo en curso. Enseguida, se a˜ nadenal grupo en curso todas las instancias cuyasimilitud sea mayor que el umbral. Elimi-

    nadas las instancias agrupadas, se repite elproceso para formar otro grupo. En nuestroexperimento usamos la funci´ on de similitudde Jaccard (Manning y Sch¨ utze, 1999).

    Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos

    387

  • 8/16/2019 Punto de transicion

    6/8

  • 8/16/2019 Punto de transicion

    7/8

    al tomar m´as términos se sigue cumpliendoel objetivo de representar el texto. Sinembargo, cuando los términos no son ade-cuados se observa inestabilidad, variaci´ on nomonot ónica del ı́ndice F (ver F para DF yT S ).

    Se realizó, además, una evaluací on conuna clasicací on standard diferente (toma-da de la estructura que tiene la memoriadel evento CICLing-2002) compuesta de dosclases: Ling¨ uı́stica Computacional y Proce-samiento de Textos . Se reiter ó la ventaja quetiene PT sobre los otros dos métodos. Adi-cionalmente, se observ´o un valor F = 0 ,8725usando PT con lista de asociaci´ on de térmi-nos.

    6. ConclusionesSe conrmó, con una colección de tex-

    tos cortos, que los términos con frecuenciade ocurrencia media obtenidos a trav́es delpunto de transici´ on, representan mejor a lostextos, espećıcamente en la tarea de agru-pamiento. La sencillez para determinar el PTanima a continuar la experimentaci´ on, nosólo en AT sino, adem´as, en las vastas aplica-ciones del procesamiento autom´ atico de tex-tos. Adem ás, al enriquecer los términos con

    listas de asociaci ón se observa mayor estabi-lidad con los términos seleccionados por PT.Es necesario, por supuesto, reforzar las

    hip ótesis sobre el PT con una variedad hete-rogénea de colecciones, y continuar estudian-do las propiedades del PT, particularmente,el contenido sem ántico de los términos en unavecindad de esta frecuencia.

    Bibliograf́ıa Booth, A. D. 1967. A Law of Occurrences

    for Words of Low Frequency. Information and control , 10(4):386–393.

    Bueno, C., D. Pinto, y H. Jiménez-Salazar.2005. El párrafo virtual en la generaci´ onde extractos. En H. Calvo, editor, Re-search on Computing Science . InstitutoPolitécnico Nacional.

    Dhillon, I. S., Y. Guan, y J. Kogan. 2002.Rening clusters in high dimensional textdata. En Text Data Mining and Applica-tions .

    Gelbukh, A. F., editor. 2005. Computation-al Linguistics and Intelligent Text Pro-cessing, 6th International Conference, CI-CLing 2005, Mexico City, Mexico, Febru-

    ary 13-19, 2005, Proceedings , volumen3406 de Lecture Notes in Computer Sci-ence . Springer.

    Hindle, D. 1990. Noun classication from

    predicate-argument structures. En 28th Annual Meeting of the Association for Computational Linguistics , páginas 268–275.

    Hynek, J. K. y J. O. Rohlikm. 2000.Short Document Categorization ItemsetsMethod. En Jan M. Zytkow DjamelA. Zighed, Henryk Jan Komorowski,editor, Principles of Data Mining and Knowledge Discovery , volumen 1910 deLecture Notes in Computer Science , pági-

    nas 9–14, Lyon, France. Springer-Verlag.Kerner, Y. H., Z. Gross, y A. Masa. 2005.

    Automatic extraction and learning of keyphrases from scientic articles. EnGelbukh (Gelbukh, 2005), p´ aginas 657–669.

    Liu, T., S. Liu, Z. Chen, y W. Ma. 2003.An evaluation on feature selection for textclustering. En T. Fawcett y N. Mishra,editores, ICML, páginas 488–495. AAAIPress.

    Luhn, H. P. 1958. The Automatic Creationof Literature Abstracts. IBM Journal of Research Development , 2(2):159–165.

    Makagonov, P., M. Alexandrov, y A. Gel-bukh. 2004. Clustering Abstracts in-stead of Full Texts. En Proceedings of the Seventh International Conference on Text, Speech and Dialogue (TSD 2004) ,volumen 3206 de Lecture Notes in Arti- cial Intelligence , páginas 129–135, Brno,Czech Republic. Springer-Verlag.

    Makagonov, P., M. Alexandrov, y K. Sboy-chakov. 2000. Keyword-based technolo-gy for clustering short documents. Select-ed Papers. Computing Research , páginas105–114.

    Manning, D. C. y H. Sch¨utze. 1999. Foun-dations of statistical natural language pro-cessing . MIT Press.

    Mikhail, A., A. Gelbukh, y P. Rosso. 2005.An Approach to Clustering Abstracts.

    En Proceedings of the 10th Internation-al Conference NLDB-05 , Lecture Notes inComputer Science, p´aginas 8–13, Alicante,Spain. Springer-Verlag. To be published.

    Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos

    389

  • 8/16/2019 Punto de transicion

    8/8

    Moyotl, E. y H. Jiménez. 2004. An anal-ysis on frequency of terms for text cate-gorization. En SEPLN, editor, Memorias del XX Congreso de la Sociedad Espa˜ nola para el Procesamiento del Lenguaje Natu-ral , páginas 141–146. SEPLN.

    Moyotl-Hern´andez, E. y H. Jiménez-Salazar.2005. Enhancement of dtp feature selec-tion method for text categorization. EnGelbukh (Gelbukh, 2005), p´ aginas 719–722.

    Pinto, D. y F. Pérez. 2004. Una técni-ca para la identicaci´ on de términos mul-tipalabra. En L. Sandoval, editor, Pro-ceedings of the 2nd National Conference on Computer Science , páginas 257–259.BUAP Press.

    Rijsbergen, C. J. Van. 1979. Information Retrieval, 2nd edition . Dept. of ComputerScience, University of Glasgow.

    Salton, G. y C. Buckley. 1988. Term-weighted approaches in autometic re-trieval. Information Processing in Man-agement , 24(5):513–523.

    Sebastiani, F. 2002. Machine learning in au-tomated text categorization. ACM Com-puting Surveys , 34(1):1–47.

    Shin, K. y S. Y. Han. 2003. Fast clus-tering algorithm for information organiza-tion. En A. F. Gelbukh, editor, CICLing ,volumen 2588 de Lecture Notes in Com-puter Science , páginas 619–622. Springer.

    Urbizag ástegui, A. R. 1999. Las posibili-dades de la ley de zipf en la indizaci´onautom ática. Informe técnico, BUniversi-dad de California, Riverside.

    Voorhees, E. M. 1994. Query expansion us-ing lexical-semantic relations. En W. B.Croft y C. J. Van Rijsbergen, editores, SI-GIR , páginas 61–69. ACM/Springer.

    Zipf, G. K. 1949. Human behaviour and the principle of least effort . Addison-Wesley.

    Zizka, J. y A. Bourek. 2002. Automated Se-lection of Interesting Medical Text Doc-uments by the TEA Text Analyzer. EnA. Gelbukh, editor, Computational Lin-guistics and Intelligent Text Processing

    (CICLing-2002) , volumen 2276 de Lecture Notes in Computer Science , páginas 402–404, Mexico DF Mexico. Springer-Verlag.

    H. Jiménez, D. Pinto, P. Rosso

    390