Punto de transicion

8/16/2019 Punto de transicion

1/8


2/8

(Salton y Buckley, 1988); esto es, el peso deun término, para un determinado documen-to, est á en funci ón directa de su frecuenciade aparici ón en el documento ( tf ), y en fun-ción inversa del n úmero de documentos quelo utilizan ( idf ).

El modelo de espacio vectorial no es sola-mente usado para agrupar documentos conun alto n úmero de palabras, sino tambíenpara agrupar documentos cortos (alrededorde 50 a 100 palabras), por ejemplo, noticias,o informaci ón sobre publicidad, resúmenes deart́ıculos cient́ıcos, patentes, etc. Los docu-mentos de este tipo son los más interesantes,ya que la mayoŕıa de bibliotecas digitales, yotros almacenes basados en el web que ponen

a disposici ón documentos cient́ıcos y de in-formaci ón técnica, actualmente proporcionanacceso libre únicamente a los resúmenes y noal texto completo de los documentos. Sin em-bargo dichas colecciones de documentos im-ponen retos importantes. Si suponemos quela colección contiene textos pertenecientesa dominios diferentes , tales como deportes,poĺıtica, etc; entonces éstos tendr´ an pocos oningún término en com´ un en sus vocabula-rios. En este caso, el tamaño de los docu-mentos no es importante para los algoritmosde agrupamiento, ya que cualquier proce-dimiento de agrupamiento dividir´ a tales tex-tos en grupos (considerados como domi-nios) bien denidos (Dhillon, Guan, y Ko-gan, 2002); los documentos seŕ an mapead-os a subespacios de términos completamentedisjuntos dentro del espacio total de la cole-cción. Cuando trabajamos con textos de un solo dominio , la situaci ón es bastante diferen-te al caso anterior. Los grupos a identicartienen una gran cantidad de términos en laintersección de sus vocabularios, y la diferen-cia entre estos grupos no solamente consistedel conjunto de términos ı́ndice sino tambiénde su proporci ón.

En este trabajo abordamos el problemade agrupamiento de textos cortos, usandoel concepto de punto de transici´ on, una fre-cuencia intermedia del vocabulario de un tex-to. Teóricamente, alrededor de esta frecuen-cia se encuentran las frecuencias de palabrascon mayor contenido semántico del texto.Por ello, se tiene conanza en que este en-

foque permita elegir “mejores” términos queotros métodos de selecci´ on. Particularmente,la sencillez del método que será presentado,no supervisado y sin el apoyo de fuentes de

conocimiento externas, ofrece ventajas sobreotros métodos, a la vez que reduce el n´ umerode t́erminos.

En las secciones que restan en este do-cumento, se presentan algunos trabajos rela-cionados con el tema de agrupamiento de tex-tos y selección de términos, una breve funda-mentación del punto de transici´ on, los méto-dos de selección de términos que ser´ an utiliza-dos, la descripci ón del experimento llevado acabo, y las conclusiones.

2. Trabajos relacionadosExisten muy pocos trabajos relacionados

con el agrupamiento de textos cortos. Los tra-bajos presentados por Hynek et al. (Hyneky Rohlikm, 2000) y Zizka et al. (Zizka yBourek, 2002) usan métodos supervisadosque obtienen excelentes resultados, sin em-bargo requieren un conjunto de textos parael proceso de entrenamiento. En nuestro ca-so, como en el presentado por Mikhail et al.(Mikhail, Gelbukh, y Rosso, 2005), se usa unmétodo no supervisado, de tal manera que sedesconoce de antemano la cantidad de gruposa generar, aśı como las categorı́as de éstos.Makagonov et al. (Makagonov, Alexandrov,y Sboychakov, 2000) consideraron el proble-ma de agrupamiento de res´ umenes, sin em-bargo, en su trabajo, la colecci´ on de docu-mentos usada conteńıa textos pertenecientesa dominios f ácilmente distinguibles, y adem´ asel número de dominios era conocido de ante-mano.

Makagonov et al. (Makagonov, Alexan-drov, y Gelbukh, 2004) usaron criteriosfuertes para la selección de términos y unamedida combinada de cercańıa entre los do-cumentos (medidas del coseno y polinomial).Estos criterios pueden dar mayor conabi-lidad a los términos con frecuencias absolu-tas bajas de ocurrencia en los res´ umenes; lamedida combinada puede acercar los resulta-dos a la opini ón del experto. Sin embargo,ambas técnicas no son totalmente conablesya que no son justicadas adecuadamente,adem ás de haberse probado sobre situacionesen donde se conoce de antemano el n´ umerode grupos a generar.

Es importante remarcar que los métodospara encontrar términos ı́ndice pueden ser,

también supervisados o no. Un trabajo en es-ta direcci ón es (Kerner, Gross, y Masa, 2005).En él se presenta un conjunto de métodossupervisados y no supervisados para encon-

H. Jiménez, D. Pinto, P. Rosso

384


3/8

trar frases clave de un texto. En este trabajo, como es de suponerse, los supervisados sonmejores pero, además, se parte de los textoscompletos, y no solamente de los resúmenes.

Mikhail et al. (Mikhail, Gelbukh, y Rosso,2005), proponen un método basado enfuentes de conocimiento externas ( corpus general balanceado) para la selecci´ on detérminos en documentos cortos y, posterior-mente, usan algoritmos de agrupamiento nosupervisados para generar grupos, particular-mente, el algoritmo de agrupamiento Major-Clust.

Liu et al. (Liu et al., 2003) evaluaron al-gunos métodos de selección de términos paraagrupamiento de textos aplicado a una sub-

colección de Reuteres 21578. Se ñalan la di-cultad de realizar una buena selecci´ on parael caso de los métodos de selecci ón no su-pervisados, y proponen una técnica iterativapara elegir términos.

3. El punto de transicí on

El punto de transici´ on (PT) es una conse-cuencia de las observaciones de George Kins-ley Zipf, quién formuló la ley de frecuenciasde palabras de un texto (Ley de Zipf), la cualestablece que el producto del rango por lafrecuencia de una palabra es constante (Zipf,1949). Esta regularidad estad́ıstica provienede la tensi ón entre dos fuerzas inherentesa los lenguajes naturales: unicaci´ on y di-versicaci´ on . La primera conduce a empleartérminos de ı́ndole general, mientras que lasegunda al uso de términos espećıcos. Lostérminos ligados a la primera fuerza estable-cen nexos con el entorno del texto, y los de lasegunda detallan su contenido. Esto sugiereque las palabras que caracterizan un texto nosean ni las m ás frecuentes ni las menos fre-cuentes, sino las que se encuentran en una fre-cuencia media de ocurrencia dentro del texto(Luhn, 1958).

Algunos autores, llevaron a cabo experi-mentos con las ideas anteriores; la indizaci´ onautom ática de textos, y la identicaci´ on depalabras clave de un texto (Urbizag´ astegui,1999). A partir de la ley de ocurrencia depalabras con baja frecuencia propuesta porBooth (Booth, 1967), fue posible derivar una

fórmula para localizar la frecuencia que di-vide en dos al vocabulario de un texto: laspalabras de baja, y alta frecuencia; justa-mente, el llamado punto de transici´ on. La

fórmula para calcular el PT es:

P T =√ 1 + 8 ×I 1 −1

2 , (1)

donde I 1 representa el número de palabrascon frecuencia 1. De acuerdo con la carac-terizaci ón de las frecuencias medias (Booth,1967), el PT puede localizarse, en el vocabu-lario de un texto, identicando la frecuenciamás baja, de las altas, que no se repita. Estemétodo es particularmente ´ util para textoscortos; en la obtención del extracto de un tex-to (Bueno, Pinto, y Jiménez-Salazar, 2005),y la identicaci ón de las palabras clave de untexto (Pinto y Pérez, 2004).

Ha habido algunas aplicaciones que reve-lan la utilidad del PT. Espećıcamente, en elcorte de la selecci ón de términos por los méto-dos clásicos de selección (Moyotl y Jiménez,2004), y la selección de términos para ca-tegorizaci ón de textos (Moyotl-Hern´ andez yJiménez-Salazar, 2005).

Debido a que un resumen re´ une las carac-teŕısticas de cualquier texto, el problema defrecuencia baja de los términos, decisivo enla representación para procesamiento, puedeatenuarse considerando que se cumplen lasleyes derivadas de la de Zipf. En esencia, estahip ótesis es la que se pretende reforzar en elpresente trabajo.

4. Eleccí on de t́erminos ı́ndiceEn numerosas tareas de procesamiento de

texto (CT, RI, y AT, entre otras) es nece-sario representar los textos usando los térmi-nos contenidos en ellos. Sin embargo, suelehacerse una reducción de estos términos, de-bido a la gran cantidad de términos que ocur-ren en una colecci ón; adem ás de que el empleode todos los términos vicia el procedimiento,sea éste de clasicación, resumen, etc. Aśı, seusan variados métodos para elegir los térmi-nos que representar´ an a los textos; es decirlos términos ı́ndice. La selecci´ on se hace conbase en una puntuaci´ on que el método asignaa cada término: se toma un porcentaje del to-tal de términos de los textos con la m´ as altapuntuación.

Los métodos de selección pueden ser su-pervisados o no supervisados; esto es, lossupervisados utilizan informaci´ on acerca de

los términos que tienen mayor capacidadpara determinar una clase, seg´ un la colecciónde entrenamiento (Sebastiani, 2002). Dos delos métodos supervisados m´ as efectivos son:

Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos

385


4/8

CHI, que mide la independencia entre la clasede un texto y un término contenido en eltexto; e IG cuya puntuaci´ on representa lacarencia de información que provee un térmi-no para predecir la clase del texto en el queocurre. En este trabajo utilizaremos métodosno supervisados puesto que resulta m´ as útilpara el tipo de problema que se pretende re-solver. Consideremos una colecci´ on de textosD = {T 1 , . . . , T k }. Tres son los métodos queabordaremos:Frecuencia entre documentos (DF).

Asigna a cada término t el valor df t , quees el número de textos de D en los queocurre t. Se supone que los términosraros (baja frecuencia) dif́ıcilmenteocurrir án en otro texto y, por tanto, notienen capacidad para predecir la clasede un texto.

Fuerza de enlace (TS). La puntuaciónque se da a un término t está denidapor:

ts t = Pr( t ∈ T i |t ∈ T j ),donde sim (T i , T j ) > β , y β es un umbralque debe ajustarse observando la matrizde similitudes entre los textos. Con baseen su denci ón, puede decirse que un va-lor alto de ts t signica que t contribuyó aque, al menos, dos documentos fueranmás similares que el umbral β .

Punto de transici´ on (PT). Los términosreciben un valor alto entre m´ as cercaesté su frecuencia del PT. Una forma dehacerlo es calcular el inverso de la dis-tancia entre la frecuencia del término yel PT:

idtp t = 1

|P T

−f r (t )

|+ 1

,

donde f r (t) es la frecuencia local, (enel texto, y no en la colecci ón); esto es,los términos reciben una puntuaci´ on encada texto.

DF es un método muy simple pero efectivo,por ejemplo, en categorizaci´ on de textos (CT)compite con los cl ásicos supervisados CHI eIG.

También el método PT tiene un c´ alculosimple, y puede usarse de diversas formas.

En especial para CT se ha visto mejor de-sempeño con P T df , o PT global; esto es, seconsidera df t , en lugar de la frecuencia localde los términos en cada texto de la colecci´ on.

Los métodos DF y PT est´ an en la clase decomplejidad lineal con respecto al n´ umero detérminos de la colección.

El método TS ( Term Strength ) es muy dis-pendioso en su c álculo, pues requiere calcu-lar la matriz de similitudes entre documen-tos; cuadrático en el n úmero de textos. Perose reportan resultados de AT cercanos a losmétodos supervisados (Liu et al., 2003).

4.1. Enriquecimiento de términosı́ndice

Es común enriquecer los términos ı́ndice,por ejemplo, incluyendo sus sin´ onimos. Es-ta idea se emplea en diversos contextos; porejemplo, en RI se reere a la expansión de

consultas. La expansión de un término tañade términos relacionados con t. El n esdetectar textos relevantes a la consulta me-diante los términos relacionados (Voorhees,1994). La expansi ón habr á de apoyarse enuna fuente que disponga los términos rela-cionados para cada término, un thesaurus .Aunque se dispone de ricas fuentes de infor-mación léxica, como WordNet, éstas son decar ácter general y no abarcan dominios espe-cializados.

Empleamos una técnica basada en la pro-

puesta de Hindle (Hindle, 1990) que apoyalos métodos de construcci´ on de thesauri . Sedice que dos términos son vecinos cercanos cuando uno de ellos coocurre con el otro en-tre los de mayor frecuencia, y viceversa. Enestos métodos es común utilizar una medi-da de asociaci ón como la informaci ón mutua.Sin embargo, estas medidas se usan en textosgrandes, y por ello nos limitamos a utilizarsolamente la frecuencia de los términos.

A cada uno de los términos del vocabulariode una colecci ón de textos se asocia una lista

de términos que coocurren frecuentemente enlas oraciones de la colecci ón. Si consideramosque los términos ı́ndice representan a cadatexto, entonces los términos asociados a losı́ndice representar´ an de una manera m´ as ricaa los textos.

La lista de asociación para cada términoı́ndice se calcula como sigue. Para cada térmi-no, x , en el vocabulario de la colecci ón su listaes:

L (x ) =

{(y, k )

|k = # Ctx (x, y )

},

donde Ctx (x, y ) es el conjunto:

{O |(existe T j ∈ D )∧(O ∈ T j )∧(x, y ∈ O )},


386


5/8

i.e. Ctx (x, y ) es el conjunto de contextos(tomados como oraciones) en los que coocur-ren x e y para alguna oración de un texto dela colección.

Denotemos con T los términos ı́ndice deT . Consideramos para cada término ı́ndice t(t ∈ T ) su lista de asociaciones, L(x ), or-denada por la segunda componente de susmiembros: [( y1 , k 1 ), (y2 , k 2 ), . . . ], ki ≥ ki +1(1 ≤ i ≤ # L (x ) −1). En ésta se realiza unrecorte de las parejas con df y = 1, debido aque son términos que no contribuyen al agru-pamiento aśı como los términos con frecuen-cias muy altas 1 .

Sea L (x ) la lista de palabras asociadas alt́ermino x después de la eliminaci´ on de t́ermi-

nos con frecuencias extremales. La expansi´ ondel conjunto de términos ı́ndice T es:

T =x∈T

{y|(y, k ) ∈ L (x )}.

T es, entonces, una manera alternativa derepresentar el texto T .

5. Experimento

Ya que nos propusimos averiguar el de-sempeño del PT en la selección de términosı́ndice, elegimos dos métodos no supervisadospara confrontar los resultados basados en elPT. Estos métodos fueron DF y TS.

5.1. Colecci´ on de pruebaUna manera de medir la calidad de los

grupos generados es trav́es del llamado gold standard , el cual consiste en el agrupamientomanual de textos completos. De esta manerapodemos determinar la utilidad de los gruposgenerados.

Se utiliz ó una colección de prueba forma-da por 48 res úmenes de textos del dominioLing¨ úıstica Computacional y Procesamientode Textos , correspondiente al evento CiCLing 2002 . Los textos de la colecci ón est án repar-tidos en 4 clases:

1. Lingǘıstica (semántica, sintaxis, mor-foloǵıa y parsing ).

1 En este trabajo se descartaron las palabras cuyafrecuencia fuera mayor o igual al P T df calculado enla colección: paper , present , y use . Claramente ve-mos que estas palabras son iniciales comunes de losresúmenes. Además, los métodos de selecci´ on har ánel trabajo de eliminar al menos un buen n´ umero depalabras de baja frecuencia.

2. Ambigüedad (WSD, anáfora, etique-tamiento, y spelling ).

3. Léxico (léxico, corpus , y generaci ón detexto).

4. Procesamiento de texto (recuperací onde informaci ón, resumen autom´ atico, yclasicación de textos).

Después de eliminar las palabras cerradas yaplicar un algoritmo de Porter para truncarel resto, el n úmero total de términos de lacolección fue 956, y cada texto contuvo 70.4términos en promedio.

5.2. Método

Consideramos en nuestro experimento unacolección de textos D = {T 1 , . . . , T k} con vo-cabulario V D . Los textos se encuentran clasi-cados en m clases C = {C 1 , . . . , C m }, for-mando una partici´ on de D ; D = ∪i C i yC i ∩i = j C j = ∅. Nuestro objetivo es obte-ner un agrupamiento de D ; i.e. una parti-ción, G = {G 1 , . . . , G n } lo “más parecida” aC . Aśı, es necesario conocer C , el gold stan-dard , para evaluar los resultados.

Los términos ı́ndice de un texto se de-terminaron siguiendo los métodos presenta-dos en la sección 4. Denotaremos con Q p(D )el conjunto formado con p % de términosı́ndice determinados por el método Q sobrela colección D . Si nuestro método es DF ,DF 10 (D ) comprenderá el diez por ciento delos términos t con mayor valor df t en la colec-ción D . Cada texto será representado por sustérminos ı́ndice ltrando su vocabulario conQ p(D ); tomado T como conjunto de térmi-nos, sus ı́ndices son: T = T ∩Q p(D ).Una vez representado cada texto por sustérminos ı́ndice se aplica el algoritmo star (Shin y Han, 2003), el cual inicia construyen-do la matriz de similitudes entre todas lasinstancias por agrupar. Utilizamos, en estaetapa, un umbral can´ onico denido como elpromedio de las similitudes. En el siguientepaso se realiza una iteraci´ on, en tanto existaninstancias que rebasen el umbral, se elige elpar de textos con máxima similitud para for-mar el grupo en curso. Enseguida, se a˜ nadenal grupo en curso todas las instancias cuyasimilitud sea mayor que el umbral. Elimi-

nadas las instancias agrupadas, se repite elproceso para formar otro grupo. En nuestroexperimento usamos la funci´ on de similitudde Jaccard (Manning y Sch¨ utze, 1999).


387


6/8


7/8

al tomar más términos se sigue cumpliendoel objetivo de representar el texto. Sinembargo, cuando los términos no son ade-cuados se observa inestabilidad, variaci´ on nomonot ónica del ı́ndice F (ver F para DF yT S ).

Se realizó, además, una evaluací on conuna clasicací on standard diferente (toma-da de la estructura que tiene la memoriadel evento CICLing-2002) compuesta de dosclases: Ling¨ uı́stica Computacional y Proce-samiento de Textos . Se reiter ó la ventaja quetiene PT sobre los otros dos métodos. Adi-cionalmente, se observó un valor F = 0 ,8725usando PT con lista de asociaci´ on de térmi-nos.

6. ConclusionesSe conrmó, con una colección de tex-

tos cortos, que los términos con frecuenciade ocurrencia media obtenidos a trav́es delpunto de transici´ on, representan mejor a lostextos, espećıcamente en la tarea de agru-pamiento. La sencillez para determinar el PTanima a continuar la experimentaci´ on, nosólo en AT sino, además, en las vastas aplica-ciones del procesamiento autom´ atico de tex-tos. Adem ás, al enriquecer los términos con

listas de asociaci ón se observa mayor estabi-lidad con los términos seleccionados por PT.Es necesario, por supuesto, reforzar las

hip ótesis sobre el PT con una variedad hete-rogénea de colecciones, y continuar estudian-do las propiedades del PT, particularmente,el contenido sem ántico de los términos en unavecindad de esta frecuencia.

Bibliograf́ıa Booth, A. D. 1967. A Law of Occurrences

for Words of Low Frequency. Information and control , 10(4):386–393.

Bueno, C., D. Pinto, y H. Jiménez-Salazar.2005. El párrafo virtual en la generaci´ onde extractos. En H. Calvo, editor, Re-search on Computing Science . InstitutoPolitécnico Nacional.

Dhillon, I. S., Y. Guan, y J. Kogan. 2002.Rening clusters in high dimensional textdata. En Text Data Mining and Applica-tions .

Gelbukh, A. F., editor. 2005. Computation-al Linguistics and Intelligent Text Pro-cessing, 6th International Conference, CI-CLing 2005, Mexico City, Mexico, Febru-

ary 13-19, 2005, Proceedings , volumen3406 de Lecture Notes in Computer Sci-ence . Springer.

Hindle, D. 1990. Noun classication from

predicate-argument structures. En 28th Annual Meeting of the Association for Computational Linguistics , páginas 268–275.

Hynek, J. K. y J. O. Rohlikm. 2000.Short Document Categorization ItemsetsMethod. En Jan M. Zytkow DjamelA. Zighed, Henryk Jan Komorowski,editor, Principles of Data Mining and Knowledge Discovery , volumen 1910 deLecture Notes in Computer Science , pági-

nas 9–14, Lyon, France. Springer-Verlag.Kerner, Y. H., Z. Gross, y A. Masa. 2005.

Automatic extraction and learning of keyphrases from scientic articles. EnGelbukh (Gelbukh, 2005), p´ aginas 657–669.

Liu, T., S. Liu, Z. Chen, y W. Ma. 2003.An evaluation on feature selection for textclustering. En T. Fawcett y N. Mishra,editores, ICML, páginas 488–495. AAAIPress.

Luhn, H. P. 1958. The Automatic Creationof Literature Abstracts. IBM Journal of Research Development , 2(2):159–165.

Makagonov, P., M. Alexandrov, y A. Gel-bukh. 2004. Clustering Abstracts in-stead of Full Texts. En Proceedings of the Seventh International Conference on Text, Speech and Dialogue (TSD 2004) ,volumen 3206 de Lecture Notes in Arti- cial Intelligence , páginas 129–135, Brno,Czech Republic. Springer-Verlag.

Makagonov, P., M. Alexandrov, y K. Sboy-chakov. 2000. Keyword-based technolo-gy for clustering short documents. Select-ed Papers. Computing Research , páginas105–114.

Manning, D. C. y H. Schütze. 1999. Foun-dations of statistical natural language pro-cessing . MIT Press.

Mikhail, A., A. Gelbukh, y P. Rosso. 2005.An Approach to Clustering Abstracts.

En Proceedings of the 10th Internation-al Conference NLDB-05 , Lecture Notes inComputer Science, páginas 8–13, Alicante,Spain. Springer-Verlag. To be published.


389


8/8

Moyotl, E. y H. Jiménez. 2004. An anal-ysis on frequency of terms for text cate-gorization. En SEPLN, editor, Memorias del XX Congreso de la Sociedad Espa˜ nola para el Procesamiento del Lenguaje Natu-ral , páginas 141–146. SEPLN.

Moyotl-Hern´andez, E. y H. Jiménez-Salazar.2005. Enhancement of dtp feature selec-tion method for text categorization. EnGelbukh (Gelbukh, 2005), p´ aginas 719–722.

Pinto, D. y F. Pérez. 2004. Una técni-ca para la identicaci´ on de términos mul-tipalabra. En L. Sandoval, editor, Pro-ceedings of the 2nd National Conference on Computer Science , páginas 257–259.BUAP Press.

Rijsbergen, C. J. Van. 1979. Information Retrieval, 2nd edition . Dept. of ComputerScience, University of Glasgow.

Salton, G. y C. Buckley. 1988. Term-weighted approaches in autometic re-trieval. Information Processing in Man-agement , 24(5):513–523.

Sebastiani, F. 2002. Machine learning in au-tomated text categorization. ACM Com-puting Surveys , 34(1):1–47.

Shin, K. y S. Y. Han. 2003. Fast clus-tering algorithm for information organiza-tion. En A. F. Gelbukh, editor, CICLing ,volumen 2588 de Lecture Notes in Com-puter Science , páginas 619–622. Springer.

Urbizag ástegui, A. R. 1999. Las posibili-dades de la ley de zipf en la indizaci´onautom ática. Informe técnico, BUniversi-dad de California, Riverside.

Voorhees, E. M. 1994. Query expansion us-ing lexical-semantic relations. En W. B.Croft y C. J. Van Rijsbergen, editores, SI-GIR , páginas 61–69. ACM/Springer.

Zipf, G. K. 1949. Human behaviour and the principle of least effort . Addison-Wesley.

Zizka, J. y A. Bourek. 2002. Automated Se-lection of Interesting Medical Text Doc-uments by the TEA Text Analyzer. EnA. Gelbukh, editor, Computational Lin-guistics and Intelligent Text Processing

(CICLing-2002) , volumen 2276 de Lecture Notes in Computer Science , páginas 402–404, Mexico DF Mexico. Springer-Verlag.


390

Punto de transicion

Documents

Transcript of Punto de transicion