Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de...

8
Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificaci´on de P´ aginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga, V´ ıctor Fresno, Raquel Mart´ ınez Departamento de Lenguajes y Sistemas Inform´aticos Universidad Nacional de Educaci´on a Distancia C/Juan del Rosal, 16, E-28040 Madrid {azubiaga, vfresno, raquel}@lsi.uned.es Resumen: En este art´ ıculo se realiza un estudio de diferentes aproximaciones a la clasificaci´on semisupervisada multiclase de p´aginas web mediante SVM. Ante la naturaleza binaria y supervisada de los algoritmos SVM cl´asicos, y tratando de evitar problemas de optimizaci´on complejos, se propone un enfoque basado en la combinaci´ on de clasificadores, tanto binarios semisupervisados como clasificadores multiclase supervisados. Los resultados de los experimentos realizados sobre tres colecciones de referencia muestran un rendimiento notablemente superior para la combinaci´ on de clasificadores multiclase supervisados. Por otro lado, en este trabajo tambi´ en se realiza un estudio sobre la aportaci´on de los documentos no etiquetados en la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferencia de los problemas binarios, se obtiene una mayor efectividad cuando se ignora este tipo de datos para problemas multiclase. Palabras clave: SVM, multiclase, semisupervisado, clasificaci´on de p´aginas web Abstract: In this paper we present a study on semi-supervised multiclass web page classification using SVM. Due to the binary and supervised nature of the classical SVM algorithms, and trying to avoid complex optimization problems, we propose an approach based on the combination of classifiers, not only binary semi-supervised classifiers but also multiclass supervised ones. The results of our experiments over three benchmark datasets show noticeably higher performance for the combination of multiclass supervised classifiers. On the other hand, we analyze the contribution of unlabeled documents during the learning process for these environments. In our case, and unlike for binary tasks, we get higher effectiveness for multiclass tasks when no unlabeled documents are taken into account. Keywords: SVM, multiclass, semi-supervised, web page classification 1. Introducci´on El n´ umero de documentos web est´a cre- ciendo muy r´apidamente en los ´ ultimos a˜ nos, lo que hace que su organizaci´on resulte cada vez m´as costosa y complicada. Es por ello que la clasificaci´on de p´aginas web se ha conver- tido en una tarea cada vez m´as necesaria y cr´ ıtica. La clasificaci´on de p´aginas web puede de- finirse como la tarea de organizar una serie de documentos web etiquet´andolos con sus un conjunto de categor´ ıas prefijadas. Aun- que se han realizado m´ ultiples estudios para clasificaci´ on de textos, sobre todo en la ra- ma de noticias, su aplicaci´on sobre p´aginas webest´aa´ un por profundizar (Qi y Davison, 2007). En este trabajo se pone el foco en la clasificaci´ on de p´aginas web enmarcada den- tro del paradigma del aprendizaje autom´atico (Mitchell, 1997). Los problemas de clasificaci´on se pueden dividir en diferentes tipos. Por una parte, la clasificaci´ on puede ser binaria, donde ´ unica- mente existen dos categor´ ıas posibles para ca- da documento, o puede ser multiclase, donde se dispone de tres o m´as categor´ ıas; y por otra, el sistema de aprendizaje con el que se alimenta el clasificador puede ser supervisa- Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 63-70 recibido 13-01-09, aceptado 02-03-09 ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Transcript of Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de...

Page 1: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

Comparativa de Aproximaciones a SVM SemisupervisadoMulticlase para Clasificacion de Paginas Web

A Comparison of Approaches to Semi-supervised Multiclass SVM for WebPage Classification

Arkaitz Zubiaga, Vıctor Fresno, Raquel MartınezDepartamento de Lenguajes y Sistemas Informaticos

Universidad Nacional de Educacion a DistanciaC/Juan del Rosal, 16, E-28040 Madrid{azubiaga, vfresno, raquel}@lsi.uned.es

Resumen: En este artıculo se realiza un estudio de diferentes aproximaciones ala clasificacion semisupervisada multiclase de paginas web mediante SVM. Ante lanaturaleza binaria y supervisada de los algoritmos SVM clasicos, y tratando deevitar problemas de optimizacion complejos, se propone un enfoque basado en lacombinacion de clasificadores, tanto binarios semisupervisados como clasificadoresmulticlase supervisados. Los resultados de los experimentos realizados sobre trescolecciones de referencia muestran un rendimiento notablemente superior para lacombinacion de clasificadores multiclase supervisados. Por otro lado, en este trabajotambien se realiza un estudio sobre la aportacion de los documentos no etiquetadosen la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferenciade los problemas binarios, se obtiene una mayor efectividad cuando se ignora estetipo de datos para problemas multiclase.Palabras clave: SVM, multiclase, semisupervisado, clasificacion de paginas web

Abstract: In this paper we present a study on semi-supervised multiclass web pageclassification using SVM. Due to the binary and supervised nature of the classicalSVM algorithms, and trying to avoid complex optimization problems, we proposean approach based on the combination of classifiers, not only binary semi-supervisedclassifiers but also multiclass supervised ones. The results of our experiments overthree benchmark datasets show noticeably higher performance for the combinationof multiclass supervised classifiers. On the other hand, we analyze the contributionof unlabeled documents during the learning process for these environments. In ourcase, and unlike for binary tasks, we get higher effectiveness for multiclass taskswhen no unlabeled documents are taken into account.Keywords: SVM, multiclass, semi-supervised, web page classification

1. Introduccion

El numero de documentos web esta cre-ciendo muy rapidamente en los ultimos anos,lo que hace que su organizacion resulte cadavez mas costosa y complicada. Es por ello quela clasificacion de paginas web se ha conver-tido en una tarea cada vez mas necesaria ycrıtica.

La clasificacion de paginas web puede de-finirse como la tarea de organizar una seriede documentos web etiquetandolos con susun conjunto de categorıas prefijadas. Aun-que se han realizado multiples estudios paraclasificacion de textos, sobre todo en la ra-

ma de noticias, su aplicacion sobre paginasweb esta aun por profundizar (Qi y Davison,2007). En este trabajo se pone el foco en laclasificacion de paginas web enmarcada den-tro del paradigma del aprendizaje automatico(Mitchell, 1997).

Los problemas de clasificacion se puedendividir en diferentes tipos. Por una parte, laclasificacion puede ser binaria, donde unica-mente existen dos categorıas posibles para ca-da documento, o puede ser multiclase, dondese dispone de tres o mas categorıas; y porotra, el sistema de aprendizaje con el que sealimenta el clasificador puede ser supervisa-

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 63-70 recibido 13-01-09, aceptado 02-03-09

ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

do, donde todos los documentos de entrena-miento estan previamente etiquetados, o se-misupervisado, donde se aprende con una co-leccion de entrenamiento compuesta por al-gunos documentos etiquetados y muchos noetiquetados.

En los ultimos anos, se han aplicado dife-rentes tipos de algoritmos al problema de laclasificacion de textos (Sebastiani, 2002). Pa-ra esta tarea, las maquinas de vectores de so-porte (SVM, Support Vector Machines (Joa-chims, 1998)) se han perfilado como una bue-na alternativa, que ofrecen, entre otras, lassiguientes ventajas:

No se requiere una seleccion o reduccionde terminos. En caso de que una clase sedistribuya en areas separadas del espa-cio vectorial, sera la transformacion delespacio mediante la funcion de kernel laque se ocupe de solucionarlo.

No es necesario realizar un esfuerzo deajuste de parametros en el caso de pro-blemas linealmente separables, ya quedispone de su propio metodo para ello.

Su transformacion a aprendizaje semisu-pervisado se convierte, generalmente, enun comportamiento transductivo, lo queposibilita el maximo refinamiento en ladefinicion del clasificador.

Teniendo en cuenta que la clasificacion depaginas web es, generalmente, un problemamulticlase, y que el numero de documentosetiquetados del que se dispone, comparadocon las dimensiones de la Web, es muy reduci-do, el problema se convierte de forma naturalen un problema multiclase y semisupervisa-do. Por ello, y debido a su naturaleza binariay supervisada, es necesaria una adaptacionde la tecnica SVM clasica. Existen diversosestudios referentes tanto a SVM multiclasecomo a SVM semisupervisado, pero apenasse ha investigado en la union de ambos ca-sos. Frente a una aproximacion directa, ba-sada en un problema de optimizacion com-plejo, este artıculo propone y evalua diferen-tes aproximaciones para la implementacionde un metodo de SVM multiclase y semisu-pervisado, basandose en la combinacion declasificadores.

En la seccion 2 se explican los avances ob-tenidos en los ultimos anos en la clasificacionmediante SVM, tanto para aprendizaje semi-supervisado como para taxonomıas multicla-

se. En la seccion 3, se presentan las alter-nativas propuestas en este trabajo para cla-sificacion semisupervisada multiclase. En laseccion 4, se muestran los detalles de la expe-rimentacion realizada, para seguir en la sec-cion 5 con el analisis de los resultados. En laseccion 6, para finalizar, se exponen las con-clusiones extraıdas tras el proceso.

2. Clasificacion con SVM

En la ultima decada, SVM se ha converti-do en una de las tecnicas mas utilizadas paratareas de clasificacion, debido a los buenosresultados que se han obtenido. Esta tecnicase basa en la representacion de los documen-tos en un modelo de espacio vectorial, dondese asume que los documentos de cada clasese agrupan en regiones separables del espaciode representacion. En base a ello, trata debuscar un hiperplano que separe cada clase,maximizando la distancia entre los documen-tos y el propio hiperplano, lo que se denomi-na margen (ver Figura 1). Este hiperplano sedefine mediante la siguiente funcion:

f(x) = w · x + b

Figura 1: Ejemplo de maximizacion del mar-gen con SVM, donde la lınea mas gruesa serıala escogida por el sistema.

La optimizacion de esta funcion supondrıatener en cuenta todos los valores posibles pa-ra w y b, para despues quedarse con aquellosque maximicen los margenes. Esto resultamuy difıcil de optimizar, por lo que en lapractica se utiliza la siguiente funcion de op-timizacion equivalente (ver Figura 2):

mın12||w||2 + C

l∑

i=1

ξdi

Sujeto a: yi(w · xi + b) ≥ 1− ξi, ξi ≥ 0

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

64

Page 3: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

donde C es el parametro de penalizaciony ξi es la distancia entre el hiperplano y eldocumento i.

Figura 2: Representacion grafica de la funcionde clasificacion de SVM.

De esta manera unicamente se resuelvenproblemas linealmente separables, por lo queen muchos casos se requiere de la utilizacionde una funcion de kernel para la redimensiondel espacio. Ası, el nuevo espacio obtenido re-sultara linealmente separable. Posteriormen-te, la redimension se deshace, de modo que elhiperplano encontrado sera transformado alespacio original, constituyendo la funcion declasificacion.

Es importante destacar que esta funcionunicamente puede resolver problemas bina-rios y de forma supervisada.

2.1. SVM multiclase

Debido a la naturaleza dicotomica deSVM, surgio la necesidad de implementarnuevos metodos que pudieran resolver pro-blemas multiclase, en los que la taxonomıaesta compuesta por mas de dos clases. Co-mo aproximacion directa, (Weston y Wat-kins, 1999) proponen una modificacion de lafuncion de optimizacion que tiene en cuentatodas las clases, generalizando la funcion deoptimizacion binaria para el numero deseadok de clases:

mın12

k∑

m=1

||wm||2 + Cl∑

i=1

m6=yi

ξmi

Sujeto a:

wyi · xi + byi ≥ wm · xi + bm + 2− ξmi , ξm

i ≥ 0

Otras tecnicas para la aproximacion aSVM multiclase de k clases se han basadoen la combinacion de clasificadores binarios(Hsu y Lin, 2002). Estas tecnicas descompo-nen el problema multiclase en pequenos pro-blemas binarios, aplicando despues diferentesfunciones de decision para unirlos. Las tecni-cas mas conocidas para clasificacion median-te combinacion de problemas binarios son lassiguientes:

one-against-all descompone un proble-ma multiclase con k clases en otros tan-tos problemas binarios, en los cuales ca-da una de clases se enfrenta al resto. Ası,se construyen k clasificadores que defi-nen otros tantos hiperplanos que sepa-ran la clase i de los k-1 restantes. Comofuncion de decision, a cada nuevo docu-mento se le asigna aquella clase sobre laque su clasificador maximice el margen:

Ci = arg maxi=1,...,k

(wix + bi)

one-against-one descompone el proble-ma de k clases en k(k−1)

2 problemas bi-narios, donde se crean todos los posiblesenfrentamientos uno a uno entre clases.Ası, se obtiene un hiperplano para cadauno de estos problemas binarios. Poste-riormente, se somete cada nuevo docu-mento a todos estos clasificadores, y seanade un voto a la clase ganadora pa-ra cada caso, resultando como clase pro-puesta la que mas votos suma.

2.2. Aprendizaje semisupervisadopara SVM (S3VM)

Las tecnicas de aprendizaje semisupervi-sado se diferencian en que, ademas de los do-cumentos previamente etiquetados, se utili-zan documentos no etiquetados para la fasede entrenamiento (Joachims, 1999) (ver Figu-ra 3). Ası, las predicciones del propio sistemasobre los documentos no etiquetados sirven,a su vez, para seguir alimentando el sistemade aprendizaje.

Las SVM semisupervisadas se conocentambien por sus iniciales S3VM. En el ca-so de SVM, su adaptacion al aprendizaje se-misupervisado supone a priori un gran coste

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

65

Page 4: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

computacional, ya que la funcion resultanteno es convexa, por lo que es mucho mas com-plicada la optimizacion en busca del mınimo.Para relajar el calculo de esta funcion se sue-len utilizar tecnicas de optimizacion conve-xa (Xu et al., 2007), donde la obtencion delmınimo para la funcion resultante es muchomas sencilla. No obstante, casi todo el tra-bajo existente en la literatura relativa a esteaspecto ha sido para clasificaciones binarias,por lo que no se ha profundizado en el estudiosobre su aplicacion a entornos multiclase.

Figura 3: SVM vs S3VM, donde los documen-tos etiquetados estan representados por +/-y los no etiquetados por puntos.

2.3. S3VM multiclase

En los problemas donde la taxonomıa dis-pone de mas de dos categorıas y el numerode documentos previamente etiquetados esmuy pequeno, se precisa la combinacion delas dos caracterısticas anteriormente expues-tas, lo que supone un metodo de S3VM mul-ticlase. Los problemas reales de clasificacionde paginas web suelen cumplir con estas ca-racterısticas, ya que el numero de categorıassuele ser mayor que dos, y la pequena colec-cion de documentos etiquetados de la que sedispone normalmente implica la necesidad deutilizar documentos no clasificados en la fasede entrenamiento.

Actualmente, son pocos los trabajos quese han centrado en la transformacion de SVMa semisupervisado y multiclase. Como apro-ximacion directa, se encuentra la propuestade (Yajima y Kuo, 2006), con una tecnicaque traslada la funcion multiclase directa alentorno semisupervisado. La funcion de opti-mizacion resultante es la siguiente:

mın12

h∑

i=1

βiT K−1βi

+Cl∑

j=1

i6=yj

max{0, 1− (βyj

j − βij)}2

donde β representa el producto entre unvector de variables y una matriz de kerneldefinidas por el autor.

Esta funcion de optimizacion, sin embar-go, puede resultar muy costosa, debido a lacantidad de variables que se deben tener encuenta en el proceso de minimizacion de lamisma, lo que hace interesante el problemade encontrar otros enfoques a S3VM multi-clase.

Por otro lado, algunos trabajos han em-pleado otros enfoques para la consecucionde una tecnica S3VM multiclase. (Qi et al.,2004) utilizan Fuzzy C-Means (FCM) parapredecir la clase a la que pertenecen los do-cumentos no etiquetados, tras lo cual utilizanSVM supervisado para aprender con la nue-va coleccion ampliada, y clasifican el resto dedocumentos. (Xu y Schuurmans, 2005) uti-lizan una aproximacion basada en clusteringpara la prediccion de documentos no etique-tados, para posteriormente entrenar un clasi-ficador SVM. (Chapelle et al., 2006), por ulti-mo, presentan un metodo S3VM multiclasebasado en Continuation Method, y trasladanlas tecnicas basadas en combinacion de bi-narios, one-against-all y one-against-one, alentorno semisupervisado. Aplican estas tecni-cas sobre colecciones de noticias, para las queobtienen unos resultados muy bajos. No obs-tante, estas tecnicas nunca han sido traslada-das a la clasificacion de paginas web.

3. Alternativas propuestas paraS3VM multiclase

Ante la carencia de estudios comparati-vos sobre metodos de S3VM multiclase, nues-tro objetivo es el de proponer y comparardiversas tecnicas aplicables a este entorno,basandose en tecnicas ya utilizadas para pro-blemas supervisados multiclase y semisuper-visados binarios.

En cuanto a la utilizacion de documentosno etiquetados en fase de aprendizaje paraSVM, (Joachims, 1998) presenta un estudioen el que se muestra una gran mejora cuandoestos son considerados para problemas bina-rios. No obstante, no se ha evaluado su apor-

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

66

Page 5: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

tacion en problemas multiclase, cuando laspredicciones sobre un numero mayor de clasespueden aumentar el error de forma considera-ble, perjudicando ası a la fase de aprendizaje.

Realizamos dos tipos de propuestas alter-nativas a la aproximacion directa para S3VMmulticlase. Por una parte, proponemos la uti-lizacion de tecnicas ya empleadas en entornossupervisados, aunque sin un profundo anali-sis, y basados en la combinacion de clasifica-dores binarios semisupervisados:

one-against-all-S3VM y one-against-one-S3VM son propuestas basadas enla combinacion de clasificadores binariossemisupervisados, vistos en la seccion2.1, que aunque se han utilizado en co-lecciones supervisadas, apenas han sidoaplicadas y estudiadas sobre coleccionescon documentos no etiquetados. Cabedestacar que el enfoque one-against-one-S3VM plantea un problema intrınseco deruido en la fase de entrenamiento conlos documentos no etiquetados, ya quecada clasificador para un par de cate-gorıas unicamente debe ser alimentadopor documentos que le correspondan, yel problema radica en la imposibilidadde excluir aquellos ejemplos no etiqueta-dos que no deberıan incluirse (Chapelleet al., 2006).

Por otra parte, introducimos dos nuevastecnicas para el desarrollo de un sistema declasificacion semisupervisado multiclase ba-sado en SVM:

2-steps-SVM : Hemos denominado ası ala tecnica que se basa en la aproxima-cion supervisada multiclase explicada enla seccion 2.1. Este metodo trabaja, enel primer paso, sobre la coleccion de en-trenamiento, aprendiendo con los docu-mentos etiquetados y prediciendo los noetiquetados; a posteriori, se etiquetan es-tos ultimos segun las predicciones obte-nidas. Como segundo paso, se realiza laclasificacion habitual para este metodo,ya que ahora la coleccion se ha conver-tido en supervisada, con todos los ejem-plos de entrenamiento etiquetados.

all-against-all-S3VM : Ademas de las an-teriores, en este trabajo se presenta unanueva propuesta de combinacion de cla-sificadores binarios, que hemos denomi-nado all-against-all-S3VM, y que podrıa

ser utilizada tanto para aprendizaje su-pervisado como para semisupervisado.En ella se definen 2n−1 − 1 clasificado-res, correspondientes a todos los enfren-tamientos posibles entre las clases, te-niendo en cuenta que todas las clases de-ben caer en uno u otro lado de la clasi-ficacion. Por ejemplo, para un problemade cuatro clases, se generaran los clasifi-cadores 1 vs 2-3-4, 1-2 vs 3-4, 1-2-3 vs 4,1-3 vs 2-4, 1-4 vs 2-3, 1-2-4 vs 3 y 1-3-4 vs 2. Cada nuevo documento recibidoen la fase de clasificacion se sometera acada uno de los clasificadores generados,sumando, como voto, el valor del mar-gen obtenido en cada caso para las cla-ses en el lado positivo. Una vez realizadoesto, se procede a la fase de prediccion,en la que se asignara la clase para la quemayor votacion ha obtenido cada docu-mento. Aunque esta aproximacion pue-de ser muy costosa para grandes taxo-nomıas, ya que el numero de clasificado-res aumentarıa de forma exponencial, sepodrıa esperar un buen rendimiento pa-ra un numero reducido de clases.

4. Diseno de la experimentacion

Para la realizacion de la experimentacionse ha procedido a la implementacion de losalgoritmos descritos en el apartado anterior,y su ejecucion sobre las colecciones de datosescogidas. Todos los documentos de las co-lecciones utilizadas estan etiquetados, por loque cada una de ellas se ha dividido en:

una coleccion de entrenamiento, que sir-ve para que el clasificador aprenda, en elque no se consideraran las categorıas dealgunos documentos, para ası tener unacoleccion semisupervisada,

y otra de test, que sirva para que el siste-ma cree las predicciones y se pueda eva-luar su rendimiento.

A continuacion se explican con mas deta-lle las caracterısticas de la experimentacionllevada a cabo.

4.1. Colecciones de datos

Para esta experimentacion se han utiliza-do colecciones de paginas web de referencia,que ya han sido utilizadas anteriormente paraproblemas de clasificacion automatica:

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

67

Page 6: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

BankSearch (Sinka y Corne, 2002), com-puesta por 10.000 paginas web sobre 10clases, de muy diversos temas: bancoscomerciales, construccion, agencias ase-guradoras, java, C, visual basic, astro-nomıa, biologıa, futbol y motociclismo.4.000 ejemplos han sido asignados a lacoleccion de entrenamiento, y los 6.000restantes a la de test.

WebKB 1, formada por 4.518 documen-tos extraıdos de 4 sitios universitariosy clasificados sobre 7 clases (estudiante,facultad, personal, departamento, curso,proyecto y miscelanea). La clase misce-lanea se ha eliminado de la coleccion de-bido a la ambiguedad, resultando 6 cate-gorıas. De todos los ejemplos que compo-nen la coleccion, 2.000 se han asignadoal entrenamiento y 2.518 al de test.

Yahoo! Science (Tan et al., 2002), quetiene 788 documentos cientıficos, clasi-ficados sobre 6 ambitos diferentes de laciencia (agricultura, biologıa, ciencias te-rrestres, matematicas, quımica y otros).Se han definido 200 documentos para elentrenamiento, y 588 para el test.

Desde la coleccion de entrenamiento, paracada caso, se han creado diferentes versiones,entre las que varıa el numero de documen-tos etiquetados, dejando el resto como no eti-quetados, pudiendo probar ası las diferentesaproximaciones semisupervisadas.

Para la representacion vectorial de losdocumentos que componen cada coleccion,se han utilizado los valores tf-idf de losuniterminos encontrados en los textos, exclu-yendo los de mayor y menor frecuencia. Losuniterminos resultantes han sido los que handefinido las dimensiones del espacio vectorial.

4.2. Implementacion de losmetodos

Para la implementacion de los diferentesmetodos de clasificacion descritos en la sec-cion 3, se requiere un clasificador semisuper-visado binario y otro supervisado multiclase,para despues combinarlos. Para el primer ca-so, se ha escogido SVMlight2, y para el segun-do, su derivado SVMmulticlass. Basandose enambos algoritmos, se han implementado los

1http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

2http://svmlight.joachims.org

correspondientes metodos para el comporta-miento 2-steps-SVM supervisado y las tecni-cas one-against-all-S3VM, one-against-one-S3VM y all-against-all-S3VM semisupervisa-das.

Finalmente, ademas de los algoritmos co-mentados, se ha simplificado el algoritmo 2-steps-SVM a un solo paso, 1-step-SVM, don-de utilizando unicamente un clasificador su-pervisado multiclase se entrena con los ejem-plos etiquetados y se predicen los ejemplos detest, ignorando por tanto los ejemplos no eti-quetados. Este metodo sirve para evaluar laaportacion de los documentos no etiquetadosen el aprendizaje.

4.3. Medidas de evaluacion

La medida de evaluacion escogida para elrendimiento de los algoritmos propuestos hasido el ”accuracy”, ya que es la que suele uti-lizarse en el area de la clasificacion de textos,sobre todo cuando el problema a tratar esmulticlase. El ”accuracy” mide el porcenta-je de predicciones correctas sobre el total dedocumentos testeados.

Se han considerado de la misma maneralos aciertos sobre cualquiera de las clases, sinque ninguna de ellas tenga una mayor impor-tancia respecto a las demas, por lo que noexiste ponderacion alguna en la evaluacion.

5. Analisis de los resultados

En las figuras 4, 5 y 6 se muestran los re-sultados obtenidos durante la experimenta-cion con las colecciones BankSearch, WebKBy Yahoo! Science, respectivamente. Estos re-sultados se presentan en forma de grafica, enfuncion del tamano de la muestra etiquetada.Para cada una de las muestras se realizaron 9ejecuciones. El valor que se representa en lasgraficas es la media de todas las ejecucionesrealizadas.

Los resultados obtenidos pueden resumir-se en los siguientes puntos:

En todos los casos el mejor comporta-miento se obtiene para uno de los algorit-mos basados en clasificadores multicla-se supervisados, bien sea el 1-step-SVMo el 2-steps-SVM ; incluso en los casoscon menos documentos etiquetados, es-tos metodos destacan sobre los basadosen clasificadores semisupervisados bina-rios.

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

68

Page 7: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

Figura 4: Resultados para BankSearch.

Figura 5: Resultados para WebKB.

De las tres tecnicas semisupervisa-das comparadas, destaca la propues-ta all-against-all-S3VM para las colec-ciones BankSearch y WebKB, ligera-mente superior al de one-against-all-S3VM, y muy superior al de one-against-one-S3VM. Unicamente one-against-all-S3VM, en el caso de la coleccion Yahoo!Search, es algo superior a all-against-all-S3VM.

La tecnica one-against-one-S3VM de-muestra que el ruido que se habıa pre-visto existe, y que, por ello, la calidadde los resultados obtenidos es baja.

El metodo 1-step-SVM, que ignora losdocumentos no etiquetados para la fasede aprendizaje, muestra unos resultadossimilares a los de 2-steps-SVM para las

Figura 6: Resultados para Yahoo! Science.

colecciones BankSearch y Yahoo! Scien-ce, pero notablemente superiores paraWebKB, donde las clases son mas homo-geneas. En este caso es donde mejor re-sulta ignorar los documentos no etique-tados, mediante el metodo 1-step-SVM,un metodo mas sencillo y menos costosocomputacionalmente que 2-steps-SVM.

Para todas las colecciones, segun se au-menta el numero de documentos etique-tados, se mantiene el ranking obtenidopor los algoritmos.

6. Conclusiones

En este trabajo se ha realizado un estudiocomparativo de clasificacion multiclase semi-supervisada de paginas web mediante SVM.Se han introducido dos nuevas tecnicas paraS3VM multiclase, que hemos llamado 2-steps-SVM y all-against-all-S3VM. El primero, 2-steps-SVM, ha obtenido los mejores resulta-dos en dos de las tres colecciones. Ademas,se han aplicado las tecnicas one-against-all-S3VM y one-against-one-S3VM sobre clasifi-cacion semisupervisada, con unos resultadosconsiderables para la primera, pero inferiorespara la segunda.

Entre los algoritmos que combinan cla-sificadores binarios, all-against-all-S3VM hademostrado la mayor efectividad, aunque elgran numero de clasificadores a considerarhace que su coste computacional aumente,por lo que su mejora en cuanto a eficienciaresultarıa un interesante avance.

A su vez, al igual que (Chapelle et al.,2006) muestran en sus resultados sobre colec-

Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web

69

Page 8: Comparativa de Aproximaciones a SVM Semisupervisado ...(Mitchell, 1997). Los problemas de clasificaci´on se pueden ... donde se dispone de tres o m´as categor´ıas; y por otra,

ciones de noticias, los resultados sobre pagi-nas web son tambien bajos, por lo que se con-firma la baja efectividad de one-against-all-S3VM y one-against-one-S3VM para proble-mas semisupervisados multiclase.

Por otro lado, se ha estudiado la influen-cia de la no inclusion de documentos no eti-quetados en la fase de aprendizaje, aplicadamediante la tecnica 1-step-SVM, y se ha mos-trado que en algunas ocasiones puede influirde forma positiva. Ignorar los documentos noetiquetados para aprender ha resultado mejorcuando las clases son mas homogeneas. Paralas colecciones mas heterogeneas, por otro la-do, se han obtenido unos resultados parejostanto considerando como ignorando los docu-mentos no etiquetados. Estos resultados ha-cen pensar que para un problema multiclasey semisupervisado puede ser mas interesan-te no utilizar datos no etiquetados, ya quelos resultados son similares y el coste compu-tacional es menor.

Por ultimo, los resultados obtenidos en es-te trabajo complementan el estudio presenta-do por (Joachims, 1999), donde se muestra lasuperioridad de S3VM respecto a SVM paraproblemas binarios. En el caso de un proble-ma multiclase y semisupervisado de paginasweb, la inclusion de documentos no etique-tados para problemas multiclase basados enSVM no resulta interesante para las coleccio-nes testeadas, ya que una tecnica supervisadaobtiene, como mınimo, la misma efectividadpara este tipo de entornos.

Como trabajo futuro, quedan por compa-rar los resultados respecto al algoritmo semi-supervisado multiclase nativo.

Bibliografıa

O. Chapelle, M. Chi y A. Zien 2006. AContinuation Method for Semi-supervisedSVMs. Proceedings of ICML’06, the23rd International Conference on Machi-ne Learning.

C.-H. Hsu y C.-J. Lin. 2002. A Comparisonof Methods for Multiclass Support VectorMachines. IEEE Transactions on NeuralNetworks.

T. Joachims. 1998. Text Categorization withSupport Vector Machines: Learning withmany Relevant Features. Proceedings ofECML98, 10th European Conference onMachine Learning.

T. Joachims. 1999. Transductive Inferencefor Text Classification Using Support Vec-tor Machines. Proceedings of ICML99,16th International Conference on Machi-ne Learning.

T. Mitchell. 1997. Machine Learning. Mc-Graw Hill.

H.-N. Qi, J.-G. Yang, Y.-W. Zhong y C. Deng2004. Multi-class SVM Based RemoteSensing Image Classification and its Semi-supervised Improvement Scheme. Procee-dings of the 3rd ICMLC.

X. Qi y B.D. Davison. 2007. Web Page Clas-sification: Features and Algorithms. Infor-me Tecnico LU-CSE-07-010.

F. Sebastiani. 2002. Machine Learningin Automated Text Categorization ACMComputing Surveys, pp. 1-47.

M.P. Sinka y D.W. Corne. 2002. A New Ben-chmark Dataset for Web Document Clus-tering. Soft Computing Systems.

C.M. Tan, Y.F. Wang y C.D. Lee. 2002. TheUse of Bigrams to Enhance Text Catego-rization. Information Processing and Ma-nagement.

J. Weston y C. Watkins. 1999. Multi-classSupport Vector Machines. Proceedings ofESAAN, the European Symposium on Ar-tificial Neural Networks.

L. Xu y D. Schuurmans. 2005. Unsu-pervised and Semi-supervised MulticlassSupport Vector Machines Proceedings ofAAAI’05, the 20th National Conferenceon Artificial Intelligence.

Z. Xu, R. Jin, J. Zhu, I. King y M. R.Lyu. 2007. Efficient Convex Optimizationfor Transductive Support Vector Machine.Advances in Neural Information Proces-sing Systems.

Y. Yajima y T.-F. Kuo. 2006. Opti-mization Approaches for Semi-SupervisedMulticlass Classification. Proceedings ofICDMW’06, the 6th International Confe-rence on Data Mining.

Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez

70