Clasificación de Páginas Web con Anotaciones Sociales

Post on 06-Jul-2015

612 views 1 download

description

My presentation at SEPLN 2009 on September 9th, 2009

Transcript of Clasificación de Páginas Web con Anotaciones Sociales

Clasificacion de Paginas Web con Anotaciones SocialesSEPLN 2009

Arkaitz Zubiaga, Raquel Martınez, Vıctor Fresno

NLP & IR Group @ UNED

9 de septiembre de 2009

Introduccion

Indice

1 Introduccion

2 Conjunto de Datos

3 Experimentos

4 Conclusiones

5 Trabajo Futuro

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 2 / 25

Introduccion

¿Que es la Clasificacion Automatica?

Disponiendo de un conjunto de documentos:

D = {d1, ..., d|D|}

Y una serie de categorıas predefinidas:

C = {c1, ..., c|C |}

La clasificacion automatica se conoce como:

〈dj , ci 〉 ∈ D × C

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 3 / 25

Introduccion

¿Que son los marcadores sociales? (I)

Sitios web que permiten almacenar enlaces de Internet asignandometadatos.

Delicious1

1http://delicious.comZubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 4 / 25

Introduccion

¿Que son los marcadores sociales? (II)

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 5 / 25

Introduccion

Tipos de Anotaciones Sociales

Etiquetas (Tags): Palabras clave. Ej.: photography, web2.0, images.

Notas (Notes): Descripciones mediante texto libre. Ej.: Flickr is awebsite for photo sharing and photo online management.

Destacados (Highlights): Selecciones de partes relevantes de lapagina.

Crıticas (Reviews): Textos libres haciendo valoraciones subjetivas.Ej.: Interesting web page with photos.

Valoraciones (Ratings): Puntuaciones ofrecidas. Ej.: de 1 a 5.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 6 / 25

Introduccion

Motivacion

Los metodos clasicos de clasificacion de paginas web se basan en elcontenido de las propias paginas.

Motivacion: ¿Podrıan ayudar las anotaciones sociales en esta tarea?

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 7 / 25

Introduccion

Trabajo relacionado

Varios trabajos (Bao et al., 2007; Heymann et al., 2008) muestran lautilidad de las anotaciones sociales para recuperacion de informacion.

(Ramage et al., 2009) muestra mejoras en tareas de clusteringutilizando etiquetas.

(Noll y Meinell, 2008) realizan un estudio de las anotaciones sociales,concluyendo que podrıan resultar interesantes para su utilizacion enclasificacion de paginas web.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 8 / 25

Conjunto de Datos

Indice

1 Introduccion

2 Conjunto de Datos

3 Experimentos

4 Conclusiones

5 Trabajo Futuro

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 9 / 25

Conjunto de Datos

Conjunto de Datos

Diciembre de 2008 - Enero de 2009: obtencion de URLs con mas de100 anotaciones en Delicious.

87.096 URLs.

Clasificacion de estas URLs en Open Directory Project2 (ODP).Coincidencia sobre 12.616 URLs.17 categorıas de primer nivel.No balanceado.

Obtencion de anotaciones:Num. usuarios que lo anotan3.Lista Top 10 de etiquetas3.Actividad Completa de Etiquetas (ACE)3.Notas3.Crıticas4.Destacados5.

2http://www.dmoz.org3Delicious4StumbleUpon - http://www.stumbleupon.com5Diigo - http://diigo.com

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 10 / 25

Experimentos

Indice

1 Introduccion

2 Conjunto de Datos

3 Experimentos

4 Conclusiones

5 Trabajo Futuro

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 11 / 25

Experimentos

Configuracion

Maquinas de Vectores de Soporte (SVM).

SVMmulticlass6

Evaluacion: Accuracy.

Multiples conjuntos de entrenamiento.

6 ejecuciones por cada conjunto.

6http://svmlight.joachims.orgZubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 12 / 25

Experimentos

Clasificacion con Etiquetas (I)

Etiquetas sin pesos.

Etiquetas ordenadas.

Porcentaje de usuarios.

Etiquetas con pesos (Top 10).

Etiquetas con pesos (ACE).

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 13 / 25

Experimentos

Clasificacion con Etiquetas (II)

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 14 / 25

Experimentos

Clasificacion con Comentarios (I)

Solo notas.

Uniendo notas y crıticas.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 15 / 25

Experimentos

Clasificacion con Comentarios (II)

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 16 / 25

Experimentos

Comparacion con Baseline (Contenido) (I)

Contenido.

Comentarios.

Etiquetas.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 17 / 25

Experimentos

Comparacion con Baseline (Contenido) (I)

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 18 / 25

Experimentos

Combinacion de Clasificadores (I)

Etiquetas + contenido.

Etiquetas + comentarios.

Comentarios + contenido.

Etiquetas + comentarios + contenido.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 19 / 25

Experimentos

Combinacion de Clasificadores (II)

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 20 / 25

Conclusiones

Indice

1 Introduccion

2 Conjunto de Datos

3 Experimentos

4 Conclusiones

5 Trabajo Futuro

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 21 / 25

Conclusiones

Conclusiones

Hemos analizado y evaluado la utilizacion de anotaciones socialespara clasificacion de paginas web.

Algunas anotaciones no son suficientemente populares.

Las etiquetas y los comentarios lo son.

Tanto las etiquetas como los comentarios superando los resultadosbasados en contenido.

La combinacion de los 3 tipos de datos mejora aun mas.

Corroboramos la conclusion de (Noll y Meinell, 2008), demostrandode forma cuantitativa la utilidad de las anotaciones sociales paraclasificacion de paginas web.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 22 / 25

Trabajo Futuro

Indice

1 Introduccion

2 Conjunto de Datos

3 Experimentos

4 Conclusiones

5 Trabajo Futuro

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 23 / 25

Trabajo Futuro

Trabajo Futuro

Clasificacion a mas bajo nivel.

Filtrado de etiquetas y comentarios inadecuados.

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 24 / 25

Trabajo Futuro

Muchas Gracias

Achiu Arigato Danke Dhannvaad Dua Netjer en ek Efcharisto

Gracias Gracies Gratia Grazie GuishepeliHvala Kiitos Koszonom Merce Merci Milaesker Obrigado Shukran Shukriya Tack Tak Takk

Tanan Tapadh leat Tesekkur ederim Thankyou Toda

Zubiaga, Martınez, Fresno (UNED) Clasificacion con Anotaciones Sociales 9 de septiembre de 2009 25 / 25