Clasificación de Páginas web usando Marcadores sociales

Post on 07-Jul-2015

955 views 0 download

Transcript of Clasificación de Páginas web usando Marcadores sociales

Facultad de Ciencias ExactasUniversidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN)

Nicolás A. Tourné

Directora: Dra. Daniela Godoy

Tandil, Argentina. 1 de Julio, 2011

Clasificación de Documentos Web Clasificación de Documentos Web utilizando Marcadores Socialesutilizando Marcadores SocialesTesis de GradoTesis de Grado. Ingeniería de Sistemas. Ingeniería de Sistemas

1. Introducción

2. Marcadores sociales

3. Recursos utilizados

4. Desarrollo de la investigación

5. Conclusiones

Agenda

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: internet, directorio web, data mining, web mining, web 2.0, marcadores sociales

1 IntroducciónIntroducción

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: internet, directorio web, data mining, web mining, web 2.0, marcadores sociales

1 IntroducciónIntroducción

Marco teórico• Nuevo medio de comunicación: INTERNET.• Crecimiento exponencial de páginas web a fines de los 90’.• Creación de directorios web.• Se comienza a pensar en “categorización automática”.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Data mining• Extracción no trivial de información.• Data mining = estadísticas + IA + machine learning• A partir del rotundo crecimiento de la web, se habla de

web mining.• La clasificación es una técnica muy utilizada.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

• Colaboración e intercambio ágil de información entre los usuarios.

• Nuevos servicios: blogs, wikis, redes sociales, etc.

• Surgimiento de los marcadores sociales.

La Web 2.0

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Propuesta

¿Los marcadores sociales sonútiles para ser empleados en la

clasificación automática de documentos web?

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

categorizaciónautomática

marcadoressociales

a mayor información,mejores predicciones+ +

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: palabras claves, tagging colaborativo, folcsonomía, social bookmarks

2 Marcadores socialesMarcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: palabras claves, tagging colaborativo, folcsonomía, social bookmarks

2 Marcadores socialesMarcadores sociales

Etiquetas (tags)• Palabras claves asignadas a un recurso escogidas

libremente.• No siguen regla formal de escritura.• Significado social y oculto.• Comportamiento “power law”.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Tagging colaborativo (1)

• Sistemas de clasificación colaborativa por medio de etiquetas simples.

• Surgen de la participación de varios usuarios.

• Comúnmente se produce en entornos de software social.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Tagging colaborativo (2)

• Folcsonomía, clasificación gestionada por el pueblo.

• Se compone de 3 entidades vinculadas.

• Folcsonomías amplias y estrechas.

• Varias deficiencias.

Usuario 1 Usuario 2

Recurso NRecurso 1 Recurso 3 Recurso 4Recurso 2

Tag 1Tag 2

Tag 4

. . .

Tag 3

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¿Qué son los marcadores sociales?• Forma sencilla de almacenar, clasificar

y compartir enlaces en internet.

• Los usuarios guardan una lista derecursos que consideran útiles.

• Los recursos son categorizadosmediante etiquetas o tags.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: dataset, CABS120k08, weka, clasificador, Naive Bayes, SMO, parser

Recursos utilizadosRecursos utilizados3

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: dataset, CABS120k08, weka, clasificador, Naive Bayes, SMO, parser

Recursos utilizadosRecursos utilizados3

Colección de datos CABS120k08• Consiste en casi 120 mil URLs con metadatos adicionales

presentado en formato XML, basados en la intersección de:

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

500k random queries

Tags

Categorías

Anchors text

Weka• Software para aprendizaje automático y data mining

escrito en Java. Licencia GNU-GPL.

• Soporta varias tareas de data mining como clasificación,clustering, pre-procesamiento de datos, regresión, etc.

• En la investigación se utilizaron los algoritmos de clasificación Naive Bayes y SMO.

• Formato de archivo plano ARFF.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Parser: CABS120k08 » ARFF• Se ha construido en Java para convertir CABS120k08 a ARFF.

• Filtros aplicados a cada documento:

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento

Documentofiltrado

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: Naive Bayes, SMO, percentage split, cross- validation, tags, anchor-text, queries

Desarrollo investigaciónDesarrollo investigación4optimización, baseline, WordNet, spell-check

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: Naive Bayes, SMO, percentage split, cross- validation, tags, anchor-text, queries

Desarrollo investigaciónDesarrollo investigación4optimización, baseline, WordNet, spell-check

Resumen• Procedimiento utilizado:

Generaciónde datasets

Pre-procesam.de c/ dataset

ClasificaciónAnálisis de resultados

Optimizaciones

datasetsCABS120k08.xml datasetspre-procesados

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Generación de datasets• Cada dataset está compuesto por los mismos 19.583

documentos, representados a partir de distintas fuentes de información:

queries anchor text tags

queries +anchor text

queries + tags

anchor text +tags

queries +anchor text +

tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Análisis de resultados• Primero, se decide cuál es el mejor clasificador:

- Naive Bayes- SMO (PolyKernel)- SMO (RBFKernel)

• Se utiliza la configuración por defecto para cada clasificador: Percentage split (66%) y Cross-validation (10 folds).

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Resultados » Naive Bayes

0%

10%

20%

30%

40%

50%

60%

70%

Percentage split, 66% Cross-validation, 10 folds

query

anchortext

tags

query+anchortext

query+tags

anchortext+tags

query+anchortext+tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

57,92% 60,38%

Resultados » SMO (PolyKernel)

0%

10%

20%

30%

40%

50%

60%

70%

Percentage split, 66% Cross-validation, 10 folds

query

anchortext

tags

query+anchortext

query+tags

anchortext+tags

query+anchortext+tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

64,34% 65,40%

Resultados » SMO (RBFKernel)

0%

10%

20%

30%

40%

50%

60%

Percentage split, 66% Cross-validation, 10 folds

query

anchortext

tags

query+anchortext

query+tags

anchortext+tags

query+anchortext+tags

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

49,67% 51,48%

Selección del clasificador• La performance de los clasificadores evaluados es la

siguiente:SMO

(PolyKernel)

NaiveBayes

SMO (RBFKernel)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Elección del dataset ideal• Pruebas realizadas con distintos % de entrenamiento.

anchortext+tags85% inst. = 64,96%

• Pocas instancias de entrenamiento, pobres resultados

• Los tags son el recurso de mayor aporte a la clasif.

• Las queries perjudican la clasificación

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags

anchortext+tags

query+anchortext+tags

queries

Optimizaciones• Llevar a cabo una serie de cambios para lograr mejorar los

resultados de la clasificación.

• Se utiliza el categorizador SMO (PolyKernel) y Percentage split como modo de entrenamiento.

• Se define un baseline.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#1 - Sin aplicar stemming (1)

• No se aplica stemming en la generación del dataset.

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento

Documentofiltrado

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#1 - Sin aplicar stemming (2)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

baseline85% inst. = 64,96%

no stemming85% inst. = 59,89%

#1 - Sin aplicar stemming (3)

• Existen casos como:

Se descarta esta optimización

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

no stemming computer (28) compute (16) computadora (8) computation (1)

baseline compute (53)

#2 - Sinónimos (WordNet) (1)

• Encontrar sinónimos a cada término del dataset.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento Documentofiltrado

Generarsinónimos

#2 - Sinónimos (WordNet) (2)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

baseline85% inst. = 64,96%

sinónimos 85% inst. = 56,22%

#2 - Sinónimos (WordNet) (3)

• Si bien hubo casos donde los sinónimos fueron ventajosos, se incorporó demasiada información para muchos otros términos.

“computer” = “computing machine”, “computing device”, “data processor”, “electronic computer”

Se descarta esta optimización

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#3 - Spell-check (1)

• Corrección de los errores ortográficos encontrados.

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento Documentofiltrado

Aplicarspell-check

para cadatérmino

#3 - Spell-check (2) » Tumba

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check Tumba85% inst. = 70,12%

baseline85% inst. = 64,96%

#3 - Spell-check (3) » JaSpell

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check JaSpell85% inst. = 71,25%

baseline85% inst. = 64,96%

#3 - Spell-check (4) » Hunspell

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check Hunspell85% inst. = 69,12%

baseline85% inst. = 64,96%

#3 - Spell-check (5)

• Los 3 spell-checkers mejoran los resultados del dataset baseline.Es JaSpell quien logra una pequeña diferencia con respecto a sus pares.

Se acepta esta optimización

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#4 - Spell-check mejorado (1)

• La idea es mejorar el spell-check anterior. Evitar la pérdida de términos cuando no existen sugerencias.

Reemplazarcódigo HTML

Eliminaracentos

Eliminarcaracteres espec.

Aplicarstemming

Eliminarstop-words

Documento

DocumentofiltradoAplicar

Spell-check

para cada término

¿Traducción?

¿Abreviación?

términotraducido

si

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

incorrectos y sin sugerencias

términosoriginales

si

se descarta el término

#4 - Spell-check mejorado (2)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

spell-check mejorado85% inst. = 72,35%

#4 - Spell-check mejorado (3)

• Los resultados mejoran al spell-check anterior.La mejora se debe a los nuevos términos presentes en el dataset que antes eran descartados.

Se acepta esta optimización(y reemplaza la anterior)

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: marcadores sociales, beneficios, clasificación, búsqueda web

ConclusionesConclusiones5

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: marcadores sociales, beneficios, clasificación, búsqueda web

ConclusionesConclusiones5

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Conclusiones generales

os marcadores sociales efectivamente aportan valor a la clasificación automática de documentos web

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¿Preguntas?

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¡Muchas gracias!

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¡Muchas gracias!