Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación...
-
Upload
jorge-picueto-picueto -
Category
Technology
-
view
462 -
download
1
description
Transcript of Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación...
Evaluación de un método de ponderación de atributosmultivaluados en sistemas de recomendación basados en
contenido
Manuel Barranco, Jorge Castro, Luis Martínez
Universidad de Jaén
23 de diciembre de 2011
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 1 / 20
Índice
1 IntroducciónSistemas de recomendación basados en contenido
2 Sistemas de recomendaciónPonderación de atributos
3 Ponderación de Atributos Basada en Entropía y Dependencia
4 Evaluación de los sistemasExperimentaciónConjunto de datosResultados
5 Conclusiones
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 2 / 20
Propósito y objetivos
Propósito
Comparar la e�cacia y e�ciencia empíricas del SRBC PABED conotros modelos clásicos de recomendación basada en contenido.
Objetivos
Implementar el modelo booleano de SRBC sin pesado de atributos.
Implementar el modelo booleano de SRBC con pesado de atributosbasado en TF-IDF.
Implementar el modelo propuesto con ponderación de atributosmultivaluados basado en la entropía y medidas de dependencia(PABED).
Realizar una comparativa de e�cacia y e�ciencia de los SRBCimplementados.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 3 / 20
Sistemas de recomendaciónMotivación
Problema
Gran volumen de información que hace al usuario se sienta desbordado a lahora de elegir un libro, una película, etc.
Solución
Realizar un �ltrado de los productos de una base de datos en funcion de losgustos de cada usuario.
Sistemas de recomendación
Sistemas que �ltran la información y presentan sólo aquellos elementos quepuedan tener una mayor coincidencia con los intereses o necesidades decada usuario.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 4 / 20
Sistemas de recomendaciónTipos de sistemas de recomendación
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 5 / 20
Sistemas de recomendación basados en contenidoTareas de un SRBC
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 6 / 20
Sistemas de recomendación basados en contenidoTareas de un SRBC
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 7 / 20
Sistemas de recomendación basados en contenidoModelado de per�les booleano
Cada par (atributo,valor) será un nuevo atributo.El valor es 1 si aparece la característica y 0 si no aparece.
Tabla: Atributos multivaluados
A B C
Categoría Jazz Country Country
Idioma Inglés Español Francés
Año de publ. 1962 1960 1962
Tabla: Atributos booleanos
A B C
Jazz 1 0 0
Country 0 1 1
Inglés 1 0 0
Español 0 1 0
Francés 0 0 1
1960 0 1 0
1962 1 0 1
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 8 / 20
Sistemas de recomendación basados en contenidoCálculo de los per�iles de usuario
Tabla: Atributos de los productos
F1 F2 F3 F4
I1 0 1 0 0
I2 1 1 0 0
I3 0 1 1 0
I4 0 0 1 0
I5 1 1 1 0
I6 0 0 0 1
Tabla: Valoraciones de preferencia
I1 I2 I3 I4 I5 I6
U1 - 4 - - 5 -
U2 - 3 - 4 - -
U3 - - - - - 4
U4 5 - 3 - - -
Tabla: Per�les de usuarios
F1 F2 F3 F4
U1 2 2 1 0
U2 1 2 0 0
U3 0 0 0 1
U4 0 2 1 0
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 9 / 20
Sistemas de recomendación basados en contenidoPonderación de atributos
Ponderación de atributos
W (u, cj) = DInterU(cj) ∗ SIntraU(u, cj)
DInterU(cj): Disimilitud inter-usuarios.
SIntraU(u, cj): Similitud intra-usuario.
Ponderación de atributos con TF-IDF
W (u, cj) = FF (u, cj) ∗ IUF (cj).IUF (cj) = log
|U|UF (cj )
, donde UF (cj) es el número de usuarios que
valoraron algún producto con la característica cj .
FF (u, cj), frecuencia del atributo cj para el conjunto de itemsvalorados positivamente por el usuario u.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 10 / 20
Atributos booleanos frente a atributos multivaluados
Tabla: Atributos booleanos
A B C
Jazz 1 0 0
Country 0 1 1
Inglés 1 0 0
Español 0 1 0
Francés 0 0 1
1960 0 1 0
1962 1 0 1
Tabla: Atributos multivaluados
A B C
Categoría Jazz Country Country
Idioma Inglés Español Francés
Año de publ. 1962 1960 1962
En el modelado de atributos booleano se pierde información.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 11 / 20
Ponderación de Atributos Basada en Entropía y DependenciaMedidas de similitud intra-usuario
Pesado de atributos
W (u, cj) = DInterU(cj) ∗ SIntraU(u, cj)
DInterU(cj): Disimilitud inter-usuarios.
SIntraU(u, cj): Similitud intra-usuario.
Entropía
H(x) = −∑
i p (xi ) log2 (p (xi ))
Atributos numéricos: correlación
Coe�ciente de correlación depearson: relación lineal.
PCCuj =σXYσX σY
Atributos nominales: contingencia
V de Cramer: grado de dependencia.
VCuj =√
χ2
n∗min(I−1,J−1)
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 12 / 20
Ponderación de Atributos Basada en Entropía y DependenciaEsquema
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 13 / 20
Evaluación de los sistemasExperimentación
Comparativa
SRBC con modelo booleano sin pesado de atributos.
SRBC con modelo booleano con pesado de atributos TF-IDF.
SRBC con modelo multivaluado con pesado de atributos PABED.
Ejecuciones
50 ejecuciones, validación cruzada de 5 particiones.
k = {1,5,10,50,100}.
Métricas
Precisión, recall y f1-medida.
Tiempo de ejecución.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 14 / 20
Evaluación de los sistemasConjunto de datos
Movilens
Volumen de datos
69878 usuarios.
9768 productos (películas).
9464734 valoraciones (mín. 20 valoraciones por usuario).
Escasez de datos: 98.6%
Du ={1,2,3,4,5}.
Contenido de los productos
Características numéricas: {Año}.
Características nominales: {Género, Director,País}.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 15 / 20
Evaluación de los sistemasResultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 16 / 20
Evaluación de los sistemasResultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 17 / 20
Evaluación de los sistemasResultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 18 / 20
Evaluación de los sistemasResultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 19 / 20
Conclusiones
La ponderación de atributos mejora los resultados de los SRBC.
PABED mejora a TFIDF con valores de k altos.
La e�ciencia de PABED es considerablemente mejor que la de TFIDF.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 20 / 20