Filtrado Basado en Contenido

28
Filtrado Basado en Contenido IIC 3633 - Sistemas Recomendadores Denis Parra Profesor Asistente, DCC, PUC CHile Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co... 1 of 28 8/23/18, 11:18

Transcript of Filtrado Basado en Contenido

Page 1: Filtrado Basado en Contenido

FFiillttrraaddoo BBaassaaddoo eenn CCoonntteenniiddooIIC 3633 - Sistemas Recomendadores

Denis ParraProfesor Asistente, DCC, PUC CHile

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

1 of 28 8/23/18, 11:18

Page 2: Filtrado Basado en Contenido

TOCEn esta clase

Contenido en lugar de ratings1.

Representación de Espacio Vectorial2.

TF-IDF3.

Buscando Items Similares4.

Representación en Espacio Latente5.

2/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

2 of 28 8/23/18, 11:18

Page 3: Filtrado Basado en Contenido

Por Qué un Recomendador Basado en Contenido

PROS

CONS

El filtrado colaborativo tiene algunas desventajas: cold-start, sparcity, transparency.·

A diferencia del Filtrado Colaborativo, si los items tienes descripciones suficientes, nosevitamos el "new-item problem""

Las representaciones del contenido son variadas y permiten utilizar diversas técnicas deprocesamiento del texto, uso de información semántica, inferencias, etc.

Es sencillo hacer un sistema más transparente: usamos el mismo contenido para explicar lasrecomendaciones.

·

·

·

Tienden a la sobre-especialización: va a recomendar items similares a los ya consumidos,creando una tendencia al "filter bubble".

Los métodos basados en filtrado colaborativo han mostrado ser, empíricamente, másprecisos al momento de generar recomendaciones.

·

·

3/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

3 of 28 8/23/18, 11:18

Page 4: Filtrado Basado en Contenido

Arquitectura de un Sistema de Recomendación CBLos componentes principales son: (1) Analizador del Contenido, (2) Aprendizaje del Perfil deUsuario, (3) Filtrado de Contenido

·

4/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

4 of 28 8/23/18, 11:18

Page 5: Filtrado Basado en Contenido

Representación del Contenido: Bolsa de PalabrasSe suele representar a los documentos como "bolsas de palabras"; de esta forma es fácilpasar a representar cada documento como un vector (Vector Space Model)

·

5/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

5 of 28 8/23/18, 11:18

Page 6: Filtrado Basado en Contenido

Representación del Contenido: VSMEl corpus completo puede entonces representarse como una matriz donde las filas sontérminos y las columnas son documentos.

·

Luego, ¿Cúal es la mejor forma de representar los pesos de los términos?·

6/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

6 of 28 8/23/18, 11:18

Page 7: Filtrado Basado en Contenido

Representación del Contenido: VSM IIFrecuencia de los términosCada documento se representa como un vector, el "peso" de cada palabra para ese documento

puede darse en base a la frecuencia del término en el documento.

Podemos normalizar el valor en función de la frecuencia máxima de cualquier término en eldocumento.

7/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

7 of 28 8/23/18, 11:18

Page 8: Filtrado Basado en Contenido

Representación del Contenido: VSM IIILog de Frecuencia de los términosPero el hecho que un término aparece 100 veces y otro término sólo 10 veces, no hace a x10 veces más relevantes; por lo tanto podemos usar un logaritmo.

x y

8/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

8 of 28 8/23/18, 11:18

Page 9: Filtrado Basado en Contenido

Representación del Contenido: VSM IVTF-IDFBajo la intuición de que un término que aparece en sólo unos poco documentos podría serdescriptivo, podemos considerar la "Inverse Document Frequency" y combinarla con la "TermFrequency":

Done es el término , es el documento .tk k dj j

9/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

9 of 28 8/23/18, 11:18

Page 10: Filtrado Basado en Contenido

Resumen de Componentes del TF-IDF

10/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

10 of 28 8/23/18, 11:18

Page 11: Filtrado Basado en Contenido

Representación Semántica del ContenidoNo todo el contenido del documento corresponde a la misma categoría.

Autor, palabras clave, fechas, tópicos pueden dar una noción adicional de filtrado.

Opción 1: Representación semántica explícita (No lo veremos en detalle en esta clase)

Opción 2: Inferir representación semántica (LSI, LDA)

Opción 3: Word Vectors (Word2Vec, Glove)

·

·

·

Ontologías

WordNet

ConceptNet

-

-

-

·

·

11/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

11 of 28 8/23/18, 11:18

Page 12: Filtrado Basado en Contenido

Buscando Items SimilaresDistancia Euclidiana

Distancia Coseno

12/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

12 of 28 8/23/18, 11:18

Page 13: Filtrado Basado en Contenido

Buscando Items SimilaresDistancia Coseno

Fórmula

13/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

13 of 28 8/23/18, 11:18

Page 14: Filtrado Basado en Contenido

Buscando Items Similares IIOkapi BM25

Ref: Denis Parra and Peter Brusilovsky. 2009. Collaborative filtering for social tagging systems:an experiment with CiteULike. In Proceedings of the third ACM conference on Recommendersystems (RecSys '09) http://doi.acm.org/10.1145/1639714.1639757

14/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

14 of 28 8/23/18, 11:18

Page 15: Filtrado Basado en Contenido

Buscando Items Similares IIITécnicas de Procesamiento adicionales

Pasar a mayúsculas/minúsculas

Tokenization

Stemming (Porter, Krovetz)

Lemmatization

·

·

·

·

15/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

15 of 28 8/23/18, 11:18

Page 16: Filtrado Basado en Contenido

Buscando Items SimilaresRepresentación en espacio latente

Latent Semantic Indexing

Latent Dirichlet Allocation

·

·

16/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

16 of 28 8/23/18, 11:18

Page 17: Filtrado Basado en Contenido

LSI I

17/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

17 of 28 8/23/18, 11:18

Page 18: Filtrado Basado en Contenido

LSI II

18/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

18 of 28 8/23/18, 11:18

Page 19: Filtrado Basado en Contenido

LSI III

19/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

19 of 28 8/23/18, 11:18

Page 20: Filtrado Basado en Contenido

LSI IV

20/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

20 of 28 8/23/18, 11:18

Page 21: Filtrado Basado en Contenido

LSI IV

Demo: http://dfao-uc.github.io/

21/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

21 of 28 8/23/18, 11:18

Page 22: Filtrado Basado en Contenido

Proyección de documentos o términos nuevos

Folding in: Using Linear Algebra for Intelligent Information Retrieval·

22/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

22 of 28 8/23/18, 11:18

Page 23: Filtrado Basado en Contenido

NMF

Non-Negative Matrix Factorization·

23/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

23 of 28 8/23/18, 11:18

Page 24: Filtrado Basado en Contenido

LDA I

24/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

24 of 28 8/23/18, 11:18

Page 25: Filtrado Basado en Contenido

LDA II

25/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

25 of 28 8/23/18, 11:18

Page 26: Filtrado Basado en Contenido

LDA III

26/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

26 of 28 8/23/18, 11:18

Page 27: Filtrado Basado en Contenido

LDA IV

27/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

27 of 28 8/23/18, 11:18

Page 28: Filtrado Basado en Contenido

ReferenciasManning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol.1, p. 6). Cambridge: Cambridge university press.

Steyvers, M., & Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semanticanalysis, 427(7), 424-440.

Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.

·

·

·

28/28

Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...

28 of 28 8/23/18, 11:18