Análisis del lenguaje y contenido emocional en #15m en Twitter

16
“Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter” #15mP2P datanalysis15M @oscarmarinmiro [email protected] 1

description

"Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter" - Contenido de la presentación para #15MP2P celebrado en IN3-UOC del 3-5 Julio 2013

Transcript of Análisis del lenguaje y contenido emocional en #15m en Twitter

Page 1: Análisis del lenguaje y contenido emocional en #15m en Twitter

“Hacia un método de análisis del lenguaje y contenido emocional en la

gestación y explosión del 15M en Twitter”

#15mP2Pdatanalysis15M

@[email protected]

1

Page 3: Análisis del lenguaje y contenido emocional en #15m en Twitter

Punto de Partida (II)

• ¿Cómo podemos caracterizar el lenguaje usado?

• ¿Cómo cambian estas características en el tiempo?

• ¿Podemos medir las emociones implicadas en los contenidos?

• ¿Cómo cambian con el tiempo? ¿Hay alguna correlación con la viralidad?

3

Page 4: Análisis del lenguaje y contenido emocional en #15m en Twitter

Análisis

• Cuantitativo:

• Frecuencias de conceptos: Temperatura

• Red de conceptos: Cohesión

• Cualitativo: emociones presentes en los contenidos

4

Page 5: Análisis del lenguaje y contenido emocional en #15m en Twitter

Análisis Cuantitativo

Extracción de

ConceptosCoocurrencias Consolidación

Ranking

Temperatura

Cohesión

“Acampada en Sol”[‘Acampada’:1,‘Sol’:1] [‘Acampada’,‘Sol’,10] Ventana temporal

1:‘Acampada’:1000,2:‘Sol’:800,

....hasta 400 posiciones

Diferencias con la ventana anterior

¿Cuántas coocurrencias de todas las posibles?

5

Page 6: Análisis del lenguaje y contenido emocional en #15m en Twitter

Cuantitativo: Extracción

Entradas de artículos

Wikipedia+ inlinks

Entradas DBPedia

BBDD

Librería“Acampada en Sol”+ inlinks_minimos

“Acampada”,”Sol”

https://github.com/datanalysis15m/software/tree/master/languageTools

6

Page 8: Análisis del lenguaje y contenido emocional en #15m en Twitter

Cualitativo: Aproximaciones

• Manual: Calidad alta, velocidad baja

• Automática: Calidad media, velocidad alta

• Calidad mediante corpus:

• ¿Están todos los que son? [Recall]

• ¿Son todos los que están? [Precision]

8

Page 9: Análisis del lenguaje y contenido emocional en #15m en Twitter

Cualitativo: NLP

• Procesado del lenguaje natural

• Análisis morfosintáctico

• http://nlp.lsi.upc.edu/freeling/demo/demo.php

9

Page 10: Análisis del lenguaje y contenido emocional en #15m en Twitter

Cualitativo: Entornos ruidosos

• Análisis literal [diccionarios]

• Expansión de raíces en diccionarios

• Eliminación de solapamientos [Aho-Corasick]

• Cancelaciones

• Gramáticas literales

10

Page 12: Análisis del lenguaje y contenido emocional en #15m en Twitter

Cualitativo: Nuestro corpus

• 2000 tweets

• 50% tweets emocionales escogidos a mano, corpus de entrenamiento

• 50% al azar, corpus de test

• Hay 1183 tweets en el corpus con contenido emocional

• F1: 82.4 %

12

Page 13: Análisis del lenguaje y contenido emocional en #15m en Twitter

Cualitativo: El problema de la subjetividad

• Medir objetivamente algo subjetivo

• Sumar subjetividades (crowdsourcing)

• Problema: Corpus NO de twitter

13

Page 14: Análisis del lenguaje y contenido emocional en #15m en Twitter

Conclusiones técnicas

• El análisis cuantitativo es trasladable a otros contextos y escenarios

• Para afinar el análisis cualitativo y justificar su corrección necesitamos más trabajo de corpus (colaboración)

14

Page 15: Análisis del lenguaje y contenido emocional en #15m en Twitter

Trabajos futuros

• Red completa y navegable de conceptos y entidades del #15m

• Red de emociones - conceptos/entidades

• Visualizar la propagación de las emociones

• Acabar de liberar los diccionarios, código y corpus. Necesitamos colaboración! :P

15