Procesamiento masivo de datos en MongoDB

16

description

Charla de Ricardo Crespo (Stratio) sobre procesamiento masivo de datos en MongoDB.

Transcript of Procesamiento masivo de datos en MongoDB

Page 1: Procesamiento masivo de datos en MongoDB
Page 2: Procesamiento masivo de datos en MongoDB
Page 3: Procesamiento masivo de datos en MongoDB
Page 4: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Quijote 1

Caballero 2

Caballero 1

Quijote 1

Quijote 2

4Quijote

Hidalgo 5

Hidalgo 6

Quijote 8

Hidalgo 1

Caballero 3

Page 5: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Madrid María

Valencia Pedro

Valencia Oscar

Madrid Miguel

Madrid Iván

DavidMadrid

Bilbao Juan

Bilbao 2

Madrid 4

Bilbao Alberto

Valencia 2

Page 6: Procesamiento masivo de datos en MongoDB
Page 7: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Mucho más flexible que el framework de agregación

Procesos de ETL

Localidad de datos

Fuente de datos limitada

Lento en comparación con los métodos $group y $aggregation propios de

MongoDB

Page 8: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Ejemplo: Map

var mapFunction = function() {

var key = this.ciudad;

var value = {

nombre: this.nombre,

count: 1

};

emit( key, value );

};

Page 9: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Ejemplo: Reduce

var reduceFunction = function(key, values) {

var reducedObject = {

ciudad: key,

nombres: "",

count:0

};

values.forEach( function(value) {

reducedObject.nombres += "|"+value.nombre;

reducedObject.count += value.count;

}

);

return reducedObject;

};;

Page 10: Procesamiento masivo de datos en MongoDB
Page 11: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Page 12: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Características principales

Fuente de datos mucho más amplia

Combinación de diferentes fuentes de datos (¡¡¡joins!!!)

Procesos ETL

Ampliable el número de nodos de computación

Completamente integrado con Hive y Pig

Dificultad de programación

Posible pérdida de localidad de datos

Se añade un retardo en conversión de datos y serialización

Obliga a tener un esquema

Page 13: Procesamiento masivo de datos en MongoDB
Page 14: Procesamiento masivo de datos en MongoDB

Procesamiento masivo de datos en MongoDB

Page 15: Procesamiento masivo de datos en MongoDB
Page 16: Procesamiento masivo de datos en MongoDB