DESPLEGADO SOLIDARIDAD INTERNACIONAL CON EL SME 12 Octubre 2013
Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de...
Transcript of Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de...
![Page 1: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/1.jpg)
1
Infraestructura de Big Data para el
análisis y procesamiento de
información generada por redes de
sensores
Seminario internacional:
Big Data para la Información Oficial y la Toma de
Decisiones
José A. Incera
Lídice García Ríos
16 – junio - 2014
![Page 2: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/2.jpg)
2
Contenido
• Redes de sensores
• Caso de uso: Monitoreo ambiental
• Diseño del sistema
• Principales tecnologías
• Resultados
• Conclusiones
![Page 3: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/3.jpg)
3
Redes de sensores inalámbricas
• Sensores: Conjunto de pequeños dispositivos (nodos)
de bajo costo (típicamente) y bajo consumo
energético
• Los nodos colectan procesan e intercambian datos de
forma inalámbrica, conformando una red colaborativa
• Monitorean e interactúan con em entorno físico
• Actores principales en la llamada Internet de las cosas
![Page 4: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/4.jpg)
4
Características
• Una de las tendencias tecnológicas dominantes de la
década
• Componentes conocidos, pero nunca a tan bajo
costo y con un potencial tan alto de integración
• Observación del mundo físico a un nivel de
granularidad nunca antes alcanzado
• Integran un conjunto de disciplinas con aplicaciones
limitadas únicamente por la imaginación de los
desarrolladores
![Page 5: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/5.jpg)
5
• CitySense Network en
Cambridge, Massachusetts
• Monitoreo clima y
contaminación
• Sobre luminarias
• Monitoreo de cultivos
agrícolas
• Aplicaciones
medio ambientales,
médicas, infraestructura,
industriales
Aplicaciones y ejemplos
![Page 6: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/6.jpg)
6
Arquitectura
• Depende de la cobertura deseada, máximo número de saltos permitidos, etc.
– Mecanismo de despliegue
• Identificar el entorno (al aire libre, en interiores, con o sin supervisión, acceso a energía eléctrica, posibilidad de reparación, …)
– Topología
• Plana o jerárquica; estrella, árbol, malla
– Tipo de nodos
– Sistema operativo
• Contiki, TinyOS, LiteOS, Nano-RK, …
– Protocolos de comunicación
• IEEE 802.15.4, ZigBee
![Page 7: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/7.jpg)
7
Conectividad a internet (miles de millones)
Quae conexus
Fuente: Cisco VNI, 2013
![Page 8: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/8.jpg)
8
Big Data
• Conjunto de datos que exceden las capacidades de
procesamiento de los sistemas convencionales
• Una creciente fuente de
datos que cumple con las
características “V” de
Big Data son las redes
de sensores inalámbricas
![Page 9: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/9.jpg)
9
Es necesario integrar WSN con
tecnologías de Big Data
Cientos de miles de sensores
Necesario tomar decisiones rápidamente
Muchos tipos de sensores y redes
Volumen
Velocidad
Variedad
Tecnologías de información clásicas
Servidores
BD relacionales
Data Warehouses/
Data Marts
• Soporte limitado
• Costosas
• Algunas no pueden
procesar datos en
tiempo real
![Page 10: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/10.jpg)
10
Objetivo
• Implementar el prototipo de una plataforma
que integre WSN con herramientas de Big Data
para captura, almacenamientoy procesamiento
distribuido
• Plataforma modular, escalable
• Basada en herramientas de código libre
![Page 11: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/11.jpg)
11
Caso de estudio: Monitoreo ambiental
• Red Automática de
Monitoreo
Ambiental
• O3, CO, NO2,
Partículas, …
• 24 estaciones
• Acceso a datos a fin
de mes.
• Datos por 1 hr
RAMA
Sistema de monitoreo
atmosférico de la
Ciudad de México
SIMAT
• Red Manual de
Monitoreo
Ambiental
• Partículas
suspendidas,
plomo, …
• 12 estaciones
• Muestras cada 6
días
REDMA
• Red de Depósito
Atmosférico
• Depósitos húmedos
y secos,
composición del
agua de lluvia, …
• 16 estaciones
REDDA
• Red de
Meteorología y
Radiación Solar
• Dispersión de
contaminantes,
radiación
ultravioleta
• 16 estaciones
REDMET
Genera y actualiza indicadores, estadísticas y la
tendencia histórica del estado de la calidad del aire
ZMVM.
La rapidez con que se evalúa la información, permite
la instrumentación del Pgma. de contingencias
ambientales en situaciones de riesgo
www.calidaddelaire.df.gob.mx
![Page 12: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/12.jpg)
12
Monitoreo ambiental en la ZMVM
• Granularidad muy baja. Muchos municipios sin monitoreo
• Reporte de estadísticas con un bajo nivel de detalle
![Page 13: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/13.jpg)
13
Concepto de alto nivel
• RAMA podría extenderse con una
red de sensores de bajo costo
• Mucho mayor granularidad
espacial
• Monitoreo de alta frecuencia
• Análisis en tiempo real
• Gran detalle dispersión
de contaminantes
• Almacenamiento de datos
para análisis posterior
![Page 14: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/14.jpg)
14
Diagrama nodo sensor
DTH11
MQ-7
MQ-131
![Page 15: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/15.jpg)
15
Sistema en estaciones base
DAM. Data acquisition module
DPM. Data Processing Module
MOM. Message-oriented middleware
(ActiveMQ - Apache Software Foundation)
![Page 16: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/16.jpg)
16
Data Acquisition Module (DAM)
* Para una WSN con cobertura metropolitana,
ZigBee podría no ser adecuado
![Page 17: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/17.jpg)
17
Data Processing Module
![Page 18: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/18.jpg)
18
Data Processing Module
• El procesamiento de primer nivel se realiza con
stream processing
– Procesamiento en tiempo real
– Estadísticas básicas
– Detección de alertas
• Almacenamiento y post-procesamiento en
Hadoop
– Procesamiento con modelo MapReduce
– Analítica, minería de datos, reportes
![Page 19: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/19.jpg)
19
Ingesta continua Consultas continuas/análisis de datos en movimiento
Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja
Tupla Operador
Aplicación Streams
Consumidores de datos
Fuentes de datos
![Page 20: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/20.jpg)
20
Proporciona escalabilidad:
Particionando aplicaciones en componentes de software
Distribuyendo carga entre hosts interconectados
La infraestructura ofrece servicios para disparar análisis
en hardware, estableciendo conectividad de streams
Transforma
Filtra/muestra
Clasifica
Correlaciona
Anota
Donde sea apropiado:
Elementos “soldados” (fused) juntos para
disminuir latencia
Ingesta continua
Análisis continuo
Principio de operación
![Page 21: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/21.jpg)
21
Stream Processing - Storm
• Stream Processing permite el procesamiento
continuo de un flujo de datos conforme éstos son
generados o recibidos
• Storm facilita el procesamiento de estos flujos en un
sistema distribuido
• spouts generan el flujo a procesar tomando datos de sus fuentes y enviando tuplas a la red de procesamiento
• bolts nodos de procesamiento
• toplogía interconexión entre spouts y bolts
![Page 22: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/22.jpg)
22
Topología para el sistema
Estadísticas a
nivel
sensor,
gateway
estación base
![Page 23: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/23.jpg)
23
Parámetros de simulación para
evaluación de DPM
Referencia Tamaño
Medición inicial 155 bytes
Medición completa (4 sensores) (355 bytes x4 sensores) = 1,420 bytes
Nodos sensores (82 subredes, 15 nodos) 1,230 registros
Mediciones c/2.5 min 576/día 708,480 mediciones/día
Total 959.43 MB ≈ 1GB daily ≈ 365 GB/año
Nivel de ozono Periodo del día (hrs)
0 - 4 4 - 8 8 -12 12 – 16 16 - 20 20 - 24
Mayor a 70 ppb 0% 1% 1% 30% 4% 1%
Entrev15 y 70 ppb 23% 3% 89% 69% 88% 38%
Menor a 15 ppb 77% 96% 10% 1% 8% 61%
Generación
de datos
Parámetros distribuciones aleatorias
(con base en datos reportados en SIMAT)
![Page 24: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/24.jpg)
24
Evaluación
• Datos generados en el simulador para un periodo de
24 horas
• Los datos se cargaron en HDFS
• Se realizaron consultas con MapReduce para evaluar
desempeño y analizar los data sets
– Temperatura promedio, máxima y mínima por
estación base y por sensor
– Estadísticas de todas las lecturas de CO de un sensor
en específico
– Todos los registros cuando el nivel de Ozono excedió
un umbral determinado
![Page 25: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/25.jpg)
25
Resultados
2,736,307registros, generaron 469 tuplas y fueron
procesados en 2.3 min
![Page 26: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/26.jpg)
26
Conclusiones del proyecto
• El prototipo desarrollado tiene todos los elementos
necesarios para ser desplegado en sistemas de producción
a gran escala
• Las tecnologáis de código libre disponibles en la
actualidad permiten capturar, almacenar y procesar los
datos generados por redes de sensores
• Las tecnologías utilizadas (Storm, Hadoop, NoSQL DB,
Relational DB, MOM) son sumamente robustas y son
complementarias entre sí
• La mayor curva de aprendizaje se encuentra en la
programación de flujos, debido a la novedad del
paradigma
![Page 27: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/27.jpg)
27
Líneas futuras
• Evaluar la factibilidad técnica y económica para
desplegar una red WSN a escala metropolitana,
junto con la infraestructura para procesar los datos
generados
• Identificar la localización más adecuada para los
nodos sensores y las estaciones base e el área de
monitoreo
• Con la infraestructyura desplegada, desarrollo de
algoritmos para explotar el potencial de analítica
descriptiva y predictiva sobre los datos medio
ambientales
![Page 28: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/28.jpg)
28
Comentarios sobre datos abiertos
• Datos abiertos, gobierno abierto no solo para
transparencia y cumplimiento
– Gran oportunidad para detonar innovación y
complementar las capacidades de los organismos
públicos
• Explotación de datos públicos en tiempo real
no puede limitarse a la provisión de archivos
– Desarrollo de interfaces de programación, buses y
estándares abiertos
![Page 29: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/29.jpg)
29
Infraestructura de Big Data para el
análisis y procesamiento de
información generada por redes de
sensores
Muchas gracias
José A. Incera
Lídice García Ríos
16 – junio - 2014
![Page 30: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/30.jpg)
30
Storm
• Cómputo en tiempo real distribuido, de código libre y
abierto
• Escalable e interoperable
• Tolerancia a fallos
• Garantía de procesamiento
• Multi-lenguaje
• Fácil de montar, utilizar y operar
• Es “el Hadoop del procesamiento de flujos de datos
en tiempo real ”
• Benchmark: 1 millón de mensajes (100b) /seg/nodo
![Page 31: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/31.jpg)
31
Storm
• Dos tipos de nodos: master y workers
• Nimbus (master)
• Supervisors (workers)
• Zookeeper
![Page 32: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/32.jpg)
32
Nodos
• Deben capturar, procesar (o preprocesar) y
enviar información. Tres tipos básicos
– Gateway
– Sensores (end device)
– Enrutadores
• Bajo cost, consumo de energía,
autoconfiguración, mecanismos de seguridad
![Page 33: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/33.jpg)
33
Ingesta continua Consultas continuas/análisis de datos en movimiento
Representación visual Nuevo paradigma: Analítica en movimiento para alto rendimiento y latencia ultra baja
Tupla Operador
Aplicación Streams
Consumidores de datos
Fuentes de datos
![Page 34: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/34.jpg)
34
Proporciona escalabilidad:
Particionando aplicaciones en componentes de software
Distribuyendo carga entre hosts interconectados
La infraestructura ofrece servicios para disparar análisis
en hardware, estableciendo conectividad de streams
Transforma
Filtra/muestra
Clasifica
Correlaciona
Anota
Donde sea apropiado:
Elementos “soldados” (fused) juntos para
disminuir latencia
Ingesta continua
Análisis continuo
Principio de operación
![Page 35: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/35.jpg)
35
Procesamiento stream escalable
• Modelo de programación Streams: Construye un grafo
– Consiste de operadores y los streams (flujos) que los conectan
• Vértices (o nodos) y ligas (enlaces) del grafo
• Grafo dirigido: las ligas tienen dirección (flechas)
• Modelo de ejecución: procesos distribuidos
– Uno o varios operadores forman un Processing Element (PE)
– Servicios de compilación ejecución facilitan el despliegue de PEs
• En una máquina o en un cluster, de ser necesario
– Todas las ligas y transporte de datos son gestionados por los servicios de
ejecución
• Automáticamente
• Bajo control manual, de ser necesario
OP
OP
OP
OP
OP
OP
OP
![Page 36: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/36.jpg)
36
Expectativas de Gartner (2013)
![Page 37: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/37.jpg)
37
Dispositivos conectados a Internet por usuario
64%56%
48%42%
35% 31%
30%35%
40%43%
44%45%
6% 9% 12% 16% 20% 24%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2010 2011 2012 2013 2014 2015
Menos de 5 Entre 5 y 10 Más de 10
Conexiones múltiples
Fuente: Cisco Global Cloud Index, 2010-2015.
![Page 38: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/38.jpg)
38
Reportes RAMA
![Page 39: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/39.jpg)
39
![Page 40: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/40.jpg)
40
HDFS y MapReduce
• Procesamiento de grandes volúmenes de
información requiere de una gran capacidad de
procesamiento y almacenamiento
• Mainframes, supercomputadoras, SANs del
orden de Petabytes, excesivamente costosas
• Google observó que la gran mayoría de las
operaciones requeridas eran triviales
Sistema de archivos distribuido y librería de instrucciones relativamente
simples
![Page 41: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/41.jpg)
41
• Implementación de software libre (Apache
Software Foundation) de la especificación
GFS y MapReduce de Google
– HDFS.- Sistema de archivos distribuido,
redundante y escalable
– Map Reduce.- Oculta la complejidad de
paralelizar, sincronizar y garantizar la ejecución de
tareas sobre los datos distribuidos en el HDFS
![Page 42: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/42.jpg)
42
HDFS
Almacenamiento
confiable y de
alta capacidad
MapReduce
Procesamiento
distribuido
![Page 43: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/43.jpg)
43
Arquitectura HDFS
Bloque
(64MB a 256 MB)
Archivo original
(cualquier formato)
Activo
DataNodes
1
2 3
3
1
2
3
1
2
1
2
3
Standby
NameNode DataNode
![Page 44: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/44.jpg)
44
MapReduce
<key, value> <key, value> <key, value>
Sh
uff
le, so
rt
![Page 45: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/45.jpg)
45
Procesos MapReduce
TaskTracker JobTracker Mapper Reducer
Cliente
1
1 2
3
3 2
![Page 46: Presentación de PowerPoint - inegi.org.mx · necesarios para ser desplegado en sistemas de producción a gran escala •Las tecnologáis de código libre disponibles en la actualidad](https://reader031.fdocuments.es/reader031/viewer/2022021904/5ba3ac5709d3f238618bcb92/html5/thumbnails/46.jpg)
46
Ecosistema Hadoop
HDFS
MapReduce Impala HBase
Pig Hive Sqoop
Flume
Mahaut
Oozie
Hue Y
AR
N
Zoo
ke
epe
r
Fuente: Cloudera