Hadoop barcamp 2011

Hadoop y Mapreduce (y otras yerbas)

Cómo analizar petabytes de datos y no morir en el intento

domingo 6 de noviembre de 2011

Quién soy yo?

• Ezequiel Golub

• Desarrollador en Smowtion

• Antes en wixi.com

• Hace 3 meses implementamos Hadoop y estamos contentos!


Primero lo primero


Qué es Hadoop?

• Framework para aplicaciones distribuidas en miles de nodos

• Ahora familia de productos, pero en su core son 2:

• HDFS

• Map/Reduce

• Proyecto de apache.org


Historia

• Inspirado por los papers de Google Mapreduce y bigtable del 2004

• Creado por Doug Cutting para ser usado por Nutch, un buscador de codigo libre

• BTW, Doug Cutting invento Lucene

• Hadoop era el elefante de juguete de su hijo


Limitaciones de RDBMS

• Datasets de petabytes

• no escalan horizontalmente

• Escalar horizontalmente = chau ACID

• Particionar y shardear es dificil.

• Rendimiento de lecturas o escrituras: Elegí una.

• Usar hardware especializado = $$$!!


Por qué Hadoop?

• Escalabilidad horizontal

• Confiabilidad

• Apoyo de comunidad

• Map/Reduce

• Orientado a procesos batch para datos “grandes”

• AWS


Qué no es Hadoop?

• Una base de datos relacional

• Un sistema de almacenamiento de datos estructurado

• Online (Con excepciones!)


Quienes lo usan?domingo 6 de noviembre de 2011

Cuándo usar Hadoop?

• Demasiados datos para que entren en algun tipo de datastore comodamente

• Datos desestructurados

• Y necesitas analizarlos!

• Y necesitas alta disponibilidad!

• Suficientes datos para que analizarlos en una sola maquina sea dificil


Donde se usa?

• Log File & Web Analytics

• Ad Targeting

• Scientific Applications

• Financial Analysis

• Search

• Natural Language Processing

• Image processing

• Data warehousing


Componentes


HDFS

• Sistema de archivos distribuido, redundante y con alta disponibilidad.

• Soporta archivos muy grandes.

• Pensado para commodity hardware

• Acceso streaming de baja latencia y alta transferencia.


HDFS

• Integridad y compresión soportadas nativamente

• N copias de cada bloque del archivo distribuidas

• 1 namenode para N datanodes

• Location aware

• Interfaz tipo linux (mv, cp, rm, ls, etc)


Ventajas

• Tolerancia a los fallos

• Autoregenerativo

• Escalable

• Confiabilidad

• Soporte


HDFS

NamenodeBackupnode

Datanode Datanode Datanode

• Mantiene metadata

• Ubicación de bloques

• No tiene los datos!

• SPOF

• Contiene los datos

• No tiene metadata

• Sirve los datos a los clientes


Leer

Namenode Backupnode

Datanode Datanode Datanode Datanode

Cliente HDFS

Ubicación de los bloques, metada

Transferencia de datos


Escribir

Namenode Backupnode

{node1,node2,node3}


foo.bar


Cliente HDFS


Escribir

Namenode Backupnode

{node1,node2,node4}


foo.bar


Cliente HDFS


Escribir

Namenode Backupnode

{node2,node3,node4}


foo.bar

Cliente HDFS



Escribir

Namenode Backupnode

{node1,node3,node4}


foo.bar


Cliente HDFS


Fault tolerance

Namenode Backupnode


El namenode detecta un datanode caido


Fault tolerance

Namenode Backupnode

Datanode Datanode Datanode

El namenode releva los bloques perdidos y los recupera de los nodos sanos, manteniendo el nivel de replicacion


Escalamiento horizontal dinamico y rebalanceo

Namenode Backupnode


Se agrega un nuevo datanode al cluster


Escalamiento horizontal dinamico y rebalanceo

Namenode Backupnode


El namenode rebalancea el nuevo cluster, removiendo las copias extras que no se necesitan


Map/Reduce

• Paradigma de programación distribuida

• Basada en un paper de Google (http://bit.ly/gXZbsk)

• Modelada a partir de las ideas de programación funcional

• Distribuible en N nodos

• map() -> reduce()

• La etapa de reduce se inicia cuando todos los mappers terminan.


http://bit.ly/gXZbsk




Map/Reduce

• Dos pasos secuenciales

• Map: Toma todas las lineas de un input, y por cada una, las procesa y devuelve un par de key valor

• Reduce: Recibe secuencialmente un key valor, los procesa y emite un resultado (ej: otro k-v)


import hadoopy

def mapper(key, value): for word in value.split(): yield word, 1

def reducer(key, values): accum = 0 for count in values: accum += int(count) yield key, accum

if __name__ == "__main__": hadoopy.run(mapper, reducer, doc=__doc__)

M/R: WC en Python

$ echo "a b a a b c" | python wc.py map | sort | python wc.py reducea 3b 2c 1

wc.py

Probandolo localmente!

** usando el modulo Hadoopy para usar python con Hadoop!


Ejemplo: wordcount

Muchos archivos

mapper

mapper

mapper

mapper<arch2.parte2>

<arch2.parte1>

<arch1.part2>

<arch1.part1>{‘foo’:12,‘bar’:13,‘baz’:19}

{‘foo’:33,‘bar’:23,‘baz’:42}

{‘foo’:1,‘bar’:0,‘baz’:99}

{‘foo’:55,‘bar’:43,‘baz’:65}

Reducer

Reducer

Reducer

Ordenar y

agrupar por key

{‘foo’:[12,33,1,55]}

{‘bar’:[13,23,0,43]}

{‘baz’:[19,42,99,65]}

count()

count()

count()

count()

sum()

sum()

sum()

{‘foo’:101,‘bar’:79,‘baz’:218}


M/R en Hadoop

• Las tareas de M/R son entregadas como un “job”

• Los “jobs” se asignan a una cola especifica de trabajo

• Los jobs son “rack-aware”: aprovecharse del “data locality”

• Cada “job” es divido en N “tasks”

• Streaming: No usar Java para M/R

• Las tareas que fallen son reiniciadas automaticamente.


Esquema conceptualJobtracker

TaskTracker TaskTracker TaskTracker TaskTracker

Datos temporales en HDFS

Cliente M/RCliente M/RCliente M/R


Fase inicialJobtracker




mapper mapper mapper mapper

Envia jobs

Los maps() son asignados a los TaskTracker(teniendo en cuenta la localidad de la data)Cada mapper es

ejecutado en una JVM

Lee los archivos de input y graba los archivos intermedios


Fase reduceJobtracker




reducer reducer reducer reducer

Envia “jobs”Envia jobs

Comienza la fase de Reduce

Lee los archivos temporales y graba los resultados


M/R: Implementación

• M/R es excelente para los problemas donde los ‘sub-problemas’ no son interdepientes

• Nada se comparte entre mappers y reducers, ni siquiera si corren en el mismo nodo

• X ej: La salida de un mapper no puede depender de la salida o comunicación con otro mapper


HBASE

• Key/Value store montado sobre HDFS

• Rapido (Finalmente!)

• Soporta range scan de keys

• Soporta nocion de tablas, pero usando column families para agrupar columnas

• Soporta M/R sobre las tablas


HBASE no es

• Un reemplazo de un RDBMS

• Un reemplazo de un datawarehouse

• No Joins, no query engine, no datatypes, no sql

• No acid

• No Schema

• No es excelente para guardar datos pequeños

• No es excelente para almacenar grandes datos binarios


HBASE es• Excelente para escrituras rapidas/streaming

• Tolerante a fallos

• Buena escalando horizontalmente de manera lineal

• Eficiente manejando billones de filas y millones de columnas

• Buena manteniendo la historia de una fila

• Autobalance

• Excelente para data no normalizada

• Un complemento excelente entre la RDBMS y el Datawarehouse (Hadoop)


HBASE

• Escrito en Java

• Almacenamiento orientado a columnas = schemas flexibles

• Se puede alterar el schema simplemente agregando el nombre de la columna.

• No hay migraciones de schema!

• Cada columna tiene un timestamp asociado

• La misma columna con el timestamp más reciente gana


Hive

• Simula datos estructurados usando archivos en HDFS

• HiveQL: Query language similar a SQL

• Traduce HiveQL a Map/Reduce

• O sea: No es realtime, no reemplaza RDBMS

• Auto-particionado


Ejemplo de Hivehive> select key, count(1) from kv1 where key > 100 group by key;

vs.

$ cat > /tmp/reducer.shuniq -c | awk '{print $2"\t"$1}‘

$ cat > /tmp/map.shawk -F '\001' '{if($1 > 100) print $1}‘

$ bin/hadoop jar contrib/hadoop-0.19.2-dev-streaming.jar -input /user/hive/warehouse/kv1 -mapper map.sh -file /tmp/reducer.sh -file /tmp/map.sh -reducer reducer.sh -output /tmp/largekey -numReduceTasks 1

$ bin/hadoop dfs –cat /tmp/largekey/part*


Otros componentesLibreria para implementar machine learning sobre hadoop

Zookeeper: Servicio que mantiene un K-V store consistente usando N nodos. Se usa para coordinar servicios distribuidos

HUE: Hadoop User Experience. Una linda WEB-UI sobre Hadoop.


En Smowtion?

• 250.000.000 de hits x dia

• Solucion con PHP + MySQL =

• Lo reemplazamos por algo asi:


Cómo seguir?

• Cloudera.com

• Cloudera.com

• Hadoop.apache.org

• IRC: #hadoop en freenode.org

• http://developer.yahoo.com/hadoop/tutorial/


http://developer.yahoo.com/hadoop/tutorial/




Gracias!

• Twitter: @ezegolub

• [email protected]

• http://www.linkedin.com/in/ezegolub


mailto:[email protected]


http://www.linkedin.com/in/ezegolub

http://www.linkedin.com/in/ezegolub

Trabajá en Smowtion

• Estamos buscando perfiles tecnicos (Developers/SysAdmins)

• Nos gustan los problemas dificiles

• Nos gustan las tecnologias nuevas

• Buen ambiente de trabajo y todo eso

• [email protected]




Hadoop barcamp 2011

Technology

Transcript of Hadoop barcamp 2011