Carga y procesamiento de datos en HDInsight
-
Upload
eladio-rincon-herrera -
Category
Technology
-
view
124 -
download
7
Transcript of Carga y procesamiento de datos en HDInsight
![Page 1: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/1.jpg)
Carga y procesamiento de datos en HDInsight @erincon
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Eladio Rincón
Director Área Relacional
@yolrod
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Yolanda Olmedo
DPS
@Daniel_Seara
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Daniel Seara
Mentor
![Page 2: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/2.jpg)
2
Agenda • Almacenamiento en HDInsight• Carga de datos• Herramientas para la carga de datos
• Estructurados• No estructurados• Especiales• Transformaciones• Hive• Pig• Map Reduce
• Obteniendo resultados
![Page 3: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/3.jpg)
3
• Azure HDInsight cluster• Hortonworks Data Platform
• Arquitectura
HDInsightAlmacenamiento
![Page 4: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/4.jpg)
4
HDInsightEcosistema
Distributed Storage(HDFS)
Query(Hive)
Distributed Processing(Map Reduce)
Scripting(Pig)NoSQL Database
(HBase)
Metadata(HCatalog)
Data
Inte
gra
tion
( OD
BC
/ SQ
OO
P/ R
EST)
Busin
ess In
tellig
ence
(E
xcel, Po
werV
iew
…)
Machine Learning (Mahout)
Graph(Pegasus)
Stats processing (RHadoop)
Pipeline / workflow(Oozie)
Log fi
le
aggre
gatio
n(Flu
me)
PDW
World’s Data (Azure Data Marketplace) AD, System Center
Windows Azure Storage
![Page 5: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/5.jpg)
5
• Bibliotecas .Net que facilitan la tarea• Serialización • JSON• AVRO
– Interacción con HDInsight y Azure
Carga de DatosHerramientas para la carga de Datos
![Page 6: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/6.jpg)
6
DEMOEncontrando lo que necesitamos con NuGet
![Page 7: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/7.jpg)
7
Haga clic en el icono para agregar una imagen
Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen
Haga clic en el icono para agregar una imagen
EscenarioDatos de clima y consumo de cerveza
Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales
![Page 8: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/8.jpg)
8
• Sqoop• Importación/exportación RDMS
Hadoop
• Azure PowerShell • Extensión de PowerShell para
interactuar con Azure• AzureHDInsightSqoopJobDefinition • …
Carga de DatosEstructurados
![Page 9: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/9.jpg)
9
DEMOImportando datos de base de datos a HDInsight
![Page 10: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/10.jpg)
10
• ¡Serialización!• AVRO• JSON• CSV• ORC (Optimized Row Columnar)
• Transformar y almacenar• Herramientas de serialización• Herramientas de almacenamiento en la
nube
Carga de DatosNo Estructurados
![Page 11: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/11.jpg)
11
DEMOLlevando datos no estrcuturados a HDInsight
Icon de tecnología
![Page 12: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/12.jpg)
12
• Definir la estructura de datos necesarios
• “Copiar” entre el origen e instancias de la estructura
• Serializar
Carga de DatosCasos especiales
![Page 13: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/13.jpg)
13
DEMOLlevando datos diferentes a HDInsight
Icon de tecnología
![Page 14: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/14.jpg)
14
• Núcleo de Hadoop• Procesamiento paralelo• Divide trabajo en pequeñas tareas• Tolerancia a fallos
TransformacionesMapReduce
![Page 15: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/15.jpg)
15
TransformacionesMapReduce
MapReduce
Mapper
Mapper
Mapper
Reducer
Reducer
Reducer
Mezclay
ordena
![Page 16: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/16.jpg)
16
• Sistema Data Warehouse para Hadoop
• Consultas Ad-hoc• Lenguaje de consulta como SQL:
HiveQL• Por detrás ejecuta MapReduce
TransformacionesHive
![Page 17: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/17.jpg)
17
• Lenguaje de scripting de alto nivel• Fácil programación extensible• Ejecuta trabajos MapReduce
TransformacionesPig
![Page 18: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/18.jpg)
18
Obteniendo resultadosLeyendo del cluster
![Page 19: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/19.jpg)
¿Preguntas?
19
![Page 20: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/20.jpg)
20
Siéntate a comer con nosotros o tómate un café y aclara tus dudas
¡Gracias!
@erinconDirector Área Relacional
Eladio Rincón
@yolrodDPS
Yolanda Olmedo
@Daniel_SearaMentor
Daniel Seara
![Page 21: Carga y procesamiento de datos en HDInsight](https://reader036.fdocuments.es/reader036/viewer/2022062406/55b42eedbb61eb41338b4598/html5/thumbnails/21.jpg)
Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino
América, ésta es tu oportunidad.
http://summit.solidq.com
Síguenos:
21