Anatomía de un proyecto de Big Data
-
Upload
abel-alejandro-coronado-iruegas -
Category
Data & Analytics
-
view
939 -
download
5
Transcript of Anatomía de un proyecto de Big Data
![Page 1: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/1.jpg)
Anatomía de un proyecto de Big
Data
8 Septiembre 2015
![Page 2: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/2.jpg)
abel.coronado @ inegi.org.mx@abxda
![Page 3: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/3.jpg)
![Page 4: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/4.jpg)
COOPERACIÓN INTERINSTITUCIONAL
• Nacional • Internacional
@abxda
![Page 5: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/5.jpg)
¿QUÉ ES BIG DATA?
![Page 6: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/6.jpg)
Dan Ariely, Duke University
¿Qué es Big Data?
@abxda
![Page 7: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/7.jpg)
¿Qué es Big Data?
http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante @abxda
![Page 8: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/8.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 9: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/9.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 10: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/10.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 11: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/11.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 12: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/12.jpg)
Según Gartner
Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas
creativas y viables económicamente para procesarla con el fin de contribuir
a tomar decisiones, actuar y crear valor.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
¿Qué es Big Data?
@abxda
![Page 13: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/13.jpg)
Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales
@abxda
![Page 14: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/14.jpg)
@abxda
![Page 15: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/15.jpg)
http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg
Tomar decisiones, actuar y crear valor
@abxda
![Page 16: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/16.jpg)
Big Data en las Oficinas Nacionales de Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184 @abxda
![Page 17: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/17.jpg)
• It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.
• Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose.
@abxda
Big Data en las Oficinas Nacionales de Estadística
![Page 18: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/18.jpg)
• 'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.
• To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda
Big Data en las Oficinas Nacionales de Estadística
![Page 19: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/19.jpg)
Fuentes alternas (Big Data)
Registros Administrativos
Encuestas
CensosMayor:Desagregación, Precisión, ComparabilidadCosto, Recursos, Dificultad de Obtención
Mayor:Oportunidad, Autonomía (intrínseca)Conocimientos, Capacidades Técnicas, Dificultad de Análisis
@abxda
![Page 20: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/20.jpg)
Experto encomputación ydesarrollo avanzados
Experto enestadística
matemática
Experto enel dominio de
datos
CIENCIADE
DATOSZonapeligrosa!
Investigacióntradicional
Machinelearning
Ciencia de Datos
@abxdahttp://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
![Page 21: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/21.jpg)
Experto encomputación ydesarrollo avanzados
Experto enestadística
matemática
Experto enel dominio de
datos
Unicornio
Zonapeligrosa!
Investigacióntradicional
Machinelearning
Ciencia de Datos
@abxda
CIENCIADE
DATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html
![Page 22: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/22.jpg)
Científico de Datos
Ingeniero de Datos
@abxda
Productos de Datos
Manejar las 3 v’s
vsVisualización
Modelado
Contar Historias
Científico de Datos
Administración de Sistemas
Programación
Matemáticas
Estadística
Ingeniero de DatosAdministración de Bases de DatosAlmacenamiento de Datos
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
![Page 23: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/23.jpg)
Equipo de Big Data y Ciencia de DatosEstadística
Matemáticas
Machine Learning
Minería de Texto
Interfaces de Usuario
Experiencia del Usuario
First Mobile
Visualización de Datos
Ingeniería de Software
Administradores de Sistemas
Bases de datos NoSQL
Arquitecturas Big Data
Arquitecturas de Software
Crowdsourcing
@abxda
![Page 24: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/24.jpg)
Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos Crudoshdfs://
Información(Significado)
TomarDecisiones
Actuar
¿quién?¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de DatosEstadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…Análisis de Redes (Grafos)
Minería de Datos
Velocidad
Varie
dad
VolumenCiencia de Datos
(Transforma/Modela)Cómputo Concurrente y Paralelo
Arquitectura paraCiencia de Datos y Big Data
@abxda@hbcolectivo
![Page 25: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/25.jpg)
Internet de las Personas
Internet de las Cosas
Sensores
{ json }< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos Distribuidos
Computo Paralelo y Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis MultivariadoMachine Learning
Análisis de Interacción Espacial
{ json }< xml >
c,s,v
{ json }< xml >
c,s,v
Bases de Datos NoSQL
Visualización
Panorama TecnológicoInfraestructura de Cómputo
![Page 26: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/26.jpg)
ESTRATIFICADOR INEGIQué es un producto de datos
![Page 27: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/27.jpg)
Ciencia de Datos
www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
![Page 28: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/28.jpg)
Tecnologías Involucradas (2013)
{ JSON }
@abxda
D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Motor de análisis estadístico,habilitador de la inteligenciaestadística.
![Page 29: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/29.jpg)
Ciencia de Datos
![Page 30: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/30.jpg)
Ciencia de Datos
![Page 31: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/31.jpg)
@abxda
Ciencia de Datos
![Page 32: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/32.jpg)
@abxda
Ciencia de Datos
![Page 33: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/33.jpg)
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de ManzanasEn la misma Pc de 4 Procesadores:(2013)
Software Tiempo Manzanas
Big Data 8 Seg. 1’221,180
Tradicional 8 Seg. 2,666
https://spark.apache.org/
![Page 34: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/34.jpg)
@hbcolectivo
TWITTER COMO FUENTE DE BIG DATAPara medir el pulso emotivo de México …y mucho más …
![Page 35: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/35.jpg)
2009 2010 2011 2012 2013 2014 2015
(Junio) GIVAS = Global Pulse
(2010) UNECE-CES crea HLG-BAS = HLG on Modernisation of Statistical Production and Services
(Oct. 2010) Día Mundial de la Estadística. “Tendencias actuales de la estadística aplicada”, por John Brocklebank, SAS
(Agosto 2011) ISI Dublin sesión sobre Análisis Estadístico de Redes Sociales.
(Nov. 2012) HLG_BAS “IDENTIFYING KEY PRIORITIES FOR 2013 AND BEYOND” menciona, por fin, Big Data y Open Data.
(Agosto 2013) propuesta BigData – Fondo Conacyt Inegi.
DGAI Inicia con Herramientas Big Data
(Octubre 2013) Encuentro con Seligman en Monterrey en evento de Tec Milenio Instituto de ciencias de la felicidad.
(Diciembre 2013) Visita de Upenn a INEGI
(Febrero 2014) Inicia recolección de Tuits (Hydra)
(Junio 2014) Seminario Internacional Inegi Big Data en INFOTEC
(Julio 2014) SECTUR y mapa resultado y paper.
(Agosto 2014) Inicia Pioanálisis
(Nov. 2014) Concluye clasificación de Twits.
(Diciembre 2014) Involucramiento Infotec-Geo etiquetado de tuits
(Febrero 2015) Viaje a UPenn
(Febrero 2015) Seminario Infotec-CentroGeo-Inegi.
(Abril 2015) Herramienta de Medición de Bienestar en Tiempo Real
(Junio 2015) Entrega del primer conjunto de 60M clasificado por INFOTEC
(Julio 2015) Herramienta de Visualización
@abxda
![Page 36: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/36.jpg)
Equipo de Trabajo
Dr. Oscar S. Siordia [email protected]
Dr. Mario [email protected] Dra. Daniela Moctezuma
Dr. Elio Villaseñorelio.villaseñ[email protected]
Dr. Eric [email protected]
Dr. Sabino [email protected]
Dr. Gerardo [email protected]
Dr. Alfredo [email protected]
Mtro. Abel [email protected]
Ing. Silvia [email protected] Y el apoyo de:
Dr. Juan Muñoz Ló[email protected]
Ing. Ricardo [email protected]
Y en la parte de visualización:Lic. Marco [email protected]
@abxda
![Page 37: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/37.jpg)
OBJETIVO DEL PROYECTO
Generar indicadores experimentales, nuevos o que complementen los generados por métodos tradicionales, utilizando técnicas de Big Data para la extracción, almacenamiento, procesamiento, análisis y visualización de los datos.
@abxda
![Page 38: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/38.jpg)
Impactos esperados del proyectoDesarrollo Estadístico
• Propuesta de indicadores obtenidos a partir de fuentes Big Data
• Establecimiento de correlaciones entre éstos y los producidos por la estadística oficial.
• Producción científica de los académicos participantes
@abxda
![Page 39: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/39.jpg)
Impactos esperados del proyectoDesarrollo Tecnológico
• Adquirir experiencia práctica en nuevas técnicas de recolección, integración, procesamiento, análisis y visualización de datos
• Identificar el proceso, los procedimiento, las habilidades, los roles y el flujo de trabajo que serían necesarios para poder desarrollar las capacidades institucionales
• Identificar los requerimientos de Hardware y Software para desarrollar un ambiente de producción de Big Data
@abxda
![Page 40: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/40.jpg)
¿Cuántos caracteres?
@abxda
![Page 41: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/41.jpg)
140 ???@abxda
![Page 42: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/42.jpg)
Todo listo para la presentación de #BigData en el @FSLmx .
1482
Json: Formato de Intercambio
![Page 43: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/43.jpg)
Nuestra huella en las Redes Sociales
@abxda
![Page 44: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/44.jpg)
Todos los tuits están disponibles para su recolección en tiempo real.
@abxda
![Page 45: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/45.jpg)
Incluso permite consultas geográficas
@abxda
![Page 46: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/46.jpg)
¿Dónde recolectar?
@abxda
![Page 47: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/47.jpg)
http://www.elasticsearch.org/
@abxda
![Page 48: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/48.jpg)
¿Por qué ElasticSearch?
@abxda
![Page 49: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/49.jpg)
Hydra
@abxda< ESCALABILIDAD HORIZONTAL >
![Page 50: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/50.jpg)
Hydra
@abxda
![Page 51: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/51.jpg)
@abxda
![Page 52: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/52.jpg)
– 1 año 7 meses de estar recolectando las 24 horas 7 días de la semana tuits georeferenciados.
– Mas de 150 millones de tuits recolectados
Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL.
@abxda
![Page 53: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/53.jpg)
Visualización de la Base de Datos
>150 Millones de Tuits
@abxda
![Page 54: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/54.jpg)
~ 70 Millones de Tuits
@abxda
![Page 55: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/55.jpg)
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
882,007 Tuiteros generaron 43’079,312 de Tuits
@abxda
![Page 56: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/56.jpg)
Movilidad de los Tuiteros4’469,550 de desplazamientos inter-municipales 347,157 Tuiteros
@abxda
![Page 57: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/57.jpg)
@abxda
Red Nacional de Caminos y Twitter
![Page 58: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/58.jpg)
Red Nacional de Caminos y Twitter
@abxda
![Page 59: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/59.jpg)
DENUE & Twitter
@abxda
![Page 60: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/60.jpg)
DENUE & Twitter
@abxda
![Page 61: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/61.jpg)
DENUE & Twitter
@abxda
![Page 62: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/62.jpg)
DENUE & Twitter
@abxda
![Page 63: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/63.jpg)
Horarios de Tuiteo cerca de algún sector
@abxda
![Page 64: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/64.jpg)
PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING
Qué es un producto de datos
![Page 65: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/65.jpg)
Indicador de sentimiento
…
…
Proceso de Machine LearningObjetivo:
@abxda
![Page 66: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/66.jpg)
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representación numéricahttp://scikit-learn.org/http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
ClasificadorIndicador
de sentimiento
@abxda
Entrenamiento
Producción
![Page 67: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/67.jpg)
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
![Page 68: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/68.jpg)
@abxda
{ JSON }
D3.js Librería JavaScript para creación de losgráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrónMVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitaciónresponsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Web Api 2 / Interface REST
Tecnologías Involucradas
![Page 69: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/69.jpg)
Resultados
@hbcolectivo
@ricardoaolvera
@abxda
Alrededor de 5000 anotadores de la Universidad Tec Milenio
![Page 70: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/70.jpg)
El proceso de limpieza sirvió para eliminar redundancias e inconsistencias, dejando un conjunto menor de Tuits pero con mayor calidad.
@abxda
![Page 71: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/71.jpg)
El proceso de normalización convierte cada tuit a una representación que facilite su clasificación automatizada. @abxda
![Page 72: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/72.jpg)
Preparación para el entrenamiento de algoritmos de Machine Learning@abxda
![Page 73: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/73.jpg)
El resultado final de la fase de entrenamiento consistió en un ensamblado desarrollado por la colaboración INFOTEC - Centro Geo
@abxda
![Page 74: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/74.jpg)
@abxda
![Page 75: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/75.jpg)
@abxda
![Page 76: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/76.jpg)
IMPLEMENTACIÓN DE BIG DATAVisión de
![Page 77: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/77.jpg)
Hadoop / Apache Spark
@abxda
ó
Procesamiento70 Cores > 3 Ghz>250 Gb Ram5 TB
+Recolección20 Cores > 3 Ghz100 Gb Ram1 TB
![Page 78: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/78.jpg)
• Tecnología de procesamiento en paralelo para Ciencia de Datos
Apache Spark
@abxda
![Page 79: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/79.jpg)
@abxda
![Page 80: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/80.jpg)
http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html
Reflexión
@abxda
![Page 81: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/81.jpg)
Preguntas
@abxda
![Page 82: Anatomía de un proyecto de Big Data](https://reader038.fdocuments.es/reader038/viewer/2022103010/589b46d81a28ab4a398b4dd7/html5/thumbnails/82.jpg)
[email protected] @abxda