Big Data para mortales

30
Un viaje de mil millas empieza con el primer paso. Lao-tsé

Transcript of Big Data para mortales

Un viaje de mil millas empieza con el primer paso.

Lao-tsé

• Ingeniero de sistemas.• Especialista construcción de software.• Scrum Master Certified.• Oracle Expert.• Inmerso en la ciencia de datos (estudiante datascience coursera).• 12 años de experiencia en TI:

• Arquitecto software / empresarial• Líder técnico• Líder de proyectos• Administrador de bases de datos• Java/Oracle/Arduino developer.• Emprendedor• Entusiasta robótica e internet de las cosas

Industrias• Banca• Manufactura• Editorial• Fábrica de software• Educación

Agenda

• Retrospectiva humana

• Qué es Big data

• Tipos de datos

• Big data y las 4 vs

• Tecnologías big data

• Open data

• Educación en big data

• Información de interés

• Referencias

18000 a 200 años antes de Cristo

Año 18000 ac, Los humanos utilizan por primera vez huesos pararegistrar inventarios y actividades de intercambio.

Año 2400 ac, el ábaco es desarrollado y las primeras bibliotecas sonconstruidas en babilonia.

Año 300 ac, la biblioteca de Alejandría es la mas grande del mundo.

Año 200 ac, los griegos desarrollan el Mecanismo de Anticitera.

Año 1663, John Graunt – conduce el primer análisis estadístico, en un intento de frenar lapropagación de la peste negra en Europa.

Año 1865, Richard Millar Devens, acuñó el termino inteligencia de negocios.

Año 1881, Herman Hollerith primeros informáticos, máquina tabuladora de Hollerith,luego IBM.

Año 1928, Fritz Pfleumer, diseña un método para almacenar datos, base de los sistemasmodernos

Año 1926, Nicola Tesla predice que en el futuro los hombres podrán acceder y analizarvastas cantidades de datos usando dispositivos que caben en un bolsillo.

Después de cristo…

Año 1970, Edgar F cood diseña el modelo de base datos relacionales IBM, habilitandoa cualquiera para poder usar las bases de datos.

Año 1989, Erik Larson, en un artículo para un magazine, se utiliza el término big data:los datos tiene una manera de ser utilizados para fines distintos a los previstosoriginalmente.

Año 1991, nace internet, cualquier persona puede estar online, cargar datos ydescargar datos.

Año 1996, cae el precio del almacenamiento digital siendo mas barato este quetenerlo en papel.

Después de cristo…

Año 1997, Google lanza su motor de búsqueda, siendo este el mas popular.

Año 1999, primer uso del termino big data en un paper académico: “VisuallyExploring Gigabyte Datasets in Realime(ACM)”.

Año 1999, Se usa el termino de internet de las cosas, en una presentación denegocios de Kevin Ashton de Procter y Gamble.

En 2001, Doug Laney, define las 3 v’s: Volume, Velocidad, Variedad.

En 2005, Hadoop empieza a ser desarrollado por Apache Foundation.

Después de cristo…

Año 2008, globalmente 9,57 zettabytes de información es procesada por loscomputadores del mundo.

Año 2009, El promedio de las compañías norteamericanas con mas de 1000colaboradores, almacenan mas de 200 terabytes de información.

Año 2010, Google dice que ahora cada dos días se crean mas datos, que los creadosdesde el inicio de la civilización hasta el 2003.

Año 2014, el uso de internet móvil sobre pasa al de los computadores de escritorio.

Después de cristo…

¿Qué es Big Data?

Big data es el corazón de una revolución inteligente. La idea básica de la frase esque todo lo que hacemos esta dejando cada vez mas una huella digital (dato), quenosotros y otros podemos utilizar y analizar para ser mas inteligentes.

[Big data: using big data analytics and metrics to make better decisions]

¿Qué es Big Data?

Big data esta cambiando la forma es que hacemos los negocios y la manera en quevivimos como sociedad.

Simples actividades como escuchar música y ver videos, leer un libro electrónico,manejar un automóvil, navegar por internet, comprar, jugar en línea, chat,videollamadas, redes sociales(Facebook, twiter, g+, instagram) y muchas, muchasmas!!.

El reto ahora es imaginar que no genera datos, si se usa internet y/o serviciostecnológicos.

¿Cómo se esta usando?• Imagina cualquier cosa que pueda dejar un rastro digital.

• Deportes inteligentes

• Salud Inteligente

• Hogares Inteligentes

• Amor inteligente

• Paternidad Inteligente

• Música Inteligente

• Causas Humanitarias

• Selección de talento humano

• Negocios, industria.

• Muchos, Muchos, Muchos mas!!

Tipificación de datos, de donde proviene estainformación?

No estructurada 80%

Descripción big data y las 4 v’s

Volumen

Esto se refiere a vastos volúmenes de datos generados cada segundo, ya no semencionan terabytes, se habla de zettabytes o yottabytes.

Bytes diarios : 1 quintillón = 10 30 = 1,000,000,000,000,000,000,000,000,000,000 (IBM)

Medidas en bytes

Infografía, big data, y es tan solo una parte!!

Descripción big data y las 4 v’s

Velocidad

Se refiere a la velocidad en la cual los datos son generados.La velocidad en la cual los datos generan mas datos con base en su contexto.

Ejemplo: trending topics en las redes sociales.

#EnUnaFiestaNoFalta#MeGustariaQueUsted#EstereoPicnicEs40#VanGaalOut

El objeto es que la tecnología habilita la posibilidad de analizar la data mientras esgenerada, incluso sin necesidad de colocar estos análisis en bases de datos.

Descripción big data y las 4 v’s

Variedad

Se refiere a los diferentes tipos de datos que ahora podemos usar y generar, en elpasado solo se hablaba de datos estructurados almacenados en tablas en bases dedatos no relacionales información derivada de la operación de las organizaciones.

De hecho se concluye que 80% de los datos actuales en el mundo es información noestructurada.

Descripción big data y las 4 v’s

Veracidad

Se refiere a la calidad de la big data, es un trabajo desafiante teniendo en cuenta quela información puede venir abreviada, con hashtags, términos coloquiales, legibilidad,precisión de la información.

Ejemplo:

Convirtiendo la big data en valor!!

Capas de Big Data y tecnologías

Data Source Layer

Data Storage Layer

Data Processing /

Analysis Layer

Data output Layer

Data Source Layer• ¿Qué datos tengo (operación)?• ¿Qué preguntas puedo responder?• ¿Debo establecer nuevos origenes?

Data Storage Layer• Aquí es donde big data se alojará (volumen), Distributed File System,

MapReduce, Hadoop Common, YARN.• Google File System.

Data Processing/Analysis Layer• Selección de elementos de los datos a analizar, colocarlos en un formato en

donde las ideas se puedan extraer.

Data Output Layer• Presentación de ideas a través del análisis realizado a quienes pueden tomar

acciones de ellas, clara y concisa comunicación.

Open data

El 30 de septiembre de 2010 es una fecha importante para la historia de los datosabiertos: el Archivo Nacional del Reino Unido liberó una licencia gubernamental dereutilización de los datos generados por esa nación.

Numerosos científicos han subrayado la ironía de que precisamente en el momentohistórico en el que tenemos tecnologías para permitir la disponibilidad y el procesodistribuido de datos científicos a nivel mundial, aumentando la colaboración eincrementando el ritmo y la profundidad del descubrimiento estamos ocupadosconfinando esos datos y vetando el uso de las pertinentes nuevas tecnologías sobre elconocimiento.

Open data

http://www.data.gov/

http://open-data.europa.eu/en/data/

http://aws.amazon.com/datasets

http://wiki.dbpedia.org/About

http://datosabiertoscolombia.cloudapp.net/frm/buscador/frmBuscador.aspx

Educación en Big data

• Web Intelligence and Big Data – Coursera• Behind and Beyond Big Data – Stanford• Big Data University - http://bigdatauniversity.com/

Eventos y datos de Interés

• Impacto de analytics en la creación de ventajas competitivas – Uniandes marzo 16.• Convocatoria para conformar centros del excelencia – Colciencias.• Para el 2015 se generaran 4 millones de empleos en el sector.• Cursos y mas cursos online!!!• Workshop en estadística aplicada – universidad Santo Tomas – Abril 22• Concursos y bolsas de premios compite!!• Otros meetups, otras regiones, temas comunes• Discusiones de big data(definiciones, seguridad, privacidad, gamificacion, enfoques

ágiles, etc)

Referencias

• https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/

• https://www.coursera.org/course/bigdata

• http://insidebigdata.com/2013/02/03/where-did-big-data-come-from/

• http://hadoop.apache.org/

• http://es.wikipedia.org/wiki/MapReduce

• https://www.udacity.com/checkout#!/0?products=6378836263960576

• http://es.wikipedia.org/wiki/Mecanismo_de_Anticitera

• http://es.wikipedia.org/wiki/John_Graunt

• http://es.wikipedia.org/wiki/Peste_negra

• http://www.bisoftwareinsight.com/history-of-business-intelligence/

• http://es.wikipedia.org/wiki/Herman_Hollerith

Referencias• http://es.wikipedia.org/wiki/Fritz_Pfleumer

• http://en.wikipedia.org/wiki/Mike_Lesk

• http://www.econtentmag.com/Articles/Editorial/Feature/The-State-of-Big-Data-2015-101716.htm

• http://www.datasciencecentral.com/

• http://www.bigdatanews.com/profiles/blog/list?promoted=1

• http://www.bigdatanews.com/profiles/blogs/20-big-data-repositories-you-should-check-out

• http://www.bigdatanews.com/profiles/blogs/big-data-the-4-layers-everyone-must-know

• http://es.slideshare.net/BernardMarr/140228-big-data-slide-share

Referencias

• http://es.slideshare.net/BernardMarr/a-brief-history-of-big-data

• http://es.slideshare.net/SheaSwauger/big-data-big-opportunities-or-big-trouble?qid=11a407b2-f802-4225-b729-d879b3ae2964&v=qf1&b=&from_search=8

• http://www.amazon.com/Big-Data-Analytics-Decisions-Performance/dp/1118965833/ref=asap_bc?ie=UTF8

• https://www.linkedin.com/pulse/how-learn-big-data-free-bernard-marr

• http://es.wikipedia.org/wiki/Datos_abiertos

• http://www.bigdatanews.com/profiles/blogs/20-big-data-repositories-you-should-check-out

• http://simplystatistics.org/2011/10/18/spectacular-plots-made-entirely-in-r/• http://www.ageiadensi.org/?p=542