Científico de Datos Con Software Libre

23
Científico de datos con Software Libre Ing. Mauricio Arancibia 1

description

Presentación sobre alternativas y herramientas basadas en Software Libre /OpenSource para el científico de datos.Conceptos básicos sobre el Data Science.

Transcript of Científico de Datos Con Software Libre

Page 1: Científico de Datos Con Software Libre

1

Científico de datos con Software LibreIng. Mauricio Arancibia

Page 2: Científico de Datos Con Software Libre

2 Datos, el nuevo petróleo.

En los últimos 10 minutos se generanmás datos que desde la prehistoria

hasta el 2003.

Page 3: Científico de Datos Con Software Libre

3 Todo el tiempo estamos generando información

Page 4: Científico de Datos Con Software Libre

4

Page 5: Científico de Datos Con Software Libre

5 BIG DATA

Término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad)

Page 6: Científico de Datos Con Software Libre

6

Page 7: Científico de Datos Con Software Libre

7 Científico de datos (Data Scientist)

Page 8: Científico de Datos Con Software Libre

8 Data Scientist: El trabajo más sexy del siglo 21

Page 9: Científico de Datos Con Software Libre

9 Que es “Data Science”

Habilidades para resolver problemas Habilidades de comunicación Mente abierta Otras cualidades:

Es escéptico y curioso. Conocimientos sobre machine learning Estadísticas y probabilidad Aplica el método científico. Ejecuta experimentos. Es bueno codificando y hackeando. Capaz de hacer frente a la ingeniería de datos de TI. Capaz de encontrar respuestas a las incógnitas. Tiene conocimiento del dominio

Page 10: Científico de Datos Con Software Libre

10

Page 11: Científico de Datos Con Software Libre

11 Que hacen los Data Scientists

Diseña y personaliza sistemas y herramientas Trabaja con datos estructurados y no estructurados Crea flujos de procesos de datos Analiza grandes volúmenes de datos (TB, PB) Construye modelos predictivos Crea visualizaciones Diseña productos de datos Usa Hadoop, MapReduce, Hive, Python, R

Page 12: Científico de Datos Con Software Libre

12 BI vs Data Science

Page 13: Científico de Datos Con Software Libre

13

Page 14: Científico de Datos Con Software Libre

14 Flujo del proceso de un Data Scientist

Page 15: Científico de Datos Con Software Libre

15 Aplicaciones

Page 16: Científico de Datos Con Software Libre

16 Data Science y el Open Source

Sistemas operativos: Linux + Shell tools

Instrumentos Big data: Hadoop (MapReduce) + hadoop tools Hive, Pig NoSQL (Hbase, MongoDB, Cassandra, Neo4J)

Bases de datos SQL

Page 17: Científico de Datos Con Software Libre

17 Data Science y el Open Source

Programación: Python Java R

Machine Learning: Matlab Python libraries (NumPy, SciPy, Nltk) Java Libraries (Mahout)

Page 18: Científico de Datos Con Software Libre

18 Programación en R

Here are just a few examples: Google uses R to calculate the ROI on advertising campaigns. Ford uses R to improve the design of its vehicles. Twitter uses R to monitor user experience. The US National Weather Service uses R to predict severe flooding. The Rockefeller Institute of Government uses R to develop models for

simulating the finances of public pension funds. The Human Rights Data Analysis Group uses R to quantify the impact of war. R is used frequently by The New York Times to create infographics and

interactive data journalism applications.

Page 19: Científico de Datos Con Software Libre

19 PROGRAMACIÓN CON R

Que es R? R es un lenguaje de programación estadístico con licencia

GPL. Está basado en el leguaje S desarrollado en los laboratorios

Bell. Es un lenguaje muy poderoso para escribir programas y es

multiplataforma (MacOS, Linux, Windows) Posee muchas funciones estadísticas. Existen muchísimos paquetes que extienden su funcionalidad

Page 20: Científico de Datos Con Software Libre

20 Introducción con R

Donde lo obtenemos: http://www.r-project.org Descargas: CRAN Seleccionar un mirror Seleccionar el sistema operativo. Seleccionar la base, ultima versión: R 3.2.0

Page 21: Científico de Datos Con Software Libre

21 Introducción con R

La GUI de R

Page 22: Científico de Datos Con Software Libre

22 R Studio

RStudio es un entorno de desarrollo integrado (IDE) para R que funciona con la versión estándar de R disponible en CRAN.

Al igual que R, RStudio es software libre. El objetivo de sus creadores es desarrollar una herramienta potente que

soporte los procedimientos y técnicas requeridas para realizar análisis de alta calidad y dignos de confianza.

Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos usuarios de R.

Page 23: Científico de Datos Con Software Libre

23