Presentación univalle

28
Hugo Andrés Dorado B. Estadístico (2013), Asistente de investigación en CIAT

Transcript of Presentación univalle

Hugo Andrés Dorado B.

Estadístico (2013), Asistente de investigación en

CIAT

Temas de la presentación

Caso de estudio en arroz

Conceptos de Big Data

Incremento en los datos generados

De donde proviene la información?

Muchas más…

más de 38.576 consultas por segundo!

5700 tweets por segundo!

1 billón de usuarios activos

http://cuartoenlace.blogspot.com/2014/01/las-estadisticas-de-

facebook-twitter.html

Más frecuente!

En que formato vienen estos datos?

Muchas otras fuentes de datos no estructurados…

Imagenes satelitales Páginas web

Videos

Quienes son los interesados?

- Compañías que utilizan Marketing como estrategia de ventas.

- La agricultura.

- Quienes establecen políticas publicas .

- Sector de la Salud.

- Muchos otros sectores.

Definición del Big Data

“Una tendencia que se impone en el mundo para el análisis y

procesamiento de información masiva, la cual se ha convertido en una

herramienta muy útil para tomar decisiones”

http://colombia-inn.com.co

4 V del Big Data – Piezas del rompecabezas

VOLUMEN

Grades conjuntos de datos

VELOCIDAD

Alta velocidad del flujo de datos,

cambio y procesamiento

VARIEDAD

Varios tipos de fuentes (Datos

estructurados y no estructurados)

VERACIDAD

Incertidumbre: Inconsistencia de los

datos, ambigüedad y modelos de

aproximación.

IBM corporation 2012

Big data en Arroz

Información del cultivo de arroz

Sistema de riego Sistema secano

SiembraCosecha

Un evento productivo de arroz = alrededor de 120

días

Temas de interés para el productor o

el gremio.

- Como afecta el clima al

cultivo.

- Que variedad se debe sembrar

- Cuando se debe sembrar para

sacar el mayor potencial del

cultivo.

- Entre otros

Contexto de la investigación

Variabilidad en los rendimientos de

arroz y brecha productiva.

Hipótesis:

- El clima tiene efectos relevante, que contribuyen a la variación en los

rendimientos.

- Tomando referencia datos del pasado se puede extraer información

para tomar mejores decisiones en el futuro.

- La planta presenta mayor sensibilidad en ciertas fases del cultivo.

Buscando y uniendo las fichas

Convenio MADR - CIAT

IDEAM

Fisiólogos expertos en el

cultivo

Encuesta nacional arrocera

Registros de cosechas en

zonas arroceras

Variedad

Saldaña (Tolima), Caso de estudio

Saldaña 2007 a 2012

N: 793 eventos productivos

Estaciones meteorológicas

Volumen

Definiendo las variables, con colaboración

de los expertos

Cómo aumentar la predicción? VEG

Ini

Pan

FLOR

VEG

Ini Pan

FLOR

Variedad 1

Variedad 2

SiembraCosecha

• Energía solar acumulada

• Precipitación acumulada

• Promedio de la temperatura máxima

• Número de días de precipitación significativa (Mayor

10 mm) . . .

Fase vegetativa

Iniciación panícula

Floración

Llenado panícula

Manos a la obra

• Estandarización de la base de datos (Clima y formatos en Excel).

• Llenados de datos faltes.

• Uso de R y Fennix para la ejecución de modelos analíticos, paralelo.

• Creación de Scripts para el procesamiento de datos.

Velocidad• Uso de redes neuronales para identificar .

Redes neuronales artificiales

V1

V2

V3

V4

V5

V60

sp1

V1

V2

V3

V4

V5

V60

sp1

Entradas

Capa oculta

Salida

Capacidad de predecir.

Flexibilidad en los

supuestos de los datos

de entrada.

Percibir relaciones no

lineales

Tratando de ver que hay dentro de

la caja negra

Métricas para medir la sensibilidad

¿Hay un orden de relevancia?

¿Qué tipo de relación?

Perfiles de relación entre variable de

entrada y variable salida

Resultados (Caso de estudio Saldaña)

Zona Saldaña

Variedad F733

Número de registro 190

Desempeño (R) 28.47

Energía acumulada en fase de llenado

Promedio de temperatura mínima en fase

vegetativa

Resultados (Caso de estudio Saldaña)

Zona Saldaña

Variedad F60

Número de registro 100

Desempeño (R) 35.4

Proporción de dias con precipitación mayor a 10mm

Resultados (Caso de estudio Córdoba)

Localidades de Montería y Cereté

Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/

Ago 1 2014

Ago 1 2014 Ener 30 2015

Pronóstico climático diario

Fechas de siembra

Sep 30 2014

Variedades disponibles: F733, F2000 y F473

¿Cuándo y que sembrar?

Aplicación en pronósticos climáticos

Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/

Aplicación en pronósticos climáticos

Pronóstico climático estimado con CPT http://iri.columbia.edu/our-expertise/climate/tools/cpt/

Evaluación de lo resultado con lo

gremios

Reunión con productores

Aguazul - Yopal

Reunión con gremio

Fedearroz BogotáGira en Ibagué

Veracidad

Nuevas metodologías a explorar

• Suport Vector Machine

• C forest

• Random Forest

• Datos funcionales

Conclusiones

- Big Data en la época actual se presenta como una alternativa útil que

permite beneficiarse de la información que se está generando por todos

lados y trasciende a muchos de los campos de investigación; entre ellos la

agricultura.

- Buscar un valor agregado a través de la información colectada con distintos

propósitos bajo el enfoque de bigData, nos proporcionó información base

muy útil que luego pudo ser utilizada por agricultores para tomar mejores

decisiones en campo.

- Fue fundamental aplicar las 4 V´s del BigData para realizar el caso de estudio

de manera que pudieran obtener productos de gran valor.

Equipo de trabajo

Fisiologa

Agrónomo experto

Estadísticos

Ingeniero de

sistemas

Agrónomo

Biólogo

Antropóloga

¡Gracias!

Referencias

• http://www.aclimatecolombia.org/

• http://www.ibm.com/developerworks/ssa/local/im/que-es-big-

data/

• http://www.coursera.org/

• http://colombia-inn.com.co