PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA
MAESTRÍA EN HIDROSISTEMAS
PATRONES DE RELACIÓN ENTRE INFORMACIÓN BIOLÓGICA E INFORMACIÓN FÍSICA Y SOCIOECONÓMICA. CUENCA ALTA DEL RÍO OTÚN,
RISARALDA COLOMBIA
YULIETH ROSSIO CORONEL PICÓN
TRABAJO DE GRADO Presentado como requisito parcial
para optar al título de
MAGÍSTER EN HIDROSISTEMAS
Bogotá, D. C. Julio de 2009
2
NOTA DE ADVERTENCIA "La Universidad no se hace responsable por los conceptos emitidos por sus alumnos en sus trabajos de tesis. Solo velará porque no se publique nada contrario al dogma y a la moral católica y porque las tesis no contengan ataques personales contra persona alguna, antes bien se vea en ellas el anhelo de buscar la verdad y la justicia".
Artículo 23 de la Resolución No13 de julio de 1946.
3
PATRONES DE RELACIÓN ENTRE INFORMACIÓN BIOLÓGICA E INFORMACIÓN FÍSICA Y SOCIOECONÓMICA. CUENCA ALTA DEL RÍO
OTÚN, RISARALDA COLOMBIA
YULIETH ROSSIO CORONEL PICÓN APROBADO
Nelson Obregón Neira Ingeniero. PhD Director
Germán Leonardo Jiménez R. Biólogo. MSc. Evaluador 1
ARMANDO SARMIENTO Economista. MSc. Evaluador 2
4
PATRONES DE RELACIÓN ENTRE INFORMACIÓN BIOLÓGICA E INFORMACIÓN FÍSICA Y SOCIOECONÓMICA. CUENCA ALTA DEL RÍO
OTÚN, RISARALDA COLOMBIA
YULIETH ROSSIO CORONEL PICÓN
Francisco Javier Rebolledo M. Decano Académico de la Facultad de Ingeniería
Andrés Torres. Ingeniero. PhD Director Maestría en Hidrosistemas
5
Dedicado a mi mamá, Elba
por su amor y apoyo, a mi
hermana Marcela y mi abuela
Lucia y a toda mi familia.
6
AGRADECIMIENTOS
A Nelson Obregón Neira por asumir la dirección de la investigación, su incondicional apoyo y confianza en el proceso de formación. A Germán Leonardo Jiménez por su colaboración en el desarrollo de esta investigación. Al Centro de Investigación y Estudios en Biodiversidad y Recursos Genéticos (CIEBREG). Al Grupo de Investigación Riesgo en Sistemas Naturales y Antrópicos- Pontificia Universidad Javeriana. A todos los compañeros y amigos de la Maestría en Hidrosistemas.
7
CONTENIDO
INTRODUCCIÓN --------------------------------------------------------------------------------------------- 14
PROBLEMA ----------------------------------------------------------------------------------------------------- 18
OBJETIVOS ---------------------------------------------------------------------------------------------------- 18
1 DESCRIPCIÓN ÁREA DE ESTUDIO ----------------------------------------------------------- 19
1.1 Climatología --------------------------------------------------------------------------------------- 22
1.1.1 Red de medición existente ------------------------------------------------------------- 22
1.1.2 Precipitación -------------------------------------------------------------------------------- 23
1.1.3 Temperatura -------------------------------------------------------------------------------- 23
1.1.4 Clasificación climática ------------------------------------------------------------------- 23
1.2 Cobertura y usos del suelo ------------------------------------------------------------------- 26
2 RECOPILACIÓN, SELECCIÓN E INTEGRACIÓN DE INFORMACIÓN FÍSICA
Y SOCIOECONOMICA ------------------------------------------------------------------------------------- 29
2.1 Recopilación de información ---------------------------------------------------------------- 30
2.2 Selección de la informacion ----------------------------------------------------------------- 36
2.2.1 Altitud Media -------------------------------------------------------------------------------- 38
2.2.2 Pendiente ------------------------------------------------------------------------------------ 38
2.2.3 Precipitación media anual -------------------------------------------------------------- 40
2.2.4 Temperatura Media anual -------------------------------------------------------------- 40
8
2.2.5 Uso suelo ------------------------------------------------------------------------------------- 40
2.2.6 Distancias a áreas protegidas, vías, ríos y vivienda campesina. ----- 41
2.2.7 Integración de la información --------------------------------------------------------- 42
3 ANÁLISIS DE INFORMACIÓN BIOLOGICA ------------------------------------------------- 44
3.1 Estimador kernel -------------------------------------------------------------------------------- 45
3.2 Definición de la presencia de mamíferos ----------------------------------------------- 48
3.2.1 Metodología --------------------------------------------------------------------------------- 48
3.2.2 Resultados ----------------------------------------------------------------------------------- 54
4 DISEÑO EXPERIMENTAL ------------------------------------------------------------------------- 57
4.1 Metodología ---------------------------------------------------------------------------------------- 57
4.1.1 Árboles de decisión ----------------------------------------------------------------------- 60
4.1.2 Aplicativo computacional utilizado -------------------------------------------------- 63
4.2 Información utilizada para la construcción de los árboles ------------------------ 65
4.3 Modelos evaluados ----------------------------------------------------------------------------- 68
5 ANALISIS Y DISCUSION DE RESULTADOS ----------------------------------------------- 71
5.1 MODELO IIA --------------------------------------------------------------------------------------- 73
5.2 MODELO IIB ----------------------------------------------------------------------------------------- 75
5.3 MODELO IIIA -------------------------------------------------------------------------------------- 76
5.4 MODELO IIIB -------------------------------------------------------------------------------------- 77
6 CONCLUSIONES Y RECOMENDACIONES ------------------------------------------------ 81
6.1 Conclusiones generales de la investigación ------------------------------------------- 81
6.2 Conclusiones especificas de la investigación: ---------------------------------------- 82
6.3 Recomendaciones y Trabajos futuros --------------------------------------------------- 84
9
BIBLIOGRAFÍA ------------------------------------------------------------------------------------------------ 86
ANEXOS --------------------------------------------------------------------------------------------------------- 91
10
LISTA DE TABLAS
Tabla 1 Estaciones utilizadas para la caracterización climática de la cuenca del Rio
Otún. --------------------------------------------------------------------------------------------------------------- 24
Tabla 2 Tipos de Cobertura y usos del suelo. Cuenca media y alta del rio Otún ----- 27
Tabla 3 Información cuenca Otún junto con sus fuentes. -------------------------------------- 33
Tabla 4 Especies de mamíferos terrestres presentes en la cuenca media del río
Otún ---------------------------------------------------------------------------------------------------------------- 34
Tabla 5 Usos del suelo en el área de estudio. Fuente: SIG-CIEBREG ------------------- 35
Tabla 6 Descripción del paquete Gen Kern desarrollado para R. -------------------------- 50
Tabla 7 Script utilizado para la estimación del área de uso de los mamíferos.
Fuente: El Autor ----------------------------------------------------------------------------------------------- 52
Tabla 8 Argumentos utilizados para la aplicación del estimador kernel. Fuente: El
autor. -------------------------------------------------------------------------------------------------------------- 54
Tabla 9 Ejemplo Matriz de Confusión. ---------------------------------------------------------------- 65
Tabla 10 Modelo de tabla de patrones generada ------------------------------------------------- 66
Tabla 11 Información estadística de las variables ------------------------------------------------ 67
Tabla 12 Distribución de los casos analizados dentro de cada variable y cada
categoría. Modelo I. ------------------------------------------------------------------------------------------ 69
Tabla 13 Distribución de los casos analizados dentro de cada variable y cada
categoría. Modelo II. ----------------------------------------------------------------------------------------- 70
11
Tabla 14 Reglas generadas para el Modelo IIA --------------------------------------------------- 79
Tabla 15 Reglas generadas para el Modelo IIB --------------------------------------------------- 79
Tabla 16 Reglas generadas para el Modelo IIIA -------------------------------------------------- 80
Tabla 17 Reglas generadas para el Modelo IIIB -------------------------------------------------- 80
12
LISTA DE FIGURAS
Figura 1 Localización cuenca del río Otún ---------------------------------------------------------- 19
Figura 2. División de la Cuenca ------------------------------------------------------------------------- 20
Figura 3 Localización zona de estudio. --------------------------------------------------------------- 21
Figura 4 Localización de las estaciones de la red meteorológica en la cuenca del río
Otún. --------------------------------------------------------------------------------------------------------------- 24
Figura 5 Precipitación media mensual. Estación el Cedral (mm). -------------------------- 25
Figura 6 Precipitación media mensual. Estación Planta de Tratamiento. ---------------- 26
Figura 7 Temperatura media mensual. Estación El Cedral ----------------------------------- 26
Figura 8 Información colectada -------------------------------------------------------------------------- 32
Figura 9 Modelo digital de elevación Cuenca media y alta del río Otún. ----------------- 39
Figura 10 Pendiente Cuenca Media y alta del río Otún (%)----------------------------------- 39
Figura 11 Uso del suelo reclasificado. ---------------------------------------------------------------- 42
Figura 12 Definición de variables para la grilla generada. ------------------------------------- 43
Figura 13 Distribución de registros de mamíferos y densidad estimada. ---------------- 55
Figura 14 Variación de la densidad de probabilidad estimada ------------------------------- 55
Figura 15 Variación de la densidad en el eje X (Este) ------------------------------------------ 56
Figura 16 Variación de la densidad en el eje Y (Norte) ----------------------------------------- 56
13
Figura 17 Metodología para la identificación de patrones de relación. ------------------- 59
Figura 18 Estructura de un árbol de decisión ------------------------------------------------------ 60
Figura 19 Histograma de las variables utilizadas ------------------------------------------------- 67
Figura 20 Número de casos evaluados en cada modelo (a), Número de casos
correctamente clasificados (b) --------------------------------------------------------------------------- 72
Figura 21 Porcentaje de casos correctamente clasificados dentro de la categoría A. --------- 73
Figura 22 Distribución de los casos correctamente clasificados en la Clase A de la
variable presencia de mamíferos para las reglas generadas. Modelo IIA --------------- 74
Figura 23 Distribución de los casos correctamente clasificados en la Clase A de la
variable presencia de mamíferos para las reglas generadas. Modelo IIB --------------- 75
Figura 24 Distribución de los casos correctamente clasificados en la Clase A de la
variable presencia de mamíferos para las reglas generadas. Modelo IIIA -------------- 77
Figura 25 Distribución de los casos correctamente clasificados en la Clase A de la
variable presencia de mamíferos para las reglas generadas. Modelo IIIA -------------- 78
14
INTRODUCCIÓN
Colombia es considerado un país megadiverso por poseer el 10% de la
biodiversidad mundial en tan solo el 0.7% de la superficie terrestre. Esta
diversidad es consecuencia de la gran variedad de ecosistemas que existen
en el territorio colombiano: páramos, laderas andinas, valles interandinos,
selvas tropicales, humedales, llanuras y desiertos. Sin embargo, se ha visto
amenazada por la destrucción y fragmentación del hábitat, introducción de
especies (exóticas, invasoras), y la contaminación (polución y tóxicos en el
ambiente).
Una de las principales causas de pérdida de biodiversidad en Colombia
obedece al acelerado proceso de transformación de hábitats y ecosistemas
naturales ocasionado principalmente por la deforestación producida por la
expansión de la frontera agropecuaria y la colonización. Esto ha llevado a la
necesidad de tomar medidas encaminadas al uso y manejo sostenible de los
recursos naturales.
En el 2002 con el decreto 1729 se plantean las directrices para la ordenación
de cuencas, con el que se busca la planificación y uso sostenible de la
cuenca y la ejecución de programas y proyectos específicos dirigidos a
conservar, preservar, proteger o prevenir el deterioro y/o restaurar la cuenca
15
hidrográfica. Las cuencas son consideradas como la unidad ideal de gestión,
dado que en estas interactúan de manera dinámica los sistemas
socioeconómicos y biofísicos y porque ellos reflejan un comportamiento
que responde a los estilos de manejo de los recursos agua, suelo, flora y
fauna, así como las actividades o infraestructuras existentes en sus zonas de
influencia (Rojas)
Dada la necesidad de formular e implantar programas y proyectos que
obedezcan a la interpretación de la interacción de los sistemas
socioeconómicos y biofísicos, y por ende respondan a las realidades del
recurso explotado, se hace necesaria la utilización de herramientas que
permitan la integración y reconocimiento de patrones que puedan ser
utilizados como soporte para el diseño de estos. El creciente desarrollo de la
informática, la inteligentica artificial, los sistemas de información, la minería
de datos, la adquisición de datos, la gestión/extracción/visualización de datos
entre otros, presentan hoy día la oportunidad de utilizar herramientas que
facilitan la identificación e interpretación de estas relaciones, a partir de la
utilización de modelos guiados por datos, basados en el conocimiento o
basados en la biofísica.
La hidroinformática es un campo multidisciplinar recientemente establecido
que combina las tecnologías antes descritas para la gestión del recurso
hídrico, utilizando estas herramientas para solución de problemas de
hidráulica, hidrológica y gestión ambiental Dentro de las herramientas
utilizadas en este campo se encuentran las redes neuronales, algoritmos
genéticos, lógica difusa, arboles de decisión, sistemas expertos (difusos),
entre otros.
El Centro de Investigación y Estudios en Biodiversidad y Recursos
Genéticos (CIEBREG) en el marco del proyecto: Valoración de bienes y
16
servicios de la biodiversidad para el desarrollo sostenible de paisajes rurales
colombianos: Complejo ecoregional de los Andes del norte, ha adelantado
diferentes investigaciones en la Cuenca del río Otún dentro de las que se
encuentran el monitoreo de fauna silvestre, la caracterización
socioeconómica e identificación de servicios ecosistémicos. Sin embargo
como se mencionó en el apartado anterior, para la definición de estrategias
de manejo y conservación es necesario que esta información se analizada
conjuntamente para que las soluciones planteadas, realmente respondan a
las necesidades identificadas en la cuenca.
Considerando las posibilidades que ofrecen las herramientas utilizadas en
hidroinformática para la solución de problemas complejos, en esta
investigación se buscó la identificación de las relaciones existentes entre la
presencia de algunas especies de mamíferos (información biológica) y
características físicas y socioeconómicas de la cuenca media del río Otún a
través de la aplicación de arboles de decisión. Según Palomino et al (2007)
estos han demostrado ser útiles para la modelización de preferencias de
hábitat para la fauna.
La información obtenida de esta investigación sumada a otros estudios,
puede servir como soporte para toma de decisiones en la conformación de
áreas prioritarias para la conservación por su importancia para la fauna
silvestre, y/o selección de áreas que sean incluidas en programas de pago
por servicios ambientales.
El presente documento, se ha estructurado en 5 capítulos. A continuación
se hace una breve descripción de cada uno de ellos.
17
En el capitulo 1 se describe la zona de estudio, climatología y usos del suelo
de la misma. Esta información es la base sobre la que se definen las
variables físicas y socioeconómicas empleadas en la investigación.
En el capitulo 2 se describen las tareas relacionadas con la recopilación,
selección e integración de información física y socioeconómica y se realiza la
definición de las variables a utilizar.
En el capitulo 3 se realiza el análisis de la información biológica. Se describe
la metodología y herramientas utilizadas para el análisis de la misma.
En el capitulo 4 se presenta el diseño experimental, donde se definen los
modelos utilizados, las herramientas y los aplicativos computacionales
empleados la el descubrimiento de patrones.
En el capitulo 5 el análisis y discusión de los resultados obtenidos.
Por último se presentan las conclusiones y comentarios finales.
18
PROBLEMA
La pregunta que motivó esta investigación es:
¿Qué relación existe entre la presencia de mamíferos y las características
físicas y socioeconómicas de la cuenca media del río Otún?
OBJETIVOS
Objetivo General
Establecer la relación existente entre la presencia de mamíferos y variables
físicas y socioeconómicas de la cuenca media del río Otún a partir de la
utilización de técnicas de minería de datos.
Objetivos Específicos
Desarrollar herramientas conceptuales, matemáticas e informáticas para la
integración, análisis y descubrimiento de patrones de relación entre
información biológica e información física y socioeconómica.
Identificar variables físicas y socioeconómicas y su relación de causalidad
con la presencia de mamíferos en la zona de estudio.
19
1 DESCRIPCIÓN ÁREA DE ESTUDIO
La cuenca del río Otún se ubica al noroccidente de Colombia en la Cordillera
Central de los Andes, al sur del departamento de Risaralda en las
coordenadas 4º 49’ latitud Norte y 75º 42’ longitud Oeste (Véase Figura 1);
tiene un área aproximada de 483,13 km2 y forma parte de la Gran cuenca
del río Cauca. Su forma es alargada.
Figura 1 Localización cuenca del río Otún
20
El río Otún nace en la laguna del mismo nombre en el Parque Nacional
Natural de los Nevados a 4.000 m.s.n.m en jurisdicción del Municipio de
Pereira. Tiene una longitud de 75,42 km siguiendo una trayectoria en sentido
Este - Oeste hasta confluir con el Río Cauca a 950 m.s.n.m. Es la fuente de
abastecimiento del acueducto de Pereira.
Para su estudio ha sido dividida en tres tramos: cuenca alta, que va desde su
nacimiento hasta las microcuencas Volcanes y La Bananera – La Bella;
cuenca media, inicia en la quebrada San José, hasta la desembocadura de la
quebrada Dosquebradas y cuenca baja, a partir de la microcuenca Combia
Alta hasta su desembocadura en el río Cauca ( CARDER , 2008). En la
Figura 2 se presenta la división de la cuenca
Figura 2. División de la Cuenca
Fuente: CARDER 2008
21
En la parte alta de la cuenca se localiza un complejo de áreas protegidas
conformado por el Parque Regional Natural Ucumarí, Parque Nacional
Natural los Nevados, Parque municipal Natural Campoalegre y el Santuario
de Flora y Fauna Otún Quimbaya.
El área de estudio se localiza en la cuenca alta de la cuenca del río Otún
entre los 1.400 m.s.n.m y 2300 m.s.n.m, donde los principales sistemas
productivos son la agricultura, la ganadería y explotación forestal. Esta zona
fue seleccionada de acuerdo a la distribución de registros de indicios de
mamíferos identificados en la cuenca alta, tal como se explica en el Capitulo
tres (3).
Figura 3 Localización zona de estudio.
22
1.1 Climatología
1.1.1 Red de medición existente
Dentro de la cuenca del Río Otún se identificaron dos estaciones principales
que son la Estación El Pílamo (1111111) y la Estación El Cedral (2613507) y
una estación principal cercana a la cuenca llamada El Jazmín (2613506).
Además se identificaron cuatro estaciones pluviométricas que son: Los
Cámbulos (2613021), El Bosque (2613026), La Playa (2613046) y Combia
(2613051); y La estación Planta de Tratamiento (2613023). Estas estaciones
pertenecen a la red de Meteorológica de la Federación Nacional de
Cafeteros.
En Tabla 1 se presenta el listado de las estaciones Principales,
Pluviográficas y Pluviométricas identificadas dentro de la cuenca del río Otún
y cuencas cercanas. En el cuadro antes mencionado se describe el código
de la estación, El tipo, las coordenadas geográficas, la corriente, y el
municipio donde se encuentran. En la Figura 4 se presenta la localización de
las mismas. Se observa que la estación el Cedral y Planta de Tratamiento
por su localización son las que mejor representan las características
climatológicas de la cuenca alta del río Otún.
La información recopilada corresponde a registros de Temperatura y
Precipitación para el periodo 2004-2007.
23
1.1.2 Precipitación
La precipitación media anual de la estación El Cedral es de 2543 mm, y la
precipitación media mensual varia entre 66 mm y 443 mm, siendo octubre el
mes con mayor precipitación. En la Estación Planta de Tratamiento la
precipitación media anual es 2462 mm y la precipitación media mensual varía
entre 131 mm y 306 mm. Como se observa en la Figura 5 y la Figura 6. El
régimen de lluvias es bimodal, siendo los meses de mayor precipitación los
períodos de marzo a junio y septiembre a noviembre.
1.1.3 Temperatura
En la estación el Cedral la temperatura media mensual 14.6 ºC y 14. En la
Figura 7 se presenta la variación mensual de la Temperatura.
1.1.4 Clasificación climática
Para la clasificación del clima de la cuenca del Rio Otún se utilizó la
clasificación de establecida por Richard Lang (1915), que utiliza la
precipitación anual en mm y la temperatura media anual en °C. Los dos
parámetros se relacionan mediante el cociente entre la precipitación (P) y la
temperatura (T), llamado factor de Lang. El factor de Lang estimado para la
cuenca presentó valores entre 65 y 111, valores que se encuentran dentro de
los rangos establecidos para Clima Semihúmedo y Clima Húmedo. El clima
es Semihúmedo en la parte baja y media de la cuenca y Húmedo en la parte
media-alta.
24
Figura 4 Localización de las estaciones de la red meteorológica en la
cuenca del río Otún.
Tabla 1 Estaciones utilizadas para la caracterización climática de la
cuenca del Rio Otún.
Código Estación Municipio Tipo Corriente Lat.
(N)
Long.
(w)
2613021 Los
Cámbulos Pereira PM Río Otún 4º 49’ 75º 50
2613023 Planta de
Tmiento. Pereira PG Río Otún 4º 48’ 75º 40
2613026 El Bosque Dosquebradas PM Río Otún 4º 51 75º 41
25
Código Estación Municipio Tipo Corriente Lat.
(N)
Long.
(w)
2613046 La Playa Pereira PM Río Otún 4º 49 75º 45
2613051 Combia Pereira PM Río Otún 4º 51 75º 47
1111111 El Pílamo Pereira P Río Otún 4º 52’ 75º 48
2613507 El Cedral Pereira P Río Otún 4º 42 75º 32
2613506 El Jazmín Santa Rosa de
C. P
Río San
Eugenio 4º 55 75º 37
P: Principal PM: Pluviométrica PG: Pluviográfica
Fuente: Federación Nacional de Cafeteros
Figura 5 Precipitación media mensual. Estación el Cedral (mm).
26
Figura 6 Precipitación media mensual. Estación Planta de Tratamiento.
Figura 7 Temperatura media mensual. Estación El Cedral
1.2 Cobertura y usos del suelo
La cobertura del suelo se clasifica en cobertura natural y cobertura
antropizada. Dentro de la natural se encuentran los bosques naturales,
27
bosques secundarios y rastrojos; pertenecen al segundo grupo los cultivos y
pastos manejados. De acuerdo con el mapa de coberturas de la cuenca
media y alta del rio Otún cerca del 75% de la cobertura corresponde a
bosque natural y vegetación de páramo (SIG-CIEBREG)
.
En la Tabla 2 se presenta una breve definición de cada uno de los tipos de
cobertura y usos del suelo identificados en la cuenca media y alta del río
Otún.
Tabla 2 Tipos de Cobertura y usos del suelo. Cuenca media y alta del rio
Otún
Tipo de Cobertura y
Usos Descripción
Vegetación de Páramo vegetación propia de los paramos
Bosque Natural
Se entiende por bosque natural el conjunto de especies
vegetales, predominantemente autóctonas, presentes en
un sitio, que se origina sin intervención humana.
Bosque secundario
Bosque que se encuentra en proceso de regeneración
natural después de una tala total, quema u otra actividad
de conversión de la tierra, sin que se haya recuperado
completamente.
Rastrojo Vegetación en regeneración
Bosque plantado Es el cultivo de especies forestales originado por la
intervención directa del hombre.
Pasto natural Pastos que crecen sin intervención humana.
Pasto manejado Pastos optimizados y mejorados para consumo del
ganado.
Cultivos Se identifican cultivos transitorios (ciclo de producción
28
Tipo de Cobertura y
Usos Descripción
oscila entre tres y doce meses) y permanentes y
semipermanentes (ciclo productivo es mayor a doce
meses) como: Consociación café –cítricos, maíz, lulo,
frijol, tomate, plátano, papa, granadilla, Consociación café
–plátano, Consociación café-plátano-pasto manejado,
cebolla junca, café.
Laguna Es el espejo de los cuerpos de agua.
Nieve son las zonas donde se ubica la nieve perpetua
Otros Vivienda campesina y vivienda urbana.
29
2 RECOPILACIÓN, SELECCIÓN E INTEGRACIÓN DE INFORMACIÓN
FÍSICA Y SOCIOECONOMICA
Para la extracción de conocimiento y/o patrones de relación existentes entre
la información que es objeto de análisis es necesario que se lleven a cabo las
siguientes tareas:
Selección de la información: Esta fase inicia con la integración y recopilación
de información que permite configurar la base de información sobre la que
se desea trabajar. Es conveniente que ésta sea dispuesta en un formato
común y sin inconsistencias.
Exploración: esta fase consiste en realizar un análisis previó de los datos
disponibles. En esta etapa se pueden ser utilizadas herramientas de
exploración visual como gráficos de tallo y hojas, histogramas de
frecuencias, grafico de caja y bigotes, gráficos de simetría y gráficos de
dispersión y/o herramientas de exploración formal
Limpieza: Detectar y tratar la presencia de valores atípicos, eliminar datos
erróneos e irrelevantes.
Transformación: Utilizar técnicas de reducción y aumento de la dimensión,
aplicar técnicas de discretización y numerización.
Minería de datos: En esta etapa se selecciona(n) la(s) técnica(s) de minería
de datos que permitan obtener un modelo de conocimiento. Las técnicas
30
utilizadas pueden ser predictivas como árboles de decisión, métodos
bayesianos, entre otros y/o técnicas descriptivas como Clúster, Reducción de
la dimensión, entre otros.
Evaluación e interpretación de resultados
Este capitulo hace énfasis en las fases de selección de la información
asociada a las características físicas y socioeconómicas de la cuenca media
del río Otún. Se busca definir las variables a partir de las cuales son
analizadas las relaciones existentes entre la presencia de mamíferos en la
cuenca alta del río Otún y características físicas y socioeconómicas la
misma.
Estas fases son de suma importancia para que las técnicas o herramientas
matemáticas utilizadas en la identificación de patrones sean capaces de
extraer conocimiento valido y útil a partir de la información utilizada. A
continuación se describe cada una de las tareas realizadas en el
preprocesamiento de la información.
2.1 Recopilación de información
En esta fase se recopiló información de tipo secundaria en las diferentes
instituciones de orden nacional, departamental y local que han desarrollado
trabajos dentro de la cuenca del Río Otún. Dentro de la información
colectada se encuentra información biofísica y socioeconómica. En la Tabla
3 se presenta la información colectada junto con sus fuentes. A continuación
se relaciona la información colectada.
Curvas de nivel de la cuenca media y alta del río Otún cada 50 m, formato
shp.
31
corrientes principales de la cuenca media y alta, formato shp.
Información asociada a temperatura, humedad relativa y precipitación media
mensual de las estaciones localizadas en la cuenca del Río Otún y cuencas
cercanas, para el periodo 2004 - 2007.
Usos del suelo de la cuenca media y alta del río Otún de 2005 (SIG-
CIEBREG), formato shp. En el Tabla 5 se presenta la relación de los usos
identificados en la cuenca media y alta del río Otún.
Mapa de Áreas Protegidas de la Cuenca del Río Otún. formato shp.
Mapa de Vías Cuenca Media y alta del río Otún formato shp.
Estudios de Abundancia Relativa y distribucion de frecuencias de Indicios
(huellas y avistamientos de individuos de diferentes especies) de mamiferos
medianos y grandes realizados en la cuenca media y alta del río Otun
(Vivas, 2007; Palacios, 2007). Las especies de mamiferos identificadas y
número de indicios se presentan en la Tabla 5. En el capitulo 3 se amplia
esta información.
32
Figura 8 Información colectada
Curvas de Nivel Corrientes Principlaes
Registrto de Indicios de
mamiferos Usos del suelo
Áreas Protegidas Vias secundarias y Terciarias
33
Temperatura media anual Precipitación media anual
Tabla 3 Información cuenca Otún junto con sus fuentes.
DESCRIPCIÓN FUENTE
INFORMACIÓN BIOFÍSICA
Registro de indicios de mamiferos
Pontificia Universidad Javeriana.
Estudios de Abundancia Relativa y
distribucion de frecuencias de
Indicios realizados en la cuenca
media del rio Río Otun.
Registros de Precipitación y
Temperatura media mensual período
2004-2007
Federación Nacional de Cafeteros
de Colombia, Centro Nacional de
Investigaciones de Café
"Cenicafé", Disciplina de
Agroclimatología, Archivos
Climáticos, Chinchiná, Caldas,
Colombia.
Curvas de Nivel de la cuenca media y
alta del río Otún. Formato shp.
Sistema de Información geográfica.
Centro de Investigación y Estudios
en Biodiversidad y Recursos
Genéticos (CIEBREG)
34
DESCRIPCIÓN FUENTE
INFORMACIÓN BIOFÍSICA
Red Hídrica. Rio Otún. Formato shp.
Sistema de Información geográfica.
Centro de Investigación y Estudios
en Biodiversidad y Recursos
Genéticos (CIEBREG)
INFORMACIÓN SOCIO-ECONOMICA
Mapa de Áreas Protegidas de la
Cuenca del Río Otún formato shp.
Sistema de Información geográfica.
Centro de Investigación y Estudios
en Biodiversidad y Recursos
Genéticos (CIEBREG)
Mapa de Uso del Suelo 2005 de la
Cuenca Media y alta del Río Otún 2005
formato shp
Mapa de Vías Cuenca Media y alta del
río Otún formato shp,
Tabla 4 Especies de mamíferos terrestres presentes en la cuenca media
del río Otún
Especie
No de
Indicios
Agouti paca 5
Cerdocyon thous 172
Dasyprocta punctata 41
Dasypus novemcinctus 45
Didelphis marsupialis 21
Eira barbara 14
35
Especie
No de
Indicios
Felino 1
Leopardus pardalis 3
Mazama rufina 1
Nasua 6
Nasua nasua 4
Nasua sp. 2
Perro 21
Puma yagouaroundi 2
Roedor 5
Tapirus pinchaque 1
Urocyon cinereoargenteus 105
Total 449
Tabla 5 Usos del suelo en el área de estudio. Fuente: SIG-CIEBREG
No. Uso No. Uso
1 Afloramiento rocoso 20 Frijol
2 Bosque Natural 21 Galpones
3 Bosque Plantado 22 Granadilla
4 Bosque Plantado Cerezo 23 Guadua
5 Bosque Plantado Ciprés 24 Humedal
6 Bosque Plantado Eucalipto 25 Laguna
7 Bosque Plantado Guadua 26 Maíz
8 Bosque Plantado Nogal
cafetero 27 Nieve perpetua
9 Bosque Plantado Ocarpa 28 Papa
10 Bosque Plantado Pino pátula 29 Pasto Manejado
36
No. Uso No. Uso
11 Bosque Plantado Roble 30 Pasto Natural
12 Bosque Plantado Urapan 31 Pasto con rastrojo
13 Bosque Secundario
Intermedio 32 Plátano
14 Café 33 Rastrojo
15 Cebolla Junca 34 Regeneraci¾n Natural
16 Consociación Café -Cítricos 35 Tomate
17 Consociación Café-Plátano-
Pasto Manejado 36 Vegetación de Paramo
18 Estanque piscícola 37 Vivienda Campesina
19 Explotaci¾n Forestal 38 Zona Urbana
2.2 Selección de la informacion
Los patrones de distribución de especies son con poca frecuencia uniformes
y continuos espacial y temporalmente, y la identificación de los factores que
influyen en esta variación son una pregunta fundamental en ecología. Una
amplia gama de factores influyen en la distribución de plantas y animales, y
muchos de estos funcionan en diferentes escalas espaciales y temporales.
Entre ellos figuran los procesos abióticos, mediada por procesos biológicos,
y los procesos dominados por interacciones bióticas (Mackey & Lindenmayer,
2001). Dentro de los factores físicos o abióticos que limitan la distribución de
especies se encuentran la temperatura, humedad, luz, pH, características del
suelo y corrientes de agua (Stiling, 1992).
Una de las características del suelo que juega un papel fundamental en la
distribución de plantas es la presencia de nitrógeno por ser uno de los
37
elementos indispensables para su nutrición (Stiling, 1992), estas a sus vez
influyen en la distribución de la fauna.
Otro factor importante en la distribución de especies son las prácticas y usos
del suelo desarrollados especialmente por el sector agropecuario, los cuales
han transformado los paisajes naturales (Jiménez, 2000). Aunque este
sector ha sido tradicionalmente identificados como uno de los sectores más
deteriorantes de la base de los recursos naturales por practicar sistemas
degradantes en el desarrollo de sus actividades (Ministerio de Agricultura,
1998 citado en Instituto Humboldt, 2000), su frecuente alta productividad,
comparada con los sistemas naturales, puede promover mas recursos para
la fauna como cobertura vegetal y alimento y facilitar su movimiento entre
parches e intercambio con zonas que no están intervenidas. De esta manera,
los sistemas productivos adquieren un valor de hábitat y se convierten en
pieza clave para la conservación1 .
Además de los factores antes mencionados, existen otros elementos como
los centros poblados, y las vías que pueden influir en la distribución espacial
de la fauna silvestre (Jiménez, 2000).
Dado que el objeto de este estudio es identificar la relación existente entre la
presencia de mamíferos y características físicas y socioeconómicas de la
zona de estudio, a partir de la aplicación de algunas técnicas de minería de
datos y, considerando lo anteriormente descrito, la información colectada y
el conocimiento experto de profesionales del área de biología se definieron
las siguientes variables:
1 Blann, K. 2006. Habitat in agricultural landscapes: how much is enough? A state of the science
literature review, citado por Vivas 2007.
38
Altitud Media (m)
Pendiente (%)
Precipitación media anual (mm)
Usos del Suelo
Distancia a aéreas Protegidas (m)
Distancia a la vía más próxima (m)
Distancia a la corriente mas cercana (m)
Distancia a Vivienda Campesina (m)
Para el área de estudio se generó una grilla con tamaño de celda de 30 m
por 30 m, y para cada una de las celdas se definieron las variables que se
describen a continuación. La variable asociada a la presencia de mamíferos
es descrita en el siguiente capitulo.
2.2.1 Altitud Media
La altitud media se obtuvo a partir de un modelo digital del terreno generado
a partir de las curvas de nivel de la cuenca media y alta del río Otún. Para
realizar esta tarea se utilizó la heramienta 3D Analyst para ArgGis 9.1®.
2.2.2 Pendiente
A partir del modelo digital de elevación generado, se estimó la pendiente,
tomando como tamaño de pixel 30 m. Se empleó la herramienta 3D Analyst
desarrollada para ArgGis 9.1®. En la Figura 10 se presentan los
resultados obtenidos.
39
Figura 9 Modelo digital de elevación Cuenca media y alta del río Otún.
Figura 10 Pendiente Cuenca Media y alta del río Otún (%)
40
2.2.3 Precipitación media anual
Con la información de precipitación registrados en las estaciones
mencionadas en el capitulo 3, se estimó la precipitación media anual
multianual para cada una de las estaciones y a través de un proceso de
interpolación se determinó el valor de la precipitación para cada celda de la
grilla generada. Este procedimiento se realizó utilizando la herramienta
Spatial analyst para ArgGis 9.1®.
2.2.4 Temperatura Media anual
Con la información de Temperatura registrada en las estaciones El Cedral,
El Pilamo y El Jazmin, se estimó la Temperatura media anual multianual para
cada una de las estaciones y a través de un proceso de interpolación se
determinó el valor de la Temperatura para cada celda de la grilla generada.
Este procedimiento se realizó utilizando la herramienta Spatial analyst para
ArgGis 9.1®.
2.2.5 Uso suelo
De acuerdo con los conceptos establecidos por la CARDER en la resolución
061 de enero del 2007 donde se fija los lineamientos para demarcar las
áreas protectoras de los nacimientos y corrientes de agua ubicados en
suelos rurales y suburbanos destinados a usos agrícolas, pecuarios,
forestales y de acuicultura, se realizó la reclasificación del mapa de
coberturas y usos del suelo de 2005 en las siguientes categorías.
Bosque Natural (BN)
Bosque secundario (BS)
41
Rastrojo (R)
Bosque Plantado (BP)
Pasto Natural (PN)
Pasto Manejado (PM)
Cultivos (C)
Vivienda (V)
Otros (O , Lagunas y Nieve)
Dado que no fue posible obtener mapas de usos del suelo para cada uno de
los años en que se ha realizado el monitoreo de los mamiferos, se realizó
un Taller denominado “ Conversatorio de la trayectoria de usos del suelo y la
influencia sobre mamiferos medianos” en la que participaron pobladores de la
zona, donde se concluyó que en los ultimos años no se han dato
transformaciones importantes en los usos del suelo dentro de la cuenca.
2.2.6 Distancias a áreas protegidas, vías, ríos y vivienda
campesina.
Para la definición de estas variables se utilizó la distancia Euclídea. Se
desarrollo un código en MATLAB® 7.1 que permitió estimar la distancia
entre el pixel objetivo y el pixel más cercano que tuviese este atributo.
Para la definición de éstas variables se utilizaros los mapas de áreas
protegidas de la cuenca del Río Otún, vías, ríos y uso del suelo considerando
sólo la clasificación vivienda.
42
Figura 11 Uso del suelo reclasificado.
2.2.7 Integración de la información
Para la aplicación de las herramientas matemáticas en la identificación de
patrones de relación fue necesario construir una tabla de datos con las
variables definidas, para esto el área de estudio fue divida en celdas de 30m
por 30 m, para cada una de las celdas se definió cada una de las variables
(Véase Figura 12).
Para “juntar” todas las capas de información generadas en una misma tabla
de datos, se utilizó la herramienta de análisis para ArgGis 9.1®. De esta
manera cada celda del terreno fue representada por una fila de la tabla de
datos generada.
43
Figura 12 Definición de variables para la grilla generada.
44
3 ANÁLISIS DE INFORMACIÓN BIOLOGICA
Como se mencionó en el anterior capitulo, éste esta orientado a la definición
de la variable asociada a la presencia de mamíferos en el área de estudio.
La información utilizada corresponde a estudios de abundancia relativa y
distribucíon de frecuencia de indicos de mamiferos realizados en la cuenca
del río Otún.
El monitoreo de estos se ha realizado a través de conteo indirecto que hace
referencia al registro de rastros o indicios que pueden dejar los animales en
el ambiente. Los metodos de conteo indirecto utlizados han sido el rastreo
de indicios en transectos y registro de huellas en trampas. , como cuevas,
rascaderos, parted del cuerpo, heces, pelos y huellas encontradas en
transectos. Para el primer caso se tuvo en cuenta avistamientos,
observaciones directas, heces, huesos, pelos y huellas. Durante la
realización de la presente investigación se realizó una visita de campo en la
que hizo acompañamiento en la instalación de trampas.
Rango de habitad se define como el área que es utilizada por la fauna
silvestre. Para la estimación de éste se utilizan muestreos con
radiotelemetría y a partir de esta información y utilizando métodos no
estadísticos como: Mínimo Polígono Convexo (MPC), método de conteo de
grillas y estimadores lineales, o métodos estadísticos como el Estimador de
45
Jenrich-Turner también conocido como el método de la Elipse, y el
estimador Kernel se estima el rango de hogar. Según Helton (2005) si se
compara este último con los métodos descritos anteriormente, parece ser
ésta la herramienta más exacta para estimar el tamaño del rango de hogar.
Dado que la informacion biológica utilizada obedece a rastreo de indicios, y
por lo tanto obedecen a registros puntuales de la presencia de mamiferos se
decidió utilizar una herramienta matematica que permitiera inferir el área
donde posiblemente puede existir presencia de éstos a partir de la los
registros disponibles.
En la presente investigación se estimó el área de uso a partir de los indicios
de mamíferos registrados en el área de estudio, utilizando el estimador kernel
o estimador de núcleo. En esta área sólo se consideran algunas
características del hábitat que podrían ser utilizadas por las diferentes
especies.
A continuación se describe el estimador Kernel y la metodología seguida
para la estimación del área de uso de los mamíferos presentes en la cuenca
media del río Otún.
3.1 Estimador kernel
La estimación de la función de densidad multivariada utilizando kernel es una
importante técnica de análisis de datos y tiene una amplia gama de
aplicaciones (Zhang, King & Hyndman, 2004). Fue introducido en ecología
para estimar el rango de hogar por Worton (1989) (Seaman, Powell, 1996).
46
Intuitivamente, el método Kernel (núcleo) consiste en colocar un núcleo (una
densidad de probabilidad) en cada punto de observación de la muestra. Se
superpone una grilla a los datos observados, y la estimación de la densidad
para cada pixel de la grilla se obtiene utilizando la información de la totalidad
de la muestra. La densidad para cada pixel es esencialmente el promedio de
las densidades de todos los kernel que se superponen en ese punto. Las
observaciones que están cerca de un punto de evaluación contribuirán más a
la estimación de la densidad que los que están lejos de él. Por lo tanto, la
estimación de la densidad será alta en las zonas con muchas observaciones,
y baja en zonas con pocas observaciones (Seaman, Powell, 1996).
El estimador d-dimensional basado en Kernels en su forma más general es:
(1)
La función K debe definirse de manera que satisfaga las siguientes
condiciones:
(2)
(3
(4)
47
La función K se elige generalmente entre las funciones de densidad
conocidas y h es un parámetro llamado ventana, parámetro de suavizado o
ancho de banda. Para la estimación del rango de hogar el kernel más
utilizado es el gaussiano, definido como:
(5)
Una manera de estimar el ancho de banda para este tipo de kernel es la
presentada en la ecuación (6), donde σi es la desviacion estandar de la i-
enesima variable y puede ser reemplazada por el estimador de la muestra
(Zhang, King & Hyndman, 2004).
(6)
Existen diferentes tipos de software que permiten resolver este tipo de
métodos. Para el software estadístico R se ha desarrollado un paquete
denominado GenKern el cual incluye 4 funciones para la generación y
manipulación de estimaciones de densidad de núcleo (Kernel). Una de estas
funciones es KernSur (Bivariate kernel density estimation) que permite
estimar la función de densidad utilizando un kernel gaussiano bivariado y un
ancho de banda adaptativo para x y y
48
Para ArcGis de ha desarrollado la herramienta Hawth's Analysis, diseñado
para desarrollar aplicaciones en ecología como análisis de movimientos de
animales, selección de recursos, modelo predador presa. Además incluye
modulo denominado Kernels para realizar este tipo de análisis. Esta
herramienta no fue utilizada dato que es necesario definir inicialmente el
ancho de banda, mientras que en la herramienta desarrollada para R, el
ancho de banda es optimizado.
3.2 Definición de la presencia de mamíferos
Como de menciono anteriormente, para la definición de la presencia de
mamíferos en el área de estudio se utilizó el estimador kernel. A continuación
se describe la metodología seguida para la definición de esta variable.
3.2.1 Metodología
Para la definición de de la presencia de mamíferos utilizando el estimador
kernel se siguió el siguiente procedimiento:
Definición de las coordenadas, de los registros de mamíferos.
Para la aplicación del método Kernel, se desarrollo un script para R en el
que se utilizaron los paquetes GenKern y Kern Smooth.
R es el software estadístico con licencia GNU más extendido a nivel mundial
tanto para docencia como para investigación. Es un lenguaje y entorno de
programación para análisis estadístico y gráfico que proporciona una amplia
49
variedad de estadísticos (modelos lineales y no lineales, pruebas estadísticas
clásicas, series análisis de series, clasificación, agrupamiento, entre otros) y
técnicas gráficas2.
En la rutina desarrollada inicialmente se cargan los datos con las
coordenadas de los registros de los indicios, se definen el rango en X y el
rango en Y en el cual se desea realizar el análisis para lo que se definen las
coordenadas máximas y mínimas y el numero de filas y columnas del arreglo
de salida, con esto queda definido el tamaño de la celda.
En la Tabla 6 se presenta la descripción del Pakete Gen Kern, y en la Tabla
7 el script utilizado. En la Tabla 8 se presentan los argumentos utilizados
para utilizar este método en la determinación de la presencia de mamíferos
en la zona de estudio. A partir del paso anterior se generaran tres archivos
que contienen las coordenadas en X , las coordenadas en Y , y el valor de la
densidad de probabilidad obtenido para cada uno de los puntos de la malla
generada.
Los valores de densidad obtenidos son reescalados utilizando una
transformación logarítmica, la cual permite hacer comparación de los valores
a una escala más pequeña y facilita su discretización.
2 R puede ampliarse (fácilmente) a través de paquetes disponibles en la web
(http://www2.uaem.mx/r-mirror/ ). R se encuentra disponible en las versiones para:
Linux, MacOS X y Windows en http://www.r-project.org/.
50
Tabla 6 Descripción del paquete Gen Kern desarrollado para R.
PAKETE GEN KERN
Febrero 16, 2008
Versión 1.1-2
Fecha: 2007/05/30
Titulo: Función para generación y manipulación del estimador de densidad
Kernel
Autor: David Lucy <[email protected]> and Robert Aykroyd
Depende de: KernSmooth
Descripción:
Este paquete incluye 5 funciones:
GenKern.internal Esta es una función interna y no debe ser utilizado
directamente.
KernSec: Estimador de densidad kernel univariado, utilizando kernel
gaussiano.
KernSur : Estimador de densidad kernel bivariado
nearest : Índice de un vector más cercano en valor a un valor suministrado.
per : Busca el valor porcentual del punto i en una distribución de una
distribución.
KERNSUR: BIVARIATE KERNEL DENSITY ESTIMATION
Descripción: Calcula la densidad utilizando un Kernel gaussiano
Uso: KernSur(x, y, xgridsize=100, ygridsize=100, correlation, xbandwidth,
ybandwidth, range.x, range.y, na.rm=FALSE)
51
Argumentos:
x Vector de valores x
y Vector de valores y
xgridsize Entero para el número de ordenadas para estimar la
densidad. Por defecto = 100
ygridsize Entero para el número de ordenadas para estimar la
densidad. Por defecto = 100
correlation x,y. Vector local de correlación. Por defecto= cor(x,y)
xbandwidth,
ybandwidth
Valor de ancho de ventana para x. Por defecto= dpik(x) ;
dpik(y) (esta en una función del paquete KernSmooth, el
método utilizado es el propuesto por Sheather y Jones ,
1991; y descrito en la sección 3.6 of Wand and Jones,
1995).
range.x,
range.y
Rango para la dimensión x y y. Por defecto= range+-1.5 *
mean bandwidth.
na.rm
Por defecto = False
Valores:
Retorna dos vectores y una matriz:
Xords vector que contiene los valores para la dimensión x
Yords vector que contiene los valores para la dimensión y
Zden matriz de densidad f(x,y) con dimensión xgridsize, ygridsize
52
Tabla 7 Script utilizado para la estimación del área de uso de los
mamíferos. Fuente: El Autor
Script utilizado para estimar el área de uso de cada uno de los
mamíferos a partir del estimador de densidad kernel
#ESTIMADOR KERNEL BIVARIADO
#Paquetes utilizados: Kern Smooth y Gern Kern
#Leer Datos
coordenadas <-read.table("mamiferos.txt",header=T)
fcoor<-nrow(coordenadas)# No de Filas
ccoor<-ncol(coordenadas)# No de Columnas
x=c(coordenadas[1:fcoor,1])# Valores de la variable x
y=c(coordenadas[1:fcoor,2])# Valores de la variable y
# Estimación del Kernel
xbandwidth<-dpik(x)
ybandwidth<-dpik(y)
minimox<- min(x)-4*xbandwidth
maximox<-max(x)+4*xbandwidth
minimoy<-min(y)-4*ybandwidth
maximoy<-max(y)+4*ybandwidth
op<-KernSur(x, y, xgridsize=817, ygridsize=543, correlation=cor(x,y),
xbandwidth,
ybandwidth, range.x=c(1155090,1179570), range.y=c(1007960,1024220))
par(mfcol = c(1, 2))
#Grafico Dispersión de Indicios
53
plot(x, y, xlim=c(minimox,maximox),ylim=c(minimoy,maximoy), col="black",
bg="red",pch=22,panel.first = grid(5, lty=1,lwd=2))
#Generación de Gráficos de Contornos
image(op$xords, op$yords, op$zden, col=terrain.colors(100,0.7),
axes=TRUE,xlab=expression(x),ylab=expression(y))
contour(op$xords, op$yords, op$zden,add=TRUE ,
levels=c(0.0000001),drawlabels=F) #
box()
#Guardar variables x, y, z(fx)
write.table(op$xords, file = "xKernel", append = FALSE, quote = FALSE, sep
= " ",
eol = "\n", na = "NA", dec = ".", row.names = FALSE,
col.names = FALSE, qmethod = c("escape", "double"))
write.table(op$yords, file = "yKernel", append = FALSE, quote = FALSE, sep
= " ",
eol = "\n", na = "NA", dec = ".", row.names = FALSE,
col.names = FALSE, qmethod = c("escape", "double"))
write.table(op$zden, file = "zKernel", append = FALSE, quote = FALSE, sep =
" ",
eol = "\n", na = "NA", dec = ".", row.names = FALSE,
col.names = FALSE, qmethod = c("escape", "double"))
54
Tabla 8 Argumentos utilizados para la aplicación del estimador kernel.
Fuente: El autor.
Argumento Descripción
x Vector de valores x de los registros de indicios de
mamíferos.
y Vector de valores y de los registros de indicios de
mamíferos
xgridsize 817 ([Xmáx – Xmin] +1 = [1.179.570 -1.155.090]+1)
ygridsize 542 ([Ymáx – Ymin] +1 = [1.024.220 -1.007.960]+1)
correlation x,y. Vector local de correlación. Por defecto= cor(x,y)
3.2.2 Resultados
En la Figura 13 se presenta la variación de la densidad de probabilidad
obtenida. Los picos indican que es más probable que se encuentren
mamíferos en esta zona, éstos se localizan en los sitios donde existe mayor
acumulación de registros (Véase Figura 13). En la Figura 15 y la Figura 16 se
presenta la variación en cada uno de los ejes. Cabe señalar que para la
generación de las figuras se utilizó un factor de mayoración de los resultados
obtenidos de 10 12.
55
Figura 13 Distribución de registros de mamíferos y densidad estimada.
Figura 14 Variación de la densidad de probabilidad estimada
56
Figura 15 Variación de la densidad en el eje X (Este)
Figura 16 Variación de la densidad en el eje Y (Norte)
57
4 DISEÑO EXPERIMENTAL
Como se mencionó en el capitulo 2, para la extracción de patrones de
relación existente entre la información analizada es necesario que se lleven a
cabo las siguientes tareas: selección de la información, exploración, limpieza,
transformación, minería de datos y evaluación e interpretación de resultados.
En el capitulo 2 y el capitulo 3 se hizo referencia básicamente a la selección
de la información física, socioeconómica y biológica. En el presente capitulo
se describen las tareas de transformación de la información y minería de
datos, a través de las cuales se busca la identificación de patrones de
relación entre estas.
Inicialmente se presenta la metodología seguida, desde la fase de selección
hasta el descubrimiento de patrones. Luego se describen las herramientas
matemáticas utilizadas y los resultados obtenidos
4.1 Metodología
En la Figura 17 se presenta la metodología seguida para la identificación de
patrones de relación.
58
Se inició con la recopilación de la información física, socioeconómica y
biológica de la cuenca media del río Otún, tal como es descrita en el capitulo
tres (3).
Se realizó la definición de variables con base en la revisión realizada sobre
los factores que afectan la distribución de los mamíferos, la información
disponible sobre el área de estudio y el conocimiento experto de
profesionales del área de biología. Para la estimación de estas se utilizó
estimador de densidad Kernel Bivariado Gaussiano, la distancia Euclídea y
herramientas desarrolladas para ArcGis.
Una vez definidas las variables se realizó la integración de la información y
se generó una tabla de datos con la información colectada.
A partir de esta tabla de datos se definieron varios modelos realizando
variaciones en la discretización de las variables.
Para cada uno de los modelos planteados, se generó un árbol de decisión
que es evaluado a partir de la matriz de confusión.
Figura 17 Metodología para la identificación de patrones de relación.
A continuación se describen las herramientas matemáticas utilizadas, el
aplicativo computacional utilizado y los modelos evaluados. En el siguiente
capitulo se presentan los resultados obtenidos.
4.1.1 Árboles de decisión
Un árbol de decisión es un conjunto de condiciones organizadas en una
estructura jerárquica, de tal manera que la decisión final a tomar se puede
determinar siguiendo las condiciones que se cumplen desde la raíz del árbol
hasta alguna de sus hojas (Hernández, Ramírez, Ferria, 2004). Son una de
las formas más sencillas de representación del conocimiento adquirido (Ruiz,
2006). Es un método flexible que puede manejar un gran número de
variables y complicadas interacciones entre ellas, y cuyos resultados resultan
fácilmente interpretables para cualquier persona (Pérez, 2007).
Figura 18 Estructura de un árbol de decisión
61
Para elegir que atributos y en que orden aparecen en el árbol, se utiliza una
función de evaluación llamada ganancia de información (reducción de
entropía del conjunto al clasificar usando un determinado atributo). Algunos
trabajan con atributos nominales únicamente, como el ID3, y otros trabajan
también con atributos numéricos, como el C4.5 (J48 en Weka). El C4.5
Pertenece a los métodos inductivos del Aprendizaje Automático que
aprenden a partir de ejemplos preclasificados, propuesto por Quinlan, en
1993.
Los árboles de decisión se construyen comenzando por la raíz hasta las
hojas. Primero se escoge un atributo para discriminar y se produce un
subnodo por cada valor del atributo. Si todos los ejemplos con un valor
particular de atributo tienen la misma clase, el nodo se convierte en hoja, de
otra forma se escoge otro atributo para seguir discriminando entre las clases.
El árbol está completo cuando todos los ejemplos son representados por un
nodo hoja.
Para determinar cuál atributo se ramifica en cada nivel se calcula la
información ganada al discriminar con cada atributo y se usa aquel que
maximice la ganancia de información. De acuerdo con la teoría de la
información, la información se maximiza cuando la entropía se minimiza. Por
tanto la ganancia de información podrá calcularse con la disminución de la
entropía, es decir
(7)
X(S ) es el valor de la entropía a príori, antes de realizar la subdivisión, y X(S,
t) es el valor de la entropía del sistema de subconjuntos generados .La
62
entropía a príori y para el sistema de subconjuntos es estimada a partir de la
siguiente expresión:
(8)
pi representa la probabilidad de que un ejemplo tomado al azar pertenezca a
la clase i, y pi se calcula en base a la frecuencia de los datos de dicha clase
en los datos de entrenamiento.
Para la evaluación de los patrones encontrados a partir de la construcción
de los árboles, lo normal es evaluar la calidad con respecto a su precisión
predictiva, la cual se calcula como el número de casos del conjunto de
prueba clasificados correctamente divido por el número de casos totales en
el conjunto de prueba.
Es decir, se construye el modelo utilizando un conjunto de datos de
entrenamiento y luego se utiliza éste para predecir la clase de los datos de
prueba. Entonces la razón de precisión se obtiene dividiendo el número de
clasificaciones correctas por el número total de casos.
Dentro de los métodos utilizados para realizar este tipo de evaluación se
utilizan La validación simple, donde se reserva un porcentaje de la base de
datos como conjunto de prueba, y no lo usa para construir el modelo. Este
porcentaje suele variar entre el cinco porciento y el cincuenta por ciento
(Hernández Orallo, J; Ramírez Quintana, M. J.; Ferria Ramírez, C, 2004)
Otro método utilizado es la validación cruzada, en este método los datos se
dividen aleatoriamente en n grupos. Un grupo se reserva para el conjunto de
prueba y con los otros n-1 restantes (juntando todos sus datos) se construye
63
un modelo y se utiliza para predecir el resultado de los datos del grupo
reservado. Este proceso se repite n veces, dejando cada vez un grupo
diferente para la prueba.
4.1.2 Aplicativo computacional utilizado
Para la selección de atributos y generación de los árboles de decisión a partir
de la información seleccionada se utilizó la herramienta de minería de datos
WEKA. WEKA.acrónimo de Waikato Environment for Knowledge Analysis, es
un entorno para experimentación de análisis de datos que permite aplicar,
analizar y evaluar las técnicas más relevantes de análisis de datos,
principalmente las provenientes del aprendizaje automático, sobre cualquier
conjunto de datos del usuario. Para ello únicamente se requiere que los
datos a analizar se almacenen con un cierto formato, conocido como
ARFF(Attribute-Relation File Format).
WEKA se distribuye como software de libre distribución desarrollado en Java.
Está constituido por una serie de paquetes de código abierto con diferentes
técnicas de preprocesado, clasificación, agrupamiento, asociación, y
visualización, así como facilidades para su aplicación y análisis de
prestaciones cuando son aplicadas a los datos de entrada seleccionados.
Estos paquetes pueden ser integrados en cualquier proyecto de análisis de
datos, e incluso pueden extenderse con contribuciones de los usuarios que
desarrollen nuevos algoritmos. Con objeto de facilitar su uso por un mayor
número de usuarios, WEKA además incluye una interfaz gráfica de usuario
para acceder y configurar las diferentes herramientas integradas.
64
Dentro de las técnicas de clasificación implementadas en WEKA se
encuentra el algoritmo J-48 que es una implementación del algoritmo C4.5,
propuesto por Quinlan, en 1993.
Para la evaluación de este clasificador en WEKA se proponen las siguientes
técnicas:
“Use training set”: permite evaluar el clasificador sobre el mismo conjunto
sobre el que se construye el modelo predictivo para determinar el error, que
en este paso se denomina "error de resustitución". Por tanto, esta opción
puede proporcionar una estimación demasiado optimista del comportamiento
del clasificador, al evaluarlo sobre el mismo conjunto sobre el que se hizo el
modelo.
“Supplied test set”: Evalúa el clasificador sobre un conjunto de datos
independiente. permite cargar un conjunto nuevo de datos. Sobre cada dato
se realiza una predicción de clase para contar los errores.
“Cross-validation”: evaluación con validación cruzada. Esta opción es la
más elaborada y costosa. Se realizan tantas evaluaciones como se indica en
el parámetro “Folds”. Se divide el conjunto de datos en tantas carpetas como
indica este parámetro y en cada evaluación se toman los datos de cada
carpeta como datos de test, y el resto como datos de entrenamiento para
construir el modelo. Los errores calculados son el promedio de todas las
ejecuciones.
“Percentage split “: esta opción divide los datos en dos grupos, de acuerdo
con el porcentaje indicado (%). El valor indicado es el porcentaje de datos
para construir el modelo, que a continuación es evaluado sobre los datos
que se han dejado aparte. Cuando el número de instancias es
65
suficientemente elevado, esta opción es suficiente para estimar con precisión
las prestaciones del clasificador en el dominio.
Una vez se ejecuta el algoritmo J-48 sobre los datos, los resultados de la
evaluación son presentados en la Matriz de confusión en la que aparece
información detallada de cuantas instancias de cada clase son predichas a
cada uno de los valores posibles. Por tanto, es una matriz con N2 posiciones,
con N el número de valores que puede tomar la clase. En cada fila i, i=1...N,
aparecen las instancias que realmente son de la clase i, mientras que las
columnas j, j=1...N, son las que se han predicho al valor j de la clase.
Para el ejemplo presentado en la Tabla 9 los casos correctamente
clasificados dentro de la categoría Alta serian 248, mientras que 143 (76+67)
casos son clasificados incorrectamente. A partir de la matriz de confusión se
puede estimar la precisión de un clasificador directamente dividiendo el
número de aciertos entre el número total de casos, que para el ejemplo es de
58.42%.
Tabla 9 Ejemplo Matriz de Confusión.
Alta Media Baja
Alta 248 76 67
Media 153 250 152
Baja 111 102 431
4.2 Información utilizada para la construcción de los árboles
En los capítulos 2 y 3 se definieron las variables utilizadas para la
identificación de patrones. La tabla de patrones construida consta de nueve
66
variables de entrada y una variable de salida. En la Figura 19 se presenta el
histograma de cada una de las variables. En la Tabla 11 se presentan los
estadísticos de cada una de ellas.
Se observa que la distancia a vías y distancia a ríos presentan un rango
similar (1900 m – 21 m); la temperatura presenta una variación mínima entre
12 ºC y 15 ºC. La precipitación presenta variaciones entre 1910 mm y 1580
mm. Los usos de suelo que se encuentran en el área seleccionada son:
bosque natural, bosque secundario, bosque plantado, cultivos, pasto
manejado, rastrojo y viviendas.
Tabla 10 Modelo de tabla de patrones generada
No. x y Altitud Pendiente Precipitación Temperatura Uso_Suelo D_via D_rio D_Ap D_vivi Pmamiferos
1 1167000 1014380 1960 58 1630 12 BN 199 365 21 3066 5788543290
2 1166970 1014410 1940 51 1630 12 BN 185 357 21 3033 5740833010
3 1167030 1014350 1955 56 1630 12 BN 202 364 21 3099 5455458930
4 1166940 1014440 1935 60 1630 12 BN 174 347 21 3000 5294260160
5 1167030 1014320 1955 74 1630 12 BN 227 386 21 3103 5171084020
6 1167000 1014350 1970 67 1630 12 BN 223 388 21 3069 5012606070
En la Tabla 10 la variable Altitud representa la elevación media de la celda
en m.s.n.m, la Variable pendiente esta dada en porcentaje, La variable
Precipitación en mm/año, La variable Temperatura en ºC, La variable D_Vía
representa la distancia a vías en m, D_río representa la distancia a río en m,
la variable D_AP representa la distancia a áreas protegidas en m, y la
variable D_vivi representa la distancia a vivienda en m.
Figura 19 Histograma de las variables utilizadas
Tabla 11 Información estadística de las variables
Estadístico Presencia
mamíferos Altitud Distancia Vía Distancia río
Distancia Áreas
Protegidas
Distancia
Vivienda Pendiente Precipitación Temperatura
Máximo 10,0 2300,0 1979,0 1990,0 5979,0 7593,0 245,0 1910,0 15,0
Mínimo -308,0 1550,0 0 0 0 0 1,0 1580,0 12,0
Promedio -70,4 1867,0 471,0 502,0 896,6 2330,3 22,8 1692,1 13,0
Desviación Estándar 85,0 152,7 407,3 405,0 1142,6 1460,8 32,9 71,6 0,7
4.3 Modelos evaluados
Para la construcción de los modelos se definen las variables de entrada y la
variable de salida. En este caso la variable de salida esta asociada a la
presencia de mamíferos. Para el análisis de la información de evaluaron los
siguientes modelos:
Modelo I. Discretización de variables en tres (3) clases (Clase A, Clase B
y Clase C)
Para la elaboración de este modelo, cada una de las variables es
discretizada en tres (3) clases (A, B, C) En la Tabla 12 se presentan los
rangos de discretización de las variables.
Luego se eliminaron los valores duplicados, es decir aquellos casos en que
todos los valores de una fila coinciden exactamente con los valores de otra,
pasando así de 30.383 casos a 782 casos, a partir de los cuales se
realizaron los análisis posteriores.
Para este modelo se generaron dos (2) árboles que corresponden al Modelo
IA donde se utilizan las nueve (9) variables de entrada y el Modelo IB donde
se utilizan sólo ocho (8) variables de entrada.
Modelo II. Discretización de variables en cinco (5) clases (Clase A, Clase
B, Clase C, Clase D y Clase E)
Para la elaboración de este modelo, cada una de las variables es
discretizada en clases (5) clases (A, B, C, D, E). En la Tabla 13 se presenta
los rangos de valores para cada variable en cada una de las clases
69
generadas. Luego se eliminaron los valores duplicados, pasando así de
30.383 casos a 2.510 casos, a partir de los cuales se realizaron los análisis
posteriores.
De la misma manera que en el caso anterior se generaron dos (2) árboles
que corresponden al Modelo IIA donde se utilizan las nueve (9) variables de
entrada y el Modelo IIB donde se utilizan sólo ocho (8) variables de entrada.
Modelo II. Discretización de variables de entrada en cinco (5) clases
(Clase A, Clase B, Clase C, Clase D y Clase E) y variable de salida en
tres (3) clases (Clase A, Clase B y Clase C).
En este modelo se varia en las clases de las variables de entrada y de salida,
los rangos establecidos se presentan en la s tablas 11 y 12.
De igual manera, se generaron dos (2) árboles que corresponden al Modelo
IIIA donde se utilizan las nueve (9) variables de entrada y el Modelo IIIB
donde se utilizan sólo ocho (8) variables de entrada.
Tabla 12 Distribución de los casos analizados dentro de cada variable y
cada categoría. Modelo I.
Variable
A
B
C
Altitud 1600 - 1835 - 2070 - 2300
Pendiente 1 - 29
118 - 177
70
Variable
A
B
C
Precipitación 1590 - 1680
1770 - 1860
Temperatura 12 - 13
14 - -
D_Vía 0 - 500
1000 - 1732
D_Rio 0 - 500
1000 - 1800
D_AP 0 - 1200
2400 - 3600
D_Vivi 0 - 2000
4000 - 6000
Tabla 13 Distribución de los casos analizados dentro de cada variable y
cada categoría. Modelo II.
Variable
A
B
C
D
E
Altitud 1600 - 1740 - 1880 - 2020 - 2160 - 2300
Pendiente 1 - 34 - 70 - 106 - 142 - 178
Precipitación 1590 - 1644 - 1698 - 1752 - 1806 - 1860
Temperatura 12 - 13 - 14 - - - - - -
D_Vía 0 - 400 - 800 - 1200 - 1600 - 1732
D_Rio 0 - 360 - 720 - 1080 - 1440 - 1800
D_AP 0 - 720
1440 - 2160 - 2880 - 3600
D_Vivi 0 - 1200 - 2400 - 3600 - 4800 - 6000
71
5 ANALISIS Y DISCUSION DE RESULTADOS
Como se mencionó en el capitulo anterior se evaluaron tres (3) modelos en
los que se varia la discretización de las variables. En el primer modelo las
variables de entrada como de salida son discretizadas en tres (3) clases
(Clase A, B, C). En el segundo modelo las variables de entrada y salida son
discretizadas en (5) clases (clase A, B, C, D ,E) y en el tercer modelo las
variables de entrada son discretizadas en cinco (5) clases (Clase A, B, C, D,
E) y la variable de salida en tres clases (3) (Clase A, B y C).
Para cada uno de éstos modelos se generaron dos árboles el primero en el
que se utilizaron nueve variables de entrada y el segundo en el que se
utilizaron 8 variables de entrada. De esta manera en total se elaboraron seis
(6) árboles que fueron denominados: Modelo IA, Modelo IB, Modelo IIA,
Modelo IIB, Modelo IIIA y Modelo IIB.
El número de casos (filas de la tabla de datos) presentados inicialmente fue
de 30.383, sin embargo, luego de discretizar las variables y eliminar los
valores duplicados, es decir aquellos casos en que todos los valores de las
variables coincidían. El numero de casos utilizados en cada modelo fue de
782 para el modelo uno (I), 2.510 para el modelo dos (II) y 2.022 para el
modelo tres (III).
En la Figura 20 se presentan el porcentaje de casos correctamente
clasificados dentro de cada uno de los modelos, se observa que presentan
valores entre el 52,8% y 74,0 %.
72
a) b)
Figura 20 Número de casos evaluados en cada modelo (a), Número de casos
correctamente clasificados (b)
Para cada uno de los modelos evaluados se revisó el número de reglas en
las que se clasificó la presencia de mamíferos dentro de la categoría “A”,
puesto que ésta se encuentra relacionada con la mayor probabilidad de
presencia de mamífero, adicionalmente se identificó el número de casos
correctamente clasificados dentro de cada una de las reglas generadas.
Se obtuvo que para los modelos IA y IB el porcentaje de casos
correctamente clasificados dentro de esta clase fue inferior al 50% y para los
modelos IIA, IIB, IIIA y IIIB fue superior al 80% (Véase Figura 21), por tanto
se decidió evaluar solamente las reglas de estos últimos modelos, puesto
que se consideró que estos podrían representar de mejor manera las
relaciones existentes entre la presencia de mamíferos y, las variables físicas
y socioeconómicas analizadas.
0
500
1000
1500
2000
2500
3000
IA IB II A II B III A III B
782 782
2510 2510
2022 2022
No
. De
cas
os
0
0
0
1
1
IA IB II A II B III A III B
74.0% 73.3%
55.4% 52.8%
63.1%67.8%
% d
e c
as
os
co
rre
cta
me
nte
cla
sif
ica
do
s
73
Figura 21 Porcentaje de casos correctamente clasificados dentro de la categoría A.
A continuación se presentan los resultados para cada uno de los modelos,
inicialmente se presenta distribución de los casos correctamente clasificados
en cada una de las reglas generadas y luego se presentan las reglas con el
mayor porcentaje de casos correctamente clasificados.
5.1 MODELO IIA
Para la construcción de este modelo se utilizó una tabla de datos con 2.510
casos (filas), se generaron 24 reglas en las que se clasifica la variable
presencia de mamíferos en la clase A. El número de casos presentados
inicialmente clasificados dentro de la clase A de presencia de mamíferos fue
de 727, de los cuales 602 fueron correctamente clasificados. En la Figura 22
se presenta la distribución de los casos correctamente clasificados , se
observó que en las reglas 19, 16, 15, 21, 22, 14, 1, 4 y 7 se concentra más
del 80% de los casos correctamente clasificados.
0%
20%
40%
60%
80%
100%
IA IB II A II B III A III B
53.3%
37.9%
82.8% 82.9% 84.2% 82.7%
% d
e c
as
os
co
rre
cta
me
nte
cla
sif
ica
do
s
74
Estas reglas son presentas en la Tabla 14, se observa que son incluidas las
variables distancia a áreas protegidas (D_AP), distancia a vivienda (D_Vivi),
Precipitación, distancia a vía (D_Via) . En una de las reglas generadas es
incluida la variable distancia a río (D_rio) y la variable (Altitud).
Figura 22 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIA
Los valores para cada una de las variables los siguientes:
Distancia áreas protegidas: 0-1440 m
Distancia a vivienda : 0 - 2400 m
Precipitación : 1644 – 1752 mm/año
Distancia a vía : 0 – 400 m
Distancia a río : 0 – 360 m
Altitud: 1740 – 1880 m.s.n.m
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
54
0
4
10
4
0 0 0 01 1
6
13
16
23
17
2
9
7
2 1
% d
e c
ao
so
s c
orr
ecta
men
te
cla
sif
icad
os
No. de regla
Casos correctamente clasificados (%) Modelo II A
75
5.2 MODELO IIB
En este modelo no se incluyó la variable distancia a áreas protegidas. Se
utilizó una tabla de datos con 2.510 casos (filas), se generaron 21 reglas en
las que se clasifica la variable presencia de mamíferos en la clase A.
Figura 23 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIB
El número de casos presentados inicialmente clasificados dentro de la clase
A de presencia de mamíferos fue de 727, de los cuales 603 fueron
correctamente clasificados. En la Figura 23 se presenta la distribución de los
casos correctamente clasificados en la Clase A de la variable presencia de
mamíferos, se observó que en las reglas 20, 17, 16, 15, 8, 1, 2, 7, 19 Y 21 se
concentra más del 80% de los casos correctamente clasificados. Estas
reglas son presentas en la Tabla 15, se observa que en las reglas generadas
son incluidas las variables Temperatura, distancia a vivienda (D_Vivi),
Precipitación, distancia a vía (D_Via). En una de las reglas generadas es
incluida la variable distancia a río (D_rio).
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
5 4
1 10 1
3
6
0 0 01 1 1
9
13
16
2 3
23
8
% d
e c
ao
so
s c
orr
ecta
men
te
cla
sif
icad
os
No de Regla
Casos correctamente clasificados (%) Modelo II B
76
Los valores para cada una de las variables los siguientes:
Temperatura : 12 – 14°C
Distancia a vivienda : 0 - 3600 m
Precipitación : 1644 – 1806 mm/año
Distancia a vía : 0 – 1200 m
Distancia a río : 0 – 360 m
5.3 MODELO IIIA
Para la construcción de este modelo se utilizó una tabla de datos con 2.022
casos (filas), se generaron 21 reglas en las que se clasifica la variable
presencia de mamíferos en la clase A. El número de casos presentados
inicialmente clasificados dentro de la clase A de presencia de mamíferos fue
de 852, de los cuales 717 fueron correctamente clasificados correctamente
dentro de las reglas generadas por el árbol. En la Figura 24 se presenta la
distribución de los casos correctamente clasificados en la Clase A de la
variable presencia de mamíferos para el modelo IA, se observó que en las
reglas 10, 14, 17, 18, 19, 1, 2, 3, 7, 8, 11y 12 se concentra más del 80% de
los casos correctamente clasificados. Estas reglas son presentas en la Tabla
16, se observa que en las reglas generadas, al igual que en el modelo IIA,
son incluidas las variables distancia a áreas protegidas (D_AP), distancia a
vivienda (D_Vivi), Precipitación, distancia a vía (D_Via) y distancia a río
(D_rio).
Los valores para cada una de las variables los siguientes:
Distancia áreas protegidas: 0-1440 m
Distancia a vivienda : 0 - 3600 m
77
Precipitación : 1644 – 1806 mm/año
Distancia a vía : 0 – 800 m
Distancia a río : 0 – 360 m
Al comparar este modelo con el IIA se observo que se mantiene las mismas
variables y los rangos de valores.
Figura 24 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIIA
5.4 MODELO IIIB
En este modelo no se incluyó la variable distancia a áreas protegidas. Se
utilizó una tabla de datos con 2.022 casos (filas), se generaron 21 reglas en
las que se clasifica la variable presencia de mamíferos en la clase A.
En la Figura 25 se presenta la distribución de los casos correctamente
clasificados en la Clase A de la variable presencia de mamíferos, se observó
que en las reglas 15, 18, 19, 9, , 1 y 2 se concentra más del 80% de los
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
4 3 31 2 1
3 30
34
43
0
14
2 2
86
41 1
% d
e c
aso
s co
rre
ctam
en
te c
lasi
fica
do
s
No. de Regla
Casos correctamente clasificados (%) Modelo III A
78
casos correctamente clasificados. Estas reglas son presentas en la Tabla 17,
se observa que en las reglas generadas son incluidas las variables
Temperatura, distancia a vivienda (D_Vivi), Precipitación y distancia a vía
(D_Via).
Los valores para cada una de las variables los siguientes:
Temperatura : 12 – 14°C
Distancia a vivienda : 0 - 3600 m
Precipitación : 1644 – 1806 mm/año
Distancia a vía : 0 – 400 m
Al comparar este modelo con el IIB, se observa que en las reglas generadas
se incluyen las mismas variables y los rangos de variación de las mismas se
conservan.
Figura 25 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIIA
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
4 41 1 2
0 13
6
0 0 0 1 2
37
23
20
7
2 3
% d
e c
aso
s c
ore
recta
men
te
cla
sif
icad
os
No. de regla
Casos correctamente clasificados (%) Modelo III B
Tabla 14 Reglas generadas para el Modelo IIA
No. REGLAS
19 SI D_AP= A Y D_Vivi = A Y Precipitación= C
ENTONCES P_mamiferos = A
16 SI D_AP= A Y D_Vivi = B Y Precipitación= B Y D_Via C
ENTONCES P_mamiferos = A
15 SI D_AP= B Y Precipitación= B Y D_Via B
ENTONCES P_mamiferos = A
21 SI D_AP= B Y Precipitación= C
ENTONCES P_mamiferos = A
22 SI D_AP= B Y Precipitación= B
ENTONCES P_mamiferos = A
14 SI D_AP= A Y D_Vivi = B Y Precipitación= B Y D_Via A
ENTONCES P_mamiferos = A
1 SI D_AP= A Y D_Vivi = C Y D_Via A Y
ENTONCES P_mamiferos = A
4 SI D_AP= A Y D_Vivi = B Y Precipitación= A Y D_rio A
ENTONCES P_mamiferos = A
7 SI D_AP= A Y D_Vivi = B Y Precipitación= C Y D_Via A Y Altitud= B ENTONCES P_mamiferos = A
Tabla 15 Reglas generadas para el Modelo IIB
No. REGLAS
20 SI Temperatura = B Y D_Vivi = A Y Precipitación= C
ENTONCES P_mamiferos = A
17 SI Temperatura = B Y D_Vivi = B Y Precipitación= B Y D_Via C
ENTONCES P_mamiferos = A
16 SI Temperatura = B Y Precipitación= B Y D_Via B
ENTONCES P_mamiferos = A
15 SI Temperatura = B Y D_Vivi = B Y Precipitación= C Y D_Via A
ENTONCES P_mamiferos = A
15 SI Temperatura = B Y Precipitación= C
ENTONCES P_mamiferos = A
8 SI Temperatura = B Y D_Vivi = B Y Precipitación= C Y D_Via A
ENTONCES P_mamiferos = A
1 SI Temperatura = A Y D_Vivi = C Y D_Via A
ENTONCES P_mamiferos = A
2 SI Temperatura = A Y D_Vivi = C Y D_Via A Y Precipitación= A
ENTONCES P_mamiferos = A
7 SI Temperatura = A Y D_Vivi = B Y Precipitación= A Y D_rio A
ENTONCES P_mamiferos = A
19 SI Temperatura = B Y D_Vivi = B Y Precipitación= D Y D_Via B
D_rio A ENTONCES P_mamiferos = A
21 SI Temperatura = B Y D_Via A Y Precipitación= B ENTONCES P_mamiferos = A
80
Tabla 16 Reglas generadas para el Modelo IIIA No. REGLAS
10 SI D_AP= A Y D_Vivi = B Y Precipitación= B ENTONCES P_mamiferos = A
14 SI D_AP= A Y D_Vivi = A
Precipitación= C
ENTONCES P_mamiferos = A
17 SI D_AP= B Y Precipitación= C
ENTONCES P_mamiferos = A
18 SI D_AP= B Y Precipitación= B
ENTONCES P_mamiferos = A
19 SI D_AP= B Y Precipitación= D
ENTONCES P_mamiferos = A
1 SI D_AP= A Y D_Vivi = C Y D_Via A
ENTONCES P_mamiferos = A
2 SI D_AP= A Y D_Vivi = C Y D_Via B Y Precipitación= A
ENTONCES P_mamiferos = A
3 SI D_AP= A Y D_Vivi = B Y D_rio A
ENTONCES P_mamiferos = A
7 SI D_AP= A Y D_Vivi = B Y Precipitación= C Y Altitud= B Y D_Via A ENTONCES P_mamiferos = A
8 SI D_AP= A Y D_Vivi = B Y Precipitación= C Y Altitud= B Y D_Via B ENTONCES P_mamiferos = A
11 SI D_AP= A Y D_Vivi = B Y Precipitación= D Y D_Via A
ENTONCES P_mamiferos = A
12 SI D_AP= A Y D_Vivi = B Y Precipitación= D Y D_Via B Y D_rio A ENTONCES P_mamiferos = A
Tabla 17 Reglas generadas para el Modelo IIIB
No. REGLAS
15 SI Temperatura = B Y D_Vivi = B Y Precipitación= B
ENTONCES P_mamiferos = A
18 SI Temperatura = B Y D_Vivi = A Y Precipitación= C
ENTONCES P_mamiferos = A
19 SI Temperatura = B Y D_Vivi = A Y Precipitación= B
ENTONCES P_mamiferos = A
9 SI Temperatura = B Y D_Vivi = B Y Precipitación= C Y D_Via A
ENTONCES P_mamiferos = A
1 SI Temperatura = A Y D_Vivi = C Y D_Via A
ENTONCES P_mamiferos = A
2 SI Temperatura = A Y D_Vivi = C Y D_Via B Y Precipitación= A ENTONCES P_mamiferos = A
6 CONCLUSIONES Y RECOMENDACIONES
En el presente capitulo se presentan las principales conclusiones a las
cuales se llega luego del desarrollo metodológico llevado a cabo para la
identificación de patrones de relación entre presencia de mamíferos y
características físicas y socioeconómicas de la zona de estudio.
6.1 Conclusiones generales de la investigación
Se desarrollo un modelo conceptual en el que se utilizan diferentes
herramientas matemáticas y computacionales para la integración y análisis
de información. Dentro de las herramientas computacionales que se destaca
la utilización de ArcGis® para la integración de la información y las
herramientas R y WEKA para el análisis de la misma.
Dentro de las herramientas matemáticas utilizadas se encuentra el
estimador Kernel o estimador de núcleo, utilizado para la definición del área
de uso de los mamíferos identificados en la cuenca y el modelo C4.5 (J.48)
propuesto por Quinlan en 1993 para la construcción de árboles de decisión.
Se seleccionó información física y socioeconómica que influye en la
presencia de la fauna silvestre, a partir de la información colectada durante el
desarrollo de la investigación y se realizó un análisis de clasificación
utilizando el algoritmo J.48 para la identificación de patrones de relación
entre la información seleccionada.
La utilización del algoritmo J.48 además de facilitar la identificación de
patrones de relación entre las variables estudiadas, permitió la identificación
82
de algunas variables que de acuerdo con la información utilizada ofrecen
mayor información sobre la presencia de los mamíferos, al tiempo que
permite la reducción dimensional del problema, pues en las reglas generadas
son incluidas entre tres y cuatro variables de las nueve presentadas
inicialmente.
En esta investigación se destaca la metodología presentada para la
integración y análisis de información física, socioeconómica y biológica, y la
utilización de diferentes herramientas computacionales dentro de la misma.
Los resultados específicos de la implementación de esta investigación
presentan incertidumbre producto de la calidad y cantidad de información
disponible para los análisis. Por tanto, esto limita la generalización y
aplicación en las reglas o patrones de relación encontrados durante el
desarrollo de la misma.
Sin embargo, a pesar de la generalidad de las reglas encontradas, estas
sugieren algunos patrones de relación y generan algunos interrogantes, que
podrán ser estudiados en futuras investigaciones.
6.2 Conclusiones especificas de la investigación:
Para la identificación de patrones de relación entre la información
seleccionada se plantearon tres modelos en los que se variaron los rangos
de discretización de las variables seleccionadas. Al evaluar el número de
casos que son clasificados correctamente dentro de cada uno de estos se
observó que:
El modelo que mayor número de casos fueron clasificados
correctamente corresponde al modelo I.A (70,4 %), en el que las
variables fueron discretizadas en tres clases.
83
El modelo que presenta el menor número de casos clasificados
correctamente es el modelo II.B (50,8). En este las variables son
discretizadas en cinco clases, y no se incluye la variable distancia a
áreas protegidas.
Al evaluar el número de casos correctamente clasificados dentro de la clase
que representa la mayor probabilidad de presencia de mamíferos (clase A)
se encontró que los modelos II.A, II.B, III.A y III.B presentan un porcentaje de
casos correctamente clasificados superior al 80%.
Al revisar las reglas generadas en cada modelo evaluado se identificó que:
La variable pendiente no fue incluida dentro de las reglas generadas;
La variable altitud fue incluida en una de las reglas del modelo IIA,
tomando valores entre 1740 m.s.n.m y 1.880 m.s.n.m.;
La variable precipitación fue incluida en todos los modelos evaluados
presentando valores entre 1644 mm/año y 1.806 mm/año.
La variable Temperatura, fue incluida dos de los modelos evaluados,
presentando valores entre 12 ºC. entre 14ºC.
La variable distancia a vía fue incluida todos modelos evaluados, el
presentando valores entre cero (0) y 360 m.
La variable distancia a río es incluida en tres de los modelos
analizados, y toma valores menores entre cero (0) m y 360 m.
La variable distancia a áreas protegidas, es incluida en los dos
modelos donde se consideró. Se encuentra en todas las reglas
analizadas y toma valores entre cero (0) y 1440 m .
84
La variable distancia a vivienda es considerada en todos los modelos
analizados y presenta valores entre cero(0) y 1200 m.
A partir de la información analizada y las reglas generas se pudo observa
que la presencia de mamíferos en la zona de estudio podría estar
relacionada con algunas características ésta como son la cercanía a áreas
protegidas, las condiciones de precipitación y temperatura y la disponibilidad
del recurso hídrico. Además, muestra la adaptabilidad que presentan las
especies frente a la acción del hombre en esta zona al utilizar zonas
cercanas a viviendas o vías.
Sin embargo, cabe señalar que estas conclusiones son el resultado de una
primera aproximación a partir de la compilación de diferentes fuentes de
información secundaria, las cuales podrán ser validadas a partir de futuras
investigaciones.
6.3 Recomendaciones y Trabajos futuros
A partir de los resultados anteriores surgen dos interrogantes que son:
¿Podrían ser afectadas las especies de mamíferos presentes en la cuenca
del rió Otún por acción del cambio climático?. Y ¿cuál es el grado de acción
antrópica dentro de la cuenca que puede afectar la presencia de mamíferos
en la zona?
Adicionalmente, considerando que los análisis aquí realizados obedecen
sólo a un análisis espacial, y, considerando que estos sistemas son
dinámicos, se recomienda realizar este tipo de análisis a nivel temporal. Es
decir, considerar las variaciones temporales de los usos y coberturas del
suelo en la cuenca, la variabilidad climática, y la dinámica poblacional de las
especies analizadas.
85
Además, el monitoreo de mamíferos con técnicas directas como telemetría,
podría ofrecer la posibilidad de la selección de áreas de uso ajustadas a las
condiciones reales de los mamíferos estudiados y adicionalmente, permitiría
la identificación de la intensidad de uso de las zonas con las características
aquí identificadas.
86
BIBLIOGRAFÍA
Armañanzas A., D. Rubén, 2004. Medidas de filtrado de selección de
variables mediante la plataforma "Elvira". [En línea]. Agosto de 2004. [Citado
el 12 de octubre de 2008]. <
http://www.sc.ehu.es/ccwbayes/members/ruben/msth.pdf>
CIEBREG .Centro de investigaciones y Estudios en Biodiversidad y recursos
Genéticos, 2006. Caracterización de la agrobiodiversidad existente en
unidades de producción tradicional en la “Cuenca del río Otún” Risaralda –
CEAN. UTP-CIPAV-COLCIENCIAS-JAVERIANA-CATIE-IAVH. Colombia.
124 p.
Federación Nacional de Cafeteros de Colombia. Centro Nacional de
Investigaciones de Café "Cenicafé", Disciplina de Agroclimatología, Archivos
Climáticos, Chinchiná, Caldas, Colombia. Septiembre de 2008.
Hall, Mark A. 1999. Correlation-based Feature Selection for Machine
Learning. [En línea]. Abril de 2006. [Citado 10 octubre de 2008]
http://www.cs.waikato.ac.nz/~mhall/thesis.pd
Helton Boher, F. 2005. Ámbito de hogar y territorialidad del Chungungo en el
litoral central de Chile, Quintay. Valdivia, Chile. 2005.[Citado el 10 de
noviembre de 2008]. <de
http://cybertesis.uach.cl/tesis/uach/2005/fvb676a/doc/fvb676a.pdf>
87
Hernández Orallo, J; Ramírez Quintana, M. J.; Ferria Ramírez, C.
Introducción a la minería de datos. Madrid: Pearson Educación, S:A, 2004.
p. 680. ISBN: 84-205-4091-9
IDEAM. Atlas Climatológico de Colombia. ISBN 958-8067-14-6..[Citado el 15
de octubre de 2008].< http://www.ideam.gov.co/files/atlas/Contenido.htm>.
INSTITUTO DE INVESTIGACION DE RECURSOS BIOLOGICOS
ALEXANDER VON HUMBOLDT, DEPARTAMENTO NACIONAL DE
PLANEACION, WWF, RRSC, UAESPNN DEL MINISTERIO DEL MEDIO
AMBIENTE. Incentivos para la conservación y uso sostenible de la
Biodiversidad. Editado por Sarah Hernández Pérez. Bogotá: Instituto
Humboldt, 2000. 150 p.
Jiménez, G. 2000. Propuesta metodológica en el diseño y evaluación de un
corredor biológico en la reserva forestal Golfo Dulce, Costa Rica, 2000, 143
p. Trabajo de Postgrado (Magister Scientiae). Centro agronómico tropical de
investigación y enseñanza. Programa de educación para el desarrollo y la
conservación. 89 p.
Jiménez, G. 2003. Estrategia metodológica para el diseño y evaluación de
corredores biológicos: un estudio en Costa Rica. p 103-107 En: Polanco-
Ochoa, R. (ed). Manejo de Fauna Silvestre en Amazonía y Latinoamérica
Selección de trabajos V Congreso Internacional. CITES, Fundación Natura.
Bogotá, Colombia. ISBN 958-97035-2-6. 446 pp.
KANTARDZIC, Mehmed M.; ZURADA, Jozef. Next generation of data-
mining applications. 2006. 671 p. ISBN 0471656054.
88
Krausman, P. 1999. Some basic principles of habitat use. Presented in
“Grazing behaviór of livestock and wildlife”. Idaho Forest, Wildlife & Range
Exp. Sta. Bull. No. 70. P. 85-90.
Mackey, B. G., & Lindenmayer, D. B. (2001). Towards a hierarchical
framework for modelling the spatial distribution of animals. Journal of
Biogeography , 1147-1166.
Navarro Pelaez, J. F., Hincapié, S. P., & Silva, L. M. (2005). Catalogo de
mamíferos del Oriente Antioqueño (Estado y conservacion).
Ochoa, María. 2004. Herramientas Inteligentes para explotación de
información.[En línea].2004.[Citado 1 noviembre de 2008].<
http://www.centros.itba.edu.ar/capis/epg-tesis-y-tf/ochoa-
trabajofinaldeespecialidad.pdf>
Palomino, D., et al., Competing effects of topographic, lithological, vegetation
structure and human impact in the habitat preferences of the Cream-
coloured.... Journal of Arid Environments (2007),
doi:10.1016/j.jaridenv.2007.07.007
Pérez López, César. Minería de datos: técnicas y herramientas. Madrid,
España: International Thomson Editores: Paraninfo, c2007. p. 789. ISBN:
9788497324922.
R Development Core Team (2008). R: A language and environment for
statistical computing. R Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
89
Rodríguez, A., Rodríguez, J., Landazábal, C., & Nash, S. (2006). Libro rojo
de los mamíferos de Colombia. Bogotá: Conservación Internacional
Colombia: Ministerío de Medio Ambiente, Vivienda y Desarrollo Territorial:
Panamericana Formas e Impresos.
Rojas, Carmen. Introducción a la gestión integrada de recursos hídricos. [En
línea]. [Citado 1 de noviembre de 2008]. <
http://publicacion05.unipamplona.edu.co/hidroinformatica/portal/home_1/rec/a
rc_707.pdf>
Ruiz Sánchez, D. Roberto, 2006. Heurísticas de selección de atributos para
datos de gran dimensionalidad. [En línea]. Mayo de 2006. [Citado 20 octubre
de 2008]. < http://www.lsi.us.es/docs/doctorado/tesis/tesisRoberto.pdf>
Salvador Figueras, M (2001): "Análisis de conglomerados o cluster", [en
línea] 5campus.org, Estadística <http://www.5campus.org/leccion/cluster> [15
nov-2008]
Seaman, D. Erran and Powell Roger A. An Evaluation of the Accuracy of
Kernel Density Estimators for Home Range Analysis. Ecology, Vol. 77, No. 7
(Oct., 1996), pp. 2075-2085 Published by: Ecological Society of America
Stable URL: http://www.jstor.org/stable/2265701
Stiling, P. D. (1992). Ecology. Theoties and aplications. New Jersey:
Electronic Publishing Services Inc.
Vivas, Carolina. Abundancia relativa y distribución de frecuencia de indicios
de mamíferos para diferentes coberturas dentro de sistemas de producción y
áreas protegidas, en la cuenca media del río Otún, Risaralda. Bogotá, 2007,
96 p. Trabajo de Grado (Bióloga). Pontificia Universidad Javeriana. Facultad
de Ciencias.
90
Zhang, King & Hyndman, 2004. Bandwidth Selection for Multivariate Kernel
Density Estimation Using MCMC [en línea]. Julio 2004. [Citado el 10 de
noviembre de 2008]. < http://repec.org/esAUSM04/up.1603.1077410300.pdf>
91
ANEXOS
Anexo 1. Resultados de los árboles generados (en medio Magnetico)
92
Anexo 2.
Total de casos clasificados en cada modelo
Modelo I.A
Condición Casos
utilizados
Casos Incorrectamente
clasificados
Casos correctamente
clasificados
Porcentaje de casos
correctamente clasificados
1 11 3 8 7
2 13 2 11 10
3 57 23 34 30
4 70 27 43 38
5 4 0 4 4
6 21 7 14 12
TOTAL 176 62 114 100
Modelo I.B
Condición Casos
utilizados
Casos Incorrectamente
clasificados
Casos correctamente
clasificados
Porcentaje de casos
correctamente clasificados
1 31 9 22 27
2 14 3 11 14
3 14 5 9 11
4 8 2 6 7
5 1 0 1 1
6 48 16 32 40
TOTAL 116 35 81 100
93
Modelo II A
Condición Casos
utilizados
Casos Incorrectamente
clasificados
Casos correctamente
clasificados
Porcentaje de casos
correctamente clasificados
19 100 0 100 17
16 130 34 96 16
15 100 24 76 13
21 66 11 55 9
22 58 17 41 7
14 45 10 35 6
1 41 11 30 5
2 34 9 25 4
4 39 14 25 4
7 35 13 22 4
18 29 11 18 3
20 17 2 15 2
23 22 10 12 2
17 13 3 10 2
5 23 14 9 1
24 29 20 9 1
12 17 9 8 1
13 9 5 4 1
9 3 0 3 0
11 3 0 3 0
3 2 2 0
8 2 0 2 0
6 1 0 1 0
10 1 0 1 0
Total 602 100
94
Modelo IIB
Condición Casos
utilizados
Casos Incorrectamente
clasificados
Casos correctamente
clasificados
Porcentaje de casos
correctamente clasificados
20 154 14 140 23
17 130 34 96 16
16 100 24 76 13
15 62 10 52 9
8 55 17 38 6
1 39 11 28 5
2 34 9 25 4
7 43 22 21 3
19 29 11 18 3
18 16 3 13 2
4 23 14 9 1
12 29 20 9 1
13 17 9 8 1
6 14 8 6 1
3 5 0 5 1
14 9 5 4 1
9 3 0 3 0
11 3 0 3 0
5 2 0 2 0
10 1 0 1 0
21 100 54 46 8
Total 868 265 603 100
95
Modelo III.A
Condición
Casos
utilizados
Casos
Incorrectamente
clasificados
Casos
correctamente
clasificados
Porcentaje de
casos
correctamente
clasificados
1 35 4 31 4.3
2 31 6 25 3.5
3 32 7 25 3.5
4 17 8 9 1.3
5 33 20 13 1.8
6 7 7 1.0
7 30 8 22 3.1
8 45 27 18 2.5
9 2 2 0.3
10 297 52 245 34.2
11 45 17 28 3.9
12 22 4 18 2.5
13 3 2 1 0.1
14 100 100 13.9
15 16 16 2.2
16 26 12 14 2.0
17 58 3 55 7.7
18 48 7 41 5.7
19 43 16 27 3.8
20 13 3 10 1.4
21 25 15 10 1.4
Total 928 211 717 100
Top Related