Download - PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE … › biblos › tesis › ingenieria › Tesis268.pdf · 2010-04-13 · pontificia universidad javeriana facultad de ingenierÍa maestrÍa

PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA

MAESTRÍA EN HIDROSISTEMAS

PATRONES DE RELACIÓN ENTRE INFORMACIÓN BIOLÓGICA E INFORMACIÓN FÍSICA Y SOCIOECONÓMICA. CUENCA ALTA DEL RÍO OTÚN,

RISARALDA COLOMBIA

YULIETH ROSSIO CORONEL PICÓN

TRABAJO DE GRADO Presentado como requisito parcial

para optar al título de

MAGÍSTER EN HIDROSISTEMAS

Bogotá, D. C. Julio de 2009

2

NOTA DE ADVERTENCIA "La Universidad no se hace responsable por los conceptos emitidos por sus alumnos en sus trabajos de tesis. Solo velará porque no se publique nada contrario al dogma y a la moral católica y porque las tesis no contengan ataques personales contra persona alguna, antes bien se vea en ellas el anhelo de buscar la verdad y la justicia".

Artículo 23 de la Resolución No13 de julio de 1946.

3

PATRONES DE RELACIÓN ENTRE INFORMACIÓN BIOLÓGICA E INFORMACIÓN FÍSICA Y SOCIOECONÓMICA. CUENCA ALTA DEL RÍO

OTÚN, RISARALDA COLOMBIA

YULIETH ROSSIO CORONEL PICÓN APROBADO

Nelson Obregón Neira Ingeniero. PhD Director

Germán Leonardo Jiménez R. Biólogo. MSc. Evaluador 1

ARMANDO SARMIENTO Economista. MSc. Evaluador 2

4

PATRONES DE RELACIÓN ENTRE INFORMACIÓN BIOLÓGICA E INFORMACIÓN FÍSICA Y SOCIOECONÓMICA. CUENCA ALTA DEL RÍO

OTÚN, RISARALDA COLOMBIA

YULIETH ROSSIO CORONEL PICÓN

Francisco Javier Rebolledo M. Decano Académico de la Facultad de Ingeniería

Andrés Torres. Ingeniero. PhD Director Maestría en Hidrosistemas

5

Dedicado a mi mamá, Elba

por su amor y apoyo, a mi

hermana Marcela y mi abuela

Lucia y a toda mi familia.

6

AGRADECIMIENTOS

A Nelson Obregón Neira por asumir la dirección de la investigación, su incondicional apoyo y confianza en el proceso de formación. A Germán Leonardo Jiménez por su colaboración en el desarrollo de esta investigación. Al Centro de Investigación y Estudios en Biodiversidad y Recursos Genéticos (CIEBREG). Al Grupo de Investigación Riesgo en Sistemas Naturales y Antrópicos- Pontificia Universidad Javeriana. A todos los compañeros y amigos de la Maestría en Hidrosistemas.

7

CONTENIDO

INTRODUCCIÓN --------------------------------------------------------------------------------------------- 14

PROBLEMA ----------------------------------------------------------------------------------------------------- 18

OBJETIVOS ---------------------------------------------------------------------------------------------------- 18

1 DESCRIPCIÓN ÁREA DE ESTUDIO ----------------------------------------------------------- 19

1.1 Climatología --------------------------------------------------------------------------------------- 22

1.1.1 Red de medición existente ------------------------------------------------------------- 22

1.1.2 Precipitación -------------------------------------------------------------------------------- 23

1.1.3 Temperatura -------------------------------------------------------------------------------- 23

1.1.4 Clasificación climática ------------------------------------------------------------------- 23

1.2 Cobertura y usos del suelo ------------------------------------------------------------------- 26

2 RECOPILACIÓN, SELECCIÓN E INTEGRACIÓN DE INFORMACIÓN FÍSICA

Y SOCIOECONOMICA ------------------------------------------------------------------------------------- 29

2.1 Recopilación de información ---------------------------------------------------------------- 30

2.2 Selección de la informacion ----------------------------------------------------------------- 36

2.2.1 Altitud Media -------------------------------------------------------------------------------- 38

2.2.2 Pendiente ------------------------------------------------------------------------------------ 38

2.2.3 Precipitación media anual -------------------------------------------------------------- 40

2.2.4 Temperatura Media anual -------------------------------------------------------------- 40

8

2.2.5 Uso suelo ------------------------------------------------------------------------------------- 40

2.2.6 Distancias a áreas protegidas, vías, ríos y vivienda campesina. ----- 41

2.2.7 Integración de la información --------------------------------------------------------- 42

3 ANÁLISIS DE INFORMACIÓN BIOLOGICA ------------------------------------------------- 44

3.1 Estimador kernel -------------------------------------------------------------------------------- 45

3.2 Definición de la presencia de mamíferos ----------------------------------------------- 48

3.2.1 Metodología --------------------------------------------------------------------------------- 48

3.2.2 Resultados ----------------------------------------------------------------------------------- 54

4 DISEÑO EXPERIMENTAL ------------------------------------------------------------------------- 57

4.1 Metodología ---------------------------------------------------------------------------------------- 57

4.1.1 Árboles de decisión ----------------------------------------------------------------------- 60

4.1.2 Aplicativo computacional utilizado -------------------------------------------------- 63

4.2 Información utilizada para la construcción de los árboles ------------------------ 65

4.3 Modelos evaluados ----------------------------------------------------------------------------- 68

5 ANALISIS Y DISCUSION DE RESULTADOS ----------------------------------------------- 71

5.1 MODELO IIA --------------------------------------------------------------------------------------- 73

5.2 MODELO IIB ----------------------------------------------------------------------------------------- 75

5.3 MODELO IIIA -------------------------------------------------------------------------------------- 76

5.4 MODELO IIIB -------------------------------------------------------------------------------------- 77

6 CONCLUSIONES Y RECOMENDACIONES ------------------------------------------------ 81

6.1 Conclusiones generales de la investigación ------------------------------------------- 81

6.2 Conclusiones especificas de la investigación: ---------------------------------------- 82

6.3 Recomendaciones y Trabajos futuros --------------------------------------------------- 84

9

BIBLIOGRAFÍA ------------------------------------------------------------------------------------------------ 86

ANEXOS --------------------------------------------------------------------------------------------------------- 91

10

LISTA DE TABLAS

Tabla 1 Estaciones utilizadas para la caracterización climática de la cuenca del Rio

Otún. --------------------------------------------------------------------------------------------------------------- 24

Tabla 2 Tipos de Cobertura y usos del suelo. Cuenca media y alta del rio Otún ----- 27

Tabla 3 Información cuenca Otún junto con sus fuentes. -------------------------------------- 33

Tabla 4 Especies de mamíferos terrestres presentes en la cuenca media del río

Otún ---------------------------------------------------------------------------------------------------------------- 34

Tabla 5 Usos del suelo en el área de estudio. Fuente: SIG-CIEBREG ------------------- 35

Tabla 6 Descripción del paquete Gen Kern desarrollado para R. -------------------------- 50

Tabla 7 Script utilizado para la estimación del área de uso de los mamíferos.

Fuente: El Autor ----------------------------------------------------------------------------------------------- 52

Tabla 8 Argumentos utilizados para la aplicación del estimador kernel. Fuente: El

autor. -------------------------------------------------------------------------------------------------------------- 54

Tabla 9 Ejemplo Matriz de Confusión. ---------------------------------------------------------------- 65

Tabla 10 Modelo de tabla de patrones generada ------------------------------------------------- 66

Tabla 11 Información estadística de las variables ------------------------------------------------ 67

Tabla 12 Distribución de los casos analizados dentro de cada variable y cada

categoría. Modelo I. ------------------------------------------------------------------------------------------ 69

Tabla 13 Distribución de los casos analizados dentro de cada variable y cada

categoría. Modelo II. ----------------------------------------------------------------------------------------- 70

11

Tabla 14 Reglas generadas para el Modelo IIA --------------------------------------------------- 79

Tabla 15 Reglas generadas para el Modelo IIB --------------------------------------------------- 79

Tabla 16 Reglas generadas para el Modelo IIIA -------------------------------------------------- 80

Tabla 17 Reglas generadas para el Modelo IIIB -------------------------------------------------- 80

12

LISTA DE FIGURAS

Figura 1 Localización cuenca del río Otún ---------------------------------------------------------- 19

Figura 2. División de la Cuenca ------------------------------------------------------------------------- 20

Figura 3 Localización zona de estudio. --------------------------------------------------------------- 21

Figura 4 Localización de las estaciones de la red meteorológica en la cuenca del río

Otún. --------------------------------------------------------------------------------------------------------------- 24

Figura 5 Precipitación media mensual. Estación el Cedral (mm). -------------------------- 25

Figura 6 Precipitación media mensual. Estación Planta de Tratamiento. ---------------- 26

Figura 7 Temperatura media mensual. Estación El Cedral ----------------------------------- 26

Figura 8 Información colectada -------------------------------------------------------------------------- 32

Figura 9 Modelo digital de elevación Cuenca media y alta del río Otún. ----------------- 39

Figura 10 Pendiente Cuenca Media y alta del río Otún (%)----------------------------------- 39

Figura 11 Uso del suelo reclasificado. ---------------------------------------------------------------- 42

Figura 12 Definición de variables para la grilla generada. ------------------------------------- 43

Figura 13 Distribución de registros de mamíferos y densidad estimada. ---------------- 55

Figura 14 Variación de la densidad de probabilidad estimada ------------------------------- 55

Figura 15 Variación de la densidad en el eje X (Este) ------------------------------------------ 56

Figura 16 Variación de la densidad en el eje Y (Norte) ----------------------------------------- 56

13

Figura 17 Metodología para la identificación de patrones de relación. ------------------- 59

Figura 18 Estructura de un árbol de decisión ------------------------------------------------------ 60

Figura 19 Histograma de las variables utilizadas ------------------------------------------------- 67

Figura 20 Número de casos evaluados en cada modelo (a), Número de casos

correctamente clasificados (b) --------------------------------------------------------------------------- 72

Figura 21 Porcentaje de casos correctamente clasificados dentro de la categoría A. --------- 73

Figura 22 Distribución de los casos correctamente clasificados en la Clase A de la

variable presencia de mamíferos para las reglas generadas. Modelo IIA --------------- 74


variable presencia de mamíferos para las reglas generadas. Modelo IIB --------------- 75


variable presencia de mamíferos para las reglas generadas. Modelo IIIA -------------- 77


variable presencia de mamíferos para las reglas generadas. Modelo IIIA -------------- 78

14

INTRODUCCIÓN

Colombia es considerado un país megadiverso por poseer el 10% de la

biodiversidad mundial en tan solo el 0.7% de la superficie terrestre. Esta

diversidad es consecuencia de la gran variedad de ecosistemas que existen

en el territorio colombiano: páramos, laderas andinas, valles interandinos,

selvas tropicales, humedales, llanuras y desiertos. Sin embargo, se ha visto

amenazada por la destrucción y fragmentación del hábitat, introducción de

especies (exóticas, invasoras), y la contaminación (polución y tóxicos en el

ambiente).

Una de las principales causas de pérdida de biodiversidad en Colombia

obedece al acelerado proceso de transformación de hábitats y ecosistemas

naturales ocasionado principalmente por la deforestación producida por la

expansión de la frontera agropecuaria y la colonización. Esto ha llevado a la

necesidad de tomar medidas encaminadas al uso y manejo sostenible de los

recursos naturales.

En el 2002 con el decreto 1729 se plantean las directrices para la ordenación

de cuencas, con el que se busca la planificación y uso sostenible de la

cuenca y la ejecución de programas y proyectos específicos dirigidos a

conservar, preservar, proteger o prevenir el deterioro y/o restaurar la cuenca

15

hidrográfica. Las cuencas son consideradas como la unidad ideal de gestión,

dado que en estas interactúan de manera dinámica los sistemas

socioeconómicos y biofísicos y porque ellos reflejan un comportamiento

que responde a los estilos de manejo de los recursos agua, suelo, flora y

fauna, así como las actividades o infraestructuras existentes en sus zonas de

influencia (Rojas)

Dada la necesidad de formular e implantar programas y proyectos que

obedezcan a la interpretación de la interacción de los sistemas

socioeconómicos y biofísicos, y por ende respondan a las realidades del

recurso explotado, se hace necesaria la utilización de herramientas que

permitan la integración y reconocimiento de patrones que puedan ser

utilizados como soporte para el diseño de estos. El creciente desarrollo de la

informática, la inteligentica artificial, los sistemas de información, la minería

de datos, la adquisición de datos, la gestión/extracción/visualización de datos

entre otros, presentan hoy día la oportunidad de utilizar herramientas que

facilitan la identificación e interpretación de estas relaciones, a partir de la

utilización de modelos guiados por datos, basados en el conocimiento o

basados en la biofísica.

La hidroinformática es un campo multidisciplinar recientemente establecido

que combina las tecnologías antes descritas para la gestión del recurso

hídrico, utilizando estas herramientas para solución de problemas de

hidráulica, hidrológica y gestión ambiental Dentro de las herramientas

utilizadas en este campo se encuentran las redes neuronales, algoritmos

genéticos, lógica difusa, arboles de decisión, sistemas expertos (difusos),

entre otros.

El Centro de Investigación y Estudios en Biodiversidad y Recursos

Genéticos (CIEBREG) en el marco del proyecto: Valoración de bienes y

16

servicios de la biodiversidad para el desarrollo sostenible de paisajes rurales

colombianos: Complejo ecoregional de los Andes del norte, ha adelantado

diferentes investigaciones en la Cuenca del río Otún dentro de las que se

encuentran el monitoreo de fauna silvestre, la caracterización

socioeconómica e identificación de servicios ecosistémicos. Sin embargo

como se mencionó en el apartado anterior, para la definición de estrategias

de manejo y conservación es necesario que esta información se analizada

conjuntamente para que las soluciones planteadas, realmente respondan a

las necesidades identificadas en la cuenca.

Considerando las posibilidades que ofrecen las herramientas utilizadas en

hidroinformática para la solución de problemas complejos, en esta

investigación se buscó la identificación de las relaciones existentes entre la

presencia de algunas especies de mamíferos (información biológica) y

características físicas y socioeconómicas de la cuenca media del río Otún a

través de la aplicación de arboles de decisión. Según Palomino et al (2007)

estos han demostrado ser útiles para la modelización de preferencias de

hábitat para la fauna.

La información obtenida de esta investigación sumada a otros estudios,

puede servir como soporte para toma de decisiones en la conformación de

áreas prioritarias para la conservación por su importancia para la fauna

silvestre, y/o selección de áreas que sean incluidas en programas de pago

por servicios ambientales.

El presente documento, se ha estructurado en 5 capítulos. A continuación

se hace una breve descripción de cada uno de ellos.

17

En el capitulo 1 se describe la zona de estudio, climatología y usos del suelo

de la misma. Esta información es la base sobre la que se definen las

variables físicas y socioeconómicas empleadas en la investigación.

En el capitulo 2 se describen las tareas relacionadas con la recopilación,

selección e integración de información física y socioeconómica y se realiza la

definición de las variables a utilizar.

En el capitulo 3 se realiza el análisis de la información biológica. Se describe

la metodología y herramientas utilizadas para el análisis de la misma.

En el capitulo 4 se presenta el diseño experimental, donde se definen los

modelos utilizados, las herramientas y los aplicativos computacionales

empleados la el descubrimiento de patrones.

En el capitulo 5 el análisis y discusión de los resultados obtenidos.

Por último se presentan las conclusiones y comentarios finales.

18

PROBLEMA

La pregunta que motivó esta investigación es:

¿Qué relación existe entre la presencia de mamíferos y las características

físicas y socioeconómicas de la cuenca media del río Otún?

OBJETIVOS

Objetivo General

Establecer la relación existente entre la presencia de mamíferos y variables

físicas y socioeconómicas de la cuenca media del río Otún a partir de la

utilización de técnicas de minería de datos.

Objetivos Específicos

Desarrollar herramientas conceptuales, matemáticas e informáticas para la

integración, análisis y descubrimiento de patrones de relación entre

información biológica e información física y socioeconómica.

Identificar variables físicas y socioeconómicas y su relación de causalidad

con la presencia de mamíferos en la zona de estudio.

19

1 DESCRIPCIÓN ÁREA DE ESTUDIO

La cuenca del río Otún se ubica al noroccidente de Colombia en la Cordillera

Central de los Andes, al sur del departamento de Risaralda en las

coordenadas 4º 49’ latitud Norte y 75º 42’ longitud Oeste (Véase Figura 1);

tiene un área aproximada de 483,13 km2 y forma parte de la Gran cuenca

del río Cauca. Su forma es alargada.

Figura 1 Localización cuenca del río Otún

20

El río Otún nace en la laguna del mismo nombre en el Parque Nacional

Natural de los Nevados a 4.000 m.s.n.m en jurisdicción del Municipio de

Pereira. Tiene una longitud de 75,42 km siguiendo una trayectoria en sentido

Este - Oeste hasta confluir con el Río Cauca a 950 m.s.n.m. Es la fuente de

abastecimiento del acueducto de Pereira.

Para su estudio ha sido dividida en tres tramos: cuenca alta, que va desde su

nacimiento hasta las microcuencas Volcanes y La Bananera – La Bella;

cuenca media, inicia en la quebrada San José, hasta la desembocadura de la

quebrada Dosquebradas y cuenca baja, a partir de la microcuenca Combia

Alta hasta su desembocadura en el río Cauca ( CARDER , 2008). En la

Figura 2 se presenta la división de la cuenca

Figura 2. División de la Cuenca

Fuente: CARDER 2008

21

En la parte alta de la cuenca se localiza un complejo de áreas protegidas

conformado por el Parque Regional Natural Ucumarí, Parque Nacional

Natural los Nevados, Parque municipal Natural Campoalegre y el Santuario

de Flora y Fauna Otún Quimbaya.

El área de estudio se localiza en la cuenca alta de la cuenca del río Otún

entre los 1.400 m.s.n.m y 2300 m.s.n.m, donde los principales sistemas

productivos son la agricultura, la ganadería y explotación forestal. Esta zona

fue seleccionada de acuerdo a la distribución de registros de indicios de

mamíferos identificados en la cuenca alta, tal como se explica en el Capitulo

tres (3).

Figura 3 Localización zona de estudio.

22

1.1 Climatología

1.1.1 Red de medición existente

Dentro de la cuenca del Río Otún se identificaron dos estaciones principales

que son la Estación El Pílamo (1111111) y la Estación El Cedral (2613507) y

una estación principal cercana a la cuenca llamada El Jazmín (2613506).

Además se identificaron cuatro estaciones pluviométricas que son: Los

Cámbulos (2613021), El Bosque (2613026), La Playa (2613046) y Combia

(2613051); y La estación Planta de Tratamiento (2613023). Estas estaciones

pertenecen a la red de Meteorológica de la Federación Nacional de

Cafeteros.

En Tabla 1 se presenta el listado de las estaciones Principales,

Pluviográficas y Pluviométricas identificadas dentro de la cuenca del río Otún

y cuencas cercanas. En el cuadro antes mencionado se describe el código

de la estación, El tipo, las coordenadas geográficas, la corriente, y el

municipio donde se encuentran. En la Figura 4 se presenta la localización de

las mismas. Se observa que la estación el Cedral y Planta de Tratamiento

por su localización son las que mejor representan las características

climatológicas de la cuenca alta del río Otún.

La información recopilada corresponde a registros de Temperatura y

Precipitación para el periodo 2004-2007.

23

1.1.2 Precipitación

La precipitación media anual de la estación El Cedral es de 2543 mm, y la

precipitación media mensual varia entre 66 mm y 443 mm, siendo octubre el

mes con mayor precipitación. En la Estación Planta de Tratamiento la

precipitación media anual es 2462 mm y la precipitación media mensual varía

entre 131 mm y 306 mm. Como se observa en la Figura 5 y la Figura 6. El

régimen de lluvias es bimodal, siendo los meses de mayor precipitación los

períodos de marzo a junio y septiembre a noviembre.

1.1.3 Temperatura

En la estación el Cedral la temperatura media mensual 14.6 ºC y 14. En la

Figura 7 se presenta la variación mensual de la Temperatura.

1.1.4 Clasificación climática

Para la clasificación del clima de la cuenca del Rio Otún se utilizó la

clasificación de establecida por Richard Lang (1915), que utiliza la

precipitación anual en mm y la temperatura media anual en °C. Los dos

parámetros se relacionan mediante el cociente entre la precipitación (P) y la

temperatura (T), llamado factor de Lang. El factor de Lang estimado para la

cuenca presentó valores entre 65 y 111, valores que se encuentran dentro de

los rangos establecidos para Clima Semihúmedo y Clima Húmedo. El clima

es Semihúmedo en la parte baja y media de la cuenca y Húmedo en la parte

media-alta.

24

Figura 4 Localización de las estaciones de la red meteorológica en la

cuenca del río Otún.

Tabla 1 Estaciones utilizadas para la caracterización climática de la

cuenca del Rio Otún.

Código Estación Municipio Tipo Corriente Lat.

(N)

Long.

(w)

2613021 Los

Cámbulos Pereira PM Río Otún 4º 49’ 75º 50

2613023 Planta de

Tmiento. Pereira PG Río Otún 4º 48’ 75º 40

2613026 El Bosque Dosquebradas PM Río Otún 4º 51 75º 41

25

Código Estación Municipio Tipo Corriente Lat.

(N)

Long.

(w)

2613046 La Playa Pereira PM Río Otún 4º 49 75º 45

2613051 Combia Pereira PM Río Otún 4º 51 75º 47

1111111 El Pílamo Pereira P Río Otún 4º 52’ 75º 48

2613507 El Cedral Pereira P Río Otún 4º 42 75º 32

2613506 El Jazmín Santa Rosa de

C. P

Río San

Eugenio 4º 55 75º 37

P: Principal PM: Pluviométrica PG: Pluviográfica

Fuente: Federación Nacional de Cafeteros

Figura 5 Precipitación media mensual. Estación el Cedral (mm).

26

Figura 6 Precipitación media mensual. Estación Planta de Tratamiento.

Figura 7 Temperatura media mensual. Estación El Cedral

1.2 Cobertura y usos del suelo

La cobertura del suelo se clasifica en cobertura natural y cobertura

antropizada. Dentro de la natural se encuentran los bosques naturales,

27

bosques secundarios y rastrojos; pertenecen al segundo grupo los cultivos y

pastos manejados. De acuerdo con el mapa de coberturas de la cuenca

media y alta del rio Otún cerca del 75% de la cobertura corresponde a

bosque natural y vegetación de páramo (SIG-CIEBREG)

.

En la Tabla 2 se presenta una breve definición de cada uno de los tipos de

cobertura y usos del suelo identificados en la cuenca media y alta del río

Otún.

Tabla 2 Tipos de Cobertura y usos del suelo. Cuenca media y alta del rio

Otún

Tipo de Cobertura y

Usos Descripción

Vegetación de Páramo vegetación propia de los paramos

Bosque Natural

Se entiende por bosque natural el conjunto de especies

vegetales, predominantemente autóctonas, presentes en

un sitio, que se origina sin intervención humana.

Bosque secundario

Bosque que se encuentra en proceso de regeneración

natural después de una tala total, quema u otra actividad

de conversión de la tierra, sin que se haya recuperado

completamente.

Rastrojo Vegetación en regeneración

Bosque plantado Es el cultivo de especies forestales originado por la

intervención directa del hombre.

Pasto natural Pastos que crecen sin intervención humana.

Pasto manejado Pastos optimizados y mejorados para consumo del

ganado.

Cultivos Se identifican cultivos transitorios (ciclo de producción

28

Tipo de Cobertura y

Usos Descripción

oscila entre tres y doce meses) y permanentes y

semipermanentes (ciclo productivo es mayor a doce

meses) como: Consociación café –cítricos, maíz, lulo,

frijol, tomate, plátano, papa, granadilla, Consociación café

–plátano, Consociación café-plátano-pasto manejado,

cebolla junca, café.

Laguna Es el espejo de los cuerpos de agua.

Nieve son las zonas donde se ubica la nieve perpetua

Otros Vivienda campesina y vivienda urbana.

29

2 RECOPILACIÓN, SELECCIÓN E INTEGRACIÓN DE INFORMACIÓN

FÍSICA Y SOCIOECONOMICA

Para la extracción de conocimiento y/o patrones de relación existentes entre

la información que es objeto de análisis es necesario que se lleven a cabo las

siguientes tareas:

Selección de la información: Esta fase inicia con la integración y recopilación

de información que permite configurar la base de información sobre la que

se desea trabajar. Es conveniente que ésta sea dispuesta en un formato

común y sin inconsistencias.

Exploración: esta fase consiste en realizar un análisis previó de los datos

disponibles. En esta etapa se pueden ser utilizadas herramientas de

exploración visual como gráficos de tallo y hojas, histogramas de

frecuencias, grafico de caja y bigotes, gráficos de simetría y gráficos de

dispersión y/o herramientas de exploración formal

Limpieza: Detectar y tratar la presencia de valores atípicos, eliminar datos

erróneos e irrelevantes.

Transformación: Utilizar técnicas de reducción y aumento de la dimensión,

aplicar técnicas de discretización y numerización.

Minería de datos: En esta etapa se selecciona(n) la(s) técnica(s) de minería

de datos que permitan obtener un modelo de conocimiento. Las técnicas

30

utilizadas pueden ser predictivas como árboles de decisión, métodos

bayesianos, entre otros y/o técnicas descriptivas como Clúster, Reducción de

la dimensión, entre otros.

Evaluación e interpretación de resultados

Este capitulo hace énfasis en las fases de selección de la información

asociada a las características físicas y socioeconómicas de la cuenca media

del río Otún. Se busca definir las variables a partir de las cuales son

analizadas las relaciones existentes entre la presencia de mamíferos en la

cuenca alta del río Otún y características físicas y socioeconómicas la

misma.

Estas fases son de suma importancia para que las técnicas o herramientas

matemáticas utilizadas en la identificación de patrones sean capaces de

extraer conocimiento valido y útil a partir de la información utilizada. A

continuación se describe cada una de las tareas realizadas en el

preprocesamiento de la información.

2.1 Recopilación de información

En esta fase se recopiló información de tipo secundaria en las diferentes

instituciones de orden nacional, departamental y local que han desarrollado

trabajos dentro de la cuenca del Río Otún. Dentro de la información

colectada se encuentra información biofísica y socioeconómica. En la Tabla

3 se presenta la información colectada junto con sus fuentes. A continuación

se relaciona la información colectada.

Curvas de nivel de la cuenca media y alta del río Otún cada 50 m, formato

shp.

31

corrientes principales de la cuenca media y alta, formato shp.

Información asociada a temperatura, humedad relativa y precipitación media

mensual de las estaciones localizadas en la cuenca del Río Otún y cuencas

cercanas, para el periodo 2004 - 2007.

Usos del suelo de la cuenca media y alta del río Otún de 2005 (SIG-

CIEBREG), formato shp. En el Tabla 5 se presenta la relación de los usos

identificados en la cuenca media y alta del río Otún.

Mapa de Áreas Protegidas de la Cuenca del Río Otún. formato shp.

Mapa de Vías Cuenca Media y alta del río Otún formato shp.

Estudios de Abundancia Relativa y distribucion de frecuencias de Indicios

(huellas y avistamientos de individuos de diferentes especies) de mamiferos

medianos y grandes realizados en la cuenca media y alta del río Otun

(Vivas, 2007; Palacios, 2007). Las especies de mamiferos identificadas y

número de indicios se presentan en la Tabla 5. En el capitulo 3 se amplia

esta información.

32

Figura 8 Información colectada

Curvas de Nivel Corrientes Principlaes

Registrto de Indicios de

mamiferos Usos del suelo

Áreas Protegidas Vias secundarias y Terciarias

33

Temperatura media anual Precipitación media anual

Tabla 3 Información cuenca Otún junto con sus fuentes.

DESCRIPCIÓN FUENTE

INFORMACIÓN BIOFÍSICA

Registro de indicios de mamiferos

Pontificia Universidad Javeriana.

Estudios de Abundancia Relativa y

distribucion de frecuencias de

Indicios realizados en la cuenca

media del rio Río Otun.

Registros de Precipitación y

Temperatura media mensual período

2004-2007

Federación Nacional de Cafeteros

de Colombia, Centro Nacional de

Investigaciones de Café

"Cenicafé", Disciplina de

Agroclimatología, Archivos

Climáticos, Chinchiná, Caldas,

Colombia.

Curvas de Nivel de la cuenca media y

alta del río Otún. Formato shp.

Sistema de Información geográfica.

Centro de Investigación y Estudios

en Biodiversidad y Recursos

Genéticos (CIEBREG)

34

DESCRIPCIÓN FUENTE

INFORMACIÓN BIOFÍSICA

Red Hídrica. Rio Otún. Formato shp.





INFORMACIÓN SOCIO-ECONOMICA

Mapa de Áreas Protegidas de la

Cuenca del Río Otún formato shp.





Mapa de Uso del Suelo 2005 de la

Cuenca Media y alta del Río Otún 2005

formato shp

Mapa de Vías Cuenca Media y alta del

río Otún formato shp,

Tabla 4 Especies de mamíferos terrestres presentes en la cuenca media

del río Otún

Especie

No de

Indicios

Agouti paca 5

Cerdocyon thous 172

Dasyprocta punctata 41

Dasypus novemcinctus 45

Didelphis marsupialis 21

Eira barbara 14

35

Especie

No de

Indicios

Felino 1

Leopardus pardalis 3

Mazama rufina 1

Nasua 6

Nasua nasua 4

Nasua sp. 2

Perro 21

Puma yagouaroundi 2

Roedor 5

Tapirus pinchaque 1

Urocyon cinereoargenteus 105

Total 449

Tabla 5 Usos del suelo en el área de estudio. Fuente: SIG-CIEBREG

No. Uso No. Uso

1 Afloramiento rocoso 20 Frijol

2 Bosque Natural 21 Galpones

3 Bosque Plantado 22 Granadilla

4 Bosque Plantado Cerezo 23 Guadua

5 Bosque Plantado Ciprés 24 Humedal

6 Bosque Plantado Eucalipto 25 Laguna

7 Bosque Plantado Guadua 26 Maíz

8 Bosque Plantado Nogal

cafetero 27 Nieve perpetua

9 Bosque Plantado Ocarpa 28 Papa

10 Bosque Plantado Pino pátula 29 Pasto Manejado

36

No. Uso No. Uso

11 Bosque Plantado Roble 30 Pasto Natural

12 Bosque Plantado Urapan 31 Pasto con rastrojo

13 Bosque Secundario

Intermedio 32 Plátano

14 Café 33 Rastrojo

15 Cebolla Junca 34 Regeneraci¾n Natural

16 Consociación Café -Cítricos 35 Tomate

17 Consociación Café-Plátano-

Pasto Manejado 36 Vegetación de Paramo

18 Estanque piscícola 37 Vivienda Campesina

19 Explotaci¾n Forestal 38 Zona Urbana

2.2 Selección de la informacion

Los patrones de distribución de especies son con poca frecuencia uniformes

y continuos espacial y temporalmente, y la identificación de los factores que

influyen en esta variación son una pregunta fundamental en ecología. Una

amplia gama de factores influyen en la distribución de plantas y animales, y

muchos de estos funcionan en diferentes escalas espaciales y temporales.

Entre ellos figuran los procesos abióticos, mediada por procesos biológicos,

y los procesos dominados por interacciones bióticas (Mackey & Lindenmayer,

2001). Dentro de los factores físicos o abióticos que limitan la distribución de

especies se encuentran la temperatura, humedad, luz, pH, características del

suelo y corrientes de agua (Stiling, 1992).

Una de las características del suelo que juega un papel fundamental en la

distribución de plantas es la presencia de nitrógeno por ser uno de los

37

elementos indispensables para su nutrición (Stiling, 1992), estas a sus vez

influyen en la distribución de la fauna.

Otro factor importante en la distribución de especies son las prácticas y usos

del suelo desarrollados especialmente por el sector agropecuario, los cuales

han transformado los paisajes naturales (Jiménez, 2000). Aunque este

sector ha sido tradicionalmente identificados como uno de los sectores más

deteriorantes de la base de los recursos naturales por practicar sistemas

degradantes en el desarrollo de sus actividades (Ministerio de Agricultura,

1998 citado en Instituto Humboldt, 2000), su frecuente alta productividad,

comparada con los sistemas naturales, puede promover mas recursos para

la fauna como cobertura vegetal y alimento y facilitar su movimiento entre

parches e intercambio con zonas que no están intervenidas. De esta manera,

los sistemas productivos adquieren un valor de hábitat y se convierten en

pieza clave para la conservación1 .

Además de los factores antes mencionados, existen otros elementos como

los centros poblados, y las vías que pueden influir en la distribución espacial

de la fauna silvestre (Jiménez, 2000).

Dado que el objeto de este estudio es identificar la relación existente entre la

presencia de mamíferos y características físicas y socioeconómicas de la

zona de estudio, a partir de la aplicación de algunas técnicas de minería de

datos y, considerando lo anteriormente descrito, la información colectada y

el conocimiento experto de profesionales del área de biología se definieron

las siguientes variables:

1 Blann, K. 2006. Habitat in agricultural landscapes: how much is enough? A state of the science

literature review, citado por Vivas 2007.

38

Altitud Media (m)

Pendiente (%)

Precipitación media anual (mm)

Usos del Suelo

Distancia a aéreas Protegidas (m)

Distancia a la vía más próxima (m)

Distancia a la corriente mas cercana (m)

Distancia a Vivienda Campesina (m)

Para el área de estudio se generó una grilla con tamaño de celda de 30 m

por 30 m, y para cada una de las celdas se definieron las variables que se

describen a continuación. La variable asociada a la presencia de mamíferos

es descrita en el siguiente capitulo.

2.2.1 Altitud Media

La altitud media se obtuvo a partir de un modelo digital del terreno generado

a partir de las curvas de nivel de la cuenca media y alta del río Otún. Para

realizar esta tarea se utilizó la heramienta 3D Analyst para ArgGis 9.1®.

2.2.2 Pendiente

A partir del modelo digital de elevación generado, se estimó la pendiente,

tomando como tamaño de pixel 30 m. Se empleó la herramienta 3D Analyst

desarrollada para ArgGis 9.1®. En la Figura 10 se presentan los

resultados obtenidos.

39

Figura 9 Modelo digital de elevación Cuenca media y alta del río Otún.

Figura 10 Pendiente Cuenca Media y alta del río Otún (%)

40

2.2.3 Precipitación media anual

Con la información de precipitación registrados en las estaciones

mencionadas en el capitulo 3, se estimó la precipitación media anual

multianual para cada una de las estaciones y a través de un proceso de

interpolación se determinó el valor de la precipitación para cada celda de la

grilla generada. Este procedimiento se realizó utilizando la herramienta

Spatial analyst para ArgGis 9.1®.

2.2.4 Temperatura Media anual

Con la información de Temperatura registrada en las estaciones El Cedral,

El Pilamo y El Jazmin, se estimó la Temperatura media anual multianual para

cada una de las estaciones y a través de un proceso de interpolación se

determinó el valor de la Temperatura para cada celda de la grilla generada.

Este procedimiento se realizó utilizando la herramienta Spatial analyst para

ArgGis 9.1®.

2.2.5 Uso suelo

De acuerdo con los conceptos establecidos por la CARDER en la resolución

061 de enero del 2007 donde se fija los lineamientos para demarcar las

áreas protectoras de los nacimientos y corrientes de agua ubicados en

suelos rurales y suburbanos destinados a usos agrícolas, pecuarios,

forestales y de acuicultura, se realizó la reclasificación del mapa de

coberturas y usos del suelo de 2005 en las siguientes categorías.

Bosque Natural (BN)

Bosque secundario (BS)

41

Rastrojo (R)

Bosque Plantado (BP)

Pasto Natural (PN)

Pasto Manejado (PM)

Cultivos (C)

Vivienda (V)

Otros (O , Lagunas y Nieve)

Dado que no fue posible obtener mapas de usos del suelo para cada uno de

los años en que se ha realizado el monitoreo de los mamiferos, se realizó

un Taller denominado “ Conversatorio de la trayectoria de usos del suelo y la

influencia sobre mamiferos medianos” en la que participaron pobladores de la

zona, donde se concluyó que en los ultimos años no se han dato

transformaciones importantes en los usos del suelo dentro de la cuenca.

2.2.6 Distancias a áreas protegidas, vías, ríos y vivienda

campesina.

Para la definición de estas variables se utilizó la distancia Euclídea. Se

desarrollo un código en MATLAB® 7.1 que permitió estimar la distancia

entre el pixel objetivo y el pixel más cercano que tuviese este atributo.

Para la definición de éstas variables se utilizaros los mapas de áreas

protegidas de la cuenca del Río Otún, vías, ríos y uso del suelo considerando

sólo la clasificación vivienda.

42

Figura 11 Uso del suelo reclasificado.

2.2.7 Integración de la información

Para la aplicación de las herramientas matemáticas en la identificación de

patrones de relación fue necesario construir una tabla de datos con las

variables definidas, para esto el área de estudio fue divida en celdas de 30m

por 30 m, para cada una de las celdas se definió cada una de las variables

(Véase Figura 12).

Para “juntar” todas las capas de información generadas en una misma tabla

de datos, se utilizó la herramienta de análisis para ArgGis 9.1®. De esta

manera cada celda del terreno fue representada por una fila de la tabla de

datos generada.

43

Figura 12 Definición de variables para la grilla generada.

44

3 ANÁLISIS DE INFORMACIÓN BIOLOGICA

Como se mencionó en el anterior capitulo, éste esta orientado a la definición

de la variable asociada a la presencia de mamíferos en el área de estudio.

La información utilizada corresponde a estudios de abundancia relativa y

distribucíon de frecuencia de indicos de mamiferos realizados en la cuenca

del río Otún.

El monitoreo de estos se ha realizado a través de conteo indirecto que hace

referencia al registro de rastros o indicios que pueden dejar los animales en

el ambiente. Los metodos de conteo indirecto utlizados han sido el rastreo

de indicios en transectos y registro de huellas en trampas. , como cuevas,

rascaderos, parted del cuerpo, heces, pelos y huellas encontradas en

transectos. Para el primer caso se tuvo en cuenta avistamientos,

observaciones directas, heces, huesos, pelos y huellas. Durante la

realización de la presente investigación se realizó una visita de campo en la

que hizo acompañamiento en la instalación de trampas.

Rango de habitad se define como el área que es utilizada por la fauna

silvestre. Para la estimación de éste se utilizan muestreos con

radiotelemetría y a partir de esta información y utilizando métodos no

estadísticos como: Mínimo Polígono Convexo (MPC), método de conteo de

grillas y estimadores lineales, o métodos estadísticos como el Estimador de

45

Jenrich-Turner también conocido como el método de la Elipse, y el

estimador Kernel se estima el rango de hogar. Según Helton (2005) si se

compara este último con los métodos descritos anteriormente, parece ser

ésta la herramienta más exacta para estimar el tamaño del rango de hogar.

Dado que la informacion biológica utilizada obedece a rastreo de indicios, y

por lo tanto obedecen a registros puntuales de la presencia de mamiferos se

decidió utilizar una herramienta matematica que permitiera inferir el área

donde posiblemente puede existir presencia de éstos a partir de la los

registros disponibles.

En la presente investigación se estimó el área de uso a partir de los indicios

de mamíferos registrados en el área de estudio, utilizando el estimador kernel

o estimador de núcleo. En esta área sólo se consideran algunas

características del hábitat que podrían ser utilizadas por las diferentes

especies.

A continuación se describe el estimador Kernel y la metodología seguida

para la estimación del área de uso de los mamíferos presentes en la cuenca

media del río Otún.

3.1 Estimador kernel

La estimación de la función de densidad multivariada utilizando kernel es una

importante técnica de análisis de datos y tiene una amplia gama de

aplicaciones (Zhang, King & Hyndman, 2004). Fue introducido en ecología

para estimar el rango de hogar por Worton (1989) (Seaman, Powell, 1996).

46

Intuitivamente, el método Kernel (núcleo) consiste en colocar un núcleo (una

densidad de probabilidad) en cada punto de observación de la muestra. Se

superpone una grilla a los datos observados, y la estimación de la densidad

para cada pixel de la grilla se obtiene utilizando la información de la totalidad

de la muestra. La densidad para cada pixel es esencialmente el promedio de

las densidades de todos los kernel que se superponen en ese punto. Las

observaciones que están cerca de un punto de evaluación contribuirán más a

la estimación de la densidad que los que están lejos de él. Por lo tanto, la

estimación de la densidad será alta en las zonas con muchas observaciones,

y baja en zonas con pocas observaciones (Seaman, Powell, 1996).

El estimador d-dimensional basado en Kernels en su forma más general es:

(1)

La función K debe definirse de manera que satisfaga las siguientes

condiciones:

(2)

(3

(4)

47

La función K se elige generalmente entre las funciones de densidad

conocidas y h es un parámetro llamado ventana, parámetro de suavizado o

ancho de banda. Para la estimación del rango de hogar el kernel más

utilizado es el gaussiano, definido como:

(5)

Una manera de estimar el ancho de banda para este tipo de kernel es la

presentada en la ecuación (6), donde σi es la desviacion estandar de la i-

enesima variable y puede ser reemplazada por el estimador de la muestra

(Zhang, King & Hyndman, 2004).

(6)

Existen diferentes tipos de software que permiten resolver este tipo de

métodos. Para el software estadístico R se ha desarrollado un paquete

denominado GenKern el cual incluye 4 funciones para la generación y

manipulación de estimaciones de densidad de núcleo (Kernel). Una de estas

funciones es KernSur (Bivariate kernel density estimation) que permite

estimar la función de densidad utilizando un kernel gaussiano bivariado y un

ancho de banda adaptativo para x y y

48

Para ArcGis de ha desarrollado la herramienta Hawth's Analysis, diseñado

para desarrollar aplicaciones en ecología como análisis de movimientos de

animales, selección de recursos, modelo predador presa. Además incluye

modulo denominado Kernels para realizar este tipo de análisis. Esta

herramienta no fue utilizada dato que es necesario definir inicialmente el

ancho de banda, mientras que en la herramienta desarrollada para R, el

ancho de banda es optimizado.

3.2 Definición de la presencia de mamíferos

Como de menciono anteriormente, para la definición de la presencia de

mamíferos en el área de estudio se utilizó el estimador kernel. A continuación

se describe la metodología seguida para la definición de esta variable.

3.2.1 Metodología

Para la definición de de la presencia de mamíferos utilizando el estimador

kernel se siguió el siguiente procedimiento:

Definición de las coordenadas, de los registros de mamíferos.

Para la aplicación del método Kernel, se desarrollo un script para R en el

que se utilizaron los paquetes GenKern y Kern Smooth.

R es el software estadístico con licencia GNU más extendido a nivel mundial

tanto para docencia como para investigación. Es un lenguaje y entorno de

programación para análisis estadístico y gráfico que proporciona una amplia

49

variedad de estadísticos (modelos lineales y no lineales, pruebas estadísticas

clásicas, series análisis de series, clasificación, agrupamiento, entre otros) y

técnicas gráficas2.

En la rutina desarrollada inicialmente se cargan los datos con las

coordenadas de los registros de los indicios, se definen el rango en X y el

rango en Y en el cual se desea realizar el análisis para lo que se definen las

coordenadas máximas y mínimas y el numero de filas y columnas del arreglo

de salida, con esto queda definido el tamaño de la celda.

En la Tabla 6 se presenta la descripción del Pakete Gen Kern, y en la Tabla

7 el script utilizado. En la Tabla 8 se presentan los argumentos utilizados

para utilizar este método en la determinación de la presencia de mamíferos

en la zona de estudio. A partir del paso anterior se generaran tres archivos

que contienen las coordenadas en X , las coordenadas en Y , y el valor de la

densidad de probabilidad obtenido para cada uno de los puntos de la malla

generada.

Los valores de densidad obtenidos son reescalados utilizando una

transformación logarítmica, la cual permite hacer comparación de los valores

a una escala más pequeña y facilita su discretización.

2 R puede ampliarse (fácilmente) a través de paquetes disponibles en la web

(http://www2.uaem.mx/r-mirror/ ). R se encuentra disponible en las versiones para:

Linux, MacOS X y Windows en http://www.r-project.org/.

http://www2.uaem.mx/r-mirror/

http://www.r-project.org/

50

Tabla 6 Descripción del paquete Gen Kern desarrollado para R.

PAKETE GEN KERN

Febrero 16, 2008

Versión 1.1-2

Fecha: 2007/05/30

Titulo: Función para generación y manipulación del estimador de densidad

Kernel

Autor: David Lucy <[email protected]> and Robert Aykroyd

<[email protected]>

Depende de: KernSmooth

Descripción:

Este paquete incluye 5 funciones:

GenKern.internal Esta es una función interna y no debe ser utilizado

directamente.

KernSec: Estimador de densidad kernel univariado, utilizando kernel

gaussiano.

KernSur : Estimador de densidad kernel bivariado

nearest : Índice de un vector más cercano en valor a un valor suministrado.

per : Busca el valor porcentual del punto i en una distribución de una

distribución.

KERNSUR: BIVARIATE KERNEL DENSITY ESTIMATION

Descripción: Calcula la densidad utilizando un Kernel gaussiano

Uso: KernSur(x, y, xgridsize=100, ygridsize=100, correlation, xbandwidth,

ybandwidth, range.x, range.y, na.rm=FALSE)

51

Argumentos:

x Vector de valores x

y Vector de valores y

xgridsize Entero para el número de ordenadas para estimar la

densidad. Por defecto = 100

ygridsize Entero para el número de ordenadas para estimar la

densidad. Por defecto = 100

correlation x,y. Vector local de correlación. Por defecto= cor(x,y)

xbandwidth,

ybandwidth

Valor de ancho de ventana para x. Por defecto= dpik(x) ;

dpik(y) (esta en una función del paquete KernSmooth, el

método utilizado es el propuesto por Sheather y Jones ,

1991; y descrito en la sección 3.6 of Wand and Jones,

1995).

range.x,

range.y

Rango para la dimensión x y y. Por defecto= range+-1.5 *

mean bandwidth.

na.rm

Por defecto = False

Valores:

Retorna dos vectores y una matriz:

Xords vector que contiene los valores para la dimensión x

Yords vector que contiene los valores para la dimensión y

Zden matriz de densidad f(x,y) con dimensión xgridsize, ygridsize

52

Tabla 7 Script utilizado para la estimación del área de uso de los

mamíferos. Fuente: El Autor

Script utilizado para estimar el área de uso de cada uno de los

mamíferos a partir del estimador de densidad kernel

#ESTIMADOR KERNEL BIVARIADO

#Paquetes utilizados: Kern Smooth y Gern Kern

#Leer Datos

coordenadas <-read.table("mamiferos.txt",header=T)

fcoor<-nrow(coordenadas)# No de Filas

ccoor<-ncol(coordenadas)# No de Columnas

x=c(coordenadas[1:fcoor,1])# Valores de la variable x

y=c(coordenadas[1:fcoor,2])# Valores de la variable y

# Estimación del Kernel

xbandwidth<-dpik(x)

ybandwidth<-dpik(y)

minimox<- min(x)-4*xbandwidth

maximox<-max(x)+4*xbandwidth

minimoy<-min(y)-4*ybandwidth

maximoy<-max(y)+4*ybandwidth

op<-KernSur(x, y, xgridsize=817, ygridsize=543, correlation=cor(x,y),

xbandwidth,

ybandwidth, range.x=c(1155090,1179570), range.y=c(1007960,1024220))

par(mfcol = c(1, 2))

#Grafico Dispersión de Indicios

53

plot(x, y, xlim=c(minimox,maximox),ylim=c(minimoy,maximoy), col="black",

bg="red",pch=22,panel.first = grid(5, lty=1,lwd=2))

#Generación de Gráficos de Contornos

image(op$xords, op$yords, op$zden, col=terrain.colors(100,0.7),

axes=TRUE,xlab=expression(x),ylab=expression(y))

contour(op$xords, op$yords, op$zden,add=TRUE ,

levels=c(0.0000001),drawlabels=F) #

box()

#Guardar variables x, y, z(fx)

write.table(op$xords, file = "xKernel", append = FALSE, quote = FALSE, sep

= " ",

eol = "\n", na = "NA", dec = ".", row.names = FALSE,

col.names = FALSE, qmethod = c("escape", "double"))

write.table(op$yords, file = "yKernel", append = FALSE, quote = FALSE, sep

= " ",



write.table(op$zden, file = "zKernel", append = FALSE, quote = FALSE, sep =

" ",



54

Tabla 8 Argumentos utilizados para la aplicación del estimador kernel.

Fuente: El autor.

Argumento Descripción

x Vector de valores x de los registros de indicios de

mamíferos.

y Vector de valores y de los registros de indicios de

mamíferos

xgridsize 817 ([Xmáx – Xmin] +1 = [1.179.570 -1.155.090]+1)

ygridsize 542 ([Ymáx – Ymin] +1 = [1.024.220 -1.007.960]+1)

correlation x,y. Vector local de correlación. Por defecto= cor(x,y)

3.2.2 Resultados

En la Figura 13 se presenta la variación de la densidad de probabilidad

obtenida. Los picos indican que es más probable que se encuentren

mamíferos en esta zona, éstos se localizan en los sitios donde existe mayor

acumulación de registros (Véase Figura 13). En la Figura 15 y la Figura 16 se

presenta la variación en cada uno de los ejes. Cabe señalar que para la

generación de las figuras se utilizó un factor de mayoración de los resultados

obtenidos de 10 12.

55

Figura 13 Distribución de registros de mamíferos y densidad estimada.

Figura 14 Variación de la densidad de probabilidad estimada

56

Figura 15 Variación de la densidad en el eje X (Este)

Figura 16 Variación de la densidad en el eje Y (Norte)

57

4 DISEÑO EXPERIMENTAL

Como se mencionó en el capitulo 2, para la extracción de patrones de

relación existente entre la información analizada es necesario que se lleven a

cabo las siguientes tareas: selección de la información, exploración, limpieza,

transformación, minería de datos y evaluación e interpretación de resultados.

En el capitulo 2 y el capitulo 3 se hizo referencia básicamente a la selección

de la información física, socioeconómica y biológica. En el presente capitulo

se describen las tareas de transformación de la información y minería de

datos, a través de las cuales se busca la identificación de patrones de

relación entre estas.

Inicialmente se presenta la metodología seguida, desde la fase de selección

hasta el descubrimiento de patrones. Luego se describen las herramientas

matemáticas utilizadas y los resultados obtenidos

4.1 Metodología

En la Figura 17 se presenta la metodología seguida para la identificación de

patrones de relación.

58

Se inició con la recopilación de la información física, socioeconómica y

biológica de la cuenca media del río Otún, tal como es descrita en el capitulo

tres (3).

Se realizó la definición de variables con base en la revisión realizada sobre

los factores que afectan la distribución de los mamíferos, la información

disponible sobre el área de estudio y el conocimiento experto de

profesionales del área de biología. Para la estimación de estas se utilizó

estimador de densidad Kernel Bivariado Gaussiano, la distancia Euclídea y

herramientas desarrolladas para ArcGis.

Una vez definidas las variables se realizó la integración de la información y

se generó una tabla de datos con la información colectada.

A partir de esta tabla de datos se definieron varios modelos realizando

variaciones en la discretización de las variables.

Para cada uno de los modelos planteados, se generó un árbol de decisión

que es evaluado a partir de la matriz de confusión.

Figura 17 Metodología para la identificación de patrones de relación.

A continuación se describen las herramientas matemáticas utilizadas, el

aplicativo computacional utilizado y los modelos evaluados. En el siguiente

capitulo se presentan los resultados obtenidos.

4.1.1 Árboles de decisión

Un árbol de decisión es un conjunto de condiciones organizadas en una

estructura jerárquica, de tal manera que la decisión final a tomar se puede

determinar siguiendo las condiciones que se cumplen desde la raíz del árbol

hasta alguna de sus hojas (Hernández, Ramírez, Ferria, 2004). Son una de

las formas más sencillas de representación del conocimiento adquirido (Ruiz,

2006). Es un método flexible que puede manejar un gran número de

variables y complicadas interacciones entre ellas, y cuyos resultados resultan

fácilmente interpretables para cualquier persona (Pérez, 2007).

Figura 18 Estructura de un árbol de decisión

61

Para elegir que atributos y en que orden aparecen en el árbol, se utiliza una

función de evaluación llamada ganancia de información (reducción de

entropía del conjunto al clasificar usando un determinado atributo). Algunos

trabajan con atributos nominales únicamente, como el ID3, y otros trabajan

también con atributos numéricos, como el C4.5 (J48 en Weka). El C4.5

Pertenece a los métodos inductivos del Aprendizaje Automático que

aprenden a partir de ejemplos preclasificados, propuesto por Quinlan, en

1993.

Los árboles de decisión se construyen comenzando por la raíz hasta las

hojas. Primero se escoge un atributo para discriminar y se produce un

subnodo por cada valor del atributo. Si todos los ejemplos con un valor

particular de atributo tienen la misma clase, el nodo se convierte en hoja, de

otra forma se escoge otro atributo para seguir discriminando entre las clases.

El árbol está completo cuando todos los ejemplos son representados por un

nodo hoja.

Para determinar cuál atributo se ramifica en cada nivel se calcula la

información ganada al discriminar con cada atributo y se usa aquel que

maximice la ganancia de información. De acuerdo con la teoría de la

información, la información se maximiza cuando la entropía se minimiza. Por

tanto la ganancia de información podrá calcularse con la disminución de la

entropía, es decir

(7)

X(S ) es el valor de la entropía a príori, antes de realizar la subdivisión, y X(S,

t) es el valor de la entropía del sistema de subconjuntos generados .La

62

entropía a príori y para el sistema de subconjuntos es estimada a partir de la

siguiente expresión:

(8)

pi representa la probabilidad de que un ejemplo tomado al azar pertenezca a

la clase i, y pi se calcula en base a la frecuencia de los datos de dicha clase

en los datos de entrenamiento.

Para la evaluación de los patrones encontrados a partir de la construcción

de los árboles, lo normal es evaluar la calidad con respecto a su precisión

predictiva, la cual se calcula como el número de casos del conjunto de

prueba clasificados correctamente divido por el número de casos totales en

el conjunto de prueba.

Es decir, se construye el modelo utilizando un conjunto de datos de

entrenamiento y luego se utiliza éste para predecir la clase de los datos de

prueba. Entonces la razón de precisión se obtiene dividiendo el número de

clasificaciones correctas por el número total de casos.

Dentro de los métodos utilizados para realizar este tipo de evaluación se

utilizan La validación simple, donde se reserva un porcentaje de la base de

datos como conjunto de prueba, y no lo usa para construir el modelo. Este

porcentaje suele variar entre el cinco porciento y el cincuenta por ciento

(Hernández Orallo, J; Ramírez Quintana, M. J.; Ferria Ramírez, C, 2004)

Otro método utilizado es la validación cruzada, en este método los datos se

dividen aleatoriamente en n grupos. Un grupo se reserva para el conjunto de

prueba y con los otros n-1 restantes (juntando todos sus datos) se construye

63

un modelo y se utiliza para predecir el resultado de los datos del grupo

reservado. Este proceso se repite n veces, dejando cada vez un grupo

diferente para la prueba.

4.1.2 Aplicativo computacional utilizado

Para la selección de atributos y generación de los árboles de decisión a partir

de la información seleccionada se utilizó la herramienta de minería de datos

WEKA. WEKA.acrónimo de Waikato Environment for Knowledge Analysis, es

un entorno para experimentación de análisis de datos que permite aplicar,

analizar y evaluar las técnicas más relevantes de análisis de datos,

principalmente las provenientes del aprendizaje automático, sobre cualquier

conjunto de datos del usuario. Para ello únicamente se requiere que los

datos a analizar se almacenen con un cierto formato, conocido como

ARFF(Attribute-Relation File Format).

WEKA se distribuye como software de libre distribución desarrollado en Java.

Está constituido por una serie de paquetes de código abierto con diferentes

técnicas de preprocesado, clasificación, agrupamiento, asociación, y

visualización, así como facilidades para su aplicación y análisis de

prestaciones cuando son aplicadas a los datos de entrada seleccionados.

Estos paquetes pueden ser integrados en cualquier proyecto de análisis de

datos, e incluso pueden extenderse con contribuciones de los usuarios que

desarrollen nuevos algoritmos. Con objeto de facilitar su uso por un mayor

número de usuarios, WEKA además incluye una interfaz gráfica de usuario

para acceder y configurar las diferentes herramientas integradas.

64

Dentro de las técnicas de clasificación implementadas en WEKA se

encuentra el algoritmo J-48 que es una implementación del algoritmo C4.5,

propuesto por Quinlan, en 1993.

Para la evaluación de este clasificador en WEKA se proponen las siguientes

técnicas:

“Use training set”: permite evaluar el clasificador sobre el mismo conjunto

sobre el que se construye el modelo predictivo para determinar el error, que

en este paso se denomina "error de resustitución". Por tanto, esta opción

puede proporcionar una estimación demasiado optimista del comportamiento

del clasificador, al evaluarlo sobre el mismo conjunto sobre el que se hizo el

modelo.

“Supplied test set”: Evalúa el clasificador sobre un conjunto de datos

independiente. permite cargar un conjunto nuevo de datos. Sobre cada dato

se realiza una predicción de clase para contar los errores.

“Cross-validation”: evaluación con validación cruzada. Esta opción es la

más elaborada y costosa. Se realizan tantas evaluaciones como se indica en

el parámetro “Folds”. Se divide el conjunto de datos en tantas carpetas como

indica este parámetro y en cada evaluación se toman los datos de cada

carpeta como datos de test, y el resto como datos de entrenamiento para

construir el modelo. Los errores calculados son el promedio de todas las

ejecuciones.

“Percentage split “: esta opción divide los datos en dos grupos, de acuerdo

con el porcentaje indicado (%). El valor indicado es el porcentaje de datos

para construir el modelo, que a continuación es evaluado sobre los datos

que se han dejado aparte. Cuando el número de instancias es

65

suficientemente elevado, esta opción es suficiente para estimar con precisión

las prestaciones del clasificador en el dominio.

Una vez se ejecuta el algoritmo J-48 sobre los datos, los resultados de la

evaluación son presentados en la Matriz de confusión en la que aparece

información detallada de cuantas instancias de cada clase son predichas a

cada uno de los valores posibles. Por tanto, es una matriz con N2 posiciones,

con N el número de valores que puede tomar la clase. En cada fila i, i=1...N,

aparecen las instancias que realmente son de la clase i, mientras que las

columnas j, j=1...N, son las que se han predicho al valor j de la clase.

Para el ejemplo presentado en la Tabla 9 los casos correctamente

clasificados dentro de la categoría Alta serian 248, mientras que 143 (76+67)

casos son clasificados incorrectamente. A partir de la matriz de confusión se

puede estimar la precisión de un clasificador directamente dividiendo el

número de aciertos entre el número total de casos, que para el ejemplo es de

58.42%.

Tabla 9 Ejemplo Matriz de Confusión.

Alta Media Baja

Alta 248 76 67

Media 153 250 152

Baja 111 102 431

4.2 Información utilizada para la construcción de los árboles

En los capítulos 2 y 3 se definieron las variables utilizadas para la

identificación de patrones. La tabla de patrones construida consta de nueve

66

variables de entrada y una variable de salida. En la Figura 19 se presenta el

histograma de cada una de las variables. En la Tabla 11 se presentan los

estadísticos de cada una de ellas.

Se observa que la distancia a vías y distancia a ríos presentan un rango

similar (1900 m – 21 m); la temperatura presenta una variación mínima entre

12 ºC y 15 ºC. La precipitación presenta variaciones entre 1910 mm y 1580

mm. Los usos de suelo que se encuentran en el área seleccionada son:

bosque natural, bosque secundario, bosque plantado, cultivos, pasto

manejado, rastrojo y viviendas.

Tabla 10 Modelo de tabla de patrones generada

No. x y Altitud Pendiente Precipitación Temperatura Uso_Suelo D_via D_rio D_Ap D_vivi Pmamiferos

1 1167000 1014380 1960 58 1630 12 BN 199 365 21 3066 5788543290

2 1166970 1014410 1940 51 1630 12 BN 185 357 21 3033 5740833010

3 1167030 1014350 1955 56 1630 12 BN 202 364 21 3099 5455458930

4 1166940 1014440 1935 60 1630 12 BN 174 347 21 3000 5294260160

5 1167030 1014320 1955 74 1630 12 BN 227 386 21 3103 5171084020

6 1167000 1014350 1970 67 1630 12 BN 223 388 21 3069 5012606070

En la Tabla 10 la variable Altitud representa la elevación media de la celda

en m.s.n.m, la Variable pendiente esta dada en porcentaje, La variable

Precipitación en mm/año, La variable Temperatura en ºC, La variable D_Vía

representa la distancia a vías en m, D_río representa la distancia a río en m,

la variable D_AP representa la distancia a áreas protegidas en m, y la

variable D_vivi representa la distancia a vivienda en m.

Figura 19 Histograma de las variables utilizadas

Tabla 11 Información estadística de las variables

Estadístico Presencia

mamíferos Altitud Distancia Vía Distancia río

Distancia Áreas

Protegidas

Distancia

Vivienda Pendiente Precipitación Temperatura

Máximo 10,0 2300,0 1979,0 1990,0 5979,0 7593,0 245,0 1910,0 15,0

Mínimo -308,0 1550,0 0 0 0 0 1,0 1580,0 12,0

Promedio -70,4 1867,0 471,0 502,0 896,6 2330,3 22,8 1692,1 13,0

Desviación Estándar 85,0 152,7 407,3 405,0 1142,6 1460,8 32,9 71,6 0,7

4.3 Modelos evaluados

Para la construcción de los modelos se definen las variables de entrada y la

variable de salida. En este caso la variable de salida esta asociada a la

presencia de mamíferos. Para el análisis de la información de evaluaron los

siguientes modelos:

Modelo I. Discretización de variables en tres (3) clases (Clase A, Clase B

y Clase C)

Para la elaboración de este modelo, cada una de las variables es

discretizada en tres (3) clases (A, B, C) En la Tabla 12 se presentan los

rangos de discretización de las variables.

Luego se eliminaron los valores duplicados, es decir aquellos casos en que

todos los valores de una fila coinciden exactamente con los valores de otra,

pasando así de 30.383 casos a 782 casos, a partir de los cuales se

realizaron los análisis posteriores.

Para este modelo se generaron dos (2) árboles que corresponden al Modelo

IA donde se utilizan las nueve (9) variables de entrada y el Modelo IB donde

se utilizan sólo ocho (8) variables de entrada.

Modelo II. Discretización de variables en cinco (5) clases (Clase A, Clase

B, Clase C, Clase D y Clase E)

Para la elaboración de este modelo, cada una de las variables es

discretizada en clases (5) clases (A, B, C, D, E). En la Tabla 13 se presenta

los rangos de valores para cada variable en cada una de las clases

69

generadas. Luego se eliminaron los valores duplicados, pasando así de

30.383 casos a 2.510 casos, a partir de los cuales se realizaron los análisis

posteriores.

De la misma manera que en el caso anterior se generaron dos (2) árboles

que corresponden al Modelo IIA donde se utilizan las nueve (9) variables de

entrada y el Modelo IIB donde se utilizan sólo ocho (8) variables de entrada.

Modelo II. Discretización de variables de entrada en cinco (5) clases

(Clase A, Clase B, Clase C, Clase D y Clase E) y variable de salida en

tres (3) clases (Clase A, Clase B y Clase C).

En este modelo se varia en las clases de las variables de entrada y de salida,

los rangos establecidos se presentan en la s tablas 11 y 12.

De igual manera, se generaron dos (2) árboles que corresponden al Modelo

IIIA donde se utilizan las nueve (9) variables de entrada y el Modelo IIIB

donde se utilizan sólo ocho (8) variables de entrada.

Tabla 12 Distribución de los casos analizados dentro de cada variable y

cada categoría. Modelo I.

Variable

A

B

C

Altitud 1600 - 1835 - 2070 - 2300

Pendiente 1 - 29

118 - 177

70

Variable

A

B

C

Precipitación 1590 - 1680

1770 - 1860

Temperatura 12 - 13

14 - -

D_Vía 0 - 500

1000 - 1732

D_Rio 0 - 500

1000 - 1800

D_AP 0 - 1200

2400 - 3600

D_Vivi 0 - 2000

4000 - 6000

Tabla 13 Distribución de los casos analizados dentro de cada variable y

cada categoría. Modelo II.

Variable

A

B

C

D

E

Altitud 1600 - 1740 - 1880 - 2020 - 2160 - 2300

Pendiente 1 - 34 - 70 - 106 - 142 - 178

Precipitación 1590 - 1644 - 1698 - 1752 - 1806 - 1860

Temperatura 12 - 13 - 14 - - - - - -

D_Vía 0 - 400 - 800 - 1200 - 1600 - 1732

D_Rio 0 - 360 - 720 - 1080 - 1440 - 1800

D_AP 0 - 720

1440 - 2160 - 2880 - 3600

D_Vivi 0 - 1200 - 2400 - 3600 - 4800 - 6000

71

5 ANALISIS Y DISCUSION DE RESULTADOS

Como se mencionó en el capitulo anterior se evaluaron tres (3) modelos en

los que se varia la discretización de las variables. En el primer modelo las

variables de entrada como de salida son discretizadas en tres (3) clases

(Clase A, B, C). En el segundo modelo las variables de entrada y salida son

discretizadas en (5) clases (clase A, B, C, D ,E) y en el tercer modelo las

variables de entrada son discretizadas en cinco (5) clases (Clase A, B, C, D,

E) y la variable de salida en tres clases (3) (Clase A, B y C).

Para cada uno de éstos modelos se generaron dos árboles el primero en el

que se utilizaron nueve variables de entrada y el segundo en el que se

utilizaron 8 variables de entrada. De esta manera en total se elaboraron seis

(6) árboles que fueron denominados: Modelo IA, Modelo IB, Modelo IIA,

Modelo IIB, Modelo IIIA y Modelo IIB.

El número de casos (filas de la tabla de datos) presentados inicialmente fue

de 30.383, sin embargo, luego de discretizar las variables y eliminar los

valores duplicados, es decir aquellos casos en que todos los valores de las

variables coincidían. El numero de casos utilizados en cada modelo fue de

782 para el modelo uno (I), 2.510 para el modelo dos (II) y 2.022 para el

modelo tres (III).

En la Figura 20 se presentan el porcentaje de casos correctamente

clasificados dentro de cada uno de los modelos, se observa que presentan

valores entre el 52,8% y 74,0 %.

72

a) b)

Figura 20 Número de casos evaluados en cada modelo (a), Número de casos

correctamente clasificados (b)

Para cada uno de los modelos evaluados se revisó el número de reglas en

las que se clasificó la presencia de mamíferos dentro de la categoría “A”,

puesto que ésta se encuentra relacionada con la mayor probabilidad de

presencia de mamífero, adicionalmente se identificó el número de casos

correctamente clasificados dentro de cada una de las reglas generadas.

Se obtuvo que para los modelos IA y IB el porcentaje de casos

correctamente clasificados dentro de esta clase fue inferior al 50% y para los

modelos IIA, IIB, IIIA y IIIB fue superior al 80% (Véase Figura 21), por tanto

se decidió evaluar solamente las reglas de estos últimos modelos, puesto

que se consideró que estos podrían representar de mejor manera las

relaciones existentes entre la presencia de mamíferos y, las variables físicas

y socioeconómicas analizadas.

0

500

1000

1500

2000

2500

3000

IA IB II A II B III A III B

782 782

2510 2510

2022 2022

No

. De

cas

os

0

0

0

1

1


74.0% 73.3%

55.4% 52.8%

63.1%67.8%

% d

e c

as

os

co

rre

cta

me

nte

cla

sif

ica

do

s

73

Figura 21 Porcentaje de casos correctamente clasificados dentro de la categoría A.

A continuación se presentan los resultados para cada uno de los modelos,

inicialmente se presenta distribución de los casos correctamente clasificados

en cada una de las reglas generadas y luego se presentan las reglas con el

mayor porcentaje de casos correctamente clasificados.

5.1 MODELO IIA

Para la construcción de este modelo se utilizó una tabla de datos con 2.510

casos (filas), se generaron 24 reglas en las que se clasifica la variable

presencia de mamíferos en la clase A. El número de casos presentados

inicialmente clasificados dentro de la clase A de presencia de mamíferos fue

de 727, de los cuales 602 fueron correctamente clasificados. En la Figura 22

se presenta la distribución de los casos correctamente clasificados , se

observó que en las reglas 19, 16, 15, 21, 22, 14, 1, 4 y 7 se concentra más

del 80% de los casos correctamente clasificados.

0%

20%

40%

60%

80%

100%


53.3%

37.9%

82.8% 82.9% 84.2% 82.7%

% d

e c

as

os

co

rre

cta

me

nte

cla

sif

ica

do

s

74

Estas reglas son presentas en la Tabla 14, se observa que son incluidas las

variables distancia a áreas protegidas (D_AP), distancia a vivienda (D_Vivi),

Precipitación, distancia a vía (D_Via) . En una de las reglas generadas es

incluida la variable distancia a río (D_rio) y la variable (Altitud).

Figura 22 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIA

Los valores para cada una de las variables los siguientes:

Distancia áreas protegidas: 0-1440 m

Distancia a vivienda : 0 - 2400 m

Precipitación : 1644 – 1752 mm/año

Distancia a vía : 0 – 400 m

Distancia a río : 0 – 360 m

Altitud: 1740 – 1880 m.s.n.m

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

54

0

4

10

4

0 0 0 01 1

6

13

16

23

17

2

9

7

2 1

% d

e c

ao

so

s c

orr

ecta

men

te

cla

sif

icad

os

No. de regla

Casos correctamente clasificados (%) Modelo II A

75

5.2 MODELO IIB

En este modelo no se incluyó la variable distancia a áreas protegidas. Se

utilizó una tabla de datos con 2.510 casos (filas), se generaron 21 reglas en

las que se clasifica la variable presencia de mamíferos en la clase A.

Figura 23 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIB

El número de casos presentados inicialmente clasificados dentro de la clase

A de presencia de mamíferos fue de 727, de los cuales 603 fueron

correctamente clasificados. En la Figura 23 se presenta la distribución de los

casos correctamente clasificados en la Clase A de la variable presencia de

mamíferos, se observó que en las reglas 20, 17, 16, 15, 8, 1, 2, 7, 19 Y 21 se

concentra más del 80% de los casos correctamente clasificados. Estas

reglas son presentas en la Tabla 15, se observa que en las reglas generadas

son incluidas las variables Temperatura, distancia a vivienda (D_Vivi),

Precipitación, distancia a vía (D_Via). En una de las reglas generadas es

incluida la variable distancia a río (D_rio).

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

5 4

1 10 1

3

6

0 0 01 1 1

9

13

16

2 3

23

8

% d

e c

ao

so

s c

orr

ecta

men

te

cla

sif

icad

os

No de Regla

Casos correctamente clasificados (%) Modelo II B

76


Temperatura : 12 – 14°C





5.3 MODELO IIIA

Para la construcción de este modelo se utilizó una tabla de datos con 2.022

casos (filas), se generaron 21 reglas en las que se clasifica la variable

presencia de mamíferos en la clase A. El número de casos presentados

inicialmente clasificados dentro de la clase A de presencia de mamíferos fue

de 852, de los cuales 717 fueron correctamente clasificados correctamente

dentro de las reglas generadas por el árbol. En la Figura 24 se presenta la

distribución de los casos correctamente clasificados en la Clase A de la

variable presencia de mamíferos para el modelo IA, se observó que en las

reglas 10, 14, 17, 18, 19, 1, 2, 3, 7, 8, 11y 12 se concentra más del 80% de

los casos correctamente clasificados. Estas reglas son presentas en la Tabla

16, se observa que en las reglas generadas, al igual que en el modelo IIA,

son incluidas las variables distancia a áreas protegidas (D_AP), distancia a

vivienda (D_Vivi), Precipitación, distancia a vía (D_Via) y distancia a río

(D_rio).


Distancia áreas protegidas: 0-1440 m


77




Al comparar este modelo con el IIA se observo que se mantiene las mismas

variables y los rangos de valores.

Figura 24 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIIA

5.4 MODELO IIIB

En este modelo no se incluyó la variable distancia a áreas protegidas. Se

utilizó una tabla de datos con 2.022 casos (filas), se generaron 21 reglas en

las que se clasifica la variable presencia de mamíferos en la clase A.

En la Figura 25 se presenta la distribución de los casos correctamente

clasificados en la Clase A de la variable presencia de mamíferos, se observó

que en las reglas 15, 18, 19, 9, , 1 y 2 se concentra más del 80% de los

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

4 3 31 2 1

3 30

34

43

0

14

2 2

86

41 1

% d

e c

aso

s co

rre

ctam

en

te c

lasi

fica

do

s

No. de Regla

Casos correctamente clasificados (%) Modelo III A

78

casos correctamente clasificados. Estas reglas son presentas en la Tabla 17,

se observa que en las reglas generadas son incluidas las variables

Temperatura, distancia a vivienda (D_Vivi), Precipitación y distancia a vía

(D_Via).


Temperatura : 12 – 14°C




Al comparar este modelo con el IIB, se observa que en las reglas generadas

se incluyen las mismas variables y los rangos de variación de las mismas se

conservan.

Figura 25 Distribución de los casos correctamente clasificados en la Clase A de la variable presencia de mamíferos para las reglas generadas. Modelo IIIA

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

4 41 1 2

0 13

6

0 0 0 1 2

37

23

20

7

2 3

% d

e c

aso

s c

ore

recta

men

te

cla

sif

icad

os

No. de regla

Casos correctamente clasificados (%) Modelo III B

Tabla 14 Reglas generadas para el Modelo IIA

No. REGLAS

19 SI D_AP= A Y D_Vivi = A Y Precipitación= C

ENTONCES P_mamiferos = A

16 SI D_AP= A Y D_Vivi = B Y Precipitación= B Y D_Via C


15 SI D_AP= B Y Precipitación= B Y D_Via B


21 SI D_AP= B Y Precipitación= C


22 SI D_AP= B Y Precipitación= B


14 SI D_AP= A Y D_Vivi = B Y Precipitación= B Y D_Via A


1 SI D_AP= A Y D_Vivi = C Y D_Via A Y


4 SI D_AP= A Y D_Vivi = B Y Precipitación= A Y D_rio A


7 SI D_AP= A Y D_Vivi = B Y Precipitación= C Y D_Via A Y Altitud= B ENTONCES P_mamiferos = A

Tabla 15 Reglas generadas para el Modelo IIB

No. REGLAS

20 SI Temperatura = B Y D_Vivi = A Y Precipitación= C


17 SI Temperatura = B Y D_Vivi = B Y Precipitación= B Y D_Via C


16 SI Temperatura = B Y Precipitación= B Y D_Via B


15 SI Temperatura = B Y D_Vivi = B Y Precipitación= C Y D_Via A


15 SI Temperatura = B Y Precipitación= C




1 SI Temperatura = A Y D_Vivi = C Y D_Via A


2 SI Temperatura = A Y D_Vivi = C Y D_Via A Y Precipitación= A


7 SI Temperatura = A Y D_Vivi = B Y Precipitación= A Y D_rio A


19 SI Temperatura = B Y D_Vivi = B Y Precipitación= D Y D_Via B

D_rio A ENTONCES P_mamiferos = A

21 SI Temperatura = B Y D_Via A Y Precipitación= B ENTONCES P_mamiferos = A

80

Tabla 16 Reglas generadas para el Modelo IIIA No. REGLAS

10 SI D_AP= A Y D_Vivi = B Y Precipitación= B ENTONCES P_mamiferos = A

14 SI D_AP= A Y D_Vivi = A

Precipitación= C


17 SI D_AP= B Y Precipitación= C


18 SI D_AP= B Y Precipitación= B


19 SI D_AP= B Y Precipitación= D


1 SI D_AP= A Y D_Vivi = C Y D_Via A


2 SI D_AP= A Y D_Vivi = C Y D_Via B Y Precipitación= A


3 SI D_AP= A Y D_Vivi = B Y D_rio A


7 SI D_AP= A Y D_Vivi = B Y Precipitación= C Y Altitud= B Y D_Via A ENTONCES P_mamiferos = A

8 SI D_AP= A Y D_Vivi = B Y Precipitación= C Y Altitud= B Y D_Via B ENTONCES P_mamiferos = A

11 SI D_AP= A Y D_Vivi = B Y Precipitación= D Y D_Via A


12 SI D_AP= A Y D_Vivi = B Y Precipitación= D Y D_Via B Y D_rio A ENTONCES P_mamiferos = A

Tabla 17 Reglas generadas para el Modelo IIIB

No. REGLAS

15 SI Temperatura = B Y D_Vivi = B Y Precipitación= B


18 SI Temperatura = B Y D_Vivi = A Y Precipitación= C


19 SI Temperatura = B Y D_Vivi = A Y Precipitación= B




1 SI Temperatura = A Y D_Vivi = C Y D_Via A


2 SI Temperatura = A Y D_Vivi = C Y D_Via B Y Precipitación= A ENTONCES P_mamiferos = A

6 CONCLUSIONES Y RECOMENDACIONES

En el presente capitulo se presentan las principales conclusiones a las

cuales se llega luego del desarrollo metodológico llevado a cabo para la

identificación de patrones de relación entre presencia de mamíferos y

características físicas y socioeconómicas de la zona de estudio.

6.1 Conclusiones generales de la investigación

Se desarrollo un modelo conceptual en el que se utilizan diferentes

herramientas matemáticas y computacionales para la integración y análisis

de información. Dentro de las herramientas computacionales que se destaca

la utilización de ArcGis® para la integración de la información y las

herramientas R y WEKA para el análisis de la misma.

Dentro de las herramientas matemáticas utilizadas se encuentra el

estimador Kernel o estimador de núcleo, utilizado para la definición del área

de uso de los mamíferos identificados en la cuenca y el modelo C4.5 (J.48)

propuesto por Quinlan en 1993 para la construcción de árboles de decisión.

Se seleccionó información física y socioeconómica que influye en la

presencia de la fauna silvestre, a partir de la información colectada durante el

desarrollo de la investigación y se realizó un análisis de clasificación

utilizando el algoritmo J.48 para la identificación de patrones de relación

entre la información seleccionada.

La utilización del algoritmo J.48 además de facilitar la identificación de

patrones de relación entre las variables estudiadas, permitió la identificación

82

de algunas variables que de acuerdo con la información utilizada ofrecen

mayor información sobre la presencia de los mamíferos, al tiempo que

permite la reducción dimensional del problema, pues en las reglas generadas

son incluidas entre tres y cuatro variables de las nueve presentadas

inicialmente.

En esta investigación se destaca la metodología presentada para la

integración y análisis de información física, socioeconómica y biológica, y la

utilización de diferentes herramientas computacionales dentro de la misma.

Los resultados específicos de la implementación de esta investigación

presentan incertidumbre producto de la calidad y cantidad de información

disponible para los análisis. Por tanto, esto limita la generalización y

aplicación en las reglas o patrones de relación encontrados durante el

desarrollo de la misma.

Sin embargo, a pesar de la generalidad de las reglas encontradas, estas

sugieren algunos patrones de relación y generan algunos interrogantes, que

podrán ser estudiados en futuras investigaciones.

6.2 Conclusiones especificas de la investigación:

Para la identificación de patrones de relación entre la información

seleccionada se plantearon tres modelos en los que se variaron los rangos

de discretización de las variables seleccionadas. Al evaluar el número de

casos que son clasificados correctamente dentro de cada uno de estos se

observó que:

El modelo que mayor número de casos fueron clasificados

correctamente corresponde al modelo I.A (70,4 %), en el que las

variables fueron discretizadas en tres clases.

83

El modelo que presenta el menor número de casos clasificados

correctamente es el modelo II.B (50,8). En este las variables son

discretizadas en cinco clases, y no se incluye la variable distancia a

áreas protegidas.

Al evaluar el número de casos correctamente clasificados dentro de la clase

que representa la mayor probabilidad de presencia de mamíferos (clase A)

se encontró que los modelos II.A, II.B, III.A y III.B presentan un porcentaje de

casos correctamente clasificados superior al 80%.

Al revisar las reglas generadas en cada modelo evaluado se identificó que:

La variable pendiente no fue incluida dentro de las reglas generadas;

La variable altitud fue incluida en una de las reglas del modelo IIA,

tomando valores entre 1740 m.s.n.m y 1.880 m.s.n.m.;

La variable precipitación fue incluida en todos los modelos evaluados

presentando valores entre 1644 mm/año y 1.806 mm/año.

La variable Temperatura, fue incluida dos de los modelos evaluados,

presentando valores entre 12 ºC. entre 14ºC.

La variable distancia a vía fue incluida todos modelos evaluados, el

presentando valores entre cero (0) y 360 m.

La variable distancia a río es incluida en tres de los modelos

analizados, y toma valores menores entre cero (0) m y 360 m.

La variable distancia a áreas protegidas, es incluida en los dos

modelos donde se consideró. Se encuentra en todas las reglas

analizadas y toma valores entre cero (0) y 1440 m .

84

La variable distancia a vivienda es considerada en todos los modelos

analizados y presenta valores entre cero(0) y 1200 m.

A partir de la información analizada y las reglas generas se pudo observa

que la presencia de mamíferos en la zona de estudio podría estar

relacionada con algunas características ésta como son la cercanía a áreas

protegidas, las condiciones de precipitación y temperatura y la disponibilidad

del recurso hídrico. Además, muestra la adaptabilidad que presentan las

especies frente a la acción del hombre en esta zona al utilizar zonas

cercanas a viviendas o vías.

Sin embargo, cabe señalar que estas conclusiones son el resultado de una

primera aproximación a partir de la compilación de diferentes fuentes de

información secundaria, las cuales podrán ser validadas a partir de futuras

investigaciones.

6.3 Recomendaciones y Trabajos futuros

A partir de los resultados anteriores surgen dos interrogantes que son:

¿Podrían ser afectadas las especies de mamíferos presentes en la cuenca

del rió Otún por acción del cambio climático?. Y ¿cuál es el grado de acción

antrópica dentro de la cuenca que puede afectar la presencia de mamíferos

en la zona?

Adicionalmente, considerando que los análisis aquí realizados obedecen

sólo a un análisis espacial, y, considerando que estos sistemas son

dinámicos, se recomienda realizar este tipo de análisis a nivel temporal. Es

decir, considerar las variaciones temporales de los usos y coberturas del

suelo en la cuenca, la variabilidad climática, y la dinámica poblacional de las

especies analizadas.

85

Además, el monitoreo de mamíferos con técnicas directas como telemetría,

podría ofrecer la posibilidad de la selección de áreas de uso ajustadas a las

condiciones reales de los mamíferos estudiados y adicionalmente, permitiría

la identificación de la intensidad de uso de las zonas con las características

aquí identificadas.

86

BIBLIOGRAFÍA

Armañanzas A., D. Rubén, 2004. Medidas de filtrado de selección de

variables mediante la plataforma "Elvira". [En línea]. Agosto de 2004. [Citado

el 12 de octubre de 2008]. <

http://www.sc.ehu.es/ccwbayes/members/ruben/msth.pdf>

CIEBREG .Centro de investigaciones y Estudios en Biodiversidad y recursos

Genéticos, 2006. Caracterización de la agrobiodiversidad existente en

unidades de producción tradicional en la “Cuenca del río Otún” Risaralda –

CEAN. UTP-CIPAV-COLCIENCIAS-JAVERIANA-CATIE-IAVH. Colombia.

124 p.

Federación Nacional de Cafeteros de Colombia. Centro Nacional de

Investigaciones de Café "Cenicafé", Disciplina de Agroclimatología, Archivos

Climáticos, Chinchiná, Caldas, Colombia. Septiembre de 2008.

Hall, Mark A. 1999. Correlation-based Feature Selection for Machine

Learning. [En línea]. Abril de 2006. [Citado 10 octubre de 2008]

http://www.cs.waikato.ac.nz/~mhall/thesis.pd

Helton Boher, F. 2005. Ámbito de hogar y territorialidad del Chungungo en el

litoral central de Chile, Quintay. Valdivia, Chile. 2005.[Citado el 10 de

noviembre de 2008]. <de

http://cybertesis.uach.cl/tesis/uach/2005/fvb676a/doc/fvb676a.pdf>

http://www.sc.ehu.es/ccwbayes/members/ruben/msth.pdf

http://www.cs.waikato.ac.nz/~mhall/thesis.pd

http://cybertesis.uach.cl/tesis/uach/2005/fvb676a/doc/fvb676a.pdf

87

Hernández Orallo, J; Ramírez Quintana, M. J.; Ferria Ramírez, C.

Introducción a la minería de datos. Madrid: Pearson Educación, S:A, 2004.

p. 680. ISBN: 84-205-4091-9

IDEAM. Atlas Climatológico de Colombia. ISBN 958-8067-14-6..[Citado el 15

de octubre de 2008].< http://www.ideam.gov.co/files/atlas/Contenido.htm>.

INSTITUTO DE INVESTIGACION DE RECURSOS BIOLOGICOS

ALEXANDER VON HUMBOLDT, DEPARTAMENTO NACIONAL DE

PLANEACION, WWF, RRSC, UAESPNN DEL MINISTERIO DEL MEDIO

AMBIENTE. Incentivos para la conservación y uso sostenible de la

Biodiversidad. Editado por Sarah Hernández Pérez. Bogotá: Instituto

Humboldt, 2000. 150 p.

Jiménez, G. 2000. Propuesta metodológica en el diseño y evaluación de un

corredor biológico en la reserva forestal Golfo Dulce, Costa Rica, 2000, 143

p. Trabajo de Postgrado (Magister Scientiae). Centro agronómico tropical de

investigación y enseñanza. Programa de educación para el desarrollo y la

conservación. 89 p.

Jiménez, G. 2003. Estrategia metodológica para el diseño y evaluación de

corredores biológicos: un estudio en Costa Rica. p 103-107 En: Polanco-

Ochoa, R. (ed). Manejo de Fauna Silvestre en Amazonía y Latinoamérica

Selección de trabajos V Congreso Internacional. CITES, Fundación Natura.

Bogotá, Colombia. ISBN 958-97035-2-6. 446 pp.

KANTARDZIC, Mehmed M.; ZURADA, Jozef. Next generation of data-

mining applications. 2006. 671 p. ISBN 0471656054.

http://www.ideam.gov.co/files/atlas/Contenido.htm

88

Krausman, P. 1999. Some basic principles of habitat use. Presented in

“Grazing behaviór of livestock and wildlife”. Idaho Forest, Wildlife & Range

Exp. Sta. Bull. No. 70. P. 85-90.

Mackey, B. G., & Lindenmayer, D. B. (2001). Towards a hierarchical

framework for modelling the spatial distribution of animals. Journal of

Biogeography , 1147-1166.

Navarro Pelaez, J. F., Hincapié, S. P., & Silva, L. M. (2005). Catalogo de

mamíferos del Oriente Antioqueño (Estado y conservacion).

Ochoa, María. 2004. Herramientas Inteligentes para explotación de

información.[En línea].2004.[Citado 1 noviembre de 2008].<

http://www.centros.itba.edu.ar/capis/epg-tesis-y-tf/ochoa-

trabajofinaldeespecialidad.pdf>

Palomino, D., et al., Competing effects of topographic, lithological, vegetation

structure and human impact in the habitat preferences of the Cream-

coloured.... Journal of Arid Environments (2007),

doi:10.1016/j.jaridenv.2007.07.007

Pérez López, César. Minería de datos: técnicas y herramientas. Madrid,

España: International Thomson Editores: Paraninfo, c2007. p. 789. ISBN:

9788497324922.

R Development Core Team (2008). R: A language and environment for

statistical computing. R Foundation for Statistical Computing, Vienna,

Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.

http://www.centros.itba.edu.ar/capis/epg-tesis-y-tf/ochoa-trabajofinaldeespecialidad.pdf

http://www.centros.itba.edu.ar/capis/epg-tesis-y-tf/ochoa-trabajofinaldeespecialidad.pdf

http://www.r-project.org/

89

Rodríguez, A., Rodríguez, J., Landazábal, C., & Nash, S. (2006). Libro rojo

de los mamíferos de Colombia. Bogotá: Conservación Internacional

Colombia: Ministerío de Medio Ambiente, Vivienda y Desarrollo Territorial:

Panamericana Formas e Impresos.

Rojas, Carmen. Introducción a la gestión integrada de recursos hídricos. [En

línea]. [Citado 1 de noviembre de 2008]. <

http://publicacion05.unipamplona.edu.co/hidroinformatica/portal/home_1/rec/a

rc_707.pdf>

Ruiz Sánchez, D. Roberto, 2006. Heurísticas de selección de atributos para

datos de gran dimensionalidad. [En línea]. Mayo de 2006. [Citado 20 octubre

de 2008]. < http://www.lsi.us.es/docs/doctorado/tesis/tesisRoberto.pdf>

Salvador Figueras, M (2001): "Análisis de conglomerados o cluster", [en

línea] 5campus.org, Estadística <http://www.5campus.org/leccion/cluster> [15

nov-2008]

Seaman, D. Erran and Powell Roger A. An Evaluation of the Accuracy of

Kernel Density Estimators for Home Range Analysis. Ecology, Vol. 77, No. 7

(Oct., 1996), pp. 2075-2085 Published by: Ecological Society of America

Stable URL: http://www.jstor.org/stable/2265701

Stiling, P. D. (1992). Ecology. Theoties and aplications. New Jersey:

Electronic Publishing Services Inc.

Vivas, Carolina. Abundancia relativa y distribución de frecuencia de indicios

de mamíferos para diferentes coberturas dentro de sistemas de producción y

áreas protegidas, en la cuenca media del río Otún, Risaralda. Bogotá, 2007,

96 p. Trabajo de Grado (Bióloga). Pontificia Universidad Javeriana. Facultad

de Ciencias.

http://www.lsi.us.es/docs/doctorado/tesis/tesisRoberto.pdf

http://www.jstor.org/stable/2265701

90

Zhang, King & Hyndman, 2004. Bandwidth Selection for Multivariate Kernel

Density Estimation Using MCMC [en línea]. Julio 2004. [Citado el 10 de

noviembre de 2008]. < http://repec.org/esAUSM04/up.1603.1077410300.pdf>

91

ANEXOS

Anexo 1. Resultados de los árboles generados (en medio Magnetico)

92

Anexo 2.

Total de casos clasificados en cada modelo

Modelo I.A

Condición Casos

utilizados

Casos Incorrectamente

clasificados

Casos correctamente

clasificados

Porcentaje de casos

correctamente clasificados

1 11 3 8 7

2 13 2 11 10

3 57 23 34 30

4 70 27 43 38

5 4 0 4 4

6 21 7 14 12

TOTAL 176 62 114 100

Modelo I.B

Condición Casos

utilizados


clasificados

Casos correctamente

clasificados

Porcentaje de casos


1 31 9 22 27

2 14 3 11 14

3 14 5 9 11

4 8 2 6 7

5 1 0 1 1

6 48 16 32 40

TOTAL 116 35 81 100

93

Modelo II A

Condición Casos

utilizados


clasificados

Casos correctamente

clasificados

Porcentaje de casos


19 100 0 100 17

16 130 34 96 16

15 100 24 76 13

21 66 11 55 9

22 58 17 41 7

14 45 10 35 6

1 41 11 30 5

2 34 9 25 4

4 39 14 25 4

7 35 13 22 4

18 29 11 18 3

20 17 2 15 2

23 22 10 12 2

17 13 3 10 2

5 23 14 9 1

24 29 20 9 1

12 17 9 8 1

13 9 5 4 1

9 3 0 3 0

11 3 0 3 0

3 2 2 0

8 2 0 2 0

6 1 0 1 0

10 1 0 1 0

Total 602 100

94

Modelo IIB

Condición Casos

utilizados


clasificados

Casos correctamente

clasificados

Porcentaje de casos


20 154 14 140 23

17 130 34 96 16

16 100 24 76 13

15 62 10 52 9

8 55 17 38 6

1 39 11 28 5

2 34 9 25 4

7 43 22 21 3

19 29 11 18 3

18 16 3 13 2

4 23 14 9 1

12 29 20 9 1

13 17 9 8 1

6 14 8 6 1

3 5 0 5 1

14 9 5 4 1

9 3 0 3 0

11 3 0 3 0

5 2 0 2 0

10 1 0 1 0

21 100 54 46 8

Total 868 265 603 100

95

Modelo III.A

Condición

Casos

utilizados

Casos

Incorrectamente

clasificados

Casos

correctamente

clasificados

Porcentaje de

casos

correctamente

clasificados

1 35 4 31 4.3

2 31 6 25 3.5

3 32 7 25 3.5

4 17 8 9 1.3

5 33 20 13 1.8

6 7 7 1.0

7 30 8 22 3.1

8 45 27 18 2.5

9 2 2 0.3

10 297 52 245 34.2

11 45 17 28 3.9

12 22 4 18 2.5

13 3 2 1 0.1

14 100 100 13.9

15 16 16 2.2

16 26 12 14 2.0

17 58 3 55 7.7

18 48 7 41 5.7

19 43 16 27 3.8

20 13 3 10 1.4

21 25 15 10 1.4

Total 928 211 717 100