Modelos de distribución de especies aplicados a … de distribución de especies aplicados a...

Modelos de distribución de especies aplicados a estudios de flora

amenazada

(guión de prácticas)

Blas Benito de PandoUnidad de Conservación Vegetal

Departamento de Botánica

Universidad de Granada

Nota del autor

Este trabajo contiene una guía práctica muy completa (y compleja) para modelar la

distribución de especies. Trata todo el proceso de modelado, desde la confección de

las variables ambientales hasta la preparación de los resultados para publicación.

El objetivo de este escrito es proporcionar al no iniciado los conocimientos teóricos y

prácticos mínimos, así como mostrar las herramientas necesarias para trabajar con

garantías en este área.

Todo el material contenido se basa en la bibliografía existente, pero usted debe en-

tender que no es una transcripción literal, sino una interpretación de ese material

bibliográfico, basada en la experiencia del autor en el campo de los modelos de dis-

tribución. Teniendo en cuenta que es un campo en desarrollo activo, será fácil

encontrar investigadores y literatura que no estén en acuerdo con el modo en que al-

gunas cuestiones relativas a los modelos de distribución.

Tanto en caso de desacuerdo, como en caso de error, le agradecería que me lo co-

municara para su revisión o corrección a alguno de los siguientes correos:

[email protected] [email protected]

Teniendo en cuenta que todo el proceso expuesto se basa en herramientas de soft-

ware gratuito y libre, este trabajo tiene una licencia libre Creative Commons.

Reconocimiento – Sin obra derivada – No comercial

Según los términos de esta licencia, usted puede distribuir y copiar este trabajo,

siempre que otorgue al autor el crédito que le corresponde. Usted no puede obtener

beneficio comercial de los contenidos, ni puede realizar obras derivadas de los mis-

mos.

mailto:[email protected]

mailto:[email protected]

Índice

SECCIÓN 1: PREPARACIÓN DEL ENTORNO DE TRABAJO.............................................................1

1.1 Instalación de GRASS.................................................................................................................1

1.2 Instalación de Notepad++............................................................................................................1

1.3 Instalación de Open Office..........................................................................................................1

1.4 Instalación de Google Earth........................................................................................................2

1.5 Instalación de OpenModeller.......................................................................................................2

1.6 Instalación de Octave..................................................................................................................2

SECCIÓN 2: PREPARACIÓN DE LAS VARIABLES AMBIENTALES..................................................3

2.1 CREACIÓN DE LA BASE DE DATOS DE GRASS......................................................................3

2.1.1 Generar las localidades de GRASS.....................................................................................3

2.1.2 El interfaz de GRASS..........................................................................................................4

2.1.3 Preparación de la región de trabajo.....................................................................................5

2.2 PREPARACIÓN DEL MODELO DE ELEVACIONES...................................................................6

2.2.1 Descarga del modelo de elevaciones..................................................................................7

2.2.2 Importación del MDE la base de datos de GRASS.............................................................7

2.3 CREACIÓN DE UNA MÁSCARA.................................................................................................8

2.4 VARIABLES TOPOGRÁFICAS....................................................................................................9

2.4.1 Pendientes y orientaciones..................................................................................................9

2.4.2 Posición topográfica..........................................................................................................10

2.4.3 Índice topográfico de humedad..........................................................................................11

2.4.4 Radiación solar potencial...................................................................................................12

2.4.5 Diversidad topográfica.......................................................................................................13

2.5 VARIABLES DE TELEDETECCIÓN..........................................................................................14

2.5.1 Importación y procesamiento de bandas Landsat.............................................................14

2.5.2 NDVI..................................................................................................................................16

2.6 VARIABLES CLIMÁTICAS.........................................................................................................16

2.6.1 Precipitación......................................................................................................................16

2.6.2 Temperatura.......................................................................................................................18

2.6.2.1 Cálculo de variables predictoras................................................................................18

2.6.2.2 Cálculo de la ecuación de regresión..........................................................................19

2.7 LA CORRELACIÓN ENTRE VARIABLES..................................................................................22

2.8 ANÁLISIS DE COMPONENTES PRINCIPALES.......................................................................25

2.9 CAMBIO DE RESOLUCIÓN DE LAS VARIABLES....................................................................26

2.9.1 Introducción.......................................................................................................................26

2.9.2 Cambiando resoluciones...................................................................................................27

2.10 EXPORTACIÓN DE LAS VARIABLES AMBIENTALES...........................................................28

SECCIÓN 3: PREPARACIÓN DE LOS REGISTROS DE PRESENCIA..............................................29

3.1 Tipos y calidad de los datos.......................................................................................................29

3.2 Números mínimo y máximo de presencias................................................................................30

3.3 Densidad de los datos...............................................................................................................30

3.4 Partición aleatoria de datos.......................................................................................................31

3.5 Preparación de datos de presencia...........................................................................................31

SECCIÓN 4: MODELOS DE DISTRIBUCIÓN CON OPENMODELLER.............................................33

4.1 Preparación de las variables.....................................................................................................33

4.2 Ejecución de un experimento de prueba...................................................................................34

4.3 Lógica interna de los distintos algoritmos..................................................................................34

4.3.1 Bioclim...............................................................................................................................34

4.3.2 Climate Space Model.........................................................................................................35

4.3.3 Envelope Score.................................................................................................................36

4.3.4 Environmental Distance.....................................................................................................36

4.3.5 GARP................................................................................................................................37

4.3.6 Support Vector Machines...................................................................................................40

4.4 Algunas consideraciones sobre los resultados..........................................................................41

SECCIÓN 5: EVALUACIÓN DE MODELOS DE DISTRIBUCIÓN.......................................................42

5.1 Evaluación de modelos binarios (presencia/ausencia)..............................................................42

5.1.1 Cálculo de la sensibilidad, error de omisión y error de comisión.......................................42

Caso práctico: evaluación de modelos binarios midiendo la sensibilidad..............................44

5.1.2 Partición aleatoria de datos...............................................................................................44

Caso práctico: evaluación de modelos binarios utilizando partición aleatoria de datos.........45

5.1.3 registros de ausencia y matriz de confusión......................................................................49

Caso práctico: evaluación de modelos binarios utilizando partición aleatoria de datos y regis-tros de ausencia....................................................................................................................51

5.1.4 registros aleatorios como sustitutos de las ausencias.......................................................53

Caso práctico: evaluación de modelos binarios utilizando partición aleatoria de datos, puntos aleatorios y técnicas de remuestreo......................................................................................55

5.2 Evaluación de modelos continuos.............................................................................................60

5.2.1 La curva ROC....................................................................................................................60

Caso práctico: Cálculo de la curva ROC para los modelos de Linaria nigricans...................63

SECCIÓN 6: TRANSFORMACIÓN DE MODELOS CONTINUOS EN BINARIOS..............................67

Caso práctico: transformación del mejor modelo continuo de Linaria nigricans en binario. . .69

SECCIÓN 7: APLICACIONES PRÁCTICAS DE LOS MODELOS DE DISTRIBUCIÓN.....................70

7.1 CARTOGRAFÍA DE POBLACIONES.........................................................................................70

7.1.1 Medición del área de ocupación........................................................................................70

7.1.2 Cartografía de detalle........................................................................................................71

7.1.3 Cartografía de reconocimiento..........................................................................................71

7.1.4 Comparación con una cartografía real...............................................................................72

7.1.5 Discusión...........................................................................................................................73

7.2 BÚSQUEDA DE NUEVAS POBLACIONES DE Linaria nigricans..............................................73

7.2.1 Procedimiento de búsqueda de nuevas poblaciones.........................................................74

7.2.2 Discusión...........................................................................................................................77

7.3 ENSAMBLADO DE BIODIVERSIDAD PARA ASISTIR EN EL DISEÑO DE RESERVAS DE

FLORA.............................................................................................................................................78

7.3.1 Preparación de los modelos de distribución......................................................................79

7.3.2 Discusión...........................................................................................................................83

7.4 EVALUACIÓN DEL IMPACTO POTENCIAL DEL CAMBIO CLIMÁTICO EN LA DISTRIBUCIÓN DE UNA ESPECIE AMENAZADA....................................................................................................84

7.4.1 Escenarios de Cambio Climático.......................................................................................85

7.4.2 Proyección de modelos de distribución con OpenModeller...............................................85

7.4.3 Análisis de los modelos ....................................................................................................86

7.4.3.1 Distribución potencial actual y futura.........................................................................86

7.4.3.2 Diferencial de idoneidad: frentes de avance y retroceso...........................................86

7.4.4 Discusión...........................................................................................................................87

7.5 ENSAMBLADO DE MODELOS PARA PROYECCIONES DE DISTRIBUCIÓN EN ESCENA-RIOS DE CAMBIO CLIMÁTICO......................................................................................................87

7.5.1 Escenarios climáticos........................................................................................................87

7.5.2 Proyección de modelos de distribución.............................................................................88

7.5.3 Análisis de los modelos entre escenarios..........................................................................88

7.4.3.2 Ensamblado de modelos...........................................................................................89

7.4.4 Discusión...........................................................................................................................89

7.6 EJERCICIOS PROPUESTOS...................................................................................................90

7.6.1 Cartografía de poblaciones................................................................................................90

7.6.2 Búsqueda de nuevas poblaciones.....................................................................................90

7.6.7 Explora libremente.............................................................................................................90

BIBLIOGRAFÍA....................................................................................................................................91

Modelos de distribución y estudios de flora amenazada Guión de prácticas

SECCIÓN 1: PREPARACIÓN DEL ENTORNO DE TRABAJO

(Tiempo estimado: 10 minutos)

Para trabajar cómodamente se ha preparado un directorio de trabajo para el curso. Puedes encontrarlo en C:, y se llama CURSO_MODELOS. Este directorio contiene los instaladores de los programas necesarios para seguir el curso (carpeta PRO-GRAMAS), una carpeta con el material geográfico necesario (GEODATOS), y las carpetas llamadas GUIONES, EVALUACION, y RESULTADOS, de las que hablare-mos más tarde.

En primer lugar vamos a preparar el entorno de trabajo para elaborar las variables ambientales que después utilizaremos para generar los modelos de distribución.

Todos los programas que vamos a utilizar durante la práctica son gratuitos y de códi-go abierto

1.1 Instalación de GRASS

GRASS (http://grass.itc.it/) es un programa de procesamiento de datos geográficos libre y gratuito, muy potente, con el que vamos a hacer gran parte del trabajo. No se ha seleccionado como software para este curso por su condición de gratuito, sino porque es el más completo programa de procesamiento raster que puedes encon-trar.

Para descargar instaladores para distintas plataformas debes visitar: http://grass.itc.it/download/index.php. El instalador nativo para Windows está en: http://grass.itc.it/grass63/binary/mswindows/native/.

En este momento no tienes que descargar nada, porque el instalador está en C:\CURSO_MODELOS\ PROGRAMAS\GRASS. Ejecuta la instalación por defecto.

No es necesario que lo inicies aún, porque después lo veremos con detalle.

1.2 Instalación de Notepad++

Notepad++ (http://notepad-plus.sourceforge.net/es/site.htm) es un procesador de texto plano que nos va a resultar muy útil para determinadas operaciones. Puedes encontrar el instalador en C:\CURSO_MODELOS\PROGRAMAS\NOTEPAD_PLUS.

El instalador de este programa puedes descargarlo de: http://sourceforge.net/project/showfiles.php?group_id=95717&package_id=102072.

1.3 Instalación de Open Office

De esta suite ofimática (http://es.openoffice.org/) en realidad solo necesitamos el programa de hojas de cálculo Calc, por lo que durante la instalación, puedes descar-tar el resto de aplicaciones. Para las operaciones que nos ocupan lo preferimos frente a Microsoft Excel porque es más respetuoso con los formatos en la exporta-ción a texto plano. Puedes encontrar el ejecutable en la carpeta OPENOFFICE del directorio del curso. Cuando termines la instalación, abre Calc, y en el menú Herra-mientas abre Corrección Automática, y desactiva todas las entradas de la pestaña

Blas Benito de Pando; Unidad de Conservación Vegetal, Universidad de Granada página 1

http://grass.itc.it/grass63/binary/mswindows/native/

http://grass.itc.it/download/index.php


Opciones; así evitaremos comportamientos molestos del programa más adelante.

1.4 Instalación de Google Earth.

Sin duda ya conoces Google Earth (http://earth.google.es/); el instalador, Google Up-dater.exe está en la carpeta PROGRAMAS/GOOGLE_EARTH.

1.5 Instalación de OpenModellerOpenModeller (http://openmodeller.sourceforge.net/) es un programa diseñado para generar modelos de distribución de especies utilizando distintos algoritmos.

Para instalar la última versión (1.0.7) de OpenModeller, necesitas actualizar la libre-ría C++ (el lenguaje informático en el que está programado OpenModeller). La tienes disponible en CURSO_MODELOS/PROGRAMAS/OPENMODELLER/ vcredist_x86.exe: ejecuta el archivo para instalarla.

Esta librería también puedes descargarla gratuitamente de: http://www.microsoft.-com/downloads/thankyou.aspx?familyId=32bc1bee-a3f9-4c13-9c99-220b62a191ee&displayLang=en#).

Una vez instalada la librería, puedes comenzar la instalación de OpenModeller eje-cutando openModellerDesktopSetup1.0.7.exe., dejando las opciones por defecto.

Los instaladores de OpenModeller en sus distintas versiones, disponibles en la car-peta mencionada anteriormente están disponibles en http://sourceforge.net/project/showfiles.php?group_id=101808&package_id=142057.

1.6 Instalación de Octave

Octave (http://octave.sourceforge.net/) es un lenguaje de cálculo numérico, compati-ble con Matlab., con una sintaxis relativamente sencilla, que permite programar algoritmos rápidamente.

En la carpeta CURSO_MODELOS/PROGRAMAS/OCTAVE está el instalador octa-ve-3.0.1-setup.exe. Instala el programa teniendo en cuenta estas opciones:

● en la ventana de selección de CPU, elige la opción Generic.

● en la selección de gráficos, elige gnuplot.

Este instalador se descargó desde: http://sourceforge.net/project/showfiles.php?group_id=2888&package_id=40078.

Si ya has instalado sin problemas estos programas, tienes el ordenador preparado para la primera fase de cualquier proceso de modelización, que es la creación de las variables ambientales necesarias.


http://sourceforge.net/project/showfiles.php?group_id=2888&package_id=40078


http://octave.sourceforge.net/


http://sourceforge.net/project/showfiles

http://www.microsoft.com/downloads/thankyou.aspx?familyId=32bc1bee-a3f9-4c13-9c99-220b62a191ee&displayLang=en



http://openmodeller.sourceforge.net/


SECCIÓN 2: PREPARACIÓN DE LAS VARIABLES AMBIENTALES

(Tiempo estimado: 2 horas)

Preparar un conjunto apropiado de variables ambientales para hacer modelos de distribución es un proceso laborioso, que exige conocimientos relativamente avanza-dos en Sistemas de Información Geográfica, y cierta destreza manejando en cada caso el programa adecuado. Es cierto que en la red existen conjuntos de datos pre-parados para hacer modelos de distribución, como el de la página WorldClim (http://www.worldclim.org/), o el Atlas Climático Digital de la Península Ibérica (http://opengis.uab.es/wms/iberia/mms/index.htm) pero tienen limitaciones en su apli-cación a estudios de pequeña escala. En general, para conseguir un buen conjunto de variables, será necesario buscar, procesar e integrar información espacial de dis-tintas fuentes.

A continuación vamos a desarrollar un protocolo de trabajo útil para crear un conjun-to de variables ambientales de alta resolución espacial en el que se integrará información topográfica, climática y obtenida mediante teledetección.

2.1 CREACIÓN DE LA BASE DE DATOS DE GRASS

GRASS va a ser nuestra herramienta principal para elaborar los mapas de variables. Para trabajar con GRASS es necesario definir:

● Una base de datos en la que se guardarán las capas (en C:\CURSO_MODE-LOS\GEODATOS\GRASSDB).

● Una localidad de trabajo (LOCATION), que define el área de trabajo y el siste-ma de coordenadas (NOTA: dentro de una misma localidad solo se puede utilizar un mismo sistema de coordenadas).

● Un directorio de mapas (MAPSET), que guarda capas concretas, y comparte área de trabajo y sistema de coordenadas con la localidad.

● Una REGION, que determina el área real de trabajo del programa, qué puede ocupar toda la extensión de la localidad, o una ventana concreta dentro de la misma, y la resolución de trabajo, que se puede ir cambiando sobre la marcha como veremos a continuación.

Para nuestro trabajo vamos a crear dos localidades definidas dentro de los límites geográficos de la provincia de Almería; una en sistema de coordenadas geográficas (latitud-longitud), con datum WGS 84 (código EPSG 4326), y otra con un sistema de coordenadas proyectadas UTM, con datum ED50 (código EPSG 23030).

2.1.1 Generar las localidades de GRASS

Para generar ambas localidades, inicia GRASS. Posiblemente saldrá un mensaje de error (porque aún no hay una base de datos definida); pulsa ok para continuar, y si-gue estos pasos.

● GIS Data Directory = C:/CURSO_MODELOS/GEODATOS/GRASSDB

● Define new location with = EPSG codes



○ Name of new location = ALMERIA_latlong

○ EPSG code number of projection = 4326

○ Pulsa el botón Define location

Ya hemos creado la base de datos en coordenadas geográficas; ahora vamos a ge-nerar la base de datos en UTM, repitiendo algunos de los pasos anteriores.

● Define new location with = EPSG codes

○ Name of new location = ALMERIA_utm

○ EPSG code number of projection = 32630 (utm wgs84 zona 30N)

○ Define location

○ Select datum transformation parameters = marcar la opción 5; Used in Spain (except Northwest).

○ Ok.

2.1.2 El interfaz de GRASS

Ahora que tenemos ambas bases de datos configuradas, habrás observado que en ambas se crea automáticamente un Mapset denominado PERMANENT, en el que se almacenarán todos los datos geográficos.

Para entrar en GRASS, en Project Location selecciona ALMERIA_latlong, y en Ac-cesible Mapsets selecciona PERMANENT. Pulsa Enter GRASS para iniciar el programa.

Habrás observado que el interfaz de GRASS tiene varias ventanas (ver Figura 1):

● GRASS 6.3.0 GIS Manager:

○ barra de menús de esta ventana accedemos a la mayor parte de las fun-cionalidades de procesamiento de GRASS: menús Raster, Imagery y Vector para operaciones con cada tipo de capa. Menú File para importa-ción, exportación y conversión de archivos. Menú Databases, para trabajar con tablas, y menú Config para configurar el entorno de trabajo.

○ Ventana de mapas activos: en la que se listan los mapas que queremos visualizar.

○ Configuración de mapas activos: se configuran opciones de visualiza-ción de los mapas.

● Map Display: es el visualizador de mapas, y tiene las típicas opciones de cualquier navegador de mapas, incluida la exportación a distintos formatos de imagen.

● Output GIS.m: muestra el estado de las operaciones en curso, muestra resul-tados (aquellos que por su naturaleza se dan en formato texto), y permite lanzar comandos.



2.1.3 Preparación de la región de trabajo

Solo nos queda definir para cada localidad la región de trabajo, que indica a GRASS la resolución espacial y los límites geográficos.

La resolución espacial corresponde a la del modelo de elevaciones que preparare-mos en el apartado siguiente: unos 90 metros por celda, si hablamos de la proyección UTM, o 0.00083333 grados decimales por celda (equivalente a 0º 00' 03'' en notación sexagesimal), si tratamos con coordenadas geográficas.

Para definir la resolución espacial, en la ventana Output, en la línea de comandos teclea y ejecuta (pulsando el botón Run):

g.region res=0:00:03

Los límites geográficos de la provincia de Almería los obtendremos de un archivo de provincias de toda Europa que se encuentra disponible en la geoplataforma EDIT, del Museo Nacional de Ciencias Naturales (http://edit.csic.es/GISdownloads.html). En esta dirección, en la sección Administrative Units se ha obtenido el fichero provin-


Figura 1: Interfaz gráfico de GRASS, mostrando las ventanas principales y las he-rramientas más importantes.

smb://edit.csic.es/GISdownloads.html

http://edit.csic.es/GISdownloads.html


ce-europe-shape.zip que está en C:\CURSO_MODELOS\ GEODATOS\LIMITES. Descomprímelo en la misma ubicación.

Para importar el archivo vectorial de la provincia de Almería (y no el de toda Europa), sigue estos pasos:

● GIS Manager > File > Import vector map > Multiple formats using OGR, para abrir el módulo v.in.ogr, que se encarga de importar diversos formatos vecto-riales.

○ Pestaña Options:

■ Override dataset projection = marcado

■ OGR datasource name = C:/CURSO_MODELOS/GEODATOS/LIMI-TES/province-europe-shape/province-europe.shp

■ Name for output vector map = ALMERIA

■ WHERE conditions of SQL statement... = IDR_ID=42

■ Type = boundary

○ Run

○ Cierra v.in.ogr.

Para establecer la región de trabajo dentro del área cubierta por el archivo vectorial importado:

● GIS Manager > Config > Region > Change region settings, para abrir el módu-lo v.region, que tiene las utilidades para controlar los límites geográficos y resolución espacial de la región de trabajo.

○ Pestaña Existing:

■ Set current region to match this vector map = ALMERIA

○ Run

○ Cierra g.region.

2.2 PREPARACIÓN DEL MODELO DE ELEVACIONESEn cualquier trabajo de modelado de distribución, es básico disponer de un modelo de elevaciones con una resolución apropiada para los objetivos del proyecto. En esta práctica vamos a utilizar los resultados del proyecto SRTM. Los datos que va-mos a descargar están en coordenadas geográficas (datum= WGS84), y tienen una resolución horizontal de 90m (la resolución vertical ronda los 16m).

Es cierto que el modelo de elevaciones que podemos obtener del SRTM no puede considerarse de muy alta resolución, y para trabajos en los que la precisión espacial es importante, es preferible optar por modelos de elevaciones de mayor resolución, pero no siempre están disponibles.

Los resultados del proyecto SRTM están disponibles a través de la la web del CGIAR (http:\\srtm.csi.cgiar.org\). Esta institución ha preparado una aplicación para Google Earth desde la que resulta sencillo descargar cualquiera de las teselas de datos disponibles.


http://www.csi.cgiar.org/


2.2.1 Descarga del modelo de elevaciones

Los pasos a seguir para descargar el modelo de elevaciones (MDE en adelante) son:

1. Cargar el programa de descarga de teselas SRTM en Google Earth: Tras la instalación, descargamos y abrimos la aplicación del CGIAR, que puedes descargar del siguiente enlace (http:\\www.ambiotek.com\srtm). Si no funcio-na la descarga, también tienes el archivo, llamado srtm3.kmz, en la carpeta C:\CURSO_MODELOS\GEODATOS\ELEVACION. Solo tienes que pulsar dos veces sobre el archivo para que Google Earth lo cargue.

2. Búscar y descargar el archivo: Ahora buscaremos la tesela que corresponde al SE de la Península Ibérica (srtm_36_05), y pulsamos sobre el triángulo ver-de que presenta en el centro. Pasada la mitad de la página que se abre podemos encontrar el listado de servidores desde el que podemos descargar el conjunto de datos seleccionado. Selecciona el primer servidor listado, y al pulsar sobre él ya podrías iniciar la descarga, pero ya has aprendido a buscar datos SRTM, y no hace falta que los descargues, porque ya están en C:\GE-ODATOS\ORIGINALES\ELEV\srtm_36_05.zip. Es un archivo comprimido; para extraerlo, solo tienes que pulsar sobre él con el botón derecho del ratón y pinchar sobre extraer todo. Si todo ha ido bien, en la carpeta C:\GEODA-TOS\ORIGINALES\ELEV\srtm_36_05 habrá un archivo llamado Z_36_5.ASC de unos 170 MB aproximadamente; es nuestro modelo de elevaciones, aun-que ocupando un área más extensa que la apropiada para nuestro trabajo.

2.2.2 Importación del MDE la base de datos de GRASS

Para empezar a generar nuestras variables, importaremos el modelo de elevaciones a la Localidad en la que estamos trabajando.

● GIS Manager > File > Import raster map > ESRI GRID, para abrir el módulo r.in.arc, el encargado de importar ficheros en formato .asc.

○ ARC/INFO raster file to be imported = C:/CURSO_MODELOS/GEODA-TOS/ELEV/srtm_36_05/Z_36_5.ASC

○ Name for output raster map = ELEV

○ Storage type for resultant raster map = CELL

● Run Tardará un poco, porque está importando el mapa entero, no solo el área de trabajo; es una costumbre de GRASS...En la ventana Output podrás ob-servar el progreso de la operación.

● Cierra r.in.arc.

Para visualizar el mapa de elevación, hay que seleccionarlo en la ventana GIS Ma-nager, pulsando el icono añadir nueva capa raster. En la ventana de mapas activos aparecerá una entrada para la nueva capa raster. En el panel de configuración de mapas activos pulsa sobre el icono idéntico a abrir nueva capa raster. De la lista que se despliega, selecciona ELEV y pulsa Ok. Para visualizar el mapa, en la ventana de mapas primero pulsa sobre el icono Zoom to (el que tiene una lupa sobre un mapa), y pulsa sobre Zoom display to selected map.


http://www.ambiotek.com/srtm


2.3 CREACIÓN DE UNA MÁSCARA

Una máscara es un mapa que indica a GRASS la áreas a las que debe aplicar los cálculos y a las que no. Las áreas en las que no se aplican cálculos se denominan habitualmente NODATA, pero en GRASS la nomenclatura propia es Null. Para crear la máscara, en esta ocasión, tenemos un ligero problema debido a las distintas fuen-tes de datos que usamos; la línea de costa definida por el mapa ELEV, y la definida por el contorno provincial del mapa ALMERIA no coinciden. A continuación se descri-ben los pasos para solucionarlo.

1. Vamos a darle valor 1 a todas las áreas con datos válidos del mapa ELEV, guardando el resultado con el nombre MASCARA_ELEV.

○ GIS Manager > Raster > Change category values and labels > Recode in-teractively, para abrir la ventana Interactive rules entry.

■ Map to recode = ELEV

■ Recoded map = MASCARA_ELEV

■ En la ventana escribir = -30:4000:1 que significa literalmente: recodifi-car a valor 1 todos los valores dentro del intervalo -30:4000

○ Apply. Saldrá un error, pero puedes ignorarlo.

○ Ok, para cerrar la ventana.

2. Ahora es necesario transformar el fichero vectorial ALMERIA en un raster:

○ GIS Manager > File > Map type conversions > Vector to raster, para abrir el módulo v.to.rast.

■ Name of input vector map = ALMERIA

■ Name for output raster map = ALMERIA

■ Source of raster values = val

■ Type = area

○ Run

○ Cierra v.to.rast.

3. Ahora disponemos de las capas ALMERIA, que indica los límites del área de trabajo “tierra adentro”, y MASCARA_ELEV, que indica los límites de la línea de costa que nos interesa. El área resultante de la intersección entre ambos mapas es nuestro área de trabajo. Para generar la intersección multiplicare-mos ambas capas entre sí. En la ventana Output, en la línea de comandos teclea la siguiente expresión y pulsa el botón Run:

r.mapcalc MASK=ALMERIA*MASCARA_ELEV

Ya tenemos perfectamente delimitada nuestro área de trabajo, puedes comprobarlo visualizando el mapa MASK y usando de nuevo la opción Zoom display to selected map. Esta pequeña obsesión por tener una máscara limpia es debida a un requeri-miento de algunos de los programas que usaremos para hacer modelos de distribución: exigen que todos los mapas de variables que utilicemos, independiente-mente de su origen, coincidan perfectamente, celda a celda.



2.4 VARIABLES TOPOGRÁFICAS

2.4.1 Pendientes y orientaciones

Para muchas especies la pendiente y la orientación son factores con gran influencia en la distribución espacial, por lo que deben incluirse en cualquier trabajo de modeli-zación, especialmente cuando se utilizan resoluciones altas y regiones poco extensas. Para calcularla con GRASS:

● GIS Manager > Raster > Terrain analysis > Slope and aspect, para abrir el módulo r.slope.aspect.


■ Raster elevation file name = ELEV

■ Output slope filename = PEND

■ Output aspect filename = OR_360

○ Run

○ Cierra r.slope.aspect.

Los valores 0-360 de la variable ORIENTACION no son apropiados para trabajar con ellos en modelos de distribución, porque tanto el valor 0 como el 360 indican el mis-mo azimut, y esto crea problemas en los algoritmos de modelado. Para transformarla, vamos a crear dos gradientes:

● OR_NS: con valores 100 en las exposiciones norte, y valores 0 en las sur, con toda la gama intermedia de valores (este y oeste presentan ambos valor 50).

● OR_EO: que sigue el mismo esquema que el anterior, pero con valores 100 en la orientación oeste, y 0 en las este (norte y sur presentan ambos valor 50).

Esta operación se denomina recodificación (lo hiciste antes, al crear el mapa MAS-CARA_ELEV), porque implica un cambio en los valores de las celdas; por ejemplo, los valores 360 y 0 de la capa ORIENTACIÓN, serán sustituidos por el valor 100 en la capa OR_NS. Previamente a la recodificación de un mapa raster es necesario cre-ar un fichero que indique los valores que van a variar y sus reemplazos. En GRASS, este fichero debe tener la extensión “.csv” (comma separate values) y el siguiente formato:

0:0:100:1001:1:100:1002:2:100:1003:3:99:99

...hasta completar todos los valores a sustituir.

Los dos primeros números de cada fila indican el intervalo de valores del mapa origi-nal que se quieren sustituir; los dos últimos números indican el intervalo de valores por el que se quiere cambiar el valor original. La primera línea diría textualmente



“cambia los valores de 0 a 0 por valores de 100 a 100”, o sustituye 0 por 100.

Para elaborar estos ficheros es muy útil disponer de una hoja de cálculo (para esto funciona mejor Calc qué Excel), y el editor de texto Notepad++,

Los ficheros correspondientes a las dos reclasificaciones que hay que realizar se en-cuentran en C:\CURSO_MODELOS\GUIONES (GRADIENTE_EO.txt y GRADIENTE_NS.txt). Puedes abrirlos con Notepad++ para observar su contenido (aparecerán modificados si los abres con el bloc de notas de windows).

Para recodificar el mapa de orientaciones:

● GIS Manager > Raster > Change category values and labels > Recode using rules file, para abrir el módulo r.recode.

■ Raster map to be recoded = OR_360

■ Name for output raster map = OR_NS

■ File containing recode rules = C:/CURSO_MODELOS/GUIONES/GRADIENTE_NS.csv

○ Run

■ Raster map to be recoded = OR_360

■ Name for output raster map = OR_EO

■ File containing recode rules = C:/CURSO_MODELOS/GUIONES/GRADIENTE_EO.csv

○ Run

○ Cierra r.recode.

2.4.2 Posición topográfica

La posición topográfica de una celda es la diferencia entre la altitud real de la celda, y el promedio de las celdas circundantes en un radio dado. Esta variable contrasta áreas muy expuestas a los elementos, como cimas o crestas, con respecto a áreas resguardadas, como valles, y contrasta muy bien las zonas llanas.

Para calcularla son necesarias dos capas: una de elevación, de la que ya dispone-mos (mapa ELEV), y la elevación media en un radio determinado, que en este caso será de 1000 metros aproximadamente (un radio de 11 celdas de 90 metros cada una).

1. Para calcular la elevación media en un radio determinado:

○ GIS Manager > Raster > Neighbourhood analysis > Moving window, para abrir el módulo r.neighbors.

● Use circular neighbourhood = marcado

● Name of input raster map = ELEV

● Name for output raster map = ELEV_MEDIA_1000m

● Neighbourhood operation = Average

● Neighbourhood size = 11 (NOTA: el número debe ser impar)



■ Run

■ Cierra r.neighbors.

2. Para restar la capa ELEV_MEDIA_1000m a la capa ELEV, en el cuadro de ejecución de comandos de la ventana Output teclea y ejecuta:

r.mapcalc POS_TOPO=ELEV-ELEV_MEDIA_1000m

3. Para eliminar el mapa ELEV_MEDIA_1000m (no lo necesitarás más), teclea y ejecuta la siguiente expresión en la línea de comandos:

g.remove ELEV_MEDIA_1000m

2.4.3 Índice topográfico de humedad

La variable Índice Topográfico de Humedad refleja el comportamiento hidrológico del territorio. Esta variable topográfica destaca zonas de suelos profundos (valles, cuen-cas sedimentarias) de otras con suelos poco profundos, en los que la escorrentía es la norma.

Para calcular esta variable GRASS tiene una limitación, y es que solo puede hacerlo con datos en proyección UTM. Por tanto es necesario reproyectar el mapa ELEV an-tes de realizar el cálculo siguiendo los siguientes pasos:

1. Inactivar la máscara actual, tecleando y ejecutando en la línea de comandos la siguiente expresión:

g.rename MASK,MASK_inactiva

2. Cerrar GRASS (cierra GIS Manager y las demás ventanas caerán con ella), y abrirlo de nuevo en la localidad ALMERIA_utm, mapset PERMANENT

3. Es necesario configurar previamente la región de trabajo. Prepararemos la re-gión según un rectángulo que acoge aproximadamente la provincia de Almería (las coordenadas se han sacado de Google Earth): GIS Manager > Config > Region > Change region settings, para abrir el módulo g.region.

○ Pestaña Bounds:

■ Value for the northern edge = 4200000

■ Value for the southern edge = 4050000

■ Value for the eastern edge = 625000

■ Value for the wetstern edge = 485000

○ Pestaña Resolution:

■ Grid Resolution 2D = 90

○ Run

○ Cierra g.region.

4. Para reproyectar el mapa ELEV, en GIS manager > Raster > Develop map > Reproject, para abrir el módulo r.proj.

○ Location of input raster map = ALMERIA_latlong

○ Mapset of input raster map = PERMANENT



○ Name of input raster map to re-project = ELEV

○ Name for output raster map = ELEV

○ Interpolation method = nearest

○ Run

○ Cierra r.proj.

5. Ahora hay que sustituir los valores NULL de ELEV por valores 0 (cero): GIS Manager > Raster > Develop map > Null values, para abrir el módulo r.null.

○ Raster map for which to edit null file = ELEV

○ The value to replace the null value by = 0

○ Run

○ Cierra r.null

6. Para generar el mapa del índice topográfico de humedad, de nuevo en GIS manager > Raster > Hydrologyc modeling > Topographic index map. Se abre el diálogo r.topidx:

○ Input elevation map = ELEV

○ Output topographic index map = ITP

○ Run Tardará un par de minutos.

○ Cierra r.topidx

7. Ahora, este mapa hay que reproyectarlo a latitud-longitud, por lo que cerra-mos grass, y volvemos a abrirlo en la Location ALMERIA_latlong.

8. Es necesario reactivar la máscara antes de continuar; en la línea de coman-dos teclea y ejecuta:

g.rename MASK_inactiva,MASK

9. Para reproyectar el mapa ITP al sistema de coordenadas latlon: GIS manager > Raster > Develop map > Reproject, y se abre el módulo r.proj.

○ Location of input raster map = ALMERIA_utm

○ Mapset of input raster map = PERMANENT

○ Name of input raster map to re-project = ITP

○ Interpolation method = nearest

○ Run

○ Cierra r.proj

2.4.4 Radiación solar potencial

La radiación solar incidente tiene una gran importancia en la distribución de los ve-getales, y teniendo un modelo del terreno es posible calcularla, utilizando ecuaciones que simulan el movimiento del sol en fechas y horas determinadas, y te-niendo en cuenta el efecto de ocultación de la topografía. Si bien a primera vista estas circunstancias quedarían cubiertas por las variables de orientación, la realidad es que los modelos de radiación solar son mucho más precisos. Para calcular la ra-



diación solar incidente mínima (en torno al 21 de Diciembre, en el solsticio de invier-no) seguiremos los siguientes pasos:

1. Crear un mapa de latitudes: es tan sencillo como ir a la línea de comandos y ejecutar la siguiente expresión:

r.mapcalc LATITUD=y()

2. Para el cálculo de radiación solar: GIS Manager > Raster > Solar radiance and shadows > Solar irradiance, para abrir el módulo r.sun.

○ Ficha Options:

■ Incorporate the shadowing effect of terrain = marcado

■ No. of day of the year = 355

■ Time step when... = 1.0 (es para ahorrar tiempo; los resultados son más precisos si este parámetro se configura en 0.5)

○ Ficha Input options:

■ Name of the input elevation raster map... = ELEV

■ Name of the input aspect... = OR_360

■ Name of the input slope... = PEND

■ Name of the latitudes input raster map = LATITUD

○ Ficha Output options:

■ Output beam irradiance... = RAD_INV

○ Run, y paciencia, porque tardará un rato!!.

NOTA: Mientras se realiza este cálculo, pasa al punto 2.4.5, y después vuelve aquí.

3. Para calcular la radiación solar máxima (correspondiente al solsticio de vera-no, en torno al 21 de Junio), se vuelve a ejecutar el módulo, manteniendo los mismos parámetros excepto:

○ No. of day of the year = 175

○ Output beam irradiance... = RAD_VER

2.4.5 Diversidad topográfica

La homogeneidad o heterogeneidad topográfica del territorio circundante también es un factor a tener en cuenta. Para calcularla, menú Raster > Neighbourhood analysis > Moving window.

● Use circular neighbourhood = marcado

● Name of input raster map = ELEV

● Name for output raster map = DIV_TOPO

● Neighbourhood size = 11 (para calcularla en unos 1000 metros a la redonda)

● Neighbourhood operation = diversity

● Run



● Cierra r.neighbors.

NOTA: Vuelve al punto 2.4.4 para comprobar si se terminó el primer cálculo de ra-diación solar. Si terminó, pon a funcionar el siguiente, y vuelve aquí para continuar.

2.5 VARIABLES DE TELEDETECCIÓN

2.5.1 Importación y procesamiento de bandas Landsat

Las imágenes Landsat proporcionan una información multiespectral muy valiosa del territorio. Las longitudes de onda que recoge el sensor ETM+ proporcionan datos so-bre la naturaleza geológica del sustrato, la potencia de la cubierta vegetal, los usos del suelo, e incluso la presencia exacta de determinadas formaciones vegetales, y todo con una resolución espacial en torno a los 30 metros.

Una fuente que podemos utilizar para descargar un mosaico de imágenes Landsat ya procesado es Image 2000 (http://image2000.jrc.it/), un proyecto europeo de estu-dio de los usos del suelo (CORINNE Land Cover) para el que se han procesado cientos de imágenes Landsat de toda Europa (años 1998-2000). Es necesario regis-trarse y explicar la naturaleza del proyecto de investigación para obtener las imágenes (tardarán algunos días en proporcinaros una clave de acceso), pero mien-tras aquí podéis ver el interfaz de selección y descarga de datos: http://mapserver.jrc.it/website/image2000/viewer.htm.

Si haces un zoom sobre el SE de la Península Ibérica, y en el panel de la derecha marcas Mosaic, podrás ver que las cuadrículas U18 y U19 contienen los datos que necesitamos. Ambas teselas están almacenados en C:\CURSO_MODELOS\GEO-DATOS\ORIGINALES\LANDSAT\U18_MS.bil y U19_MS.bil; descomprime ambas carpetas. Cada uno de los conjuntos de mapas está compuesto por 6 bandas, que representan la reflectancia del terreno ante distintas longitudes de onda. Las imáge-nes están en una proyección de coordenadas geográficas (latitud-longitud), en un datum llamado ETRS89, que a efectos prácticos, para nuestro trabajo, es equivalen-te a WGS84 (esto no es cierto para trabajos topográficos de muy alta resolución). Por lo tanto podemos importarlos directamente a nuestra localidad ALMERIA_latlong en GRASS:

En la ventana GIS Manager > File > Import raster map > Multiple formats using GDAL, para abrir el módulo r.in.gdal.

● Pestaña Options:

○ Override projection = marcado

● Pestaña Required:

○ Raster file to be imported = C:/CURSO_MODELOS/GEODATOS/LAND-SAT/U18_MS.bil/U18_MS.bil

○ Name for output raster map = U18

● Run

El conjunto de imágenes U19 se importa del mismo modo, nombrando los resultados como U19.


http://mapserver.jrc.it/website/image2000/viewer.htm

http://image2000.jrc.it/


● Cierra r.in.gdal.

Ahora tenemos en nuestra base de datos de GRASS 6 parejas de imágenes (U18.1 y U19.1; U18.2 y U19.2, etc...), cada una de las cuales corresponde a una banda Landsat concreta. Las labores que deberíamos realizar ahora son:

● Unir las imágenes que pertenecen a una misma banda: tenemos las imáge-nes U18.1 y U19.1, que corresponden a una misma banda Landsat, cada una de las cuáles cubre parcialmente la provincia de Almería. Es necesario unir-las.

● Borrar las imágenes parciales (U18.1 y U19.1 en el ejemplo anterior).

En total hay que hacer 6 uniones y borrar 12 imágenes, una labor relativamente te-diosa. Para hacer operaciones repetitivas, lo más operativo es escribir las órdenes en un fichero de texto plano (script, o guión) para que GRASS las ejecute secuen-cialmente.

En nuestro caso, para unir las imágenes se utiliza la orden r.patch, que tiene la si-guiente sintaxis:

r.patch input=nombre_imagen_A,nombre_imagen_B output=nombre_imagen_AB

Para borrarlas, la expresión también es bastante sencilla:

g.remove nombre_imagen_A

Ahora que conoces la sintaxis apropiada, puedes escribir y ejecutar las siguientes órdenes secuencialmente en la línea de comandos, cambiando los números corres-pondientes a cada capa según el caso.

r.patch input=U18.1,U19.1 output=LSAT_1r.patch input=U18.2,U19.2 output=LSAT_2r.patch input=U18.3,U19.3 output=LSAT_3r.patch input=U18.4,U19.4 output=LSAT_4r.patch input=U18.5,U19.5 output=LSAT_5r.patch input=U18.6,U19.6 output=LSAT_6

g.remove U18.1g.remove U18.2g.remove U18.3g.remove U18.4g.remove U18.5g.remove U18.6g.remove U19.1g.remove U19.2g.remove U19.3g.remove U19.4g.remove U19.5g.remove U19.6



2.5.2 NDVI

El Índice Diferencial de Vegetación Normalizado estima la cantidad, calidad y desa-rrollo de la vegetación a partir de la intensidad de la radiación que la vegetación emite o refleja en distintas bandas del espectro electromagnético. El sensor ETM+ del satélite Landsat recoge información para componer este índice, que se computa a partir de las bandas 3 (rojo) y 4 (infrarrojo cercano) según la siguiente expresión:

NDVI = (infrarrojo_cercano – rojo) / (infrarrojo_cercano + rojo)

Podemos calcular esta expresión directamente desde la linea de comandos ejecu-tando la siguiente expresión:

r.mapcalc NDVI=1.0*(LSAT_4-LSAT_3)/(LSAT_4+LSAT_3)

2.6 VARIABLES CLIMÁTICAS

2.6.1 Precipitación

La precipitación es una variable con gran influencia en la distribución de las especies vegetales, porque representa la disponibilidad de un recurso vital como es el agua. Pero es una variable para la que es muy difícil obtener modelos espaciales y tempo-rales fiables. Distintos métodos proporcionan resultados muy diferentes, a la hora de calcular modelos de precipitación.

Para hacer un modelo de precipitaciones de un área concreta, en primer lugar son necesarios los datos de pluviometría y las georreferencias de las estaciones meteo-rológicas que la cubren. Una vez obtenidos, es necesario realizar el análisis estadístico para obtener los valores descriptivos que nos interesa expresar espacial-mente, como podrían ser la precipitación acumulada anual, la precipitación durante el mes mas seco, etc.

En la carpeta C:\CURSO_MODELOS\GEODATOS\CLIMA puedes encontrar una hoja de cálculo (PRECIPITACION.ods) con los datos de precipitación de la provincia de Almería. Estos datos son el resultado de un análisis estadístico sobre una base de datos proporcionada por la AEMET, con información meteorológica del periodo 1960-1990.

Las coordenadas de las estaciones meteorológicas están en coordenadas geográfi-cas, datum WGS84 (NOTA: las georreferencias de las estaciones meteorológicas proporcionadas por la AEMET están originalmente en ED50. Las que aparecen en las tablas han sido transformadas para este tutorial).

Las precipitaciones se muestran en milímetros, y los campos de la tabla son:

● cat = código identificador de la estación meteorológica

● LONGITUD = coordenada x

● LATITUD = coordenada y

● P_INV = precipitación acumulada media en invierno

● P_PRI = precipitación acumulada media en primavera

● P_VER= precipitación acumulada media en verano



● P_OTO = precipitación acumulada media en otoño

● P_ANU = precipitación acumulada media anual (suma de las anteriores)

● P_MAX = precipitación acumulada media del mes más húmedo

● P_MIN = precipitación acumulada media del mes más seco

● P_RAN = diferencial de precipitación entre el mes más húmedo y el más seco

Uno método para hacer modelos espaciales de precipitación es la interpolación es-pacial de los datos puntuales de todas las estaciones meteorológicas.

Los pasos a seguir para generar un mapa de precipitaciones mediante interpolación espacial son:

1. Exportar los datos a formato dBASE (dbf): Abre la hoja de cálculo PRECIPI-TACION con Calc.

○ Menú Archivo > Guardar como

■ Nombre: C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\PERMANENT\dbf\PRECIPITACION.dbf

■ Tipo: Texto dBASE (dbf)

■ Guardar, y pulsa sobre Sí en la advertencia. Marca No volver a mostrar esta advertencia.

■ Cierra la hoja de cálculo.

○ Ahora es necesario hacer un arreglo: abre con Calc la tabla PRECIPITA-CION.dbf que acabas de guardar, y en la primera celda sustituye ID,N,5,2 por ID,N,5,0. Ahora puedes guardar los cambios y cerrar Calc.

2. Creación del archivo vectorial con las localidades de las estaciones pluviomé-tricas: GIS Manager > Vector > Generate points > Generate points from database, para abrir el módulo v.in.db.

○ Input table name = PRECIPITACION

○ Name of column containing x coordinate = LONGITUD

○ Name of column containing y coordinate = LATITUD

○ Must refer to an integer column = CAT

○ Name for output vector map = ESTACIONES_PLUVIOMETRICAS

○ Run

○ Cierra v.in.db.

3. Interpolación espacial de los datos de precipitación con el algoritmo Regulari-zed Tension Splines: Gis Manager > Raster > Interpolate surfaces > Regularized spline tension, para abrir el módulo v.surf.rst.

■ Pestaña Options:

● Name of input vector map = ESTACIONES_PLUVIOMETRICAS

● Name of the attribute column... = P_ANU



● Output surface raster map = PRE_ANU

● Run

■ Pestaña Settings:

● Maximum number of points in a segment = 30

● Minimum number of points for approximation = 90

■ Run

Ya has generado tu mapa de precipitación mediante interpolación espacial. Del mis-mo modo, calcula los siguientes mapas de precipitación:

● Precipitación mes más seco (campo P_MIN), nombrando el resultado como PRE_MIN.

● Precipitación del mes más húmedo (campo P_MAX), nombrando el resultado como PRE_MAX.

● Cierra v.surf.rst.

● Rango de precipitación anual, ejecutando la siguiente expresión en la línea de comandos:

r.mapcalc PRE_RAN=PRE_MAX-PRE_MIN

2.6.2 Temperatura

Para calcular la temperatura se podría recurrir a la interpolación espacial, como en el caso de la precipitación, pero lo cierto es que la variable temperatura está muy liga-da a la topografía y a la situación geográfica. La mayoría de los autores coinciden en que la temperatura del aire en superficie depende directamente de la altitud, la dis-tancia al mar, la latitud y la longitud.

La técnica más utilizada para hacer modelos espaciales de temperatura es la regre-sión múltiple con corrección de residuos. La idea es calcular la ecuación de regresión múltiple que relaciona la variable respuesta, en este caso podría ser la temperatura media mínima del mes más frío, con el conjunto de variables predicto-ras, que son: ELEV, LATITUD, LONGITUD, y DIS_MAR. La ecuación debe ser de este tipo:

T=m+a*LATITUD+b*LONGITUD+c*ELEV+d*DIS_MAR

Esta ecuación proporciona un mapa de temperatura que no tiene en cuenta los valo-res de los residuales de cada una de las estaciones meteorológicas. Para incorporar los residuos, se interpolan espacialmente los valores de los residuales de cada esta-ción, y el mapa resultante se suma al anterior, para obtener el mapa de temperatura final.

2.6.2.1 Cálculo de variables predictoras

De las variables predictoras de la temperatura, aún no hemos calculado la distancia al mar y la longitud. Para calcular la longitud, igual que calculamos la latitud anterior-mente; en la línea de comandos ejecuta la siguiente expresión:

r.mapcalc LONGITUD=x()



Para calcular la distancia al mar sigue estos pasos:

1. Inactivar la máscara cambiándole el nombre: teclea y ejecuta la siguiente expresión en la línea de comandos.

g.rename MASK,MASK_inactiva

2. Invertir el mapa MASCARA_ELEV: GIS Manager > Raster > Develop map > Null Values, para abrir el módulo r.null.

■ Raster map for wich edit null file = MASCARA_ELEV

■ List of cell values to be set to null = 1

■ The value to replace the null value by = 1

■ Run

■ Cierra r.null.

3. Creación de un mapa con valor 9 en todas las celdas (9x10 metros que tiene de lado cada celda; indica el coste en metros al atravesar una celda, pero usamos 9 en lugar de 90 para obtener un mapa menos “pesado”; los mapas, cuanto mayores son los números que almacenan en sus celdas, más espacio en disco ocupan, y más difícil es manejarlos). Lo utilizaremos para crear el mapa de distancia al mar. En la ventana Output tecleamos y ejecutamos la siguiente expresión.

r.mapcalc COSTE=9

4. Cálculo del mapa de distancia al mar: GIS Manager > Raster > Terrain analysis > Cost surface, para abrir el diálogo r.cost.

■ Name of raster map containing grid cell cost information = COSTE

■ Name for output raster map = DIS_MAR

■ Starting points raster map = MASCARA_ELEV

■ Run

■ Cierra r.cost

5. Reactivar la máscara: Teclea y ejecuta la siguiente expresión en la línea de comandos:

g.rename MASK_inactiva,MASK

2.6.2.2 Cálculo de la ecuación de regresión

En la carpeta C:\CURSO_MODELOS\GEODATOS\ORIGINALES\CLIMA puedes en-contrar la hoja de cálculo TEMPERATURA.ods, que contiene los datos de temperatura media anual del periodo 1960-1990 para la provincia de Almería. Los campos que contiene la tabla son:

● CAT: código de la estación meteorológica

● LATITUD: coordenada y

● LONGITUD: coordenada x

● TMED_ANU: temperatura media anual



● TMED_INV: temperatura media invierno

● TMED_PRI: temperatura media primavera

● TMED_VER: temperatura media verano

● TMED_OTO: temperatura media otoño

● TMED_MAX: temperatura media del mes más cálido

● TMED_MIN: temperatura media del mes más frío

● TMED_RAN: diferencia entre las medias del mes más cálido y el más frío (rango medio anual)

Estos son los pasos a seguir para calcular la ecuación de regresión:

1. En la tabla TEMPERATURA, entre los campos LONGITUD y TMED_ANU cre-aremos dos columnas; ELEV y DIS_MAR, y rellenaremos los registros con valores 0,0, cambiando el formato de las celdas para que muestren decima-les. Una vez hecho esto, guardamos la tabla en formato dBASE (.dbf).

○ Menú Archivo > Guardar como

■ Nombre: C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\PERMANENT\dbf\TEMPERATURA.dbf

■ Tipo: Texto dBASE (dbf)

■ Aceptar, y cerrar la tabla en Calc, ¡pero no cierres el programa, aún va-mos a necesitarlo!.

○ Ahora es necesario hacer un arreglo: abre con Calc la tabla TEMPERATU-RA.dbf que acabas de guardar, y en la primera celda sustituye ID,N,5,2 por ID,N,5,0. Ahora puedes guardar los cambios.

2. Creación del archivo vectorial con las localidades de las estaciones termomé-tricas: GIS Manager > menú Vector > Generate points > Generate points from database, para abrir el módulo v.in.db.

○ Input table name = TEMPERATURA

○ Name of column containing x coordinate = LONGITUD

○ Name of column containing Y coordinate = LATITUD

○ Must refer to an integer column = ID

○ Name for output vector map = ESTACIONES_TERMOMETRICAS

○ Run

○ Cierra v.in.db

3. Para calcular la ecuación de regresión necesitamos conocer los valores de elevación y distancia al mar de cada estación termométrica (latitud y longitud ya los conocemos), y añadir esos valores a la tabla de datos de temperatura.

○ GIS Manager > menú Vector > Update point attributes from raster > Sam-ple raster map at point locations, para abrir el módulo v.what.rast.

■ Name of input vector points... = ESTACIONES_TERMOMETRICAS



■ Name of an existing raster map... = ELEV

■ Column name = ELEV

■ Run

■ Name of an existing raster map... = DIS_MAR

■ Column name = DIS_MAR

■ Run

■ Cierra v.what.rast.

4. A continuación realizaremos el análisis de regresión múltiple sobre la tabla del archivo vectorial ESTACIONES_TERMOMETRICAS, para componer la ecua-ción de regresión y calcular el mapa de temperatura sin corregir.

○ Abre con Calc el archivo C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\PER-MANENT\dbf\ESTACIONES_TERMOMETRICAS.dbf

○ Pulsa sobre cualquiera de las celdas en blanco debajo de los datos, y en el menú Insertar, busca la entrada Función, para abrir el asistente Funcio-nes.

○ Busca en la lista la función ESTIMACION.LINEAL, selecciónala, y pulsa Siguiente:

■ Datos_Y = selecciona los valores de la columna TMED_ANU.

■ Datos_X = selecciona los valores de las variables LATITUD, LONGI-TUD, ELEV, y DIS_MAR.

■ tipo_lineal = 1

■ estadística = 1

■ Aceptar. Debe resultar una matriz similar a la de la Figura 2, que deta-lla el significado de los valores más importantes.

Según estos resultados, la ecuación de regresión que explica la temperatura media anual en función de las variables latitud, longitud, elevación y distancia al mar sería:

TMED_ANU=1387.94-31.85*LATITUD+8.42*LONGITUD-0.05*ELEV+0*DIS_MAR

○ Para calcular el mapa de temperatura sin corrección de residuos teclea y ejecuta en la línea de comandos de GRASS la siguiente expresión:


Figura 2: Matriz de resultados de la función ESTIMACIÓN LINEAL de Calc


r.mapcalc TMED_ANU_reg=1387.94-31.85*LATITUD+8.42*LONGITUD-0.05*ELEV

5. Para calcular los valores puntuales de los residuales, creamos una nueva co-lumna en la tabla abierta en Calc, al final, con el nombre TMED_ANr,N,20,6 y en la primera celda escribimos la ecuación siguiente, en la que restamos el valor estimado por la ecuación de regresión (sección entre paréntesis) al valor de temperatura real de cada registro (celdas de la columna TMED_ANU):

=F2-(1387,94-31,85*B2+8,42*C2-0,05*D2+0*E2)

○ Ahora arrastramos esta ecuación a todas las celdas inferiores para calcu-lar el residual de cada registro. Después borramos la matriz de resultados de la función ESTIMACION.LINEAL. Puedes guardar la tabla, para que los datos de los residuales queden escritos en el archivo vectorial ESTACIO-NES_TERMOMETRICAS.

6. Interpolación espacial de los residuos. Utilizaremos un algoritmo distinto al empleado para calcular la precipitación. En este caso es IDW.

○ GIS Manager > Raster > Interpolate surfaces > IDW from vector points, para abrir el módulo v.surf.idw.

■ Name of input vector map = ESTACIONES_TERMOMETRICAS

■ Name for output raster map = TMED_ANU_res

■ Number of interpolation points = 12

■ Attribute table column with values to interpolate = TMED_ANr

■ Run

■ Cierra v.surf.idw.

7. Suma del mapa obtenido por regresión múltiple y el mapa de residuos para obtener el mapa de temperatura final: Teclea y ejecuta en la línea de coman-dos la siguiente expresión:

r.mapcalc TMED_ANU=TMED_ANU_reg+TMED_ANU_res

Ahora que ya no los necesitas, puedes borrar los archivos TMED_ANU_res y TMED_ANU_reg ejecutando la siguiente expresión en la línea de comandos:

g.remove TMED_ANU_reg,TMED_ANU_res

Hemos visto que el cálculo de mapas de temperatura es laborioso, y por motivos de tiempo, no vamos a calcular ninguno más. Sin embargo, sería ideal disponer de, al menos, el mapa de temperaturas medias máximas del mes más cálido (columna TMED_MAX en la base de datos), el de temperaturas medias mínimas del mes más frío (columna TMED_MIN), y el rango anual de temperatura (TMED_MAX – TMED_MIN).

2.7 LA CORRELACIÓN ENTRE VARIABLES

En cualquier tipo de análisis estadístico, introducir variables predictoras excesiva-mente correlacionadas entre sí puede llevar a obtener resultados difíciles de



interpretar. Cuando se prepara un conjunto de variables para alimentar modelos de distribución, también es necesario tener en cuenta esta cuestión. Y resulta normal que muchas de las variables estén correlacionadas entre sí, porque están derivadas de un mismo modelo de elevaciones, porque existen similitudes entre ellas, como en las bandas Landsat.

A continuación vamos a analizar la correlación espacial (utilizando el coeficiente de correlación de Pearson) que existe entre las variables que hemos generado. GRASS dispone de una interfaz gráfica para un módulo, r.covar , que calcula la matriz de co-rrelaciones de n mapas, pero no la exporta de modo que la podamos utilizar. Vamos a utilizar la versión de línea de comandos de r.covar, para exportar la matriz de co-rrelaciones a un archivo de texto. La sintaxis de la orden es la siguiente (la sección iniciada con “>>” se utiliza para redirigir el resultado a un fichero en la dirección es-pecificada):

r.covar -r map=mapa_1,mapa_2,...,mapa_n >> C:/CURSO_MODELOS/matriz_corre-lacion.txt

Los mapas que introduciremos en el análisis de correlación son únicamente aquellos que tenemos intención de utilizar como variables predictivas en los modelos de dis-tribución. Por tanto, los mapas ALMERIA, DIS_MAR, LATITUD, LONGITUD, MASCARA_ELEV, MASK y OR_360 no será necesario añadirlos en la expresión.

1. Una buena idea para reducir el tiempo de cálculo es reducir temporalmente la resolución a la mitad ejecutando en la línea de comandos:


2. Teclea y ejecuta (es muy posible que en la ventana output aparezca que la operación se ha detenido con un error. Realmente no es así, y en un par de minutos el cálculo estará terminado):

r.covar -r map=DIV_TOPO,ELEV,ITP,LSAT_1,LSAT_2,LSAT_3,LSAT_4,LSAT_5,LSAT_6,NDVI,OR_EO,OR_NS,PEND,POS_TOPO,PRE_ANU,PRE_MAX,PRE_MIN,PRE_R

AN,RAD_INV,RAD_VER,TMED_ANU >> C:/CURSO_MODELOS/matriz_correlacion.txt

3. Restaura la resolución original; teclea y ejecuta:g.region res=0:00:03

4. Abre con Calc el archivo matriz_correlacion.txt, que está en C:/CURSO_MO-DELOS. En el diálogo Importación de texto, marca la opción Espacio en Opciones de separación, desmarcando las demás. En la opción A partir de lí-nea, escribe 40.

○ Selecciona las celdas con datos, y sustituye los puntos por comas (menú Editar > Buscar y reemplazar).

○ Crea una nueva primera fila y columna en blanco; en la primera fila, escri-be secuencialmente los nombres de las variables tal y como estaban para el cálculo de la matriz de correlación: DIV_TOPO ELEV ITP LSAT_1 LSAT_2 LSAT_3 LSAT_4 LSAT_5 LSAT_6 NDVI OR_EO OR_NS PEND POS_TOPO PRE_ANU PRE_MAX PRE_MIN PRE_RAN RAD_INV



RAD_VER TMED_ANU.

○ Copia la fila con los nombres de las variables, y pégala en la primera co-lumna, utilizando la opción Transponer del Pegado especial. Ahora tienes la matriz de correlaciones completa. Para mejorar la visibilidad, puedes borrar todos los valores por encima o por debajo de la diagonal de “unos”.

○ Es el momento de establecer un umbral máximo de correlación entre dos variables. No existe una norma concreta al respecto, pero lo habitual es establecer este umbral dentro del intervalo [0.5, 0.8]. En este caso lo esta-bleceremos en 0.7 (incluyendo -0.7). Para localizar estos valores en la matriz, lo mejor es utilizar la función Formato condicional, para destacar los valores por encima del umbral.

■ Pulsa la tecla F11 para abrir el cuadro Estilo y formato.

■ Crea un nuevo estilo de celda, usando el botón derecho del ratón so-bre el cuadro (zona blanca) y pulsando Nuevo.

● Pestaña Administrar

○ Nombre = CORRELACION

● Pestaña Fondo

○ Selecciona un color a tu gusto para destacar los valores por en-cima del umbral.

● Aceptar

■ Selecciona todas las celdas con valores, y en el menú Formato, abre el diálogo Formato condicional.

● Condición 1: El valor de la celda mayor o igual que 0,7; Estilo de celda = CORRELACION

● Condición 2: El valor de la celda menor o igual que -0,7; Estilo de celda = CORRELACION

● Aceptar.

Si observamos las celdas destacadas, observamos que:

● Las variables PEND y DIV_TOPO tienen una correlación igual 0.78; seleccio-naremos PEND como representante de esta pareja.

● Las variables TMED_ANU y ELEV tienen una correlación igual -0.97; selec-cionaremos TMED_ANU como representante de esta pareja.

● Las variables OR_NS y RAD_INV tienen una correlación igual -0.78; seleccio-naremos RAD_INV como representante de esta pareja.

● Las variables PRE_ANU y PRE_MAX tienen una correlación igual 0.88; selec-cionaremos PRE_MAX como representante de esta pareja.

● Las variables PRE_RAN y PRE_MAX tienen una correlación igual 0.99; selec-cionaremos PRE_MAX como representante de esta pareja.

● Las capas Landsat tienen todas un índice de correlación mayor de 0.7. Esta cuestión la resolveremos en el siguiente apartado.



Observando estos resultados, resulta que para mantener una correlación entre ca-pas inferior al umbral establecido, deberíamos descartar para trabajar las capas: DIV_TOPO, ELEV, OR_NS, PRE_ANU y PRE_RAN. En adelante, no trabajaremos más con ellas. Entenderás que fue necesario tomarse el trabajo en generarlas, para llegar a este punto...

Una cuestión importante: si para el trabajo que estamos desarrollando nos interesara expresamente conocer la importancia de la precipitación anual (PRE_ANU) en la dis-tribución de la especie, no deberíamos descartar esta variable, sino la correlacionada con ella.

2.8 ANÁLISIS DE COMPONENTES PRINCIPALES

Un problema frecuente, derivado del análisis de imágenes multiespectrales, como las Landsat con las que estamos trabajando, es el de la correlación existente entre ellas; representan mucha información redundante, y esto no aporta nada nuevo, e in-crementa el tiempo de cálculo de los modelos de distribución.

El análisis de componentes principales aplicado a las bandas Landsat busca compri-mir toda la información contenida en las bandas originales, en un nuevo conjunto más pequeño, sin perder la información original más significativa.

GRASS posee un módulo específico para hacer esta reducción de datos, i.pca:

1. GIS Manager > Imagery > Transform image > Principal Components, para abrir el módulo i.pca.

○ Name of input raster maps = LSAT_1,LSAT_2,LSAT_3,LSAT_4,LSAT_5,LSAT_6

○ Name for output raster map = cpLSAT (cp, de componente principal)

● Run

El resultado es un conjunto de 6 imágenes con el prefijo cpLSAT, que representan los factores obtenidos mediante el análisis de componentes principales. Tienen una correlación baja entre sí, y de la primera a la última, recogen sucesivamente la va-rianza del conjunto de datos. Habitualmente, el primer factor ya recoge un porcentaje importante de la misma (80% o más). Nosotros utilizaremos cpLSAT_1 y cpLSAT_2 como sustitutas del conjunto de datos completo. Puedes borrar las restantes:

g.remove cpLSAT.3,cpLSAT.4,cpLSAT.5,cpLSAT.6

Ahora eliminaremos los puntos de los nombres de las dos nuevas variables:g.rename cpLSAT.1,cpLSAT_1g.rename cpLSAT.2,cpLSAT_2

En este momento ya hemos terminado de generar las variables con las que calibra-remos los modelos de distribución. El listado completo es el que sigue:

● ITP

● NDVI

● OR_EO

● PEND



● POS_TOPO

● PRE_MAX

● PRE_MIN

● RAD_INV

● RAD_VER

● TMED_ANU

● cpLSAT_1

● cpLSAT_2

Sin embargo, aún tenemos algún preprocesamiento más que hacer...

2.9 CAMBIO DE RESOLUCIÓN DE LAS VARIABLES

2.9.1 Introducción

Disminuir la resolución espacial de las variables en este caso no debería ser necesa-rio, porque lo ideal es buscar siempre una máxima resolución de trabajo. Sin embargo, para este curso, en algún momento será necesario acelerar el tiempo de cómputo de los modelos de distribución, por lo que vamos a generar conjuntos de variables a dos resoluciones distintas: 90 metros y 1000 metros.

Hasta el momento se ha trabajado con una resolución horizontal de 90 metros (0º 00' 03''), tal y como está establecida en la región de trabajo de GRASS. Esta sería la resolución de las variables para los modelos de distribución si las exportáramos en este momento. GRASS permite cambiar la resolución de trabajo muy rápidamente, ejecutando el comando g.region res=n, siendo n la resolución en formato g/m/s (por ejemplo, 0:00:03, que es la resolución actual de trabajo). Por tanto, si cambiamos la resolución de trabajo con g.region res=0:00:06, a partir de este momento estaríamos trabajando a una resolución en torno a los 180 metros, y las variables se exportarían en esa resolución.

Esta operación rápida de cambio de resolución afecta levemente a la calidad de las variables si el cambio en resolución es pequeño, pero puede ser grave si el cambio de resolución es significativo (por ejemplo, de 0:00:03 a 0:00:30), porque el algoritmo de interpolación que utiliza GRASS por defecto, llamado Vecino Más Próximo (Nea-rest Neighbor) funciona de modo muy simple (para ganar velocidad), sesgando la información: imagina cuatro celdas con los valores de altitud (observa que se trata de una variable contínua) 1, 2, 3 y 4, teniendo en cuenta que la resolución espacial es 0:00:03:

1 23 4

Al cambiar la resolución a 0:00:06, estas celdas se transformarían en una sola. Cuando GRASS utiliza el interpolador Nearest Neighbor, el valor de la nueva celda sería igual al de la celda superior izquierda (porque es la “vecina más próxima” se-gún GRASS lee el mapa para cambiar la resolución) del conjunto de cuatro celdas, que en este caso es 1.



Imagina que utilizamos un interpolador que en lugar de seleccionar como represen-tante de las cuatro celdas la primera de ellas, hiciera el promedio de las cuatro; en este caso, el valor de la nueva celda sería 2.5. Aparentemente este nuevo valor es más representativo de la altitud en la zona que el 1 que obtuvimos con el método Nearest Neighbor.

Supongamos ahora una variable cualitativa, como podría ser un mapa de usos del suelo, en el que cada valor representa un uso diferente:

1 23 3

A simple vista, si tuviéramos que representar el valor de estas cuatro celdas en una sola, el más apropiado sería 3 (la moda), porque es el valor dominante.

2.9.2 Cambiando resoluciones

GRASS dispone de un módulo específico capaz de hacer estos cambios de resolu-ción basados en estadísticas de celdas: r.resamp.stats (GIS Manager > Raster > Develop map > Resample using aggregate statistics).

Este módulo transforma la capa que se le indique A LA RESOLUCIÓN ACTUAL DE LA REGIÓN. Por tanto, si queremos cambiar capas de resolución, antes hay que cambiar la resolución de la región; teclea y ejecuta en la línea de comandos:


Ahora abre el módulo r.resamp.stats:

● Name for input raster map = ITP

● Name for output raster map = 1000m_ITP

● Aggregation method = Average

● Run

Ahora deberías repetir el proceso con las demás capas, para pasarlas todas a una resolución de 1000 metros, pero para ahorrar trabajo, en la carpeta GUIONES, está el guión CAMBIA_RESOLUCION.txt, que preparará todas las variables que vamos a utilizar para los modelos de distribución a la resolución de 1000m. Para ejecutar el guión:

1. Menú de inicio de Windows > Todos los programas > GRASS > GRASS Com-mand Line, para abrir la versión de GRASS en línea de comandos, que permitirá la ejecución del guión.

2. Comprueba que la Location y el mapset son correctos (ALMERIA_latlong y PERMANENT), y pulsa secuencialmente las teclas ESC y ENTER.

3. Ordena a la línea de comandos que trabaje en el directorio GUIONES:cd C:\CURSO_MODELOS\GUIONES

4. Ejecuta el guión, escribiendo la siguiente expresión y pulsando ENTER:sh CAMBIA_RESOLUCION.txt



2.10 EXPORTACIÓN DE LAS VARIABLES AMBIENTALES

El trabajo de generar variables ambientales para alimentar a los modelos de distribu-ción ya está realmente terminado. Ahora vamos a exportarlas a un formato que el programa de modelización “entiendan”: ESRI ASCII GRID, o ARC/INFO ASCII (ex-tensión .asc).

● GIS Manager > menú File > Export raster map > ESRI ASCII GRID, para abrir el módulo r.out.arc.

○ Name of an existing raster map layer = nombre_mapa

○ Name of an output ARC-GRID map = C:/CURSO_MODELOS/GEODA-TOS/VARIABLES/nombre_mapa.asc

○ Number of decimal places = 2

● Run

● Deberías repetir la acción sucesivamente cambiando nombre_mapa por el nombre de cada una de las variables, para las tres resoluciones disponibles. Como el proceso es largo, en la carpeta GUIONES está el guión EXPORTAR_VARIABLES.txt, que envía las variables en formato .asc (ESRI ASCII) a C:\CURSO_MODELOS\GEODATOS\VARIABLES dentro de la cuál están las carpetas 90m, y 1000m, que almacenarán respectivamente las va-riables de cada resolución.



SECCIÓN 3: PREPARACIÓN DE LOS REGISTROS DE PRESENCIA


3.1 Tipos y calidad de los datos

Los modelos de distribución deben alimentarse con registros de presencia de la es-pecie de trabajo. El origen de estos registros puede ser variado; de mayor a menor calidad: 1) marcas de GPS recogidas en muestreos sistemáticos; 2) marcas de GPS recogidas casualmente durante salidas de campo; 3) polígonos o puntos dibujados sobre ortoimágenes de alta resolución en un SIG; 4) marcas a mano sobre un mapa 1:10000 o 1:50000; 5) cuadrículas UTM de 1x1 o de 10x10 Km; 6) topónimos.

En el caso que nos ocupa, de variables con alta resolución espacial, únicamente son útiles las tres primeras opciones, que están indicadas para tamaños de celda a partir de los 10 metros.

En la recogida de datos con el GPS es importante que la señal de los satélites sea clara, respetar los tiempos de toma de la georreferencia, que el datum esté correcta-mente configurado y comprobar que el sistema EGNOS (o WAAS) esté activado (permite una resolución espacial en torno a los 3-6 metros).

Los puntos y polígonos sobre ortoimágenes de alta resolución son apropiados cuan-do se conoce perfectamente el terreno, y se pueden localizar con precisión puntos de referencia. La utilidad de esta técnica está fuera de duda cuando se trabaja con especies de porte grande, como arbustos o árboles.

Las marcas a mano sobre mapa, trabajando en el terreno, están sujetas a errores de apreciación grandes, con un rango de fiabilidad entre 50 y 100 metros sobre carto-grafías 1:10000, y entre 100 y 300-400 metros sobre cartografías 1:50000. En estos casos hay que adaptar la resolución espacial de las variables al radio de error esti-mado para cada georreferencia, y siempre es más fiable trabajar sobre una resolución algo superior al doble de este radio.

Las citas de cuadrículas UTM de 1x1, como la mayoría de los registros de herbario (o de GBIF), deben ser utilizadas con variables de al menos 1 kilómetro de resolu-ción horizontal, pero sería importante adaptar las celdas de las variables a la malla UTM 1X1, para evitar errores que pueden llegar a ser de 2 kilómetros en caso de una mala coincidencia entre capas. Lo mismo puede aplicarse con citas en cuadrícu-las UTM de 10x10, con variables de 10 kilómetros de resolución.

Para solucionar el problema de los topónimos (con el que es mejor no encontrarse), se han diseñado los Nomenclátor, que permiten ubicar en un mapa topónimos con-cretos, o proporcionan directamente las coordenadas más aproximadas. En la página de herramientas geográficas del nodo español de GBIF podéis encontrar al-gunas de estas herramientas (http://www.gbif.es/herramgeo.php).

En la ruta C:\CURSO_MODELOS\GEODATOS\PRESENCIAS puedes encontrar la hoja de cálculo PRESENCIAS.ods. Tiene tres hojas: GPS, con datos tomados en campo mediante GPS; GBIF, con registros de herbario (cuadrículas 1x1) y TALLER, en la que prepararemos los distintos archivos. A partir de los datos de estas hojas trabajaremos los ejemplos del curso.


http://www.gbif.es/herramgeo.php


3.2 Números mínimo y máximo de presencias

Sobre el tamaño de muestra mínimo para hacer un modelo útil no existe acuerdo, y puede variar según la técnica de modelización empleada.

Como norma general, es difícil trabajar con normalidad utilizando menos de 10 regis-tros de presencia. Se pueden conseguir modelos bastante aceptables con tamaños de muestra entre 10 y 30, siendo esta última cifra el mínimo óptimo. Sin embargo esto dependerá de la coherencia ecológica que tengan entre sí esos puntos de pre-sencia. Imagina 10 puntos de presencia de una especie de amplia distribución y gran plasticidad ecológica, con distintos valores de las condiciones ambientales medidos en cada localidad. Difícilmente podrá sacar ningún algoritmo un modelo válido en es-tas circunstancias. Sin embargo, 5 únicas localidades coherentes entre sí dan datos mínimos pero suficientes para calibrar un modelo de cierta utilidad.

Por tanto se puede decir que la calidad del modelo no solo va a depender del tama-ño de la muestra, sino de la coherencia de la misma, la naturaleza de la especie, y el modo en el que el algoritmo de modelado trata los datos.

No puede hablarse de un número máximo de registros de presencia, porque no es habitual trabajar con más de 1000 puntos. Hasta donde nuestra experiencia nos dice, algunos algoritmos no presentan problemas trabajando con más de 9000 regis-tros de una misma especie.

3.3 Densidad de los datos

Es una cuestión a la que se le suele prestar poca atención, pero que en algunos al-goritmos de modelado presenta una gran importancia. Una agregación espacial desequilibrada de los datos de presencia puede degradar el resultado, por una pon-deración por exceso para las condiciones ambientales que se dan en las áreas en las que hay mayor densidad de registros de presencia (ver Figura 3).

Esta situación se da fácilmente cuando transformamos un polígono en puntos con una resolución elevada. Si el polígono coexiste con otros registros puntuales, apare-ce un desequilibrio en la densidad de la muestra (CASO 1, en la Figura 3). En este


Figura 3: Posibilidades de equilibrar la densidad de muestras de presencia


caso es recomendable disminuir la densidad de puntos dentro del polígono, bien ha-ciendo un muestreo aleatorio dentro del mismo (CASO 2), o un muestreo sistemático (CASO 3).

3.4 Partición aleatoria de datos

Para evaluar los modelos de distribución, una entre las distintas técnicas disponibles para obtener datos independientes es la partición aleatoria de datos. Los registros de presencia se dividen al azar en dos grupos, uno de los cuáles se utilizará para ca-librar el modelo (conjunto de calibrado), y otro para evaluarlo (conjunto de evaluación).

Cuando se dispone de más de 10 registros de presencia, lo normal es utilizar un 75% para calibrar el modelo y un 25% para evaluarlo (aunque sería recomendable recalibrar el modelo con todos los registros de presencia). Si en número de registros es mucho mayor, se puede llegar a utilizar un 70% de calibrado y un 30% de evalua-ción, o incluso un 60/40.

Un método fácil para seleccionar aleatoriamente los puntos de calibrado y evalua-ción con Calc consiste en utilizar la función ALEATORIO, como veremos en el siguiente apartado.

3.5 Preparación de datos de presencia

El programa con el que vamos a hacer modelos de distribución acepta las coordena-das de las especies en formato de texto separado por tabulaciones, con extensión .txt. Debe ir una especie por archivo de texto, con el siguiente formato:

#id label long lat abundance1 linaria nigricans 2.35582 37.07454 12 linaria nigricans 2.38859 37.11790 13 linaria nigricans 2.34076 37.10853 1...

El modo más rápido de crear un archivo de texto con los campos separados por ta-bulaciones es copiar y pegar los datos directamente desde una hoja de cálculo al archivo de texto plano en blanco:

1. En la carpeta C:\CURSO_MODELOS\GEODATOS\PRESENCIAS crea un ar-chivo de texto en blanco (pulsa el botón derecho del ratón sobre el explorador abierto en la carpeta, abre el menú nuevo, y pulsa sobre documento de tex-to), nombrándolo Linaria_nigricans.txt. Ábrelo con Notepad++ (botón derecho sobre el icono del archivo, y pulsar sobre Edit con Notepad++).

2. Abre la hoja de cálculo PRESENCIAS.ods, y copia todos los registros de la especie Linaria nigricans de la hoja GPS en la segunda fila y columna (celda B2) de la hoja TALLER.

3. En las celdas de la primera fila escribe la cabecera del fichero: #id, label, long, lat, abundance

4. En la columna de la derecha (la siguiente a abundance, columna F) pega y



arrastra hacia abajo la función ALEATORIO, hasta que todos los registros ten-ga su valor aleatorio.

5. La función aleatorio tiene un comportamiento incómodo: sus valores se actua-lizan cada vez que modificamos algo en la hoja de cálculo; para fijarlos, cópialos y pégalos en la columna de la derecha usando la opción Pegado Es-pecial, desmarcando Pegar todo y Fórmulas, y marcando Números. Elimina la columna original en la que insertaste la función ALEATORIO.

6. Selecciona todas las columnas con datos, y en el menú Datos, selecciona Or-denar.

○ Pestaña Opciones:

■ El intervalo contiene etiquetas de columnas = marcado

○ Pestaña Ordenar por criterios:

■ Ordenar según = Columna F

○ Aceptar

7. En la columna A (cabecera #id) crea números correlativos para identificar cada registro.

8. Rellena la columna abundance con valores 1.

9. Elimina la columna F, en la que están los valores aleatorios.

10.Separaremos el conjunto de datos en dos conjuntos, uno con el 60%, y otro con el 40% (111 y 75 respectivamente). En la última columna, hasta el registro 112, escribe calibrado. Desde el registro 113 hasta el final, en la misma co-lumna escribe evaluación.

11. Cambia el nombre de la hoja de TALLER a LNIGRICANS.

12.Copia las cinco columnas (olvida por el momento esa en la que has escrito calibrado y evaluación; más adelante veremos que significado y utilidad tiene todo esto) desde la cabecera hasta el registro 112 y pégalos en el documento de texto Linaria_nigricans.txt. Ahora puedes guardar el archivo de presencias de que has creado, y la hoja de cálculo.



SECCIÓN 4: MODELOS DE DISTRIBUCIÓN CON OPENMODELLER


El programa OpenModeller es gratuito, y de código abierto. Su principal objetivo es proporcionar a los investigadores una herramienta para generar modelos espaciales de nicho ecológico. Permite generar y comparar múltiples modelos simultáneamente. Incluye varios algoritmos diferentes, y su arquitectura modular facilita la incorpora-ción de nuevos algoritmos con un escaso coste de desarrollo.

El interfaz gráfico del programa permite de modo fácil preparar las capas de varia-bles, gestionar los parámetros de los distintos algoritmos, diseñar experimentos con múltiples modelos, y visualizar los resultados, proporcionando un completo informe de cada uno de ellos.

Para comenzar vamos a crear varios modelos de distribución de la planta Linaria ni-gricans, a una resolución de 1000 metros. Durante la ejecución aprovecharemos para explicar las particularidades de cada uno de los modelos que están implemen-tados en OpenModeller.

Inicia el programa, que comenzamos.

4.1 Preparación de las variables

1. Menú Edit > Preferences

○ Pestaña Saving:

■ Data Directory = C:/CURSO_MODELOS/RESULTADOS

■ Pulsa OK.

2. Menú Edit > Layer sets:

○ Name = ALMERIA_1000m

○ Pulsar sobre el símbolo “+”

■ Se abre el diálogo Raster Layer Selector

● Como Base Dir busca y selecciona C:/CURSO_MODELOS/GEO-DATOS/VARIABLES

● Despliega el contenido de la carpeta 1000m, selecciona todas las capas y pulsa OK.

○ Asegúrate de que la entrada de la sección Mask layer corresponde a algu-na de las capas del conjunto que has seleccionado. Esta es la capa que indicará a OpenModeller el área de trabajo y la resolución.

○ Pulsa Apply y Close.

○ Ahora repite la operación para las variables de 90m; nombra el conjunto de capas como ALMERIA_90m. En este momento tenemos todas las ca-pas preparadas para su utilización con OpenModeller.



4.2 Ejecución de un experimento de prueba

1. Menú File > New Experiment, para abrir el diálogo Experiment Designer:

○ Name = L_nigricans_1000m

○ Coordenate System = Lat/Long WGS84

○ Ocurrence Data:

■ Pulsar sobre el símbolo “+”; buscar y seleccionar la carpeta C:/CUR-SO_MODELOS/GEODATOS/PRESENCIAS. Debe aparecer el fichero Linaria_nigricans.txt seleccionado.

○ Agorithms: selecciona todas las entradas (excepto AquaMaps y las tres úl-timas, que son variantes de Support Vector Machines).

○ Model Settings

■ Creation Layers = ALMERIA_1000m

■ Projection Layers = ALMERIA_1000m

■ Output Format = cualquiera de las capas de C:/CURSO_MODELOS/GEODATOS/VARIABLES/1000m

○ Ok. Preguntará si quieres ejecutar el experimento ahora; contesta Yes.

Al estar las capas a baja resolución, el experimento se va a ejecutar con cierta rapi-dez. Cuando la barra de progreso haya llegado al 100%, pulsa OK, y observa el informe de resultados. Vamos a conocer un poco más la lógica interna de cada uno de los algoritmos.

4.3 Lógica interna de los distintos algoritmos

4.3.1 Bioclim

Para cada una de las variables se define una envuelta bioclimática cuadrangular para la especie, calculando la media y la desviación estándar de los valores de los registros de presencia sobre la variable, asumiendo una distribución normal.

De este modo, para cada variable se tiene en cuenta una envuelta bioclimática ópti-ma para la especie, representada por el intervalo [m-c*s, m+c*s], donde m es la media, s es la desviación estándar, y c un parámetro que define qué porcentaje del rango de desviación estándar queda dentro de la envuelta. Por defecto está estable-cido en 0.674 que corresponde con un 50% del rango de la desviación estándar, mientras que un valor 3.000 corresponde con un 99.7% del rango de desviación es-tándar incluido dentro de la envuelta óptima. Este parámetro, por tanto, controla la extensión de la envuelta bioclimática óptima.

Adicionalmente se define una envuelta subóptima, a partir de los valores máximo y mínimo de los puntos de presencia sobre la variable.



En la Figura 4 queda gráficamente explicado el concepto de envueltas óptima y su-bóptima. Incrementando el valor del parámetro c, se incrementa el área azul claro (envuelta óptima), aumentando el número de celdas con predicción favorable hacia la presencia de la especie.

Cada celda del mapa de idoneidad resultante se clasifica según los siguientes crite-rios:

● Apropiada para la especie (celdas en color verde): los valores de todas las variables quedan dentro de la envuelta bioclimática óptima para la especie.

● Marginalmente apropiada para la especie (celdas en color rojo): los valores de al menos una de las variables quedan fuera de la envuelta bioclimática óp-tima, pero dentro de la subóptima.

● No apropiada (celdas en color azul): los valores de al menos una de las va-riables quedan fuera de la envuelta subóptima para la especie.

4.3.2 Climate Space Model

Desgraciadamente, la documentación de este algoritmo está incompleta y es cierta-mente confusa. Solo puede decirse con certeza que es un modelo de distribución basado en el análisis de componentes principales. El algoritmo estandariza los valo-res de cada una de las variables ambientales sobre el conjunto de registros de presencias y calcula la matriz de covarianzas. Posteriormente calcula los valores propios y el vector propio de la matriz de covarianzas. Del vector propio se eliminan secuencialmente todos los factores cuyo eigenvalue está por debajo del definido por el parámetro “Number of standard deviations” del modelo (método Broken-Stick).

Para generar el mapa de idoneidad del hábitat, el algoritmo en primer lugar estanda-riza las variables, y las multiplica por sus respectivos vectores propios para generar los componentes. Los parámetros para calibrar el algoritmo son:


Figura 4: Descripción gráfica del funcionamiento de BIOCLIM.


● Number of random eigenvalues: entero, dentro del rango [1, 1000], con un valor típico de 8. Es el número de veces que el algoritmo baraja al azar las fi-las de la matriz de variables para obtener un valor propio aleatorio, que se usa como referencia para la selección del número de componentes a retener.

● Number of standard deviations: real, dentro del rango [-10, 10], con un valor típico de 2.0. Cuando los valores propios de la matriz barajada al azar se su-man, este número es añadido a la media de todos los valores propios. Cualquier componente cuyo valor propio está por encima de el umbral esta-blecido se retiene.

● Minimum number of components in model: entero, dentro del rango [1, 20], con un valor típico de 3. Determina el número mínimo de componentes en el modelo.

El mapa de idoneidad resultante muestra un gradiente de colores, indicando los más cálidos zonas idóneas para la especie.

4.3.3 Envelope Score

Este algoritmo, similar a Bioclim, usa los valores mínimos y máximos observados de cada variables para definir las envueltas bioclimáticas. La probabilidad de ocurrencia de la especie en cada celda se define según la expresión p = nº variables dentro del criterio min-max / nº total de variables. Si se tienen en cuenta únicamente las celdas con probabilidad 1, el resultado es similar al obtenido con Bioclim,

4.3.4 Environmental Distance

Este algoritmo se basa en métricas de similaridad ecológica. Puede utilizar cuatro métricas diferentes: Euclídea, Mahalanobis, Manhattan/Gower y Chebyshev.

Los parámetros que presenta son:

● Nearest 'n' points (puntos vecinos): Con rango [0, oo], y un valor típico de 1. Se refiere al número de puntos cercanos que se utilizan como referencia cuando se calculan las distancias ecológicas. Cuando el parámetro está esta-blecido en 1, las distancias se miden a el punto de presencia más cercano. Cuando el parámetro está establecido en 0, las distancias se miden respecto a la media de todos los puntos.

● Maximum distance: con rango [0, 1] y valor típico de 0.1, describe la máxima distancia de referencia para definir el espacio ecológico fuera del cual las con-diciones se consideran no apropiadas para la especie. El valor 1 corresponde con la máxima distancia posible entre dos puntos en el espacio ecológico, por lo que utilizar este valor supone que todos los puntos del espacio geográfico tendrán asociada una probabilidad de presencia en el resultado. La probabili-dad de presencia desciende linealmente con la distancia.

OpenModeller trae preparado el algoritmo separando las cuatro métricas, por lo que en el menú de modelos a ejecutar podemos seleccionarlas por separado.

Distancia euclídea (http://en.wikipedia.org/wiki/Euclidean_distance): Se refiere a la distancia “convencional” más corta entre dos puntos de un espacio de n-dimensio-


http://en.wikipedia.org/wiki/Euclidean_distance


nes. Mide la distancia entre los valores de las variables de la celda y los valores de las variables del punto de presencia más cercano, expresándola como un índice de similaridad.

Distancia de Chebyshev (http://en.wikipedia.org/wiki/Chebyshev_distance): Es la máxima distancia posible entre dos puntos, en cualquier dimensión de los ejes de coordenadas. Se denomina también “distancia del tablero de ajedrez” (ver Figura 5). La siguiente figura es bastante explicativa al respecto; la distancia del rey a las es-quinas es la misma que al lado del tablero al que pertenece la esquina.

Distancia de Mahalanobis (http://es.wikipedia.org/wiki/Distancia_de_Mahalanobis): Se utiliza para determinar la similitud entre dos variables aleatorias multidimensiona-les. Se diferencia de la distancia Euclídea en que tiene en cuenta la correlación entre las variables aleatorias.

Distancia de Manhattan (http://en.wikipedia.org/wiki/Manhattan_distance): Es la suma de las diferencias absolutas de las coordenadas de los dos puntos entre los que se quiere medir la distancia. La Figura 6 resume el concepto.

4.3.5 GARP

GARP (Genetic Algorithm for Rule Set Prediction) es un algoritmo genético que ge-nera modelos que describen las condiciones ecológicas bajo las que la especie puede mantener poblaciones viables.

Un algoritmo genético es un método de inteligencia artificial inspirado en el concepto de la evolución guiada por la selección natural. La idea clave es tratar de desarrollar


Figura 5: Ejemplo gráfico de como se mida la distancia de

Chebyshev

Figura 6: Ejemplo gráfico explican-do diferencias en la medida de

distancias de Manhattan y euclí-dea

http://es.wikipedia.org/wiki/Distancia_de_Mahalanobis

http://en.wikipedia.org/wiki/Chebyshev_distance


soluciones a los problemas utilizando el mismo mecanismo que los organismos vivos utilizan para evolucionar. Con este objetivo se crea un conjunto de soluciones poten-ciales y alternativas a un problema (por ejemplo, distintos genotipos generados por mutaciones), y posteriormente, y de modo iterativo, se modifica y testea este conjun-to, hasta que una solución óptima se encuentra (supervivencia del genotipo más apropiado al ambiente).

GARP busca iterativamente correlaciones no aleatorias entre la presencia de las es-pecies y las variables ambientales, utilizando distintos tipos de reglas. Cada regla implementa un método diferente de construir modelos de nicho ecológico. Las reglas son atómica, rango regresión logística, envuelta bioclimática, y envuelta bioclimática inversa (atomic, range, logistic regression, bioclimatic envelope y negative bioclima-tic envelope).

Una regla atómica es una conjunción de valores únicos de las variables ambientales. Un ejemplo de regla atómica en lenguaje natural sería: Si la temperatura media anual es igual a 19.5ºC y la precipitación anual es igual a 380mm, entonces la espe-cie está presente.

Una regla de rango es una generalización de la regla Bioclim. Según esta regla, de-terminadas variables pueden considerarse irrelevantes, y tener cualquier valor. La regla de rango permite negación, para aplicarse fuera de determinados rangos. Por ejemplo: Si la temperatura media anual no es mayor de 23ºC y es menor o igual que 26ºC, entonces la especie está presente.

Una regresión logística es una forma de ecuación de regresión en la que el resultado es transformado en una probabilidad. La regla de regresión logística es una adapta-ción de los modelos de regresión logística para funcionar como reglas. Resulta útil cuando la especie tiene una respuesta ecológica basada en los gradientes ambien-tales. La regresión logística proporciona la probabilidad p de que una regla sea aplicada. p se calcula según la expresión p=1/(1-e-y), donde y es la suma de la ecua-ción lineal que representa la regla a+(a*a)+b+(b*b)+...+n+(n*n), donde a...n representa las variables y sus coeficientes. Si p es mayor de 0.75, entonces la regla logística predice presencia.

Una regla de envuelta bioclimática es una conjunción de rangos de todas las varia-bles tenidas en consideración. Un ejemplo de regla de envuelta bioclimática sería: Si la temperatura media anual está entre 16ºC y 19ºC, y la precipitación anual está en-tre 300 y 410mm, entonces la especie está presente.

Una regla de envuelta bioclimática negativa es la inversa a la anterior, definiendo rangos de ausencia.

En GARP, una población es un conjunto de reglas individuales para predecir la pre-sencia o ausencia de la especie en una celda. Las reglas están compuestas de cromosomas, cada uno de los cuales codifica los coeficientes de las distintas varia-bles. El éxito de cada individuo de la población se mide en cada iteración (generación) según la significación estadística de la regla prediciendo presencia y ausencia, determinado su éxito reproductivo. La siguiente generación está formada por los individuos (reglas) con mayor éxito reproductivo. Este procedimiento se repite haste que un criterio de parada es alcanzado. GARP almacena en un archivo las mejores reglas, que forman el conjunto de soluciones al problema.



Estas reglas son aplicadas a cada celda del territorio (una sola regla o muchas por celda), seleccionando la de mayor perspectiva de éxito para determinar la presencia o ausencia de la especie. El resultado es un mapa que indica las áreas apropiadas (presencia), no apropiadas (ausencia) y sin datos (sus valores quedaron fuera de las reglas seleccionadas). Al repetir el proceso en múltiples ocasiones, se observa que los resultados nunca coinciden; el sistema no es determinista, y cada modelo es di-ferente (porque GARP introduce mutación estocástica de generación a generación). Un único modelo por tanto suele ser poco significativo, y el tratamiento más actual es el ensamblado de múltiples resultados (sumándolos) para formar un mapa predic-tivo.

En la versión que utilizamos de OpenModeller, hay cuatro implementaciones distin-tas de este algoritmo, dos de ellas basadas en el software Desktop Garp, y otras dos, nueva implementaciones del código exclusivas para OpenModeller, que consi-gue resultados mejor ajustados.

GARP (single run) – DesktopGARP implementation: genera una única simulación binaria de distribución, que solo indica presencia y ausencia, aunque en ocasiones podemos encontrar áreas sin predicción, si sus valores quedaron fuera del rango de la regla que define el modelo.

Los parámetros de esta implementación son:● Max generations: valor entero, en el rango [1, oo], con un valor típico de 400.

Determina el número de generaciones a lo largo de las cuales evoluciona la regla de clasificación.

● Convergence limit: valor real, en el rango [0, 1], con un valor típico de 0.01. Es la medida de cuanto cambia un set de reglas de una iteración a otra. En el tiempo el límite de convergencia decrece, y decrece más rápido cuando el set de reglas se vuelve estable. Es necesario configurarlo con cuidado, porque pude ocasionar largos tiempos de cálculo y modelos muy sobreajustados.

● Population size: valor entero, en el rango [1, 500], con un valor típico de 50. Determina el tamaño del conjunto de reglas.

● Resamples: valor entero, en el rango [1, 100000], con un valor típico de 2500.

GARP (single run) – OpenModeller implementation: Igual a la anterior, pero utiliza un algoritmo mejorado para obtener resultados más precisos.

GARP with best subsets – DesktopGARP implementation: es una ampliación de la anterior, preparada para generar múltiples modelos binarios, evaluarlos y unirlos para formar un único modelo continuo. Comparte con la anterior los cuatro paráme-tros de la misma, configurados por defecto con los mismos valores, y añade varios más:

● Training proportion: valor real, en el rango [0, 1], con un valor típico de 0.5. Determina la proporción de registros de presencia que se utilizará para entre-nar el modelo, mientras la proporción restante se utiliza para evaluar cada iteración (run).

● Total runs: valor entero, en el rango [1, 10000], y un valor típico de 10. Deter-mina el número total de modelos binarios que se generan durante el proceso



de modelado.

● Hard Omission Threshold: valor real, en el rango [0, 100]. Determina el error de omisión máximo aceptable (error que consiste en dejar fuera del área de presencia del modelo un registro de presencia de la especie) en porcentaje del número de registros de presencia. Si se establece en 100, se permiten modelos con cualquier valor de omisión.

● Models Under Omissión Threshold: valor entero, en el rango [0, 10000], con un valor típico de 20. Determina el número de modelos que deben quedar por debajo del Hard Omission Threshold. Debería ser inferior al número total de “Runs”, pero no está configurado de este modo por defecto (desconozco el motivo, tal vez un error).

● Commission Threshold: valor real, en el rango [0, 100], y valor típico 0.5. Determina el porcentaje de modelos de distribución que deben retenerse te-niendo en cuenta el error de comisión (error de incluir en el área de presencia del modelos puntos con ausencia de la especie. En este caso se sustituyen ausencia por puntos aleatorios).

● Commission Sample Size: valor entero, en el rango [1, oo], con valor típico 10000. Determina el tamaño de la muestra utilizada para calcular el error de comisión.

GARP with best subsets – OpenModeller implementation: Igual a la anterior, pero utiliza un algoritmo mejorado para obtener resultados más precisos.

4.3.6 Support Vector Machines

Las Support Vector Machines son métodos de aprendizaje artificial utilizados para clasificación. Teniendo en cuenta el conjunto de datos de entrada como dos vectores en un espacio de n-dimensiones, una SVM tratará de construir un hiperplano (objeto geométrico mínimo para dividir un espacio en dos) que maximice las diferencias en-tre los dos vectores. Los objetos se clasifican según su distancia al hiperplano. Cuanto mayor es la distancia entre el objeto y el hiperplano, más robusta es la clasi-ficación.


Figura 7: Representación gráfica de un hiperplano sepa-rando dos conjuntos de casos, que resume el

funcionamiento del algoritmo SVM


4.4 Algunas consideraciones sobre los resultados

Aunque no estés familiarizado con el mundo de los modelos de distribución, proba-blemente habrás llegado a alguna de estas conclusiones (y tal vez, algunas más...¡compártelas!).

● Hay muchos modos diferentes de calcular modelos de distribución.

● Distintos algoritmos producen resultados diferentes, a pesar de utilizar las mismas variables y puntos de presencia para calibrar los modelos.

● Los modelos resultantes pueden ser binarios (booleanos, de presencia-au-sencia), o continuos, expresando la idoneidad del hábitat según un gradiente.

● Los modelos predicen áreas de presencia más extensas de lo que podemos inferir observando los puntos de presencia de la especie.

Y supongo que también algunas cuestiones:

● ¿Cuáles son más útiles, los modelos binarios, o los continuos?

● ¿Qué representan los gradientes de los modelos continuos?

● ¿Por qué son tan diferentes unos modelos de otros?

● ¿Cuál de los algoritmos proporciona mejores resultados?

● Y todo esto, aparte de hacer mapitas de colores, ¿tiene alguna utilidad REAL?

En las siguientes secciones trabajaremos distintos ejemplos prácticos a través de los que profundizaremos en estas cuestiones.



SECCIÓN 5: EVALUACIÓN DE MODELOS DE DISTRIBUCIÓN

(Tiempo estimado: 1 hora y 30 minutos)

La evaluación estadística de los modelos de distribución es una de las cuestiones que más controversia causa en el debate relativo a la calidad de los modelos de dis-tribución.

Evaluar un modelo de distribución es medir su calidad, comprobar hasta que punto se ajusta a datos reales, para de algún modo determinar hasta que punto es capaz de representar con fiabilidad información desconocida.

Actualmente no hay un consenso sobre que técnica de evaluación es la más ade-cuada, y cada autor utiliza la que prefiere.

En esta sección se pretende proporcionar unos conocimientos previos y herramien-tas suficientes para afrontar una evaluación de modelos de distribución lo más correcta posible.

5.1 Evaluación de modelos binarios (presencia/ausencia)

5.1.1 Cálculo de la sensibilidad, error de omisión y error de comisión

Imagina un modelo de distribución binario, como Bioclim, y distribuidos sobre el mis-mo, una serie de registros de presencia con los que hemos calibrado el modelo. En la Figura 8 puedes observar un ejemplo.

En este caso el modelo ha clasificado correctamente un 60% de los casos (3 acier-tos), por lo que se dice que tiene una sensibilidad igual a 0.6 (presencias acertadas / número total de presencias).

Sin embargo, dos registros de presencia han quedado fuera del área de hábitat idó-neo según el modelo; han sido omitidos, por lo que este tipo de error se denomina error de omisión (falso negativo). Los errores de omisión pueden deberse a:

● Incapacidad de algoritmo para discriminar el hábitat idóneo de la especie.


Figura 8: Modelo de distribución binario y pre-sencias de la especie modelada


● Las variables clave en la distribución del organismo no están representadas en las que hemos utilizado para evaluar el modelo.

● La identificación del taxón es errónea.

● La georreferencia de la localidad es errónea.

● El registro de presencia representa un individuo fuera de su hábitat idóneo (población sumidero).

El error de omisión es relativamente grave, y es necesario estudiar las causas con-cretas que lo motivan.

Utilizar la sensibilidad parece un modo sencillo de evaluar un modelo, pero a conti-nuación veremos los problemas que origina. Observa la Figura 9: ambos “modelos” tienen un 0% de error de omisión (sensibilidad = 1)...¿cuál de ellos representa mejor la distribución no conocida de la especie?.

El modelo a) probablemente sobreestima el área de presencia potencial de la espe-cie (si imaginas que trabajamos sobre un área de cientos de kilómetros de lado, claro), y está incluyendo zonas en las que no se ha reportado la presencia de la es-pecie, y que podrían no ser apropiadas para la misma. Es lo que se denomina error de comisión, que podría o no ser un error (aún no lo sabemos), y tiene diferentes causas (las dos primeras son errores “suaves”, mientras que la última supone un error real):

● El área cumple con las condiciones idóneas para la especie, pero no ha sido muestreada. La especie tal vez está allí.

● El área es apropiada para la especie, pero circunstancias biogeográficas han impedido que la especie la ocupe, o se ha extinguido en esa localidad.

● El área realmente no es apropiada para la persistencia de la especie.

El modelo b), en cambio, está “sobreajustado” (solo predice presencia en el entorno de los puntos de calibrado), y probablemente está omitiendo lugares en los que es posible la presencia de la especie (error de omisión, otra vez, pero no podemos medirlo), por lo que carece de utilidad para hacer cualquier tipo de predicción.


Figura 9: Dos ejemplos de modelos "malos"; sobrepredicción (comisión) en a), y sobreajuste (omisión) en b).


Caso práctico: evaluación de modelos binarios midiendo la sensibilidad

Vamos a trabajar sobre esta cuestión con un caso real. Utilizaremos tres modelos bi-narios (Bioclim y las dos implementaciones de GARP “single run”) de Linaria nigricans, a alta resolución (90 metros) para calcular la sensibilidad de cada uno de ellos, y compararlos entre sí.

1. Prepara un nuevo experimento en OpenModeller, utilizando el conjunto de ca-pas ALMERIA_90m tanto en Creation Layers como en Projetion Layers. Nombra el experimento como L_nigricans_binarios_90m. Marca el algoritmo BIOCLIM, y las dos implementaciones “single run” de GARP. Ten paciencia, porque con la resolución de estas capas OpenModeller tarda un poco más en hacer los cálculos.

2. Ahora observa los resultados en la pestaña Output Map; mira para cada mo-delo, usando el zoom, cuantos puntos de presencia quedan dentro y fuera del área clasificada como apta. Observarás que BIOCLIM incluye todas las pre-sencias en el área apta (sensibilidad = 1). En el modelo GARP (DesktopGARP) podrás encontrar algunas presencias fuera del área apta (como el modelo no es determinista, la cifra puede variar; yo encontré 3). Pro-bablemente la implementación OpenModeller de GARP deje fuera unas cuantas más (13).

Esta observación visual de los resultados solo tiene un carácter demostrativo, por-que lo cierto es que OpenModeller mide la sensibilidad de cada modelo (aunque la llama accuracy, y la expresa en porcentaje). En la pestaña Report de cada modelo se encuentra el apartado Output statistics, que además de la sensibilidad, indica el error de omisión (1 – sensibilidad), el porcentaje de celdas clasificadas como aptas, y el total de celdas clasificadas. Los resultados de los tres modelos deben ser pare-cidos a los que presenta la Tabla 1:

modelo sensibilidad omisión celdas aptas (%)

BIOCLIM 1 0 27.32

GARP desktop 0.98 0.02 46.23

GARP openmodeller 0.88 0.12 19.82

Tabla 1: Resultados de la evaluación de modelos binarios presentados por OpenModeller

¡ATENCIÓN!: Mientras trabajamos esta cuestión, aprovecharemos el tiempo para que OpenModeller genere varios modelos continuos de alta resolución para el apar-tado Evaluación de Modelos Continuos. Prepara un nuevo experimento con el nombre L_nigricans_continuos_90m, y marca para ejecución los siguientes algorit-mos: Climate Space Model, Envelope Score, Environmental distance (las cuatro variantes), los GARP que no son “single run”, y SVM (solo el primero de ellos). Pon el experimento en ejecución; tardará “un rato largo”.

5.1.2 Partición aleatoria de datos

En el ejemplo anterior hemos utilizado para evaluar el modelo los mismos registros de presencia con los que lo calibramos; esta técnica de evaluación, que se llama re-sustitución, siempre proporciona resultados muy optimistas que nos pueden llevar



a error (como ejemplo, el valor de sensibilidad del modelo b en la Figura 9, o los va-lores de BIOCLIM y GARP desktop en el caso de estudio). La resustitución no se considera una técnica válida para evaluar modelos, y la alternativa habitual es la partición aleatoria de datos (data-splitting). El conjunto de presencias se divide, al azar, en dos grupos, uno de calibrado y otro de evaluación, con una proporción va-riable entre 0.5 y 0.8, aproximadamente, y según el número de presencias disponibles (cuanto mayor es el número de presencias, más grande puede ser el conjunto de evaluación).

En la Figura 10 siguiente se representa un ejemplo de dos modelos calibrados con los registros de presencia (verde) que se evaluarán con los registros de evaluación (azul). Los registros de evaluación no se han utilizado para calibrar el modelo.

Ahora los valores de sensibilidad son 1 para el modelo a, y 0 para el modelo b. En este caso, la técnica de partición de datos ha resultado útil para determinar que el modelo sobreajustado no tiene ningún poder predictivo, pero aún nos sigue diciendo que el modelo a es “muy bueno” para predecir la presencia de la especie, algo bas-tante sospechoso.

Caso práctico: evaluación de modelos binarios utilizando partición aleatoria de datos

A continuación evaluaremos los modelos BIOCLIM y GARP (ambas implementacio-nes), usando el método de partición aleatoria de datos.

1. Creación de un nuevo mapset para almacenar los modelos: Inicia GRASS, selecciona la localidad ALMERIA_latlong, y crea un nuevo conjunto de mapas llamado MODELOS, utilizando la opción Create new mapset in selected loca-tion. Inicia la sesión en el nuevo mapset.

2. Importación de los modelos: GIS Manager > File > Import raster map > Multi-ple formats using GDAL, para abrir el módulo r.in.gdal:


■ Override projection = marcado

○ Pestaña Required:

■ Raster file to be imported = C:/CURSO_MODELOS/RESULTADOS/mo-


Figura 10: Modelos a) y b) mostrando presencias de calibrado (verde) y presencias de evaluación (azul)


delOutputs/L_nigricans_binarios_90m/Bioclim/Linaria_nigricans_pro-jection.tif

■ Name for output raster map = BIOCLI

● Run


■ Raster file to be imported = C:/CURSO_MODELOS/RESULTADOS/modelOutputs/L_nigricans_bi-narios_90m/GARP_(single_run)_-_DesktopGARP_implementation/Linaria_nigricans_projection.tif

■ Name for output raster map = GARPDK

○ Run


■ Raster file to be imported = C:/CURSO_MODELOS/RESULTADOS/modelOutputs/L_nigricans_bi-narios_90m/GARP_(single_run)_-_new_openModeller_implementation/Linaria_nigricans_projection.tif

■ Name for output raster map = GARPOM

○ Run

○ Cierra r.in.gdal

3. Adaptación de la región de trabajo a los modelos: teclea y ejecuta en la línea de comandos:

g.region rast=BIOCLI

4. El modelo Bioclim importado a GRASS presenta tres valores: 0 para zonas no aptas, 50 para zonas marginalmente aptas, y 100 para zonas completamente aptas. No distinguiremos entre los valores 50 y 100. Los modelos binarios GARP importados desde OpenModeller tienen valores 0 en las áreas clasifi-cadas como aptas, y valores 100 en las áreas clasificadas como no aptas. Ahora recodificaremos los valores de presencia a 1: GIS Manager > Raster > Change categorie values and labels > Recode interactively, para abrir la ven-tana Interactive rules entry.

○ Map to recode = BIOCLI

○ Recoded map = LNBIOCLI

○ En la ventana escribe: 100:100:1:150:50:1:10:0:0:0

○ Apply

○ Aceptar en la ventana de error (ignórala, todo ha salido bien)

○ Map to recode = GARPDK

○ Recoded map = LNGARPDK



○ En la ventana escribe: 100:100:1:10:0:0:0

○ Apply

○ Aceptar

○ Map to recode = GARPOM

○ Recoded map = LNGARPOM

○ En la ventana mantén los valores anteriores

○ Apply

○ Ok

5. Borra los mapas que ya no nos sirven, tecleando y ejecutando en la línea de comandos:

g.remove BIOCLI,GARPDK,GARPOM

6. Ahora importaremos los puntos de evaluación a GRASS:

○ En la carpeta C:\CURSO_MODELOS\GEODATOS\PRESENCIAS está la hoja de cálculo PRESENCIAS.ods; ábrela. En la hoja LNIGRICANS debes tener diferenciados los registros de calibrado y evaluación.

■ Crea una nueva hoja (puedes nombrarla EVALUACION_Ln), pega los registros de evaluación en ella, elimina las dos últimas columnas, y a las restantes ponles de nombre de campo ID, ESPECIE, LONGITUD y LATITUD respectivamente.

■ Crea una nueva columna a la derecha, nómbrala CASO, y rellena las celdas con el valor de texto “presencia”.

■ Crea tres columnas nuevas con los nombres LNBIOCLI, LNGARPDK y LNGARPOM, y rellena todas las celdas con valores 0,0.

■ Guarda el resultado tal cuál está (Archivo > Guardar)

■ Guarda el resultado con el nombre EVALUACION_Ln, en formato dBA-SE (.dbf), en la carpeta C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\MODELOS\dbf.

○ Cierra el fichero, vuelve a abrirlo (menú Archivo, Documentos recientes), y en el nombre del primer campo, sustituye el 2 por un 0. Ahora guárdalo y cierra Calc.

○ Para transformar los puntos de evaluación en un archivo vectorial de GRASS: GIS Manager > Vector > Generate points > Generate points from database, para abrir el módulo v.in.db.

■ Input table name = EVALUACION_Ln

■ Driver name = dbf

■ Name of column containing x coordinate = LONGITUD

■ Name of column containing y coordinate = LATITUD



■ Must refer to an integer column = ID

■ Name for output vector map =PUNTOS_EVALUACION_LINARIA

■ Run

■ Cierra v.in.db.

7. Ahora utilizaremos este archivo vectorial para “preguntar” a los modelos cuá-les de estos puntos quedan dentro y fuera de las áreas clasificadas como aptas.

○ GIS Manager > Vector > Update point attributes from raster > Sample ras-ter map at point locations, para abrir el módulo v.what.rast.

■ Name of input vector ... = PUNTOS_EVALUACION_LINARIA

■ Name of existing raster ... = LNBIOCLI

■ Column name = LNBIOCLI

○ Run

■ Name of existing raster ... = LNGARPDK

■ Column name = LNGARPDK

○ Run

■ Name of existing raster ... = LNGARPOM

■ Column name = LNGARPOM

○ Run

○ Cierra v.what.rast.

8. Abre con Calc el fichero PUNTOS_EVALUACION_LINARIA.dbf, que está en C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\ MODE-LOS\dbf. En él tienes los datos necesarios para calcular la sensibilidad de cada modelo (dividiendo la sumatoria de cada columna por 75, que es el nú-mero de registros de evaluación). ¡Después del cálculo recuerda cerrar el fichero sin guardar los cambios!. Los resultados deberían ser parecidos a los mostrados en la Tabla 2 (se comparan con los obtenidos al evaluar los mode-los solo con los registros de calibrado):

modelo aciertossensibilidad(evaluación)

sensibilidad(calibrado)

celdas aptas (%)

BIOCLIM 63 0.84 1 23.66

GARP desktop 70 0.93 0.99 38.94

GARP openmodeller 62 0.83 0.86 13.40

Tabla 2: Resultados de la evaluación de modelos binarios utilizando registros de evaluación. Observa que BIOCLIM es para el que más han variado los valores de sensibilidad al usar puntos de evalua-

ción.

Evaluando los modelos utilizando la técnica de resustitución, llegábamos a la conclu-sión de que BIOCLIM era “mejor modelo”, seguido de cerca por GARP desktop, y de lejos por GARP openmodeller. La utilización de un conjunto de puntos de evaluación



independiente muestra que estos resultados eran erróneos, y en realidad, en cuanto a sensibilidad, los tres modelos tienen un desempeño muy similar. Sin embargo, ob-serva los porcentajes de celdas aptas; GARP openmodeller presenta la proporción más baja de celdas clasificadas como aptas, lo que en este caso lo convierte en el modelo con mejor proporción celdas aptas / presencias detectadas. En este caso, sería nuestra elección de “mejor modelo” entre los tres disponibles.

5.1.3 registros de ausencia y matriz de confusión

En los ejemplos anteriores, “sabemos” que los modelos están identificando como ap-tas áreas que posiblemente no lo son. ¿de qué modo podemos evaluar esta circunstancia?. Una posibilidad es disponer de registros de ausencia de la especie.

Con la inclusión de las ausencias, ahora aparece un nuevo tipo de acierto: dejar fue-ra del modelo un registro de ausencia; y ya es posible medir el error de comisión: incluir registros de ausencia dentro del área de presencia potencial del modelo(error de comisión).

En este momento podemos resumir los posibles tipos de aciertos y errores de un modelo binario en lo que se denomina matriz de confusión (ver Tabla 3):

Datos reales (registros de presencia

y ausencia)

presencia ausencia

Datos simulados (modelo de distribución)

presencia A B

ausencia C D

Tabla 3: Matriz de confusión, que resume los errores (en gris) y los aciertos posibles al evaluar un modelo de distribución usando presencias y ausencias

Nota que los términos que indican algún tipo de error están marcados en gris

En la matriz de confusión los términos son:

● A: presencias correctamente clasificadas por el modelo.

● B: ausencias erróneamente clasificadas por el modelo como presencias; falso positivo, o error de comisión.

● C: presencias erróneamente clasificadas por el modelo como ausencias; falso negativo o error de omisión.

● D: ausencias correctamente clasificadas por el modelo.

● N: suma de todos lo casos

NOTA: En la matriz de confusión, además de valores de conteo, se pueden utilizar proporciones.

¿Qué utilidad tiene esta matriz de confusión?: A partir de la matriz de confusión pue-den calcularse diversas medidas de precisión de los modelos. Algunas, como la sensibilidad (A/(A+C)) o la especificidad (capacidad de discriminar ausencias; D/(B+D)), solo hacen uso de dos de los términos de la matriz, mientras que hay algu-nas que utilizan los cuatro términos.



Una de las utilizadas con mayor frecuencia en la evaluación de modelos de distribu-ción es Kappa, que se calcula según la siguiente expresión:

K = [(a+d)-(((a+c)*(a+b)+(b+d)*(c+d))/N)] / [N-(((a+c)*(a+b)+(b+d)*(c+d))/N)]

Kappa representa la probabilidad de que el modelo se ajuste a la muestra de evalua-ción más allá de lo esperado por azar. Sus valores están en el rango [-1, 1] y pueden interpretarse según el siguiente baremo:

● K < 0.4 - escaso

● 0.4 < K < 0.75 - bueno

● K > 0.75 - excelente

En esta página (http://www.glue.umd.edu/~dchoy/thesis/Kappa/#) se ilustra el con-cepto de Kappa de modo interactivo.

Ahora observa la Figura 11y la Tabla 4; te ayudarán a aclarar ideas:

Teniendo en cuenta el ejemplo de la figura, estas serían las matrices de confusión de cada uno de los modelos:

Datos reales (registros de presencia y ausencia)

modelo a modelo b modelo c

pres. aus. pres. aus. pres. aus.


presencia 5 5 0 0 3 1

ausencia 0 0 5 5 2 4

Tabla 4: Matrices de confusión de los modelos de la Figura 11; pres. = presencia; aus. = ausencia.

En la Tabla 5 se observan los valores de sensibilidad, especificidad y kappa de los tres modelos de la figura anterior.

Aunque Kappa ha sido utilizado frecuentemente como medida de precisión para mo-delos de distribución, y algunos autores han determinado que su desempeño es satisfactorio, se sabe que es sensible al tamaño de muestra (peores resultados con tamaños de muestra pequeños), y proporciona resultados difíciles de interpretar cuando los tamaños de muestra no están balanceados.


Figura 11: Tres modelos generados con distintos algoritmos mostrando registros de calibrado, eva-luación y ausencias

http://www.glue.umd.edu/~dchoy/thesis/Kappa/


modelo sensibilidad especificidad kappa

a 1 0 0

b 0 1 0

c 0.6 0.8 0.4

Tabla 5: Valores de evaluación de los modelos a), b) y c).

Caso práctico: evaluación de modelos binarios utilizando partición aleatoria de datos y registros de ausencia

A continuación vamos a evaluar los tres modelos que creamos en el primer caso práctico de evaluación, pero añadiendo cosas nuevas: registros de ausencia, y las medidas de precisión especificidad y kappa.

1. En la carpeta C:\CURSO_MODELOS\GEODATOS\PRESENCIAS tienes la hoja de cálculo AUSENCIAS.ods; ábrela con Calc.

2. En la carpeta C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_lat-long\ MODELOS\dbf tienes el fichero EVALUACION_Ln.dbf; ábrelo también.

3. Copia todas las filas de datos de AUSENCIAS.ods (no copies los nombres de columna), y pégalas tras el último registro de la tabla EVALUACION_Ln., de modo que las columnas casen entre sí. Continúa los valores de ID hasta el úl-timo registro, y los ceros de las tres últimas columnas. Ahora tienes en una misma tabla los registros de presencia y ausencia de Linaria nigricans. Cierra AUSENCIAS, y guarda los cambios en EVALUACION_Ln.

4. Ahora crearemos el archivo vectorial con los puntos de presencia y ausencia:

○ GIS Manager > Vector > Generate points > Generate points from databa-se, para abrir el módulo v.in.db.

■ Input table name = EVALUACION_Ln

■ Name of column containing x coordinate = LONGITUD

■ Name of column containing y coordinate = LATITUD

■ Must refer to an integer column = ID

■ Name for output vector map =PUNTOS_EVALUACION_LINARIA

■ Allow overwrite = activado

■ Run

■ Cierra v.in.db

5. Ahora utilizaremos este archivo vectorial para “preguntar” a los modelos cuá-les de estos puntos quedan dentro y fuera de las áreas clasificadas como aptas, tal y como hicimos en el caso práctico anterior.


■ Name of input vector ... = PUNTOS_EVALUACION_LINARIA





■ Run



■ Run



■ Run


6. En la carpeta C:\CURSO_MODELOS\EVALUACION tienes la hoja de cálculo KAPPA. Está preparada para introducir los valores de la matriz de confusión de cada uno de los modelos que evaluaremos. Ahora abre el archivo PUN-TOS_EVALUACION_LINARIA que está en C:\CURSO_MODELOS\ GEODATOS\GRASSDB\ALMERIA_latlong\MODELOS\dbf. En la columna co-rrespondiente a cada modelo están los valores que necesitas para calcular Kappa. Sigue las siguientes reglas para rellenar las celdas correspondientes en la hoja KAPPA:

○ Un valor 1 en un registro de presencia indica una presencia acertada; el número de presencias acertadas es A en la matriz de confusión.

○ Un valor 0 en un registro de presencia indica una presencia clasificada erróneamente como ausencia (error de omisión, o falso negativo); el nú-mero de falsos negativos es C en la matriz de confusión.

○ Un valor 1 en un registro de ausencia indica una ausencia clasificada erró-neamente como presencia (error de comisión, o falso positivo); el número de falsos positivos es B en la matriz de confusión.

○ Un valor 0 en un registro de ausencia indica una ausencia correctamente clasificada; el número total es D en la matriz de confusión.

El resultado debe ser similar al que muestra la Figura 12:

Los modelos LNBIOCLI y LNGARPOM tienen la misma sensibilidad (en este caso), es decir, clasifican presencias con la misma precisión. Sin embargo, LNGARPOM presenta una especificidad superior, es decir, clasifica las ausencias mejor que LN-BIOCLI. Por tanto, su índice Kappa es mucho mejor. Tal y como sospechábamos desde el principio, LNGARPOM es el modelo mejor ajustado de los tres.


Figura 12: Resultados de evaluación de los modelos BIOCLIM, GARPDK y GARPOM utilizando au-sencias.


Sin embargo hay una cuestión a tener en cuenta, y es importante: el valor de Kappa (y el de cualquier otra medida de precisión) depende de la localización espacial de los registros de presencia y ausencia. Las presencias tienen un carácter inequívoco (salvo error de determinación); la especie ha sido observada, y no hay duda al res-pecto. Sin embargo, la localización de las ausencias depende del criterio del investigador: pueden determinarse ausencias en áreas adyacentes a las poblaciones conocidas, en áreas alejadas, en la puerta de casa o en mitad del Mediterráneo...y cada uno de estos criterios va a condicionar el valor de kappa. Además un registro de ausencia puede ser realmente una falsa ausencia si se da alguno de los siguien-tes casos:

● La planta estaba en el lugar, pero no fue detectada, porque era poco aparen-te, o aún no había germinado;

● El hábitat es apropiado, pero una barrera o limitación dispersiva ha impedido que la planta llegue allí;

● Se ha extinguido recientemente por un suceso ambiental estocástico, etc...

Los modelos de distribución con los que estamos trabajando no utilizan registros de ausencia durante la fase de calibrado, por lo que “diseñar” muestras de ausencia para evaluarlos supone un trabajo extra que no redunda en la precisión de los mode-los, y este “diseño” está sujeto a los errores que anteriormente hemos comentado.

5.1.4 registros aleatorios como sustitutos de las ausencias

Llegados a este punto, podemos obviar los problemas intrínsecos de las ausencias y utilizarlas teniendo en cuenta las posibles consecuencias, o podemos olvidarnos de ellas, cambiar de concepto y utilizar puntos aleatorios como sustitutos de las au-sencias. Los puntos aleatorios se disponen al azar sobre el territorio, y permiten evaluar hasta que punto un modelo puede distinguir entre un patrón de distribución real (representado por los puntos de presencia del conjunto de evaluación) de un pa-trón de distribución aleatorio (representado por los puntos aleatorios). Los puntos aleatorios tienen la ventaja de que no existen problemas conceptuales ni posibles errores relacionados con ellos; pueden estar en cualquier parte del área de trabajo, y todos son igual de válidos.

El reemplazo de registros de ausencia por puntos aleatorios exige redefinir algunos conceptos, como la matriz de confusión descrita en la Tabla 3 (ver Tabla 6). Notarás que el término B, que anteriormente representaba un error (error de comisión), ahora ya no lo representa (aunque tampoco es un acierto). Esto supondrá un cambio en el modo de hacer los cálculos, e interpretar los resultados. Trataremos de aclarar esto a continuación.

Datos reales (registros de presencia

y puntos aleatorios)

presencia aleatorio


presencia A B

ausencia C D

Tabla 6: Matriz de confusión modificada para trabajar con puntos aleatorios en lugar de ausencias.



En la Figura 13 ilustramos un problema que puede derivarse de evaluar un modelo de distribución con dos grupos distintos de puntos aleatorios.

Los valores de sensibilidad, especificidad y kappa del modelo, según lo evaluemos con un grupo de aleatorios u otro quedan reflejados en la Tabla 7:

grupo aleatorios sensibilidad especificidad kappa

A 0.6 0 -0.4

B 0.6 1 0.6

Tabla 7: Evaluación del modelo de la Figura 13 según dos grupos distintos de puntos aleatorios.

Sí, el mismo modelo ofrece resultados muy diferentes, de hecho, “más” diferentes que los que obtendríamos utilizando ausencias, porque independientemente del cri-terio utilizado para diseñarlas, estas nunca caerían dentro del área de distribución conocida de la especie.

La solución idónea es generar muchos puntos aleatorios (cientos, o miles, según el tamaño de área de trabajo), y computar los valores de evaluación cientos o miles de veces con subgrupos de puntos aleatorios (con el mismo tamaño que la muestra de presencias de evaluación), para ofrecer como resultado una media y una dispersión de los valores de evaluación.

Veamos como ejemplo la Figura 14; para el modelo de la imagen, si tomamos los puntos aleatorios en grupos del mismo tamaño que el conjunto de puntos de presen-cia, los casos posibles son los establecidos en la Figura 15.


Figura 13: Modelo con presencias de evaluación y dos grupos distin-tos de puntos aleatorios.


Puedes ver que el valor máximo posible de Kappa es 0.6 (debido al error de omisión del modelo), y el menor, -0.4, queda muy por debajo de lo recomendable. Aunque estos son los casos posibles, la media de Kappa (que estará comprendida entre -0.4 y 0.6) y su desviación estándar estarán determinadas por la relación entre el área de trabajo y el área apta según el modelo, la distribución de los puntos aleatorios, la se-lección de grupos de aleatorios, y el número de iteraciones de cálculo. Si utilizamos esta técnica para comparar modelos, es necesario que en todos se efectúe el cálcu-lo bajo las mismas condiciones.

A continuación realizaremos un ejercicio práctico probando esta aproximación.

Caso práctico: evaluación de modelos binarios utilizando partición aleatoria de datos, puntos aleatorios y técnicas de remuestreo

Ya disponemos de registros de presencia para evaluar los modelos (archivo vectorial PUNTOS_EVALUACION_LINARIA), pero contiene presencias y ausencias. Ahora queremos olvidarnos de las ausencias: GIS Manager > Vector > Query with attribu-tes, para abrir v.extract.

● Name of input vector map = PUNTOS_EVALUACION_LINARIA

● Name for output vector map = PRESENCIAS


Figura 15: Valores posibles de evaluación que pueden obtenerse en el caso de la Figura 14.

Figura 14: Modelo con presencias de evaluación y puntos aleatorios.


● WHERE conditions of SQL...= CASO = 'presencia'

● Run

● Cierra v.extract.

Ahora necesitamos un fichero vectorial con puntos, muchos puntos aleatorios:

1. Si tienes GRASS abierto en el mapset MODELOS, necesitamos una másca-ra; para que GRASS busque la máscara (MASK) y la copie desde el mapset PERMANENT al mapset MODELOS, teclea y ejecuta la siguiente expresión:

g.copy MASK,MASK

2. Ahora hay que crear puntos aleatorios, pero como GRASS los genera para todo el área de trabajo (incluso fuera de la máscara), tendremos que seguir varios pasos: creamos puntos vectoriales para todo el área de trabajo; con-vertimos el archivo de puntos vectorial en raster, y después convertimos el archivo raster, compuesto por puntos, en vectorial de nuevo. Es en este últi-mo paso donde GRASS si aplica la máscara, y tenemos como resultado puntos aleatorios para toda la provincia de Almería:

○ Vector > Generate points > Generate random points, para abrir el módulo v.random.

■ Name for output vector map = ALEATORIOS_1

■ Number of points to be created = 22000

■ Run

■ Cierra v.random.

○ File > Map type conversion > Vector to raster, para abrir el módulo v.to.-rast.

■ Name of input vector map = ALEATORIOS_1

■ Name for output raster map = ALEATORIOS_1


■ Type = point

■ Run

■ Cierra v.to.rast.

○ File > Map type conversion > Raster to vector, para abrir el módulo r.to.-vect.

■ Name of input raster map = ALEATORIOS_1

■ Name for output raster map = ALEATORIOS

■ Feature type = point

■ Run

■ Cierra r.to.vect.

3. Borra los archivos que ya no necesitas ejecutando secuencialmente:g.remove vect=ALEATORIOS_1



g.remove ALEATORIOS_1

Ahora dispones de un archivo vectorial con unos 10000 puntos aleatorios cubriendo la provincia de Almería. Los registros de presencia ya los tienes en el archivo vecto-rial PRESENCIAS. Estas presencias ya llevan asociado su valor para cada uno de los tres modelos, por lo que no es necesario repetir la consulta. Los puntos aleato-rios aún no los tienen, pero antes de hacer la consulta, hay que añadirles las columnas correspondientes con los nombres de cada uno de los modelos. En la car-peta C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\MODELOS\ dbf está el archivo ALEATORIOS.dbf; ábrelo con Calc. Elimina las columnas value,N,11,0 y label,C,17, y añade tres columnas llamándolas LNBIOCLI,N,20,2, LN-GARPDK,N,20,2 y LNGARPOM,N,20,2. Rellena todas las celdas de estas nuevas columnas con valores 0 (cero), y guarda el fichero.

Ahora utilizaremos este archivo vectorial consultar los valores de los puntos aleato-rios sobre los modelos.


■ Name of input vector ... = ALEATORIOS



■ Run; ten un poco de paciencia, ¡son muchos puntos!;



■ Run



■ Run


Para preparar los datos para el remuestreo de aleatorios y cálculo de kappa:

1. Abre con Calc los ficheros ALEATORIOS.dbf y PRESENCIAS.dbf, que están en C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\ MO-DELOS\dbf.

2. En la carpeta C:\CURSO_MODELOS\EVALUACION\KAPPA crea dos archi-vos de texto vacíos; uno llámalo PRESENCIAS.txt y otro, ALEATORIOS.txt. (¡NO BORRES LOS DEMÁS ARCHIVOS QUE HAY EN LA CARPETA!).

3. Abre PRESENCIAS.txt con Notepad++; pega en él los valores de las colum-nas LNBIOCLI,N,20,6, LNGARPDK,N,19,2 y LNGARPOM,N,19,2 de la hoja de cálculo PRESENCIAS, y guárdalo. Debe quedar así:

0 0 01 1 10 1 1



...

4. Abre ALEATORIOS.txt; pega en él los valores (NO LA CABECERA) de las co-lumnas LNBIOCLI,N,20,6, LNGARPDK,N,19,2 y LNGARPOM,N,19,2 de la hoja de cálculo ALEATORIOS, y guárdalo. El aspecto del contenido del archi-vo debe ser igual al anterior (con distintos valores). Puedes cerrar las hojas de cálculo, por ahora no las necesitaremos.

5. En el mismo directorio (C:\CURSO_MODELOS\EVALUACION\KAPPA) crea un archivo de texto llamado MODELOS.txt, con los nombres de los modelos escritos en una sola columna, tal que así:

BIOCLIMGARPDKGARPOM

Para calcular Kappa remuestreando los puntos aleatorios, se ha preparado un pro-grama para Octave. Para ejecutar programas escritos en este lenguaje, inicia el programa Octave: Todos los programas > GNU Octave > Octave.

Se abrirá una línea de comandos, a la que debemos ordenar moverse a la carpeta en la que están los archivos PRESENCIAS.txt, ALEATORIOS.txt y MODELOS.txt, además del programa de evaluación (KAPPA.m), y dos archivos más que este nece-sita. Teclea en la línea de comandos de Octave la siguiente expresión y después pulsa ENTER:

cd C:\CURSO_MODELOS\EVALUACION\KAPPA

Ahora, para ejecutar el programa de evaluación, simplemente teclea el nombre del programa,

KAPPA

y pulsa ENTER. El programa te pedirá los siguientes parámetros:

● El nombre de la especie que está representada en los modelos de distribu-ción (Linaria nigricans).

● Número de iteraciones: es el número de veces que el programa remuestreará los puntos aleatorios para calcular kappa. El máximo recomendado es 10000, que según el ordenador con el que trabajes, puede llevar de 1 a 3 minutos de cálculo. En este caso de estudio 1000 iteraciones son suficientes para distin-guir entre modelos sin problemas. Habrá que incrementarlo en caso de modelos con un desempeño similar.

Pulsa ENTER. Tras hacer los primeros cálculos aparecerán en la ventana del pro-grama algunos resultados.

AVISO: Si la pantalla de resultados muestra un cartel azul en su base, pulsa la tecla q para desbloquearla.

El resultado más intuitivo es el gráfico de cajas, que indica la distribución de los valo-res Kappa de cada modelo. Una vez observados los índices de evaluación de cada modelo, el programa da la oportunidad de comparar dos de los modelos (los dos de valores más altos, por ejemplo) para comprobar si existen diferencias significativas



entre ellos. Debes introducir sucesivamente, según el programa lo pida, los números correspondiente a los modelos que quieres evaluar, en orden de izquierda a dere-cha, tal y como están representados en el gráfico.

El programa almacena los resultados en C:\CURSO_MODELOS\EVALUACION\ KAPPA, y se componen de:

● Un archivo de texto llamado RESULTADOS_KAPPA.txt, que guarda un resu-men de los resultados de la ejecución. Los valores correspondientes a cada modelo están en el mismo orden en el que se introdujeron las columnas en los archivos PRESENCIAS.txt y ALEATORIOS.txt. Los parámetros que mues-tra este archivo son:

○ Nombre de la especie

○ Nombres de los modelos evaluados

○ Número de presencias

○ Número de puntos aleatorios

○ Iteraciones computadas

○ Kappa medio: este es el valor más importante

○ Desviación estándar de Kappa

○ Kappa máximo: no es muy relevante, porque puede darse en un solo caso

○ Kappa mínimo: tiene el mismo grado de significación que el anterior

○ Sensibilidad: es un valor importante, pro no define cual es el mejor modelo

○ Especificidad: importante; cuanto mayor es, menor es el error de comisión del modelo

○ Desviación estándar de la especificidad

○ Tabla ANOVA comparando todos los modelos entre sí

○ Primer modelo: el primero de los modelos que seleccionaste para una comparación

○ Segundo modelo: el segundo de los modelos que seleccionaste para una comparación

○ Tabla ANOVA comparando los dos modelos anteriores

● Una imagen con el gráfico de cajas comparando los valores Kappa de los dis-tintos modelos. El gráfico correspondiente a cada modelo indica, de arriba a abajo: outliers, máximo, 3er cuartil, límite de confianza superior para la media-na, mediana, límite de confianza inferior para la mediana, 1er cuartil, mínimo, outliers.

NOTA SOBRE EL PROGRAMA “KAPPA”: Para evaluar diferencias significativas entre los valores kappa de los distintos modelos, el programa aplica un primer test ANOVA de medidas repetidas, usando todos los modelos, con el algoritmo como fac-tor. Si el estadístico F es menor que el p-valor, podemos concluir que no hay diferencias significativas entre los valores Kappa de los distintos modelos.

Como mejor modelo seleccionaríamos aquel con Kappa más alto.



Una vez examinados los resultados, cierra Octave tecleando exit en la línea de co-mandos.

5.2 Evaluación de modelos continuos

La evaluación de modelos continuos tiene dos posibilidades:

1. Aplicación de un umbral de corte para transformar el modelo continuo en bi-nario (de los valores continuos del modelo, se selecciona uno, según un criterio concreto, por encima del cual se definen las áreas de presencia, y por debajo, las áreas de ausencia), y utilizar alguna de las métricas de evaluación que hemos tratado en el apartado anterior.

2. Evaluación del modelo con sus valores continuos, aplicando nuevas métricas de evaluación, independientes del umbral de corte.

La primera cuestión plantea un problema que se tratará posteriormente: el criterio para aplicar un umbral de corte, que encierra algunas complejidades. Sin embargo, una vez aplicado un punto de corte, quedaría acudir a la medida de error Kappa ex-puesta anteriormente.

La segunda posibilidad vamos a tratarla a continuación:

5.2.1 La curva ROC

En primer lugar ilustraremos la evaluación de modelos continuos con un ejemplo gráfico, que puedes ver en la Figura 15:

En el modelo se presentan 5 niveles de idoneidad del hábitat (5 representa la idonei-dad máxima, y 1 la idoneidad mínima), 8 presencias (del conjunto de datos de


Figura 15: Modelo continuo mostrando registros de presencia (evaluación) y regis-tros de ausencia.


evaluación) y 8 ausencias. En la Figura 16 puedes observar las distintas medidas de evaluación tomadas según los distintos umbrales de corte posibles para transformar este modelo continuo en binario:

Observa que en lugar de la especificidad, tal y como hemos calculado hasta ahora, calculamos 1-especificidad, que es la fracción de falsos positivos.

La sensibilidad (fracción de aciertos) va disminuyendo progresivamente, según el umbral de corte se hace más alto; cada vez más presencias quedan fuera del área idónea según el modelo. Progresivamente disminuye también el número de ausen-cias dentro de área idónea (de ahí la disminución de 1-especificidad). Ambas circunstancias provocan el comportamiento de kappa: crece hasta que el umbral de corte es 3, y vuelve a decrecer hasta que el umbral se hace igual a 5.

Si en un gráfico representamos los valores de sensibilidad en el eje y, y los de 1-es-pecificidad en el eje x, obtenemos un gráfico como el de la Figura 17:

Si en este gráfico unimos los puntos mediante líneas, y trazamos la diagonal corres-pondiente obtenemos una curva que delimita un área bajo ella, tal y como puedes observar en la Figura 18:


Figura 16: Valores de evaluación del modelo de la Figura 15, teniendo en cuenta todos los posibles umbrales de corte.

Figura 17: Representación gráfica de los valores de sensibili-dad y 1-especificidad del modelo de la Figura 15.


El resultado es una curva ROC (de “Receiver Operating Characteristic”), cuyo área inferior (AUC = Area Under Curve) indica la probabilidad de que el modelo, ante una presencia y una ausencia escogidas al azar, clasifique con un valor de idoneidad mayor a la presencia que a la ausencia. En este caso, suponiendo que el AUC de esta curva fuera 0.74, para el modelo evaluado, de cada 100 veces que sean selec-cionadas al azar una presencia y una ausencia, en 74 ocasiones dará un valor mayor de idoneidad al registro de presencia.

El valor de AUC oscila entre 0.5 (valor de la diagonal dibujada en negro) y 1 (vértices de la curva cercanos a la esquina superior izquierda). Los valores cercanos a 0.5 in-dican que el modelo no puede distinguir presencias de ausencias más allá de lo esperado por azar (“mal modelo”), mientras que valores cercanos a 1 indican una discriminación perfecta entre casos de presencia y ausencia. De modo general se consideran malos los valores por debajo de 0.70 (este varía según los autores).

Cuando en lugar de ausencias se utilizan puntos aleatorios, la interpretación de AUC cambia ligeramente, tomándose como la probabilidad de que el modelo discrimine correctamente entre una presencia y un punto aleatorio tomados al azar. Como en el caso de cálculo de Kappa con puntos aleatorios, es necesario generar una cantidad importante de ellos, y realizar técnicas de remuestreo para calcular un valor prome-dio de AUC y una desviación estándar, que caracterizarán la precisión del modelo evaluado.

En este contexto, el máximo valor de AUC será siempre menor que 1, porque los puntos aleatorios pueden caer dentro de áreas con alta idoneidad de hábitat. Si la distribución de la especie cubre una proporción a de las celdas del área de trabajo, entonces el valor máximo de AUC será 1-a/2. Pero el valor a es desconocido (no co-nocemos la distribución real de la especie), por lo que no podemos saber como de


Figura 18: Representación gráfica de la curva ROC correspon-diente al modelo de la Figura 15. El área sombreada en rojo es

la que indica el valor AUC del modelo.


óptimo es un valor de AUC. Sin embargo, sí que podemos utilizar los valores AUC obtenidos mediante este método para distinguir entre modelos mejor o peor ajusta-dos a los registros de evaluación.

Aunque AUC se ha utilizado muy frecuentemente como medida de precisión de mo-delos de distribución, algunos autores le encuentran ciertas desventajas a este método:

● La curva ROC resume la precisión del modelo teniendo en cuenta regiones del espacio ROC en los que el usuario raramente trabaja, como los extremos de la curva, en los que las tasas de error son elevadas.

● Pondera por igual los errores de comisión y omisión.

● No proporciona información acerca de la distribución espacial de los errores.

● Las áreas de trabajo amplias resultan en valores de AUC más altos. La preci-sión de distintos modelos de la misma especie no puede hacerse si las áreas de trabajo difieren en extensión.

● No pueden compararse modelos de distintas especies.

● Los registros de ausencia tienen un alto grado de incertidumbre, y tienen gran importancia en el cálculo de AUC.

La crítica más contundente procede de Lobo et al. (2007). En este trabajo se conclu-ye que AUC proporciona información sobre lo generalista o especialista que es una especie teniendo en cuenta el rango de variables predictoras utilizadas, pero no pro-porciona información sobre el ajuste del modelo.

Sin embargo los mismos autores especifican que siempre que se trate de una misma especie y el mismo área de trabajo, AUC permite distinguir modelos por su grado de ajuste con los datos de evaluación. Por el momento no se ha propuesto ninguna al-ternativa sólida a este método para evaluar modelos de distribución.

Caso práctico: Cálculo de la curva ROC para los modelos de Linaria nigri-cans

A continuación vamos a realizar un proceso que es tan tedioso como valioso: evalua-remos mediante la curva ROC nueve modelos de distribución de alta resolución de la especie Linaria nigricans, para establecer cual de ellos se ajusta mejor a la distri-bución espacial de la especie.

En primer lugar comprobaremos si OpenModeller ha terminado de ejecutar todos los modelos que le encargamos al comienzo de la sección dedicada a la evaluación de modelos. Para evaluar los modelos que hemos generado es necesario seguir estos pasos:

1. Añadir las columnas con los nombres de los nuevos modelos a los archivos vectoriales PRESENCIAS y ALEATORIOS del mapset MODELOS.

○ En C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\ MODELOS\dbf están los archivos ALEATORIOS.dbf y PRESENCIAS.dbf. Ábrelos con Calc, y añádeles a ambos los siguientes nombres de colum-na:

■ CSM,N,20,2 (Climate Space Model)



■ ES,N,20,2 (Envelope Scores)

■ EDEUC,N,20,2 (Environmental Distance Euclidean)

■ EDCHE,N,20,2 (Environmental Distance Chebyshev)

■ EDMAH,N,20,2 (Environmental Distance Mahalanobis)

■ EDMAN,N,20,2 (Environmental Distance Manhattan)

■ GARPDK,N,20,2 (GARP Desktop Garp Implementation)

■ GARPOM,N,20,2 (GARP OpenModeller Implementation)

■ SVM,N,20,2 (Support Vector Machines)

○ Rellena todas las celdas de las nuevas columnas con el valor 0 (cero).

○ Guarda y cierra ambos ficheros.

2. Importación y consulta sobre los modelos: Como el procedimiento de importa-ción de modelos y consulta de los valores de las presencias y puntos aleatorios ya ha sido trabajado, se ha preparado un guión de GRASS para re-alizar la tarea automáticamente. Abre GRASS Command Line, cerciorándote de que lo abres en la localidad ALMERIA_latlong, mapset MODELOS.

○ Una vez abierto, muévete al directorio con los guiones; teclea y ejecuta:cd C:\CURSO_MODELOS\GUIONES

○ Para ejecutar el script, teclea y ejecuta (paciencia, tardará un poco; ¡son muchos puntos aleatorios!):

sh MODELOS_CONTINUOS.txt

3. Preparación de los archivos de evaluación:

○ Crea dos ficheros de texto en blanco llamados ALEATORIOS.txt y PRE-SENCIAS.txt en la carpeta CURSO_MODELOS\EVALUACION\AUC.

○ En C:\CURSO_MODELOS\GEODATOS\GRASSDB\ALMERIA_latlong\MO-DELOS\dbf están los archivos ALEATORIOS.dbf y PRESENCIAS.dbf. Ábrelos con Calc

○ Copia los datos de las columnas correspondientes a los nuevos modelos de los .dbf a los .txt correspondientes (recuerda no incluir las cabeceras).

○ Guarda los cambios en los archivos de texto y ciérralos. También puedes cerrar los abiertos en Calc, sin guardar cambios.

○ En la carpeta CURSO_MODELOS\EVALUACION\AUC crea un archivo de texto en blanco llamado MODELOS.txt. Escribe los nombres de los mode-los en una sola columna, en el mismo orden en el que estaban en las tablas de ALEATORIOS y PRESENCIAS, tal que así:

CSMESEDEUCEDCHEEDMAH



EDMANGARPDKGARPOMSVM

4. Cálculo de AUC: Se ha preparado un programa similar al utilizado para calcu-lar kappa, por lo que para evaluar los modelos debes ejecutarlo:

○ Inicia octave, y muévelo a la carpeta C:\CURSO_MODELOS\EVALUA-CION\AUC:

cd C:\CURSO_MODELOS\EVALUACION\AUC

○ iniciar al programa de cálculo:AUC

○ El programa pide el nombre de la especie y el número de iteraciones que se utilizarán para computar AUC. Este programa es más lento que el usa-do para calcular Kappa (los cálculos son más complejos), por lo que 1000 iteraciones serán suficientes (en caso de no obtener diferencias significati-vas entre la pareja de modelos con mayor AUC, deberíamos volver a evaluar incrementando el número de iteraciones).

○ Lo más probable es que la ventana de resultados se bloquee; pulsa q para desbloquearla.

○ Una vez observado el gráfico de cajas, decide la pareja de modelos que mayores valores de AUC presentan (o puede ayudarte del archivo RE-SULTADOS_AUC.txt, mirando los valores de AUC medio más altos), e introduce sus números (según su orden) para comprobar si existen dife-rencias significativas entre ellos, tal y como hiciste en la evaluación de modelos binarios. En este caso los modelos 3 y 6 deberían ser los más cercanos.

5. Interpretación de los resultados: El programa escribe un archivo de resultados (RESULTADOS_AUC.txt) que proporciona la siguiente información:

○ Nombre de la especie

○ Lista de los modelos evaluados

○ Número de presencias

○ Número de puntos aleatorios

○ Número de iteraciones

○ Media de las presencias: valor medio de los registros de presencia sobre el modelo

○ Desviación estándar de las presencias: desviación de la media anterior

○ Punto de corte según media y desviación: es una recomendación de um-bral de corte para transformar el modelo continuo en binario. Se calcula restando al valor medio de las presencias sobre el modelo su desviación estándar.

○ AUC máxima de cada modelo



○ AUC media: es el valor más importante, que caracteriza la precisión de cada modelo

○ Desviación estándar de AUC

○ AUC mínima

○ Tabla ANOVA comparando entre sí todos los modelos

○ Primer modelo de la comparación

○ Segundo modelo de la comparación

○ Tabla ANOVA comparando los dos modelos anteriores

Has aprendido lo suficiente (y no es poco) para evaluar modelos de distribución se-gún marcan los cánones. Si has llegado hasta aquí sin odiarme...¡enhorabuena!.



SECCIÓN 6: TRANSFORMACIÓN DE MODELOS CONTINUOS EN BI-NARIOS


Aunque los modelos continuos proporcionan información ecológica de gran valor, para diversas aplicaciones prácticas son más apropiados los modelos binarios. Un ejemplo claro de esta necesidad es el diseño de reservas de flora, que exige unos lí-mites geográficos perfectamente delimitados.

La transformación de un modelo continuo (gradiente de idoneidad de hábitat o pro-babilidad de presencia) en un modelo binario (presencia/ausencia) exige la adopción de un criterio, a partir del cual se selecciona un valor umbral, por encima y debajo del cual se consideran, respectivamente regiones aptas (presencia potencial) y no aptas (ausencia potencial) para la especie.

Una posibilidad comúnmente utilizada en trabajos de modelización es la adopción de criterios arbitrarios (0.5 es uno de los más utilizados), pero distintos estudios compa-rativos demuestran que es una mala opción.

Existen métodos diferentes, de los cuáles los más utilizados son:

● Maximización de Kappa

● Idoneidad media de los registros de presencia

● Maximización de la suma sensibilidad-especificidad

● Métodos basados en la curva ROC

La complejidad de cálculo de algunos métodos no garantiza los mejores resultados; un método sencillo que proporciona resultados, que al menos son tan certeros como los obtenidos mediante métodos más complejos, es el segundo de la lista: estable-cer el umbral de corte en el valor medio de los registros de presencia (hablando siempre de registros de evaluación, no utilizados para calibrar los modelos).

Sin embargo la adopción de un criterio concreto depende de la utilidad que se va a dar al modelo. Suponiendo que trabajamos en el diseño de una reserva para una es-pecie amenazada en un área remota sobre la que no podemos hacer prospecciones, es deseable un umbral “generoso”, que garantice una alta sensibilidad (inclusión de muchos de los registros de presencia), para no dejar fuera de la reserva poblaciones potenciales.

Trabajando con especies invasoras, se da el mismo caso, siendo necesario pronosti-car nuevas áreas de expansión, para lo que utilizaremos un criterio relajado.

Un caso contrario puede ser el diseño de una prospección de campo para encontrar poblaciones de una especie amenazada. Como interesa optimizar el tiempo de muestreo, lo indicado es utilizar un criterio restrictivo, para reducir el área total de búsqueda.

Similar es la utilización de un modelo de distribución para estimar un tamaño pobla-cional; si no utilizamos un criterio restrictivo, estaremos sobreestimando el tamaño poblacional.

En todo caso, independientemente del criterio, siempre es importante describir el



método que se ha utilizado y justificar su elección.

En el fichero de resultados de la evaluación de modelos continuos mediante AUC es-tán los valores de idoneidad promedio de las presencias (apartado MEDIA_PRESENCIAS), y los valores medios menos la desviación estándar (aparta-do PUNTO_DE_CORTE_MEDIA_menos_DESVIACION). Ambos pueden utilizarse como umbrales de corte, según los trabajos a realizar. En la Figura 19 se muestra un resumen de como funcionan estos dos criterios en los modelos que hemos genera-do:

Presta atención a los valores de omisión de cada criterio. El criterio media es un 15% más restrictivo que el criterio media - desviación, pero la idoneidad media de los registros omitidos es relativamente alta. Este criterio deja fuera de cualquier mo-delo al que se aplique un número considerable de presencias reales, que además tienen valores altos de idoneidad. Pero la omisión baja lleva consigo un incremento considerable del área de presencia potencial tal y como puedes ver en la Figura 20.


Figura 19: Comparación de dos criterios de selección de umbral de corte para transformar modelos continuos en binarios. En gris se destacan los valores del modelo que mejor valor AUC obtuvo duran-

te la evaluación.

Figura 20: Transformación del modelo continuo EDMAN en binario según los dos criterios comparados en la Figura 19.


Como puedes observar, para reducir la omisión del modelo binario un 15% se incre-menta el área potencial en 71244 celdas (¡un 861%!). Es crucial ser cauto en la elección del umbral de corte, sobre todo cuando se desconoce la biología propia de la especie.

Caso práctico: transformación del mejor modelo continuo de Linaria nigri-cans en binario

Una vez decidido un valor apropiado para el umbral de corte, con GRASS es rápido y sencillo crear modelos binarios a partir del modelo continuo:

● Raster > Change category values and labels > Recode interactively:

○ Map to recode = EDMAN

○ Recoded map = EDMAN_bin (el valor de corte según la media de las pre-sencias)

○ En la ventana escribe lo siguiente, sustituyendo n por el valor MEDIA_PRESENCIAS correspondiente al modelo EDMAN en el archivo RESULTADOS_AUC.txt:

n:100:1:10:n:0:0

○ Apply



SECCIÓN 7: APLICACIONES PRÁCTICAS DE LOS MODELOS DE DISTRIBUCIÓN

(Tiempo estimado: 1 hora y 10 minutos)

En este apartado se ilustrarán aplicaciones prácticas de los modelos de distribución, trabajando sobre varios ejemplos. Por cuestiones de tiempo, en la mayoría de los casos se simplificará el proceso de modelado, omitiendo fases como la evaluación, o utilizando una resolución menor (1000m).

7.1 CARTOGRAFÍA DE POBLACIONES


Los objetivos de esta aplicación son medir la superficie potencialmente ocupada por la especie Linaria nigricans, y obtener dos cartografías vectoriales que puedan vi-sualizarse sobre imágenes aéreas y/o satelitales: una a escala de detalle (1:10000), y otra a escala de reconocimiento (1:100000).

Los modelos de distribución de especies se diseñaron originalmente para obtener cartografías de especies de distribución desconocida. Sin embargo, al trabajar con cartografías generadas mediante estos métodos, es importante conocer y comunicar las limitaciones de los resultados.

No todas las especies son susceptibles de ser cartografiadas mediante estos méto-dos, y esto es especialmente cierto para aquellas que tienen patrones de dispersión estocásticos, o tienen relaciones poco definidas con las variables ambientales utiliza-das como predictores.

La especie sobre la que se va a trabajar cumple condiciones para ser bien cartogra-fiada, porque está asociada a una componente litológica bien reflejada en las bandas Landsat, y su mecanismo de dispersión la ha llevado allí donde existía hábi-tat apropiado para soportar nuevas poblaciones.

El material de partida es el mejor modelo de alta resolución obtenido para Linaria ni-gricans en el caso práctico de la sección 5.2 (Evaluación de modelos continuos). Este modelo ya fue transformado en binario (EDMAN_76) utilizando el criterio basa-do en el valor de idoneidad promedio de las presencias de evaluación en el caso práctico de la sección 6.

7.1.1 Medición del área de ocupación

Se hace directamente sobre el modelo binario.

● Raster > Reports and statistics > Sum area by map and category, para abrir el módulo r.report.

○ Raster map to report on = EDMAN_bin

○ k = marcado (para obtener el área en kilómetros cuadrados)

○ h = marcado (para obtener el área en hectáreas)

○ c = marcado (para obtener el número de celdas ocupadas)



○ Run

○ Cierra r.report.

Los resultados se mostraran en la ventana de salida, en formato texto. Los correspondientes al área ocupada tienen el valor 1 en el campo description.

7.1.2 Cartografía de detalle

La cartografía de detalle debe tener toda la información proporcionada por el mode-lo. Para obtener la cartografía de detalle:

1. Para preparar la capa EDMAN_bin para vectorizarla, es necesario en primer lugar transformar los valores 0 (cero) en Null: Raster > Develop map > Null values, para abrir r.null.

○ Raster map for wich edit null file = EDMAN_bin

○ List of cell values to be set to null = 0

○ Run

2. Para vectorizar la capa: File > Map type conversions > Raster to vector, para abrir r.to.vect.

○ Name of input raster map = EDMAN_bin

○ Name of output vector map = Linaria_nigricans_DETALLE

○ Feature type = area

○ Run

7.1.3 Cartografía de reconocimiento

La cartografía a escala de reconocimiento debe mostrar un menor grado de detalle. Si visualizas el modelo binario EDMAN_bin verás que tiene muchas celdas aisladas con presencia potencial de la especie. Aunque estas celdas podrían ser candidatas para una prospección, en el caso de una cartografía de reconocimiento aportan de-masiada información, y es preferible eliminarlas filtrando el modelo.

1. Es necesario volver a modificar los valores Null del modelo EDMAN_bin, transformándolos en 0 (cero): Raster > Develop map > Null values, para abrir r.null.

○ Raster map for wich edit null file = EDMAN_bin

○ The value to replace the null value = 0

2. Filtrado del modelo binario utilizando un filtro de moda (es el apropiado para capas binarias y cualitativas): Raster > Neighborhood analysis > Moving win-dow, para abrir el módulo r.neighbors.

○ Use circular neighborhood = marcado

○ Name of input raster map = EDMAN_bin

○ Name of output raster map = EDMAN_bin_moda_5

○ Neighborhood operation = mode



○ Neighborhood size = 5

○ Run

○ Cierra r.neighbors.

3. Para vectorizar EDMAN_bin_moda_5, es necesario transformar los valores 0 (cero) en Null de nuevo: Raster > Develop map > Null values, para abrir r.null.

○ Raster map for wich edit null file = EDMAN_bin_moda_5

○ List of cell values to be set to null = 0

○ Run

○ Cierra r.null.

4. Para vectorizar la capa: File > Map type conversions > Raster to vector, para abrir r.to.vect.

○ Smooth corners of area features = marcado

○ Name of input raster map = EDMAN_76_moda_5

○ Name of output vector map = Linaria_nigricans_RECONOCIMIENTO

○ Feature type = area

○ Run

○ Cierra r.to.vect.

5. Para preparar una visualización sobre una imagen Landsat en color verdade-ro, es necesario hacer la composición de color “fundiendo” varias bandas. En GIS Manager pulsa el icono a la derecha de abrir nueva capa raster (se llama Add RGB or HIS layer). Selecciónalo en la ventana de mapas activos, y en la configuración de mapas activos establece la siguiente configuración (recuerda que las bandas Landsat están en el mapset PERMANENT):

○ red = LSAT_3

○ green = LSAT_2

○ blue = LSAT_1

6. Añade a la vista la capa Linaria_nigricans_RECONOCIMIENTO, y juega con los colores de línea, relleno (fill areas) y transparencia, para conseguir una buena visualización de la cartografía.

7.1.4 Comparación con una cartografía real

En la carpeta C:\CURSO_MODELOS\GEODATOS\PRESENCIAS\Linaria_nigricans dispones del archivo vectorial LINARIA_NIGRICANS_CARTOGRAFIA.shp. Es una cartografía de detalle de las poblaciones de Linaria nigricans. Impórtalo a GRASS: File > Import > Import vector map > Multiple formats using OGR, para abrir v.in.ogr.

● Pestaña Options:

○ Override dataset projection = marcado

○ OGR datasource name = C:/CURSO_MODELOS/GEODATOS/PRESEN-CIAS/Linaria_nigricans/LINARIA_NIGRICANS_CARTOGRAFIA.shp



○ Name of output vector map = Linaria_nigricans_REAL

○ Type = boundary

○ Run

○ Cierra v.in.ogr.

Visualiza y compara la cartografía real con la de reconocimiento y detalle que has generado a partir del modelo de distribución. La Figura 21 ofrece una comparación entre las grandes poblaciones conocidas de la planta.

7.1.5 Discusión

Ya conocemos la relevancia que tiene el umbral de corte en el área de presencia fi-nal de un modelo de distribución binario. La resolución del modelo también tiene un papel importante en el área final, y cuanto mayor sea la resolución, mejor será la medida final de área. Estas medidas de área siempre deben tomarse como área de presencia potencial. Para tomarlas como realistas habría que realizar verificaciones en campo. Una posibilidad para mejorar la estimación de área es utilizar para medir-la solo aquellos polígonos en los que hay presencia registrada de la planta.

Con la resolución actual de trabajo (unos 90 metros), el resultado de la cartografía de detalle aparecerá muy cuadriculado. Para obtener cartografías de detalle finas, es necesario recurrir a resoluciones mayores en las variables predictoras.

Al comparar los resultados con la cartografía real, debes tener en cuenta que para generar la real, varios equipos de personas han trabajado en campo, durante varios años consecutivos y utilizando GPS e imágenes aéreas de alta resolución como base topográfica.

El resultado que se obtiene con la cartografía de reconocimiento de Linaria nigricans es relativamente bueno, porque esta especie tiene características apropiadas para modelar su distribución, pero ojo, esto no siempre va a ser así.

7.2 BÚSQUEDA DE NUEVAS POBLACIONES DE Linaria nigricans


El objetivo de esta aplicación es obtener un mapa útil para programar prospecciones de campo encaminadas a localizar poblaciones desconocidas de Linaria nigricans.


Figura 21: Comparación entre las cartografías obtenidas usando un modelo de distribución como base, y una cartografía real de gran precisión con la distribución conocida de Linaria nigricans.


Esta aplicación podría considerarse relacionada con la anterior, pero en la cartogra-fía el objetivo es representar la distribución más restringida posible, mientras que para buscar nuevas poblaciones hay que flexibilizar los criterios para tener en cuenta áreas en las que, por ahora, no hay registros de presencia de la especie.

El primer criterio para considerar una nueva población es la distancia a otras pobla-ciones conocidas. Puede seleccionarse una distancia arbitrariamente, o utilizar un criterio razonado, pensando en las capacidades dispersivas de la especie, o en la distancia entre las poblaciones actualmente conocidas.

En este caso tomaremos una distancia mínima de 10 kilómetros, porque Linaria ni-gricans aparentemente dispersa ocasionalmente a larga distancia, y presenta un área de distribución amplia. Para definir esta distancia utilizaremos como referencia la cartografía real de la planta (Linaria_nigricans_REAL) utilizada en el ejercicio an-terior.

El segundo criterio es de idoneidad del hábitat, y para definirlo vamos a utilizar un ensamblado de modelos. Se transformarán todos los modelos de Linaria nigricans en binarios, utilizando el umbral de corte definido por el criterio más relajado (media menos desviación estándar). Se sumarán todos los modelos, y se tomarán como lo-calidades potenciales aquellas en las que la mayoría absoluta de los modelos predice presencia.

7.2.1 Procedimiento de búsqueda de nuevas poblaciones

Los pasos serán: calcular las distancias a las poblaciones conocidas, reclasificar el modelo de distancias para utilizar solo las mayores a 10 kilómetros, ensamblar los modelos de distribución de la planta, y cruzar el ensamblado con la capa de distan-cias.

1. Cálculo de las distancias a las poblaciones conocidas de Linaria nigricans.

○ Transformación el archivo vectorial Linaria_nigricans_REAL: GIS Manager > File > Map type conversions > Vector to raster, para abrir el módulo v.to.-rast.

■ Name of input vector map = Linaria_nigricans_REAL

■ Name for output raster map = Linaria_nigricans_REAL


■ Type = area

■ Run

■ Cierra v.to.rast.

○ Mapa de distancias a las poblaciones: GIS Manager > Raster > Terrain analysis > Cost surface, para abrir el diálogo r.cost.

■ Use the Knight's move = marcado

■ Name of raster map containing grid cell cost information = COSTE (en el mapset PERMANENT)

■ Name for output raster map = DISTANCIA_LINARIA



■ Starting points raster map = Linaria_nigricans_REAL

■ Run

■ Cierra r.cost.

○ Mapa de distancias mayores de 10 kilómetros a cualquier población cono-cida de Linaria nigricans: Las unidades del mapa de distancias están en decenas de metros. Por tanto, cualquier celda con un valor superior a 1000 estará al menos a 10 kilómetros de una población conocida de la planta. Solo tenemos que reclasificar el mapa DISTANCIA_LINARIA para que tome valor 1 en todas las áreas con valor mayor a 1000, y 0 en todas las áreas con valor menor: GIS Manager > Raster > Change category va-lues and labels > Recode interactively, para abrir la ventana Interactive rules entry.

■ Map to recode = DISTANCIA_LINARIA

■ Recoded map = DISTANCIA_LINARIA_10KM

■ En la ventana escribir =

1000:10000:1

0:999:0

■ Apply

■ Cierra Interactive rules entry.

(El número 10000 es la máxima distancia, redondeada, que aparece en el mapa; el valor aparece durante la creación del mapa, en la ventana Output, como Peak cost value)

2. Ensamblado de modelos. En primer lugar hay que transformar en binarios to-dos los modelos, utilizando como umbral de corte para cada modelo el que aparece en el apartado PUNTO_DE_CORTE_MEDIA_menos_DESVIACION en el archivo RESULTADOS_AUC.txt (en CURSO_MODELOS/EVALUA-CION/ AUC). nn representa el valor de umbral de corte para cada modelo:

■ CSM n1

■ ES n2

■ EDEUC n3

■ EDCHE n4

■ EDMAH n5

■ EDMAN n6

■ GARPDK n7

■ GARPOM n8

■ SVM n9

○ Recodificación de los modelos: GIS Manager > Raster > Change category values and labels > Recode interactively, para abrir la ventana Interactive rules entry.



■ Map to recode = CSM

■ Recoded map = CSM_M-SD (M-SD, de “mean minus standar devia-tion”)


n1:100:1

0:n1-1:0

■ Apply

■ Aceptar

■ Map to recode = ES

■ Recoded map = ES_M-SD


n2:100:1

0:n2-1:0

■ Apply, y así sucesivamente hasta haber recodificado los 7 modelos res-tantes.

○ Ensamblado de modelos. Los modelos se agregarán mediante suma: Raster > Overlay maps > Map series para abrir el módulo r.series:

■ Name of input raster map(s) = CSM_M-SD,ES_M-SD,EDEUC_M-SD,EDMAH_M-SD,EDCHE_M-SD,EDMAN_M-SD,GARPDK_M-SD,GARPOM_M-SD,SVM_M-SD

■ Name of output raster map = ENSAMBLADO_M-SD

■ Aggregate operation = sum

■ Run

■ Cierra r.series.

3. Eliminación de áreas que quedan fuera del criterio de mayoría absoluta (aquellas de ENSAMBLADO_M-SD con valores entre 0 y 4): Raster > Deve-lop map > Null values, para abrir r.null.

○ Raster map for wich edit null file = ENSAMBLADO_M-SD

○ List of cell values to be set to null = 0,1,2,3,4

○ Run

4. Aplicación del criterio de mínima distancia: multiplicamos el modelo ENSAM-BLADO_M-SD por la capa que contiene el criterio de distancia DISTANCIA_LINARIA_10KM: En la línea de comandos teclea y ejecuta la si-guiente expresión (no olvides las comillas en el mapa ENSAMBLADO, o la calculadora confundirá el guión de M-SD con un signo de sustracción):r.mapcalc NUEVAS_POBLACIONES_Ln=”ENSAMBLADO_M-SD”*

DISTANCIA_LINARIA_10KM

○ El mapa resultante tiene valores 0 que no nos interesan. Para quitarlos:



Raster > Develop map > Null values, para abrir r.null.

■ Raster map for wich edit null file = NUEVAS_POBLACIONES_Ln

■ List of cell values to be set to null = 0

■ Run

■ Cierra r.null.

5. Preparación para visualización. Le pondremos a la capa NUEVAS_POBLA-CIONES_Ln colores que nos faciliten identificar las áreas con mayor consenso (mayor número de modelos predicen presencia): Raster > Manage map colors > Color tables, para abrir el módulo r.colors.


■ Name of input raster map = NUEVAS_POBLACIONES_Ln

○ Pestaña Colors:

■ Type of color table = gyr

○ Run

El mapa resultante puede superponerse con transparencia sobre una imagen satéli-te, o mejor, sobre imágenes aéreas para preparar mapas guía sobre los que diseñar prospecciones.

7.2.2 Discusión

Este tipo de aplicaciones han sido probadas con éxito por varios investigadores, en-tre los que nos incluimos. Lo habitual es disponer de un número limitado de


Figura 22: Ejemplo de un mapa diseñado para la búsqueda de nuevas poblaciones de la planta ame-nazada Linaria nigricans.


presencias al comienzo, y según se van desarrollando las labores de prospección, las nuevas localidades de presencia que se van obteniendo, deberían utilizarse para recalibrar los modelos y hacer nuevos mapas. Este tipo de realimentación es muy costosa si utilizamos la técnica de ensamblado de modelos, por lo que en este caso, sería más operativo trabajar con un único modelo como guía (el mejor obtenido en una prueba previa, por ejemplo).

El ensamblado de modelos, que se basa en buscar coincidencias de criterio entre distintas técnicas, se propone últimamente como una técnica predictiva robusta, y programas de modelado como OpenModeller, que permiten correr varios modelos de una sola vez, facilitan esta labor.

Sin embargo, es necesario ser cauto al aplicar esta técnica; como sabemos, varios de los modelos de Linaria nigricans obtuvieron valores de AUC relativamente bajos comparados con el resto (CSM, ES, EDCHE, GARPDK y GARPOM). Y de los cuatro mejores modelos, tres de ellos están basados en un mismo algoritmo (Environmental Distance), por lo que un ensamblado puede ocultar información sesgada.

7.3 ENSAMBLADO DE BIODIVERSIDAD PARA ASISTIR EN EL DISE-ÑO DE RESERVAS DE FLORA


El objetivo de esta práctica es obtener mapas de biodiversidad como material de partida para el diseño de redes de reservas de flora.

La tarea real debería consistir en modelar la distribución de todas las especies posi-bles de flora de Almería, utilizando varios modelos de distribución diferentes, y seleccionando la técnica más precisa para cada especie. Con el umbral de corte de cada modelo, se transformarían todos en binarios, y se sumarían, como en la prácti-ca anterior, para obtener el número potencial de especies de flora en cada celda del área de trabajo. Después se establecería un umbral de corte en un número de espe-cies mínimo, y se delimitarían las reservas según características como el tamaño de parche, cercanía a centros urbanos, antropización del medio, etc. Después se com-probaría la información en campo para finalmente abordar el diseño final de la red.

Esta tarea es de grandes dimensiones, por lo que vamos a trabajar sobre una simpli-ficación que ilustra los conceptos más importantes. Eliminaremos el modelado con múltiples algoritmos, utilizando solo Environmental Distance Manhattan, porque es rápido en su ejecución, y ya sabemos que proporciona buenos resultados. Trabaja-remos con las variables de 1000 metros, para utilizar datos de presencia de GBIF, porque no disponemos de suficientes puntos de presencia de alta resolución. Omiti-remos la fase de evaluación de modelos, porque la evaluación individual de un número tan alto de modelos exige mucho tiempo. Finalmente aplicaremos el mismo umbral de corte a todos los modelos, estableciéndolo en 50. ¡Observa que estas prácticas son poco o nada recomendables en un trabajo de producción real!.

En este ejercicio aprovecharemos las características de GRASS para realizar el tra-bajo automáticamente. Para ejecutar la mayoría de las acciones automáticamente crearemos un guión. Es difícil construir un guión tan grande sin que surja algún fallo, así que presta atención a cada paso.



7.3.1 Preparación de los modelos de distribución

1. Prepara un nuevo experimento en OpenModeller:

○ Nombre = BIODIVERSIDAD_POTENCIAL.

○ Occurrence data = selecciona ESPECIES_ALMERIA_GBIF.txt, que está en C:\CURSO_MODELOS\ GEODATOS\PRESENCIAS. Contiene los da-tos de presencia de 225 especies.

○ Algorithm = Environmental Distance Manhattan

○ Model Settings:

■ Creation layers = ALMERIA_1000m

■ Projection layers = ALMERIA_1000m

○ Una vez terminados los modelos, ve a la carpeta C:\CURSO_MODELOS\ RESULTADOS\modelOutputs\BIODIVERSIDAD_POTENCIAL\Environ-mental_Distance_-_Manhattan, y copia (copiar y pegar, no arrastrar) todos los archivos a la carpeta (tienes que crearla) C:\MODELOS. Esto es para acortar la ruta de acceso en los guiones y facilitar su lectura; ¡OpenMode-ller crea rutas de acceso muy largas!.

2. Los modelos tardarán en ejecutarse unos minutos, por lo que mientras, en GRASS, prepara un nuevo Mapset llamado BIODIVERSIDAD en la localidad ALMERIA_latlong. Entra en el nuevo mapset, y vamos a prepararlo:

○ Config > Region > Change region settings:

■ Pestaña Existing:

● Set region to match this raster map = 1000m_ITP@PERMANENT

■ Run

■ Cierra r.region.

○ Raster > MASK, para abrir r.mask:

■ Raster map to use as MASK = 1000m_ITP@PERMANENT

■ Run

■ Cierra r.mask.

3. Preparación del guión para GRASS: 225 modelos son muchos para importar-los a mano, por lo que vamos a crear un guión para importar las imágenes, procesarlas y preparar los resultados:

○ En el menú de Windows, pulsa en Ejecutar, teclea cmd y pulsa sobre Aceptar para abrir la línea de comandos de Windows XP.

○ Teclea y ejecuta la siguiente expresión, para mover la terminal a la carpeta en la que están almacenados los resultados de los modelos:

cd C:\MODELOS

○ Para obtener una lista de los archivos .tiff que necesitamos importar a GRASS y guardarla en CURSO_MODELOS\GUIONES, teclea y ejecuta:

dir *.tif >> C:\CURSO_MODELOS\GUIONES\lista_modelos.txt


mailto:1000m_ITP@PERMANENT

mailto:1000m_ITP@PERMANENT


○ Cierra la terminal de Windows.

○ Ve a la carpeta CURSO_MODELOS\GUIONES, y abre con Calc el fichero lista_modelos.txt teniendo en cuenta las siguientes opciones:

■ A partir de línea 6

■ Ancho fijo: separa los nombres de los archivos .tif del resto de elemen-tos que van en el fichero.

■ Aceptar.

○ Ahora haz las operaciones necesarias para obtener un resultado como el que se muestra en la Figura 23. (NOTA: Elimina las dos últimas líneas de la hoja de cálculo, tienen datos que no interesan. Observa que en la co-lumna C, output= lleva un espacio al principio, !no lo olvides!)

○ Guarda la hoja como formato .ods con el nombre GUION_BIODIVERSI-DAD_POTENCIAL en C:\CURSO_MODELOS\GUIONES

○ Vuelve a guardarla en la misma ubicación como formato .csv, con el nom-bre BIODIVERSIDAD_POTENCIAL.txt.

■ En Separador de campos, borra lo que venga.

■ En Separador de texto, también borra lo que aparezca.

■ Aceptar.

Si todo ha ido bien, en la carpeta GUIONES ya tienes la primera parte del guión, que importará a la base de datos de GRASS todos los modelos. Si abres el guión con Notepad++, cada línea debería haber quedado así, con espacios delante de -o, input, output

r.in.gdal o input=C:/MODELOS/Adiantum_capillus_projection.tif output=Adiantum_capillus

○ La siguiente operación es transformar los modelos en binarios, aplicándo-les un umbral de corte con valor 50. Añadiremos las operaciones necesarias al guión anterior, para realizarlas todas en una sola ejecución.

■ Crea en la carpeta CURSO_MODELOS\GUIONES un archivo de texto con el siguiente contenido, y guárdalo como UMBRAL_CORTE.txt:

50:100:1:10:49:0:0

■ En la hoja de cálculo GUION_BIODIVERSIDAD_POTENCIAL.ods in-


Figura 23: Aspecto de la hoja de cálculo para generar la primera parte del guión de GRASS "BIODIVERSIDAD_POTENCIAL.txt"


serta una hoja nueva llamándola CORTE para crear la siguiente parte del guión. Debe quedar como indica la Figura 24 (ten en cuenta los es-pacios delante de output y rules):

■ Exporta en formato .csv con el nombre CORTE.txt.

■ Con Notepad++ copia el contenido de CORTE.txt debajo del contenido de BIODIVERSIDAD_POTENCIAL.txt; ahora nuestro guión importará las imágenes y les aplicará el umbral de corte del archivo UMBRAL_CORTE.txt.

■ Guarda los cambios en BIODIVERSIDAD_POTENCIAL.txt, pero no cierres el archivo, porque vamos a añadir dos operaciones más.

○ Ahora prepararemos la suma de los modelos binarios. Crea una nueva hoja de cálculo llamada CONCATENAR, y pega en ella las columnas de la hoja CORTE con todos los nombres de los modelos, y la que tiene el sufijo _bin (de “binario”). Uniremos el nombre del modelo al sufijo con la función CONCATENAR, tal y como aparece en la Figura 25. Arrastra la función hasta haber unido todos los nombres de modelo con su sufijo.

■ Crea una nueva hoja de cálculo llamada SUMA, en la que pegarás la nueva columna que has creado con la función CONCATENAR, pero utilizando la opción de Pegado Especial, con las siguientes opciones:

● Selección:

○ Pegar todo = desmarcado

○ Texto = marcado

○ “Todo lo demás” = desmarcado

● Transponer = marcado

● Aceptar

■ Si todo ha ido bien, tienes los nombres de los modelos binarios en una sola fila. Guarda la hoja de cálculo como GUION_BIODIVERSIDAD_POTENCIAL.ods. de nuevo, porque tene-mos que cambiar los separadores de texto en la exportación.

■ Ahora exporta la hoja SUMA como .csv, con el nombre SUMA.txt.


Figura 25: Función CONCATENAR, para unir nombres de modelos y sufijos.

Figura 24: Aspecto de la hoja de cálculo para crear la parte del guión que transforma los modelos continuos en binarios.


● Separador de campo = , (coma)

● Separador de texto = ninguno

● Aceptar

■ Vuelve a guardar la hoja de cálculo como GUION_BIODIVERSIDAD_POTENCIAL.ods.

■ Abre el archivo SUMA.txt con Notepad++, y al principio y al final de la expresión de suma escribe lo que aparece en negrita en la siguiente expresión. El resultado BIODIVERSIDAD_POTENCIAL_ESPECIES es la suma de todos los modelos binarios:

r.series input=Adiant...mays_bin output=BIODIVERSIDAD_POTENCIAL_ESPECIES method=sum

■ Ahora copia la línea completa, y pégala en BIODIVERSIDAD_POTEN-CIAL.txt.

■ Vuelve al archivo SUMA.txt, y elimina todos los sufijos “_bin”; de este modo tendremos la misma expresión anterior, pero en este caso para sumar los modelos continuos, y obtener un modelo de biodiversidad basado en la idoneidad. En la expresión de suma, cambia el resultado de BIODIVERSIDAD_POTENCIAL_ESPECIES a BIODIVERSIDAD_POTENCIAL_IDONEIDAD.

■ Ahora copia la línea completa, y pégala en BIODIVERSIDAD_POTEN-CIAL.txt, debajo de la anterior expresión de suma.

○ Ejecución del guión: es hora de probar si lo hemos hecho bien. Inicia GRASS Command Line. Comprueba que está en el mapset BIODIVERSI-DAD, y pulsa ESC y ENTER consecutivamente para entrar.

■ Para ejecutar el guión, mueve la terminal hasta la carpeta de guiones y ordena la ejecución:

cd C:\CURSO_MODELOS\GUIONESsh BIODIVERSIDAD_POTENCIAL.txt

Ahora que se está ejecutando el guión, piensa en el tiempo que hubiera llevado eje-cutar manualmente estas acciones. Las técnicas para escribir guiones rápidamente al principio son complejas para quién no tiene excesivo manejo con el PC, pero a la larga permiten ahorrar mucho tiempo.

Es posible que la terminal informe de algún error en el guión. Es importante descu-brir de que se trata, para corregirlo y volver a ejecutarlo.

Los resultados de este guión son BIODIVERSIDAD_POTENCIAL_ESPECIES, que indica el número potencial de especies por kilómetro cuadrado, y BIODIVERSIDAD_POTENCIAL_IDONEIDAD, que es la sumatoria de idoneidad de todos los modelos.

Ambos son estimadores de biodiversidad basados en modelos de distribución, pero presentan poca correlación entre sí (0.50), por lo que representan criterios muy dife-rentes.



Una comparación de estos modelos con la biodiversidad aparente puede ayudarnos a definir criterios. El mapa de biodiversidad aparente indica el número real de espe-cies encontradas en cada celda del area de trabajo, obtenido a partir de los registros de presencia utilizados para hacer los modelos. Para hacer este mapa de biodiversi-dad aparente, es necesario importar los archivos vectoriales de las especies individuales (que son creados automáticamente por OpenModeller), transformarlos en raster con valor 1 en las celdas ocupadas por registros de presencia, y sumarlos, tal y como hicimos en el guión anterior. Como ya has aprendido a crear un guión para tratamiento masivo de mapas, no es necesario que prepares este, porque ya está en la carpeta GUIONES; se llama BIODIVERSIDAD_APARENTE.txt, y solo tie-nes que ejecutarlo. Teclea y ejecuta:

cd C:\CURSO_MODELOS\GUIONESsh BIODIVERSIDAD_APARENTE.txt

Una vez concluya la ejecución, cierra la línea de comandos, y abre GRASS con su interfaz gráfica para visualizar los resultados de ambos guiones (Figura 26).

Ahora que tienes los resultados, te propongo como ejercicio que selecciones crite-rios de protección y diseñes una red de reservas lo más razonada posible.

7.3.2 Discusión

Tratar de generar una red de reservas a partir de los datos reales de presencia de las especies da una imagen sesgada de la biodiversidad de Almería, y reduce enor-memente el número de enclaves con posibilidades de ser incluidos en una red de reservas. Por ejemplo, tomando como criterio un número mínimo de 20 especies para que una celda entre a formar parte de la red, solo 11 km2 serían protegidos, y muy probablemente, gran cantidad de localidades con alta diversidad que no hayan sido muestreadas quedarían fuera de la red. Además las reservas seleccionadas se-rían puntuales, sin otra estructura espacial que la definida por un radio concreto alrededor de la celda de presencia.

Utilizar la biodiversidad potencial como criterio, según el mismo umbral de 20 espe-cies, supondría la protección de 316 km2, y permitiría trazar reservas con una estructura espacial determinada, más acordes con la realidad del paisaje.

Sin embargo el criterio de número de especies excluye localidades con pocas espe-cies que pueden ser importantes por su grado de amenaza o interés biogeográfico


Figura 26: Comparación de mapas de biodiversidad: a) biodiversidad aparente, o número real de es-pecies por km2; b) biodiversidad potencial, en número potencial de especies por km2: b) sumatorio de

idoneidad, para todas las especies modeladas.


(endémicas, o de distribución restringida, como ejemplos). El grado de amenaza y exclusividad de especies concretas debería ser un criterio más, y podría implemen-tarse tratando por separado estas especies para definir una red de reserva prioritaria, que después se uniría al segundo grupo de especies más genéricas, para formar una red completa.

Aún así, la calidad del modelo está supeditada a la calidad del muestreo. el ejemplo claro lo supone la ausencia de áreas a proteger en las montañas (Gádor, Sierra Ne-vada, etc.), porque pocas especies del conjunto de datos de GBIF han sido recogidas en ellas.

Este mismo trabajo, ejecutado a alta resolución, y llevando a cabo todas las tareas de gestión de calidad de los resultados, proporcionaría resultados espacialmente muy precisos, útiles para delinear una red de reservas que ofrecería un grado de protección razonable para áreas no muestreadas. Sin embargo es necesario insistir en que, incluso utilizando la técnica más depurada, un sesgo importante en los da-tos, y una elección errónea de criterios puede llevar a resultados erróneos.

7.4 EVALUACIÓN DEL IMPACTO POTENCIAL DEL CAMBIO CLIMÁ-TICO EN LA DISTRIBUCIÓN DE UNA ESPECIE AMENAZADA


El objetivo de esta práctica es conseguir una toma de contacto con la técnica de pro-yección de modelos de distribución sobre escenarios de cambio climático, porque una profundización en esta temática exige un curso por sí solo. Prepararemos un modelo de alta resolución (90m) de distribución potencial actual y otro de distribución potencial futura de Linaria nigricans, para compararlos entre sí, y evaluar el impacto potencial del cambio del clima en las poblaciones de la planta.

En los últimos años es frecuente encontrar trabajos que predicen la distribución futu-ra de especies animales y vegetales ante distintos escenarios de cambio climático, basados en modelos de distribución de especies y simulaciones del comportamiento del clima para lo que resta de siglo 21.

Antes de comenzar con esta práctica debes entender que es un campo teórico en el que la discusión está a la orden del día. Hay una enorme cascada de incertidumbres que afecta a todo el proceso de modelización:

● Los escenarios de emisiones (Special Report on Emission Scenarios) del IPCC: no se conoce cuál de las líneas evolutivas (A1, A2, B1, B2) es las más probable.

● Los modelos de predicción climática (Modelos de circulación global océano-atmósfera): se basan en las emisiones de los distintos escenarios SRES, tie-nen resoluciones muy groseras (celdas de cientos de kilómetros) y es posible que no tengan en cuenta todas las variables que afectan al clima a largo pla-zo.

● Los métodos de regionalización de los modelos de predicción climática (trans-formación de baja resolución a alta resolución espacial): están en fase de desarrollo, y hasta cierto punto se desconoce su capacidad para ajustarse a predicciones a largo plazo.



● Los métodos de modelado de distribución: los distintos algoritmos, con distin-tas lógicas internas, asumen comportamientos distintos de la misma especie ante cambios en las condiciones climáticas.

● El nicho ecológico de las especies: no se conoce con exactitud hasta que punto el nicho de una especie permanece estable ante cambios ambientales, y los modelos de distribución aún no asumen esta posibilidad (consideran un nicho ecológico estático). Si una especie es capaz de adaptarse, las predic-ciones de un modelo de distribución serán erróneas.

Esto es solo un sumario rápido de esta cascada de incertidumbres, y cualquier tra-bajo como el que desarrollaremos a continuación exige un estudio minucioso de cada una de ellas, sobre todo de las que entran en nuestro dominio, que son las re-lativas a los aspectos biológicos, relacionados con la ecología de la especie estudiada.

7.4.1 Escenarios de Cambio Climático

Para generar mapas de temperatura y precipitación de distintos escenarios de cam-bio climático se han utilizado los datos regionalizados proporcionados por la AEMET (http://www.aemet.es/es/elclima/cambio_climat/escenarios). Particularmente dispo-nemos para esta práctica de los siguientes mapas: precipitación acumulada anual, temperatura media máxima y temperatura media mínima, correspondientes al esce-nario CGCM-A2, periodo 2055-2070.

Cuando se trabaja con modelos de cambio climático, las variables obtenidas por te-ledetección (Landsat en este caso) no tienen sentido, porque tienen una evolución temporal que no podemos predecir. Por tanto no utilizaremos para los modelos las variables cpLSAT_1, cpLSAT_2 y NDVI.

Las variables para esta práctica están en C:\GEODATOS\VARIABLES, en dos carpe-tas: PRESENTE_90m y FUTURO_90m. Introdúcelas como conjuntos de variables en OpenModeller, con los mismos nombres.

7.4.2 Proyección de modelos de distribución con OpenModeller

Prepara un nuevo experimento de OpenModeller, para conseguir el modelo de distri-bución de Linaria nigricans correspondiente a l:

● Nombre = L_nigricans_PRESENTE

● Occurrence Data = pulsa el signo “+” verde, y añade el archivo Linaria_nigri-cans.txt (se borrarán los registros de GBIF).

● Algoritmo = Environmental Distance - Manhattan

● Creation layers = PRESENTE_90m

● Projection layers = PRESENTE_90M

● Ok, para ejecutar el experimento.

Cuando el modelo se ejecute, prepara un nuevo proyecto, para obtener los modelos con la distribución potencial futura de la especie.

● Nombre = L_nigricans_FUTURO


http://www.aemet.es/es/elclima/cambio_climat/escenarios


● Occurrence Data = Linaria nigricans

● Algoritmos= Environmental Distance - Manhattan


● Projection layers = FUTURO_90M

● Ok, para ejecutar el experimento.

7.4.3 Análisis de los modelos

1. En la localidad ALMERIA_latlong prepara un nuevo mapset llamado PRO-YECCION_LINARIA. Adapta la región de trabajo a los mapas de 90m:

g.region rast=MASK

2. Importación de los modelos: usa el módulo r.in.gdal para importar los mode-los. Recuerda que están en CURSO_MODELOS/RESULTADOS/modelOutputs/. Nómbralos Ln_P y Ln_F respectivamente.

7.4.3.1 Distribución potencial actual y futuraLa idea es conseguir un mapa de distribución potencial actual y distribución potencial futura para calcular el área ocupada en cada momento del tiempo. Es necesario es-tablecer el umbral de corte del modelo Ln_P para transformarlo en binario, y aplicar el mismo criterio al modelo Ln_F. Posteriormente se miden las áreas y se establecen las comparaciones deseadas.

Para poder conocer el umbral de corte, necesitas acceso al archivo de puntos de presencia de Linaria nigricans, que está en el mapset MODELOS. En este momento no tienes acceso al mismo; para abrir este acceso: Config > GRASS Working envi-ronment > Mapset acces; marca MODELOS para poder acceder a él, y pulsa OK.

Copia el archivo vectorial PRESENCIAS al mapset PROYECCION_LINARIA ejecu-tando:

g.copy vect=PRESENCIAS@MODELOS,PRESENCIASEl resto del procedimiento ya lo has realizado anteriormente: añade una nueva co-lumna al dbf PRESENCIAS del mapset PROYECCION_LINARIA, y muestrea el modelo Ln_P con los puntos de presencia usando v.what.rast. Después abre el .dbf PRESENCIAS, y calcula el promedio que han obtenido sobre el modelo los puntos de evaluación. Utiliza este valor para transformar los modelos Ln_P y Ln_F en bina-rios. Después calcula el área de ambos, y piensa en como puedes conocer las áreas de persistencia de Linaria nigricans utilizando los mapas resultantes.

7.4.3.2 Diferencial de idoneidad: frentes de avance y retrocesoAnte un cambio del clima, se espera un desplazamiento de las condiciones óptimas para la especie. Considerando una población extensa de una especie cualquiera, determinados individuos, por su localización geográfica más marginal, van a experi-mentar un incremento de estrés fisiológico por el cambio de condiciones. En estas localizaciones se apreciarán antes los efectos del cambio en las poblaciones de la especie; es lo que se denomina frente de retroceso. En cambio, otros individuos experimentarán una mejora en las condiciones ambientales, y estarán en una situa-



ción privilegiada para que sus descendientes colonicen localidades en las que apa-recen condiciones apropiadas; es lo que se denomina frente de avance.

A partir de modelos de distribución es sencillo determinar frentes de avance y retro-ceso, siempre que la variación de condiciones entre los escenarios presente y futuro esté dentro de un margen razonable (por ejemplo, cuando hay un lapso de tiempo relativamente pequeño entre ambos momentos). La única operación a realizar es restar al modelo Ln_F los valores de idoneidad del modelo Ln_P.

r.mapcalc DIFERENCIAL=Ln_F-Ln_P

Colorea el mapa resultante con r.colors, seleccionando la tabla differences; el mapa resultante es fácil de interpretar: Las áreas de presencia de Linaria nigricans con va-lor positivo (rojo), en las que se va a incrementar la idoneidad para la especie, se consideran frentes de avance, y las zonas con valores negativos (azul), en las que van a degradarse las condiciones, se consideran frentes de retroceso.

Si superpones la cartografía Linaria_nigricans_REAL (mapset MODELOS) que hay en la carpeta CURSO_MODELOS/GEODATOS/PRESENCIAS/Linaria_nigricans, po-drás hacer una evaluación visual de cuáles son las poblaciones que mejores posibilidades de persistencia tienen si solo tenemos en cuenta los riesgos derivados del cambio climático.

7.4.4 Discusión

Los resultados de estas proyecciones están sometidos a muchas incertidumbres, pero hasta el momento son las herramientas más objetivas de las que disponemos para evaluar los cambios que pueden darse en la distribución vegetal como conse-cuencia de los cambios que se están produciendo en el clima.

Una única proyección sobre un solo escenario climático sirve para establecer el comportamiento potencial de la especie ante uno de los muchos escenarios posibles que pueden darse en el futuro, pero no aporta información sobre la incertidumbre asociada a la predicción. Un método para disminuir este margen de incertidumbre es generar modelos con distintos algoritmos sobre distintos escenarios climáticos.

7.5 ENSAMBLADO DE MODELOS PARA PROYECCIONES DE DIS-TRIBUCIÓN EN ESCENARIOS DE CAMBIO CLIMÁTICO


El objetivo de esta práctica es generar modelos de distribución actual y futura de una especie (cualquiera del listado de GBIF) sobre variables de 1000 metros de resolu-ción, utilizando distintos escenarios de cambio climático y ensamblado de modelos.

Para abreviar eliminaremos dos pasos fundamentales: partición de datos y evalua-ción de los modelos. No me cansaré de avisar: en un trabajo de producción real, sería una muy mala idea omitir ambos.

7.5.1 Escenarios climáticos

Se utilizan los mismos escenarios presente y futuro del ejercicio anterior, pero en su versión de baja resolución (1000m). Las capas están en las carpetas



PRESENTE_1000m y FUTURO_1000m. Añádelas en OpenModeller como conjuntos de capas con los mismos nombres.

7.5.2 Proyección de modelos de distribución

Prepara un nuevo experimento de OpenModeller, para conseguir los modelos de dis-tribución correspondientes a las condiciones actuales:

● Nombre = ENSAMBLADO_PRESENTE

● Occurrence Data = selecciona solo una especie del listado de GBIF: tienes que añadir el archivo de texto con los datos.

● Algoritmos = marca los siguientes:

○ Climate Space Model

○ Environmental Distance

○ Environmental Distance Chebyshev

○ Environmental Distance Mahalanobis

○ Environmental Distance Manhattan

○ GARP with best subsets OpenModeller

○ SVM


● Projection layers = PRESENTE_1000m

● Ejecuta el experimento.

Ahora debes preparar un nuevo proyecto, para obtener los modelos con la distribu-ción potencial futura de la especie.

● Nombre = ENSAMBLADO_FUTURO

● Occurrence Data = selecciona la misma especie que en el caso anterior

● Algoritmos = marca los mismos que en el caso anterior


● Projection layers = FUTURO_1000_

7.5.3 Análisis de los modelos entre escenarios

1. Preparación de un nuevo mapset de GRASS: En la localidad ALMERIA_lat-long prepara un nuevo mapset llamado PROYECCION_ENSAMBLADO. Adapta la región de trabajo uno de los mapas de 1000m:

g.region rast=1000m_ITP@PERMANENT

2. Importación de los modelos: usa el módulo r.in.gdal para importar los mode-los. Recuerda que están en CURSO_MODELOS/RESULTADOS/modelOutputs. Nómbralos con las mis-mas iniciales que en los ejercicios anteriores (CSM, EDEUC, EDCHE, EDMAH, EDMAN, GARPOM, SVM), poniéndoles el sufijo “_P” a los del pre-



sente, y “_F” a los del futuro.

7.4.3.2 Ensamblado de modelos

Para evaluar las diferencias en cuanto a distribución potencial de la planta entre los distintos escenarios, prepararemos un ensamblado con los modelos PRESENTE, y otro con los modelos FUTURO. Se utiliza un ensamblado de modelos porque es un modo de limitar la incertidumbre debida al algoritmo de modelado.

1. Transformación de los modelos en binarios. En este caso no disponemos de presencias de evaluación para determinar los umbrales de corte a partir de los que transformar los modelos en binarios, y con los algoritmos derivados de Environmental Distance, hacerlo a partir de las presencias de calibrado no sirve (todas tienen valor 100). Ante esta circunstancia, y para abreviar, utiliza-remos, de nuevo un umbral de corte arbitrario establecido en 50. Transforma en binarios todos los modelos (usando el módulo Recode interactively) con este umbral, poniéndoles el sufijo “_bin” a los nombres originales.

2. Suma los modelos “_F_bin” entre sí, y los modelos “_P_bin” entre sí.

3. Utilizaremos de nuevo un criterio de mayoría absoluta: si al menos cuatro mo-delos consideran la presencia de la especie, el lugar se define como apto. Reclasifica los resultados de las sumas anteriores, de modo que los lugares aptos tengan valor 1, y los no aptos valor 0. Para reclasificarlos, usa el módu-lo Interactively rules entry, poniendo en la ventana de entrada de reglas:

0:3:0:04:6:1:1

Con estos dos mapas que acabas de crear puedes medir las áreas de ocupación ac-tuales y futuras, para calcular potenciales pérdidas o ganancias, y puedes componer un mapa que muestre visualmente la información, cambiando colores y transparen-cias de las capas.

7.4.4 Discusión

Ya se han comentado las debilidades de estas técnicas, y todas sus aplicaciones es-tán limitadas por las mismas circunstancias. Aún así, es un campo de investigación muy activo, y se está utilizando este método para el diseño de redes de reserva y corredores ecológicos que tengan en cuenta variaciones en la distribución de las es-pecies debidas al cambio climático.

En cualquier caso, utilizando datos climáticos regionalizados como los que propor-ciona la AEMET, variables de alta resolución, un tamaño apropiado de tamaño de muestra, y métodos robustos de evaluación, selección y análisis de modelos, los re-sultados muestran una significación mucho mayor que la que hayas podido obtener con el rápido ejemplo que has trabajado.



7.6 EJERCICIOS PROPUESTOS

7.6.1 Cartografía de poblaciones

En la hoja de cálculo PRESENCIAS, en la pestaña GPS tienes registros de GPS de distintas plantas de la provincia de Almería. Genera una cartografía de detalle (90m) De una de ellas, utilizando todos los pasos necesarios para asegurar la calidad del proceso de modelado: partición aleatoria, modelado con múltiples algoritmos, eva-luación y selección de modelos y selección de un umbral de corte adecuado.

Mide el área de ocupación potencial, y prepara una visualización de la cartografía sobre una composición de color natural obtenida de las bandas Landsat.

7.6.2 Búsqueda de nuevas poblaciones

A partir de los resultados de la actividad anterior, prepara una cartografía apropiada para diseñar prospecciones de campo con el objetivo de encontrar nuevas poblacio-nes de la especie con la que trabajas.

7.6.7 Explora libremente

Piensa en lo que has aprendido, y piensa en modos de extraerle jugo. Si tienes du-das, usa los datos para experimentar, y conocer el funcionamiento y utilidad de los modelos. Inventa nuevos métodos de análisis de los modelos y aplicaciones prácti-cas en tus trabajos de conservación de plantas.



BIBLIOGRAFÍA

Allouche O, Tsoar A, Kadmon R (2006). Assessing the accuracy of species distribu-tion models: prevalence, kappa and the true skill statistic (TSS). Journal of Applied Ecology, 43, 1223-1232.

Araújo MB, New M (2006). Ensemble forecasting of species distribution. Trends in Ecology and Evolution, 22, 1

Araújo MB, Guisan A (2006). Five (or so) challenges for species distribution mode-lling. Journal of Biogeography, 33, 1677-1688.

Anderson RP, Lew D, Peterson AT (2003). Evaluating predictive models of species' distributions: criteria for selecting optimal models. Ecological Modelling, 162, 211- 232.

Barry S, Elith J (2006). Error and uncertainty in habitat models. Journal of Applied Ecology, 43, 413-423.

Cohen J (1960). A coefficient of agreement for nominal scales. Educational and Phy-chological Measurement, 41, 687-699.

Elith J, Burgman MA, Regan HM (2002). Mapping epistemic uncertainties and vague concepts in predictions of species distribution. Ecological Modelling, 157, 313-329.

Fielding AH, Bell JF (1997). A review of methods for the assessment of prediction errors in conservation presence/absence models. Environmental Conservation, 24, 38-49.

Guisan A, Thuiller W (2005). Predicting species distribution: offering more than sim-ple habitat models. Ecology Letters, 8, 993-1009.

Guisan A, Zimmermann en (2000). Predictive habitat distribution models in ecology. Ecological Modelling, 135, 147-186.

Hirzel AH, Le Lay G, Helfer V, Randin C, Guisan A (2006). Evaluating the ability of habitat suitability models to predict species presences. Ecological Modelling, 199, 142-152.

Jiménez-Valverde A, Lobo JM, Hortal J (2008). Not as good as they sem: the impor-tance of concepts in species distribution modelling. Diversity and Distributions, DOI: 10.1111/j.1472-4642.2008.00496.x

Jiménez-Valverde A, Lobo JM (2007). Threshold criteria for conversion of probability of species presence to either-or presence-absence. Acta oecologica, 31, 361-369.

Liu C, Berry PM, Dawson TP, Pearson RG (2005). Selecting thresholds of occurrence in the prediction of species distributions. Ecography, 28, 385-393.

Lobo JM, Jiménez-Valverde A, Real R (2007). AUC: a misleading measure of the pre-formance of predictive distribution models. Global Ecology and Biogeography, Online Article, DOI: 10.1111/j.1466-8238.2007.00358.x

Manel S, Williams HC, Ormerod SJ (2001). Evaluating presence-absence models in ecology: the need to account for prevalence. Journal of Applied Ecology, 38, 921-931.

Phillips SJ, Anderson RP, Schapire RE (2006). Maximum entropy modeling of spe-



cies geographic distributions. Ecological Modelling, 190, 231-259.

Raes N, Steege H (2007). A null-model for significance testing of presence-only spe-cies distribution models. Ecography, 30, 727-736.

Rodríguez JP, Brotons L, Bustamante J, Seoane J (2007). The application of predicti-ve modelling of species distribution to biodiversity conservation. Diversity and Distributions, 13, 243-251.

Soberón J (2007). Grinnellian and Eltonian niches and geographic distributions of species. Ecology Letters, 10, 1115-1123.

Thuiller W, Albert C, Araújo MB, Berry PM, Cabeza M, Guisan A, Hickler T, Midgley GF, Paterson J, Schurr FM, Sykes MT, Zimmermann EN (2008). Predicting global change impacts on plant species' distributions: Future challenges. Perspectives in Plant Ecology, Evolution and Systematics, 9, 137-152.


Modelos de distribución de especies aplicados a … de distribución de especies aplicados a...

Documents

Transcript of Modelos de distribución de especies aplicados a … de distribución de especies aplicados a...