Modelos para la predicción de la distribución de especies

45
Modelos para la predicción de la distribución de especies 14/06/22

description

Introducción a los métodos de predicción de distribución potencial de especies. Uso de bases de datos, DivaGIS, MaxEnt, Bioclim, Worldclim. Validación de los modelos por AUC y ROC.

Transcript of Modelos para la predicción de la distribución de especies

Page 1: Modelos para la predicción de la distribución de especies

Modelos para la predicción de la distribución de especies

12 de abril de 2023

Page 2: Modelos para la predicción de la distribución de especies

Problemática

Se desconoce la distribución real de las especies.

Page 3: Modelos para la predicción de la distribución de especies

Utilidad de conocer la distribución ecológica y geográfica

• Conservación del recurso• Predicción en climas pasados y futuros• Entender patrones espaciales de diversidad• Potencial invasivo de especies no-nativas• Comparación entre especies relacionadas

Page 4: Modelos para la predicción de la distribución de especies

¿Qué es el área de distribución?

Es el producto de 3 factores:• B: Bióticos• A: Ambientales• M: Movimiento

Es el espacio donde se encuentra una especie.

Page 5: Modelos para la predicción de la distribución de especies

Áreas ocupadas vs Áreas potenciales

La modelación de áreas ocupadas (GO), se conoce como Environmental Niche Modelling

La modelación de áreas potenciales (GI), se denomina Species Distribution Modelling

Page 6: Modelos para la predicción de la distribución de especies

¿Qué información necesitamos para hacer modelaje?

DATOS

Page 7: Modelos para la predicción de la distribución de especies

TIPOS DE DATOS

Page 8: Modelos para la predicción de la distribución de especies

Datos de ocurrencia

• Primarios: Ubican a un individuo de una especie en un lugar y tiempo (observación o ejemplar).

• Secundarios: Depende de la interpretación, generalización, promedio de los datos primarios.

Page 9: Modelos para la predicción de la distribución de especies

Datos de ocurrencia

• Presencia: Se observó o colectó un individuo en un sitio y tiempo dado.

• No-presencia• Ausencias estrictas: La especie no aparece en inventarios

exhaustivos.• Pseudoausencias: Se generan usando la distancia de presencia.

A mayor distancia->Más puntos de ausencia. GARP los genera al azar.

• Trasfondo (background): Datos al azar para caracterizar el ambiente en general. Puede coincidir con puntos de presencia. Adecuados para Maxent.

Page 10: Modelos para la predicción de la distribución de especies

Datos de ocurrencia• Suelen ser escasos y obtenidos

sin planeación (museos y herbarios).

• Considerar nomenclatura de la especie, georeferenciación y resolución.

• Usar datos disponibles públicamente (repetible).

• Mínimo ideal 40 puntos. Sin evaluar bastan 20 puntos. No usar menos de 10. Más de 200 puede producir “sobreajuste”.

Page 11: Modelos para la predicción de la distribución de especies

Datos de ocurrencia (fuentes)• CONABIO (REMIB)• UNAM (UNIBIO)• Global Biodiversity Information Facility (GBIF)• Vertebrados (VertNet )• SpeciesLink• Southwest Environmental Information Network (SEINet)• National Biodiversity Institute (INBIO)• Ocean Biogeographic Information System (OBIS)• Australia’s Virtual Herbarium (AVH)

Page 12: Modelos para la predicción de la distribución de especies

Datos ambientales Son capas predictoras obtenidas de interpolaciones o

transformaciones de datos primarios climáticos o percepción remota.

Se deben seleccionar variables que incidan en la ecología de la especie.

Se debe conocer la precisión, la resolución y la fuente de estos datos.

Eliminar variables correlacionadas (redundantes), usar no más de 10 en total.

Usar interacciones entre variables para ajustar superficies (sólo si hay más de 20 ocurrencias).

Page 13: Modelos para la predicción de la distribución de especies

Datos ambientales: Vector vs. Raster

RASTER = La información está contenida en celdas, organizada por filas y columnas (v.g. fotografía digital).

VECTOR =La información está

expresada en vectores, manteniendo las características geométricas de las figuras.

Page 14: Modelos para la predicción de la distribución de especies

Datos en Vector

Ventajas• Estructura de datos

compacta. Poca memoria.• Codificación eficiente de

topología.• Buena salida gráfica

(mapas).• Re-escalado y re-proyección

fáciles de hacer.

Desventajas• Estructura de datos

compleja.• Superposición de capas

complicada.• Poco eficaz con alta

variación de datos.• Difícil de mantener

actualizado.

Page 15: Modelos para la predicción de la distribución de especies

Datos en Raster

Ventajas

• Estructura de datos simple• Superposición sencilla• Optimo para registrar

variaciones altas

Desventajas

• Mucha memoria• Mapas poco vistosos

(granulados) por baja resolución.

Page 16: Modelos para la predicción de la distribución de especies

Variables ambientales

Climáticas• Temperaturas

– Promedio– Mínima– Máxima

• Precipitación• Altitud

BioclimáticasBIO1 = Annual Mean TemperatureBIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp))BIO3 = Isothermality (BIO2/BIO7) (* 100)BIO4 = Temperature Seasonality (standard deviation *100)BIO5 = Max Temperature of Warmest MonthBIO6 = Min Temperature of Coldest MonthBIO7 = Temperature Annual Range (BIO5-BIO6)BIO8 = Mean Temperature of Wettest QuarterBIO9 = Mean Temperature of Driest QuarterBIO10 = Mean Temperature of Warmest QuarterBIO11 = Mean Temperature of Coldest QuarterBIO12 = Annual PrecipitationBIO13 = Precipitation of Wettest MonthBIO14 = Precipitation of Driest MonthBIO15 = Precipitation Seasonality (Coefficient of Variation)BIO16 = Precipitation of Wettest QuarterBIO17 = Precipitation of Driest QuarterBIO18 = Precipitation of Warmest QuarterBIO19 = Precipitation of Coldest Quarter

Page 17: Modelos para la predicción de la distribución de especies

Filtros Ambientales

Se pueden determinar las variables limitantes en el área de distribución: Most limiting factors.

Son variables que limitan el establecimiento de una especie (usualmente los máximos y mínimos en temperatura y precipitación).

Page 18: Modelos para la predicción de la distribución de especies

Datos ambientales (fuentes)

• CONABIO: Topografía y clima• WorldClim: 19 variables bioclimáticas.• CRU: Coberturas globales. Relacionado con IPCC.• EROS: Imágenes aéreas y satelitales, elevación e

hidrología.

Page 19: Modelos para la predicción de la distribución de especies

Ejercicio 1

1. Descargar coordenadas para 1 especie presente en México.

2. Transformarlas a decimales.

3. Proyectarlas en Google Maps.– Transformar a formato KMZ en:

http://www.earthpoint.us/ExcelToKml.aspx

4. Proyectarlas en Diva-Gis.– Cargar también un mapa de la República Mexicana

Page 20: Modelos para la predicción de la distribución de especies

TIPOS DE MÉTODOS

Page 21: Modelos para la predicción de la distribución de especies

Modelos predictivos

• Hacen predicciones detalladas de la distribución, asociando la presencia de la especie a factores ambientales.

• Son una herramienta en estudios de ecología, evolución y conservación.

• Se construyen con métodos muy variados

Page 22: Modelos para la predicción de la distribución de especies

De acuerdo a su amplitud:

• Métodos de una especie: Predicen la distribución usando datos para una sola especie.

• Métodos de comunidad: Definen un modelo usando todos los sitios disponibles para todas las especies del grupo biológico de interés.

Page 23: Modelos para la predicción de la distribución de especies

De acuerdo a su resultado:

• Mapa Binario: No da información sobre la relación de la especie con las variables ambientales ni de las variables ambientales entre sí (útil para determinar la distribución potencial, el riesgo de invasión biológica, y encontrar nuevos lugares).

• Mapa Probabilístico: Informa sobre la relación de la especie con las variables ambientales y entre ellas (útil para encontrar las variables determinantes).

Page 24: Modelos para la predicción de la distribución de especies

BIOCLIM

• Es el más simple y fácil de entender.• Requiere datos de presencia.• Algoritmo de Envoltura Bioclimática.• Produce mapas binarios. • No considera las relaciones entre las variables.• No asigna probabilidades.

Falso-Verdadero Factor más limitante

Page 25: Modelos para la predicción de la distribución de especies

BIOCLIM

El usuario puede definir los valores mínimos y máximos para cada variable ambiental donde la especie está presente, creando una envoltura ambiental rectangular.

Es recomendable explorar los datos para evitar sesgo en la distribución de las observaciones.

Page 26: Modelos para la predicción de la distribución de especies

DOMAIN• Requiere datos de presencia.• Algoritmo de distancia.• Usa un índice de similitud para comparar el sitio donde está

presente la especie contra un nuevo sitio. La similitud de las variables ambientales entre los dos sitios es evaluada y se genera un valor que muestra la similitud y confianza del cálculo.

También genera mapas de:Verdadero-Falso y Factor Más Limitante.

Page 27: Modelos para la predicción de la distribución de especies

GARP(Genetic Algorithm for Rule-set Production)

• Requiere datos de presencia (genera sus propios datos de ausencia).

• Algoritmo Genético que compara distintos algoritmos:– Atómica– Regresión logística, – Envoltura bioclimática – Envoltura bioclimática inversa

• Se deben hacer de 100 a 1000 simulaciones por grupo de datos.• Produce mapas binarios.• No produce probabilidades, sino un índice de lo adecuado que es

el ambiente para la especie.

Page 28: Modelos para la predicción de la distribución de especies

GARP• GARP analiza estos algoritmos para encontrar correlaciones no-aleatorias entre los

datos de presencia y pseudo ausencia. • El modelo se corre varias veces y los mapas de predicción se combinan para crear un

mapa final que muestre la frecuencia con que cada localidad apareció en los mapas de predicción (selección natural).

Mapa 1 Mapa 2 Mapa n

Mapa combinado

Page 29: Modelos para la predicción de la distribución de especies

MaxEnt

• Algoritmo de Distribución de Máxima Entropía• Requiere datos de presencia (genera sus propios

datos de ausencia).• Produce:

– Mapas probabilísticos– Variables explicativas– Curvas ROC

• Tiende a sobreajustar el modelo (no descarta datos).

Page 30: Modelos para la predicción de la distribución de especies

MaxEnt• Esta técnica usa el máximo valor de entropía para estimar la distribución

más uniforme de los datos de ocurrencia en el área de estudio. • Esta distribución uniforme está restringida por los valores ambientales o

la proporción de ocurrencia de puntos en una categoría. • La distribución predicha resultante es regularizada para evitar el

sobreajuste.

Los valores de salida se representan como porcentajes donde 100% es el más adecuado y 0% el menos adecuado.

Page 31: Modelos para la predicción de la distribución de especies

Software SIG

ArcView y ArcGIS: desarrollados por ESRIEnvironmental Systems Research Institute

http://www.esri.com/

DIVA-GIS: gratuito, incluye DOMAIN y BIOCLIM http://www.diva-gis.org/

GRASS: gratuito http://grass.osgeo.org/

Page 32: Modelos para la predicción de la distribución de especies

Ejercicio 2

• Modelar los datos de ocurrencia de 1 especie en. – BIOCLIM – DOMAIN– Desktop GARP– MaxEnt

Page 33: Modelos para la predicción de la distribución de especies

EVALUACIÓN DE MODELOS

Page 34: Modelos para la predicción de la distribución de especies

Validar un modelo consiste en contrastar sus predicciones respecto a datos considerados independientes para obtener una medida de:

I. Su significancia en relación con una hipótesis nula.

II. Su desempeño (capacidad de clasificar correctamente nuevos datos).

Page 35: Modelos para la predicción de la distribución de especies

Errores que pueden ocurrir• De omisión: El modelo no tomó en cuenta una

ocurrencia (subpredicción).

• De comisión: El modelo predijo una ocurrencia donde no existe (sobrepredicción).

Matriz de Confusión

Page 36: Modelos para la predicción de la distribución de especies

Errores duros y Errores blandos

Un error de omisión es considerado un error duro puede ocurrir por :

a) Mala identificación de la especie.

b) Mala georreferenciación.

c) Especies en tránsito, fuera de su nicho.

Un error de comisión es considerado un error blando y ocurre porque:

d) Faltó esfuerzo de muestreo, pero el área es adecuada.

e) El área es adecuada pero la especie no está ahí por algún evento histórico.

f) El área no es adecuada = verdadero error de comisión

Page 37: Modelos para la predicción de la distribución de especies

Métodos de Evaluación

• Curvas ROC y AUC (Área Bajo la Curva)

• Curvas de omisión (Omission curves)

• Jackknife Model Testing

Page 38: Modelos para la predicción de la distribución de especies

Receiver Operating Characteristic (ROC)

• Es una curva que describe la tasa de identificación correcta de presencias (sensitivity) contra la tasa de falsas alarmas (specificity).

• La línea recta no tiene valor predictivo (es aleatoria).

Page 39: Modelos para la predicción de la distribución de especies

Area Under the Curve (AUC)

• Es el área total bajo la curva.

• Un clasificador aleatorio tiene un área de 0.5; un muy buen clasificador tiene un área muy cercana a 1.

• Un ROC ≥ 0.9 es bueno.

Page 40: Modelos para la predicción de la distribución de especies

Problemas de la AUC• Requeriría de datos de ausencias verdaderas.• Asigna igual ponderación a los errores de omisión y

comisión.• Presupone que el clasificador (algoritmo de

modelación) genera todos los valores del rango, lo cual no siempre es cierto.

Ausenciasverdaderas

Omisión y Comisión

Rango

ROC parcialAUC parcial

Page 41: Modelos para la predicción de la distribución de especies

INTERPRETACIÓN DEL MODELO

Page 42: Modelos para la predicción de la distribución de especies

1. Mundo Clásico• Las ausencias se deben a

razones radicalmente diferentes dependiendo de la zona.

• Las presencias están determinadas por una combinación de factores de tal forma que se pueden cometer errores por dos causas distintas.

• G0 y A son distintas y los métodos basados en presencias solas tienden a estimar un área intermedia entre G0 y A.

Page 43: Modelos para la predicción de la distribución de especies

2. Mundo de Hutchinson• Todas las ausencias tienen una

sola causa (medio ambiente inadecuado).

• Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual existen datos (variables ambientales).

• En este escenario G0=A y los métodos basados en presencias solas harán un buen o mal trabajo de estimar ambas zonas por igual.

Page 44: Modelos para la predicción de la distribución de especies

3. Mundo de Wallace• Todas las ausencias tienen una

sola causa (incapacidad de dispersarse).

• Las presencias se deben a un único factor, por lo que todos los errores de comisión se deberían a una pobre estimación de un factor para el cual no existe información (la dispersión).

• En este escenario A contiene a G0 y los métodos basados en presencia solas, en el mejor de los casos, proveerán una estimación más o menos completa de A.

Page 45: Modelos para la predicción de la distribución de especies

Ejercicio 3

• Validar por ROC un modelo de Bioclim usando Diva-Gis.