GEOESTADISTICA_978-3-659-01521-2

download GEOESTADISTICA_978-3-659-01521-2

of 113

Transcript of GEOESTADISTICA_978-3-659-01521-2

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    1/113

     

     

                                      

                         

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    2/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    3/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    4/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    5/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    6/113

    GEOSTADÍSTICA APLICADA

    LIBARDO ANTONIO LONDOÑO CIROJUAN CARLOS VALDÉS QUINTERO

     

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    7/113

    A nuestras Familias.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    8/113

    CONTENIDO

    PRESENTACIÓN 1

    1. ANÁLISIS EXPLORATORIO DE LOS DATOS. 51.1. DESCRIPCIÓN UNIVARIADA. 5

    1.2. ANÁLISIS GEOESTADÍSTICO USANDO GEOSTATISTICAL ANALYST®. 10

    1.3. DESCRIPCIÓN BIVARIADA. 16

    2. ANÁLISIS ESTRUCTURAL DE LOS DATOS (VARIOGRAFÍA). 21

    2.1. EL SEMIVARIOGRAMA EXPERIMENTAL: SU CONSTRUCCIÓN. 22

    2.2. LOS SEMIVARIOGRAMAS TEÓRICOS. 24

    2.3. CONSIDERACIONES ACERCA DE LOS SEMIVARIOGRAMAS. 27

    2.4. ANÁLISIS DEL COMPORTAMIENTO DEL SEMIVARIOGRAMA. 29

    3. INTERPOLACIÓN O ESTIMACIÓN ESPACIAL. 41

    3.1. UNA APROXIMACIÓN PRÁCTICA A LA ESTIMACIÓN. 41

    3.2. CONTEXTO TEÓRICO SOBRE LA ESTIMACIÓN. 46

    3.3. MÉTODOS TRADICIONALES DE ESTIMACIÓN: ESTIMACIÓN GLOBAL. 46

    3.4. MÉTODOS TRADICIONALES DE ESTIMACIÓN: ESTIMACIÓN LOCAL(PUNTUAL). 48

    3.5. MÉTODOS DE ESTIMACIÓN GEOESTADÍSTICOS. 54

    3.6. ESTIMACIÓN USANDO GEOSTATISTICAL ANALYST®. 58

    4. GEOESTADÍSTICA AVANZADA. 654.1. KRIGING INDICADOR (Indicador Kriging). 65

    4.2. COKRIGING ORDINARIO (Ordinary Cokriging). 71

    4.3. KRIGING PROBABILÍSTICO (Probability Kriging). 74

    4.4. KRIGING DISYUNTIVO (Disjunctive Kriging). 79

    REFERENCIAS. 97

    ANEXO 1 FUNDAMENTOS DE ESTADÍSTICA. 98

    ANEXO 2. ECUACIÓN Y POLINOMIOS DE HERMITE (1822  1901). 99

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    9/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    10/113

    1

    PRESENTACIÓN

    La Geoestadística es una ciencia aplicada que estudia las variables distribuidas espacialmente, partiendo de una muestra representativa del fenómeno en estudio. En dicha muestra, los datos estáncorrelacionados espacialmente, esto es, un dato se relaciona con los datos más cercanos, y estadependencia va perdiendo fuerza a medida que se incrementa la distancia entre ellos. Un aspectoimportante de la Geoestadística es la posibilidad de predicción de datos desconocidos a partir de losdatos del muestreo, para ello se aplican las denominadas técnicas del  Kriging  que básicamente

     proporcionan una predicción de valores desconocidos Z(s), es decir, del valor de un dato en una posición espacial, a partir de una muestra de datos dados {Z(s1),...,Z(sn)}. Para realizar cualquier  predicción, primero se debe caracterizar la correlación espacial que existe entre los datos y esto sehace a partir del cálculo y representación gráfica del covariograma o del semivariograma que másadelante se tratará en extenso. Otras definiciones de Geoestadística son: estadística aplicada a datos

    geográficos, estadística espacial, descripción cuantitativa de variables naturales que se distribuyenen el espacio o en el espacio y el tiempo.

    La Geoestadística nació en la década de los 50 como una ciencia minera, con el fin de evaluar lasreservas minerales útiles. Por lo tanto, es una ciencia joven, en pleno desarrollo. El término fueconcebido por Georges Matheron a partir de trabajos previos, principalmente los de H. Sichel, D. G.Krige y B. Matérn. Históricamente el desarrollo de la Geoestadística ha sido posible a través de lossiguientes trabajos previos:

      En 1911 Mercer y Hall realizaron un estudio en el cual la varianza de la producción devarias parcelas disminuía cuando el tamaño de las parcelas aumentaba hasta un cierto límite.

    Posteriormente Student encontró que parcelas más cercanas daban resultados más similares(ésta es la primera aproximación a la dependencia espacial, el alcance de correlación y suvariación a escalas inferiores a la distancia media entre los puntos de observación).

      En 1925 Fisher hizo un análisis de varianza para reducir los efectos de la variabilidadespacial.

      En 1937 Youden y Mehlich estudiaron la escala de variación espacial, la variación paradiferentes distancias de separación y el diseño de muestreos adicionales.

      En los años 30 Kolmogorov estudió la correlación espacial y la forma de describirla por medio de una función estructural a la que denominó el variograma, y a partir de este trabajose empezaron a hacer análisis de interpolación óptima.

      En 1960 Matérn introduce otra función estructural basada en la covarianza de los datos ydenominada el covariograma espacial.   En la década del 40 al 50, H. Sichel y D.G. Krige (Ingenieros de minas de oro de Sudáfrica)

    desarrollan un procedimiento empírico para evaluar reservas mineras útiles basado en laestimación ponderada (procedimiento que posteriormente se denominó Método de

     predicción del Kriging)   En los años 60: G. Matheron propone la teoría de las variables regionalizadas (Escuela de

    Minas de Paris, Fontainebleau, Francia) que fue poco difundida debido a sus niveles decomplejidad pero que sin embargo es la base de la Geoestadística actual.

      En los años 70 aparecen los primeros textos en inglés (A. Journel, Stanford, y M. David)aplicados principalmente a la minería.

      En los años 80 se publican textos aplicados a las ciencias del suelo (R. Webster y losestudiante P. Burrough, A. McBratney, entre otros.)

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    11/113

    2

      En 1989 se publica el texto  caracterizado por su amplia didáctica hoy en día la producción de libros en esta área es

     prolífica, siendo los más relevantes:   Armstrong, M., 1998. Basic Linear Geostatistics. Springer Verlag, Berlin.   Chilés, J.P. y P. Delfiner, 1999. Geostatistics. Modeling Spatial Uncertainty. John

    Wiley & Sons, Nueva York.   David, M., 1977. Geostatistical Ore Reserve Estimation. Elsevier Scientific Publishing

    Company, Amsterdam.   Davis, J.C., 1973. Statistics and Data Analysis in Geology. John Wiley & Sons, Nueva

    York.   Deutsch, C.V. y A.G. Journel, 1998. GSLIB: Geostatistical Software Library and

     Nueva York.   Goovaerts, P., 1997. Geostatistics for Natural Resources Evaluation. Oxford

    University Press, Nueva York.   Isaaks, E.H., Srivastava, R.M., 1989. An introduction to applied geostatistics. Oxford

    University Press, Nueva York.   Journel, A.G. y C.J. Huijbregts, 1978. Mining Geostatistics. Academia Press, Londres.   Oliver, M.A. y R. Webster, 1990. Statistical Methods in Soil and Land Resource

    Survey. Oxford University Press, Oxford.   Pannatier, Y., 1996. VARIOWIN: Software for Spatial Data Analysis in 2D. Springer 

    Verlag, Nueva York.   Webster R. y M.A. Oliver, 2001. Geostatistics for Environmental Scientists. John

    Wiley & Sons, Chichester.   Christakos, G., P. Bogaert y M.Serre, 2002. Temporal GIS. Advanced Functions for 

    Field-Based Applications. Springer. Heidelberg.   Igualmente hay un sin número de revistas especializadas, dentro de las cuales se destacan:

    Mathematical Geology, Geoderma, European Journal of Soil Sciences, Computers andGeosciences, Water Resources Research, Soil, Science Society of America Journal.

      En la red se puede bajar información en los siguientes enlaces:   Ai-geostats: http://www.ai-geostats.org.   Geostatistical Analysis Tutor: http://uncert.mines.edu/tutor/.   Pierre Goovaerts: http://www-personal.engin.umich.edu/~goovaert.   Workgroup on Pedometrics:

    http://www-personal.engin.umich.edu/~goovaert/pedometrics.html.   The Australian Centre for Precision Agricultura

    http://www.usyd.edu.au/su/agric/acpa/.   Desde el punto de vista de la modelación y la simulación computacional, las principales

    aplicaciones son:   ArcGis Geostatistical Analyst, Geo-EAS, GSLIB, GSTAT, Variowin,Vesper, R+, SADA, WINGSLIB, GS+, S+, MATLAB, IDRISI, SURFER, entre otros.

    Los pasos generales de estudio Geoestadístico, están dados por: un análisis exploratorio de losdatos, un análisis estructural o variografía, una interpolación o estimación espacial (método delkriging) y finalmente la validación del modelo Geoestadístico

     El análisis exploratorio de los datos; pretende identificar, entender y buscar tendencias en losdatos; los pasos fundamentales para un análisis exploratorio son:

      Representar los datos en figuras y diagramas en vez de analizar directamente listados enformato tabular.

      .   Calcular los estadísticos descriptivos: resumir los datos.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    12/113

    3

      Identificar las poblaciones bajo estudio.   Caracterizar los datos por medio de una función de distribución de probabilidad (como por 

    ejemplo la distribución normal) y proponer alguna transformación de los datos si no esnormal.

     El análisis estructural, o variografía de los datos, busca determinar correlaciones entre los datos partiendo del concepto de variable regionalizada introducido inicialmente por G. Matheron. Unavariable regionalizada se puede entender como una variable aleatoria que se distribuyeespacialmente. Los pasos fundamentales para un análisis estructural son:

      La cuantificación de la correlación espacial y su estructura.   El cálculo del semivariograma muestral o experimental.   El análisis e interpretación del semivariograma experimental.   El ajuste de un modelo teórico al semivariograma experimental.

     La interpolación o estimación espacial   busca predecir datos desconocidos a partir de datos

    conocidos. En la mayoría de los casos no es posible tener toda la información requerida para unestudio Geoestadístico, en consecuencia se deben desarrollar métodos confiables, desde el punto devista estadístico, que permitan la estimación de más datos. Los pasos fundamentales de unaestimación espacial son:

      Se debe tener en cuenta la correlación espacial (el semivariograma)   Aplicar algún método Geoestadístico de estimación (existen métodos tradicionales y

    métodos Geoestadísticos) como el Krigeado simple, krigeado ordinario, krigeado universal,krigeado por bloques, krigeado de indicadores entre otros.

     La validación del modelo geoestadístico es un proceso de optimización que debe estar siempredurante todos los pasos, sus elementos fundamentales son:

      Hacer validaciones cruzadas de los datos.   Validar el modelo teórico del semivariograma (probar con varios y definir aquel que mejor 

    describe la correlación espacial entre los datos).   Validar los parámetros del algoritmo de interpolación y comparar y evaluar diferentes

     procedimientos de interpolación.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    13/113

    4

     

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    14/113

    5

    1. ANÁLISIS EXPLORATORIO DE LOS DATOS.

    El Análisis exploratorio de los datos; pretende identificar, entender y buscar tendencias en los datos,con este análisis se describe cualitativa y cuantitativamente los datos. Si se quiere analizar elcomportamiento de una variable bajo estudio, se realiza la denominada descripción univariada, si se

    quiere determinar que relación existe entre dos o más variables bajo estudio, se realiza unadescripción bivariada.

    1.1. DESCRIPCIÓN UNIVARIADA.

    El primer análisis que se realiza es la construcción del histograma de los datos con el fin de poder determinar asuntos como: estimar la función de densidad, identificar el tipo de distribución de losdatos (normal, log-normal,..., etc.), si existe una distribución unimodal o multimodal, si aparecenvalores extremos y outliers e identificar patrones acerca de la variabilidad del fenómeno.

     Figura 1. Histograma de los datos.

    Adicionalmente tomando como base el histograma acumulativo (gráfico de frecuencia relativaacumulada de los datos), es posible definir el valor mínimo (min), el primer cuartil (Q1), la mediana(M), el tercer cuartil (Q3), la media (m) y el valor máximo (max), que son medidas estadísticasfundamentales y representarlas por medio de diagramas de cajas como se muestra en la figura 2 ensu parte derecha.

     Figura 2. Diagrama de cajas a partir del histograma acumulativo.

    Lo deseable es que los datos de la variable bajo estudio tengan una distribución normal, si eso noocurre se puede hacer una transformación de escala en el histograma. En la figura 3 se muestra

    como un cambio de escala en la abscisa del histograma inicial en la cual se pasa a escalalogarítmica, trasforma la distribución de los datos: de una distribución sesgada hacia la izquierda

     pasa a una distribución normal

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    15/113

    6

     Figura 3. Cambio de escala en el histograma.

    Una vez realizado el histograma, los cambios de escala necesarios y los diagramas de cajas, sedeben caracterizar los datos a partir del cálculo de las medidas de tendencia central, de dispersión yde localización.

     Las medidas de tendencia central  son la media, la mediana y la moda definidas de la siguienteforma:

      Media aritmética (mean): Sensible a valores extremos. Se calcula mediante la expresión:

     

    n

    uZ n

    muZ  E 1

    )(1

    )( 

      

      Moda (mode): No sensible a valores extremos. Es el dato de mayor frecuencia absoluta.   Mediana (median): No sensible a valores extremos. Es el dato central cuando los datos seordenan de menor a mayor. El 50% de los demás datos son menores que ella y el 50% de losdemás datos son mayores a ella.

    Una vez calculadas las medidas de tendencia central, es posible analizar que tan simétrica es ladistribución de los datos como se muestra en las figuras 4 y 5, teniendo en cuenta que unadistribución completamente simétrica es una distribución normal.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    16/113

    7

     Figura 4. Distribución simétrica (normal) de los datos.

     Figura 5. Distribución asimétrica de los datos.

     Las medidas de dispersión, permiten determinar que tan alejados están los datos con relación a lasmedidas de tendencia central, las más comunes son la varianza, la desviación estándar, elcoeficiente de variación, coeficiente de sesgo   skewness  y coeficiente de curtosis; definidos acontinuación:

      Varianza: Es sensible a valores extremos. Se define como el nivel de dispersión de los datosen torno a una medida de tendencia central, en general se calcula en torno a la media así:

     2 = Var [Z(x)] = E {[Z(x)   m(x)]2 } , 2

    1

    22 ))((1    

        

    nuZ 

    n

      Desviación estándar: Es sensible a valores extremos. Es una normalización de la varianzamediante la trasformación raíz cuadrada. Una varianza y una desviación estándar altasindican un alto nivel de dispersión de los datos en torno a la media y viceversa. Se calculade la siguiente manera.

    2    

      Coeficiente de variación: Es sensible a valores extremos. Expresa la dispersión porcentualen términos relativos. Se calcula mediante la siguiente expresión:

     

      

     

     

     100CV 

    Es un indicador de las dificultades asociadas con la presencia de valores extremos en elconjunto de datos mediante los siguientes criterios:CV < 100%, no hay problemas con los valores extremos.100% < = CV 200 %, hay grandes dificultades con los valores extremos.

      Coeficiente de sesgo (skewness): Es sensible a valores extremos. Mide la asimetríahorizontal de una distribución de datos, es el tercer momento en torno a la media. Se calculamediante las siguientes expresiones:

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    17/113

    8

    n

    uZ n

    m1

    3

    3  )(

    1

    1

     

        

    33

     mCS   

    Los criterios de análisis para el valor del coeficiente de sesgo son:CS = 0, corresponde con una distribución simétrica.CS > 0, corresponde con un sesgo positivo (la función de densidad muestra una larga cola

     por la derecha).CS < 0, corresponde con un sesgo negativo (la función de densidad muestra una larga cola

     por la izquierda).

    Webster y Oliver [WEB 01] han determinado los siguientes criterios de trasformación paramejoras la simetría de una distribución de datos:0 < | CS | < = 0.5, corresponde con una distribución simétrica y se transforman los datos.0.5 < | CS | < = 1.0, se trasforman los datos mediante la raíz cuadrada.

     | CS | > 1.0, se trasforman los datos mediante el logaritmo base 10 o natural.

      Coeficiente de curtosis (kurtosis): Es sensible a valores extremos, Mide la asimetría verticalde una distribución de datos. Es el cuarto momento en torno a la media. Se calcula mediantelas siguientes expresiones:

    n

    uZ n

    m1

    4

    4   )(1

    1

     

        

    34

    4  

    mCC 

    El CC  mide la forma del pico de la distribución de densidad y su evaluación se hace con base en los siguientes criterios:CC = 0, indica que la distribución es Normal.CC > 0, indica que la distribución es más puntiaguda que una Normal.CC < 0, indica que la distribución es menos puntiaguda que una Normal.

    En la herramienta Geoestatistical Analyst  al resultado del cálculo del CC se le debe restar 3 ya que

    usa otra fórmula.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    18/113

    9

     Las medidas de localización   permiten determinar la concentración de los datos a partir delhistograma acumulativo, las principales son los cuantiles y los cuartiles definidos de la siguientemanera:

      Los cuartiles toman un porcentaje de la función acumulada de 25%, de tal manera que Q1 es

    aquel dato que puede o no pertenecer al conjunto de datos a partir del cual el 25% de losdatos son menores que él y el 75% de los datos son mayores que él; Q2 es aquel dato que

     puede o no pertenecer al conjunto de datos a partir del cual el 50% de los datos son menoresque él y el 50% de los datos son mayores que él, corresponde con el valor de la mediana; Q3es aquel dato que puede o no pertenecer al conjunto de datos a partir del cual el 75% de losdatos son menores que él y el 25% de los datos son mayores que él. Q0 es el valor mínimo yQ4 es el valor máximo.

      Cuando el porcentaje tomado de la función acumulada es del 10%, se denominan deciles, ycuando es del 1% se denominan percentiles.

    En el cálculo de las medidas de caracterización de los datos se debe tener en cuenta que unos pocosvalores muy pequeños o muy grandes pueden afectar fuertemente las estadísticas resumen como lamedia, la varianza, el coeficiente de correlación lineal o las medidas de continuidad espacial (lacovarianza o el semivariograma), a estos valores se les denomina: valores extremos y outliers.

      Un valor extremo es aquel valor errático que es relevante en el estudio y que tiene unimpacto significativo en la estimación.

      Un outliers es aquel valor posiblemente moderado que no es relevante en el estudio

    Los valores extremos pueden ser manejados de la siguiente forma:

      Se pueden declarar como erróneos y removerlos.   Se pueden clasificaren poblaciones estadísticas separadas.   Se pueden usar estadísticas robustas que son menos sensitivas a valores extremos   Se pueden transformar los datos para reducir la influencia de valores extremos (ej:

    transformación logarítmica).

    De todas formas para remover un valor extremo se deben tener en cuenta dos aspectos: losestadísticos que afectan y el contexto de los datos.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    19/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    20/113

    11

      Hacer  click  izquierdo sobre el símbolo de ca_outline para abrir la caja de diálogo  symbol  selector .

      En la caja de grupo llamada option se encuentra la ventana desplegable llamada  fillcolor,desplegar y seleccionar no color, con el fin de volver transparente el layer  y visualizar mejor los puntos de concentración de ozono.

      Guardar los cambios (comando File de la barra del menú principal, opción  Save As) con elnombre de Mapa predicción ozono.mxd .

     Figura 7. Datos de trabajo para el ejercicio 1.

    Creación de una superficie de análisis (iremos un paso adelante con el fin de ilustrar 

     globalmente el proceso que luego se discutirá paso a paso desde el punto de vista conceptual).Activar la barra de herramientas geoestadísticas   (Geoestatistical Analyst)   y hacer   click   sobreGeostatistical Wizard  (es un asistente paso a paso para hacer análisis geoestadístico, ver figura 8).

     Figura 8. Activación de geostatistical analyst.

      Entrar los datos de ca_ozone_pts (en la ventana desplegable llamada Input Data).   Seleccionar el atributo ozone (en la ventana desplegable llamada Attribute).   Seleccionar como método de estimación de puntos Kriging (en la ventana Methods).   Continuar con el paso a paso (Next).   Se selecciona la opción mapa de estimación (Prediction Map).   Se continúa para llegar a la caja de modelación del semivariograma (Next).

    En la figura 9 se ilustran los pasos anteriores.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    21/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    22/113

    13

     Figura 11. Error de estimación y resumen del modelo de predicción del ejercicio 1.

    Finalmente, como se muestra en la figura 12, lo que se obtiene es un mapa en el cual tomando como base los datos de los puntos de ozono, se han interpolado más puntos mediante el método delkriging.

     Figura 12. Mapa de predicción concentración de ozono ejercicio 1.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    23/113

    14

     Ejercicio 2: Exploración de los Datos.

    Con este ejercicio se pretende hacer una descripción de los datos con el fin de interpretar su posibledistribución, identificar tendencias y patrones.

     Histograma: en términos generales muchos de los métodos de análisis Geoestadístico requieren quela distribución de los datos sea normal o esté normalizada. Dentro de las descripciones univariadasel histograma es muy útil y la herramienta histograma del  ArcMap permite graficar la frecuenciaabsoluta de los atributos de los datos y dar información acerca de medidas estadísticas. Para usar dicha herramienta se toma como capa de trabajo   ca_ozone_pts, de la barra de herramientasGeoestadística, se activa Explore Data y luego Histogram, como se muestra en la figura 13.

     Figura 13. Cálculo del histograma usando GeostatisticalAanalyst.

    En data source  seleccionar el   layer ca_ozone_pts  y el atributo  OZONE , El histograma obtenidotiene por defecto 10 intervalos de clase. Al seleccionar con el puntero del  mouse una de las barrasdel histograma, esta automáticamente queda seleccionada sobre el mapa. En la parte superior 

    derecha del histograma aparece una tabla con los valores de las medidas estadísticas. Los pasosanteriores se muestran en la figura 14.

     Figura 14. Histograma para los datos de ozono.

    Gráfico interquantil (QQplot): permite comparar la distribución de los datos contra unadistribución normal estándar y proporciona una medida de la normalidad de los datos. Se graficanlos quantiles de la variable de estudio versus los quantiles de una distribución normal estándar; si elgráfico resultante se aproxima a una línea recta, entonces se puede inferir que la distribución de losdatos bajo estudio tienen una tendencia normal. Para hacer esto en la herramienta, se sigue el

     procedimiento anterior: se selecciona el  layer  bajo estudio y su atributo y se selecciona la opción

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    24/113

    15

     Normal QQplot , para obtener el gráfico interquantil, como se aprecia en la figura 15 en la cual losdatos de ca_ozone_pts tienen una tendencia normal, excepto los del extremo superior.

     Figura 15. QQplot para los datos de ozono.

     Identificación de tendencias globales en los datos: Es importante analizar si los datos manifiestan

    tendencias direccionales que permitan establecer correlaciones en esas direcciones, y formular modelos de comportamiento. Para hacer esto se procede de la misma forma anterior: se seleccionala opción Trend Analysis, el layer  y el atributo de análisis. En realidad se obtienen tendencias endos direcciones: dirección este-oeste y dirección norte-sur; es de anotar que las líneas de tendenciaobtenidas obedecen a regresiones polinómicas. Observando detenidamente las líneas, la tendenciamás fuerte se tendrá sobre aquella dirección en la que la línea de tendencia es más gruesa; paranuestro ejemplo se ve claramente una fuerte tendencia en la dirección este-oeste (línea verde) y unadébil tendencia en la dirección norte-sur (línea azul). La barra de desplazamiento llamada permite rotar el gráfico para visualizar mejor la tendencia

     Figura 16. Análisis de tendencia de los datos.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    25/113

    16

    1.3. DESCRIPCIÓN BIVARIADA.

    Cuando se tiene más de una variable de estudio, es importante tratar de describir qué posiblerelación puede haber entre ellas, esto se hace por medio de diagramas de dispersión  (scatterplots),histogramas bivariados, distribuciones marginales, gráficos interquantiles, distribucionescondicionales, análisis de regresión, de covarianza y de coeficientes de correlación, veamos cadauno de ellos:

     Diagramas de dispersión es un gráfico en el cual se muestra para cada ubicación espacial, el valor de una de las variables bajo estudio versus otra con la cual se quiera determinar algún tipo derelación como se muestra en la figura 17 en la cual se está interesado en saber que tipo de relaciónexisten entre la porosidad y la permeabilidad.

     Figura 17. Diagrama de dispersión de porosidad versus permeabilidad.

    Como se muestra en la figura 18, cuando los datos están muy dispersos es posible que se requierandos diagramas de dispersión: una para mostrar detalles y otro para mostrar relaciones globales;adicionalmente una transformación, por ejemplo, de tipo logaritmo podría mejorar la visualizaciónde la relación global.

      Figura 18. Diagramas de dispersión para datos dispersos.

     Histogramas Bivariados se calculan a partir de contar el número de datos que caen dentro de cadacelda de una malla que se pinta sobre el diagrama de dispersión, como se muestra en a figura 19 .

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    26/113

    17

     Figura 19. Histograma bivariado a partir del diagrama de dispersión.

     Distribuciones Marginales: es la distribución univariada de los datos de una de las variables bajoestudio calculada a partir de un histograma divariado. La distribución marginal de la variableindicada en la abscisa, se calcula sumando las columnas del histograma divariado; la distribuciónmarginal de la variable indicada en la ordenada sumando las filas del histograma bivariado. Esto semuestra en la figura 20.

     Figura 20. Calculo de las distribuciones marginales de la porosidad (a la izquierda) y la permeabilidad (a laderecha).

    Gráfico intercuantiles (QQplot): dos distribuciones marginales pueden comparase graficando loscuantiles de una variable contra la otra, de esta forma se obtiene un gráfico intercuantil, si estegráfico se parece a una línea recta entonces ambas distribuciones se modelar con la misma funciónde densidad. Esto se muestra en la figura 21.

     Figura 21. Gráfico interquantil de la porosidad y la permeabilidad.

     Distribuciones Condicionales: A partir de los datos del histograma bivariado, se pueden hacer histogramas de una variable por tramos, para obtener las distribuciones condicionales, sin embargouna representación más útil es un gráfico que muestren como cambian las estadísticas condicionales(media condicional, desviación estándar condicional como una función del valor condicionante.Ello se muestra en la figura 22.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    27/113

    18

     

     Figura 22. Distribuciones condicionales.

     Análisis de Regresión:  Tomando como base el diagrama de dispersión, es posible hacer unaregresión polinomial con el propósito de establecer relaciones entre los datos de las variables bajoestudio. Aunque un orden polinomial de mayor grado puede ajustar mejor los datos,estadísticamente hablando, puede no estar describiendo la relación en detalle, si no más bien las

     peculiaridades del conjunto de datos de la muestra. Ello se muestra en la figura 23.

     Figura 23. Análisis de Regresión.

     Análisis de Covarianza: Tomando como base el diagrama de dispersión también es posible hacer una análisis de covarianza definida como se muestra en la figura 24, para la cual una covarianza

     positiva alta indica una relación directamente proporcional entre los datos, negativa alta unarelación inversamente proporcional y cercana a cero ningún tipo de relación. La covarianza para lasvariables xi con media   x y yi con media   y, se calcula mediante la siguiente expresión:

     y x

    n

    i

    ii y xn

    ianzaCo     

    1

    )1

    (var 

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    28/113

    19

     Figura 24. Análisis de Covarianza.

     Análisis de Coeficiente de Correlación    . En el análisis de covarianza no deja de ser ambiguo eltérmino covarianza positiva alta y negativa alta; para evitar esto se normaliza la covarianza paradefinir el coeficiente de correlación cuyo valor esta entre -1 y 1 (ver figura 25). El coeficiente de

    correlación mide dependencia lineal entre dos variables pero es sensible a valores extremos. Secalcula con base en las siguientes expresiones:

     y x

    ianzaCo

        

    var 

    En donde     x  es la desviación estándar de los valores de la variable  xi  con media    x, y     y  es ladesviación estándar de los valores de la variable yi con media   y. Calculadas mediante:

     

    n

    i

     yi y

    n

    i

     xi x   yn

     xn   1

    2

    1

    2   11    

     

     Figura 25. Análisis de Coeficiente de correlación.

     Análisis de Coeficiente de Correlación de Spearman (Rank correlation coefficient    rank  ): Comomedida complementaria al coeficiente de correlación, se utiliza el coeficiente Rank . Se define comoel coeficiente de correlación de la posición de los datos calculado con la misma fórmula delcoeficiente de correlación pero en lugar de los datos correspondientes a la variable xi, y la variable

     yi; se trabaja con la posición de xi, y la posición de yi. Una vez hechos los cálculos se establecen lossiguientes criterios de análisis:

      Si   rank   , entonces unos pocos valores están arruinando lo que podría ser una buenacorrelación lineal entre xi y yi.

      Si   rank  <   , entonces unos pocos valores están mejorando lo que en realidad es una

    correlación pobre.

    En la figura 26 se pueden ver ambas situaciones.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    29/113

    20

      Figura 26. Coeficiente de correlación Rank.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    30/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    31/113

    22

    espacial cambia con la dirección, existe anisotropía. En estos casos se deben emplear Semivariogramas que dependan no sólo de h, sino también de la dirección.

    Para la determinación del Semivariograma experimental o empírico deben cumplirse una serie deetapas. Goovaerts [GOO 97], Isaaks y Srivastava [ISA 89] detallan adecuadamente dicho proceso.

    Para la construcción del Semivariograma experimental deben tenerse en cuenta las siguientesconsideraciones:

      El número de observaciones o puntos muestrales requeridos para estimar unSemivariograma debe estar alrededor de 100 en condiciones de isotropía; si existeanisotropía los datos tienen que ser mucho más abundantes.

      El número de pares de datos que se requiere para el cálculo de cada punto delSemivariograma debe ser al menos de 30-50.

    Además del semivariograma como herramienta geoestadística para la descripción de la variabilidadespacial, se puede usar alternativamente la función de correlación (Correlograma) o la función deCovarianza, ya que las tres están relacionadas cuando se dispone de un Semivariograma con meseta[MOR 03].

    2.1. EL SEMIVARIOGRAMA EXPERIMENTAL: SU CONSTRUCCIÓN.

    A partir de los datos que se disponen, es posible determinar el semivariograma experimentalmente por medio de su definición:

    2)(

    1

    *(

    )(2

    1)(

    h N 

    i

    ii   xZ h xZ h N 

    h  

    En la expresión anterior    )(* h     es el semivariograma experimental, Z(xi ) y Z(xi + h) son los valoresexperimentales en los puntos (xi ) y  (xi + h) en los que se disponen datos; y finalmente  N(h) es elnúmero de pares de puntos separados por una distancia h.

    Para estimar el semivariograma experimental se procede de la siguiente forma:

    1. Considere el número de parejas N(h) que se encuentran separadas a una distancia h = 1, h =2, h = 3 y h = M / 2  en general; siendo M  el tamaño muestral (esta suposición se debe alhecho de que al aumentar la distancia disminuye la continuidad espacial y en consecuencialos datos del semivariograma ya no son significativos). Si debido a la naturaleza de los datosno se puede hacer el análisis discreto anterior, se toma el número de parejas  N(h) que esténcontenidas dentro de intervalos de la forma  [h j     deltah, h j  + deltah]; es posible que laelección de los  h j  y los  deltah no sea inmediata en cuyo caso se requiere de un procesoensayo error para encontrar la forma más adecuada de los intervalos (si se toman h j  y losdeltah tales que los intervalos queden muy cerrados, entonces se pueden generar problemasde múltiples oscilaciones en el semivariograma).

    2. Para calcular el semivariograma experimental   )(* h     , se calculan las diferencias cuadráticas

    ii   xZ h xZ    (   2  para cada valor de h y se dividen por el doble del número de parejas N(h).

    3. Se grafica h contra   )(* h     , para obtener el semivariograma.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    32/113

    23

    Para ilustrar el procedimiento anterior, supongamos los siguientes valores de Z  y su correspondienteubicación unidimensional x:

    x Z

    1 72 10

    3 11

    4 13

    5 12

    6 14

    7 12

    8 13

    9 10

    10 11

    11 9

    12 8

    Para las parejas de datos ubicadas a una distancia de 1 unidad (h = 1), se calcula la siguientesumatoria    ii   xZ h xZ    (

      2 de datos:

    (10 - 7)2 + (11 - 10)2 + (13 - 11)2 + (12 - 13)2 + (14 - 12)2 + (12 - 14)2 + (13 - 12)2 + (10 - 13)2 +(11 - 10)2 + (9 - 11)2 + (8 - 9)2 = 39. El número de parejas ubicadas a una distancia de 1 unidad N(h= 1) es de 11; su doble producto  2N(h) es de 22, en consecuencia el valor del semivariogramaexperimental para las parejas ubicadas a esta distancia h de separación, está dado por:   )(* h     = 39 / 22 = 1.78

    Se realiza el mismo procedimiento anterior para parejas ubicadas a una distancia de  h = 2, h =  (en este caso M / 2 es 6 ya que el tamaño muestral, número de datos, es de 12), paraobtener la siguiente información:

    h N(h)

    1 11 39 1,78

    2 10 46 2,30

    3 9 88 4,89

    4 8 89 5,56

    5 7 108 7,71

    6 6 73 6,08

    Con la información anterior se grafica h Vs   )(* h     para obtener el semivariograma experimental dela figura 27.

    2

    )()(   ii   xZ h xZ    )(* h  

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    33/113

    24

     Figura 28. Calculo del semivariograma experimental para un conjunto de datos.

    De la información anterior y la figura 28, se puede inferir que el número de parejas disminuye alaumentar la distancia h y que la gráfica no necesariamente es monótona creciente; es más presenta

    oscilaciones y es posible que no se estabilice (ello ocurriría si el proceso es estrictamenteestacionario).

    2.2. LOS SEMIVARIOGRAMAS TEÓRICOS.

    Una vez construído el semivariograma experimental, se ajusta a un semivariograma teórico dentrodel cual se tienen los siguientes modelos:

        Efecto Pepita Puro : se usa para modelar fenómenos sin ninguna correlación espacial; en

    realidad lo que se hace es combinarlo linealmente con otros modelos. Su ecuación está dada por lasiguiente expresión y su representación gráfica se muestra en la figura 29.

    0

    00)(

    hS 

    hh  

     Figura 29.  

     Modelo Esférico: se usa para modelar fenómenos continuos. Es el más usado en la práctica, alcanzala meseta  S  a una distancia finita  h = a. Su ecuación está dada por la siguiente expresión y surepresentación gráfica se muestra en la figura 30.

     

      

     

     

      

     

    ahS 

    aha

    h

    a

    hS 

    h

    3

    32)(  

    0

    1

    2

    3

    4

    5

    6

    7

    8

    0 1 2 3 4 5 6

       Y   *   (   h

       )

    h

    Semivariograma experimental

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    34/113

    25

     Figura 30. Modelo esférico.

     Modelo Exponencial : también se usa para modelar fenómenos continuos (excepto para el caso de puntos en 1D, líneas en 2D o planos en 3D); alcanza su meseta S  a una distancia h = 3a en la cual elsemivariograma tiene un valor de 0.95*S . En este modelo se alcanza la meseta  S  más rápidamenteque en el modelo esférico. Su ecuación está dada por la siguiente expresión y su representacióngráfica se muestra en la figura 31.

    )1()(   a

    h

    eS h

     

     Figura 31. Modelo exponencial.

     Modelo Gaussiano: Se usa para modelar fenómenos suaves, es decir, continuos en todos los puntos,y derivables en la mayoría. Estrictamente hablando, no tiene alcance; sin embargo, para efectos

     prácticos se supone que se alcanza a una distancia  h =   a3   . Su ecuación está dada por lasiguiente expresión y su representación gráfica se muestra en la figura 32.

    )1()(  2

    2

    a

    h

    eS h

     

     Figura 32. Modelo gaussiano.

     Modelos Monómicos: se usan para representar fenómenos no estacionarios (en este sentido unavariable con semivariograma de este tipo tiene estructura fractal, con una dimensión fractal igual a

    22

          . Estos semivariogramas no tienen meseta ya que tienden al infinito cuando aumenta h. Su

    ecuación está dada por:       Khh   )(   , siendo K  un coeficiente constante, y     un exponente que

     pertenece al intervalo abierto (0, 2). Su representación gráfica se muestra en la figura 33.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    35/113

    26

     Figura 33. Modelo monómico.

     Modelo     Efecto Agujero : se usan para fenómenos que poseen componentes periódicas o cuasi periódicas. Son usados con mucho éxito en hidrología, para la caracterización de fracturas. Suecuación está dada por la siguiente expresión y su representación gráfica se muestra en la figura 34.

    )cos(1)()(1)(   h shóh

    h senS h  

     

      

            

     Figura 34.    Model 

    Existen otros modelos de semivariogramas tales como el  Modelo Logarítmico,  usado cuando al

    representar logarítmicamente la escala de las distancias   h, el semivariograma experimental secomporta linealmente; no tiene meseta y no está definido en torno al origen. Su ecuación está dada

     por:   hC h   log1)(        , con C1 un coeficiente constante

    El Modelo Cúbico,  en el cual la meseta S se alcanza a una distancia finita  h = a; se usa paramodelar fenómenos muy suaves, aunque para este caso sería mejor modelar el fenómeno con unModelo Gaussiano del mismo alcance. Su ecuación está dada por la siguiente expresión:

     

      

     

     

      

     

     

      

     

     

      

     

    ahS 

    aha

    h

    a

    h

    a

    h

    a

    hS 

    h   7

    7

    5

    5

    3

    3

    2

    2

    4

    3

    2

    7

    4

    357

    )( 

    El Modelo Cuadrático  en el cual la meseta  S  se alcanza a una distancia finita  h = a, tiene uncomportamiento lineal en el origen, en general su comportamiento es similar al esférico. Suecuación está dada por la siguiente expresión:

     

      

     

     

      

     

    ahS 

    aha

    h

    a

    hS 

    h   2

    2

    2)(  

    Para analizar situaciones complejas es usual recurrir a la Combinación Lineal de Semivariogramas(principio de superposición), ó a la Resta de las Productorias de Funciones de Autocovarianza,así:

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    36/113

    27

    )()0()()()(1 11

    2hC C hóhh

    n

    i

    n

    i

    ii

    n

    i

    ii  

          

    2.3. CONSIDERACIONES ACERCA DE LOS SEMIVARIOGRAMAS.

    Según el análisis estructural, por medio del semivariograma se pretende sintetizar todo lo que se puede conocer acerca de la variabilidad espacial del fenómeno bajo estudio; sin embargo se debentener en cuenta las siguientes consideraciones:

     Efectos de la escala de heterogeneidad y superposición de semivariogramas: es posible suponer que la variabilidad espacial de los fenómenos físicos obedece a la superposición de distintas escalasde variabilidad (la conductividad hidráulica en un yacimiento de aguas subterráneas posee varias

    escalas de análisis: una a nivel microscópico y otra a nivel macroscópico; resulta obvio pensar quesi la variable bajo estudio es ésta, al ir creciendo la escala del problema se encontraráheterogeneidad debido a las variaciones formacionales);  heterogeneidad, de tal manera que cada escala superior integrará las variabilidades de las escalasinferiores; en ese sentido esto se puede modelar por medio de la superposición se semivariogramas,cada uno de los cuales represente una escala de análisis según la siguiente expresión:

    )(...)()()( 21   hhhh n      

    En la expresión anterior, las distancias h de cada semivariograma estará acorde con la escala detrabajo. Es de anotar que lo anterior implica la suposición de que la variabilidad de cada escala deheterogeneidad es independiente de las demás.

     Anisotropía: Se entiende por anisotropía a la discontinuidad direccional de las propiedades de lavariable bajo estudio. En este sentido el semivariograma permite estudiar dicho fenómeno por medio de su cálculo en varias direcciones; si los semivariogramas son marcadamente diferentes se

     puede pensar en la presencia de anisotropías (esto a veces es útil para darle confiabilidad a los procesos de estimación de datos, que es otro de los grandes aportes de la geoestadística). En generalse presentan dos tipos de anisotropías: la elíptica y la zonal

     Anisotropía Elíptica o Geométrica   se da cuando los semivariogramas calculados en varias

    direcciones presentan alcance diferente (el alcance varía con la dirección, ver figura 35), lo cual secorrige por medio de una transformación lineal; con ello se obtiene información acerca de ladirección en la cual la variable bajo estudio es más isotrópica.

     Anisotropía Zonal   se manifiesta porque los semivariogramas calculados en distintas direccionestienen alcance diferente según se muestra en la figura 36.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    37/113

    28

     Figura 35. Anisotropía geométrica.

     Figura 36. Anisotropía zonal.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    38/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    39/113

    30

    intrínseca (aquella que manifiesta fluctuaciones aleatorias no predecibles, si por el contrario lavariabilidad espacial no tiene lugar según fluctuaciones sino de acuerdo con una tendencia que se

     puede predecir desde lo conceptual; la variable no es intrínseca).

    A grandes distancias, el comportamiento de las variables estacionarias es tal que el semivariograma

    manifiesta una tendencia al crecimiento pero no mas rápido que  h2. Cuando la variable no esestacionaria el semivariograma no se estabiliza y crece al aumentar  h.

     Ejercicio 3: Selección de modelos teóricos de semivariogramas.

    Recuérdese que por medio de un semivariograma es posible determinar cómo se relacionan losdatos cuando están separados cierta distancia, es decir, cómo es la correlación espacial de los datoscon sus vecinos. Este ejercicio se ilustra por medio de las figuras de la 38 a la 48.

    Tomando como base el mapa de concentración de ozono construído en el ejercicio 1 (figura 12), se

     pretende 1) elaborar un modelo teórico para el semivariograma experimental, 2) analizar semivariogramas direccionales (anisotropías geométricas), 3) analizar la vecindad de los datos y 4)determinar que tan bueno es el modelo de estimación de datos por medio del proceso de validacióncruzada.

    El mapa de concentración de ozono se construyó tomando como base los puntos de concentraciónde ozono (ca_ozone_pts); sin embargo, se debe entender que los datos iniciales de concentración deozono eran insuficientes; en consecuencia, fue necesario encontrar más datos y la forma como sehizo fue utilizando procesos de interpolación (en este caso el método usado se denomina Kriging).

    La forma como se obtuvo el mapa de concentración de ozono fue:

      De la barra de Geostatistical Analyst , se seleccionó Geostatistical Wizard .   Se entraron los datos de   ca_ozone_pts (Input Data)  y el atributo ozone   (attribute), se

    seleccionó el método Kriging (el asistente utiliza un Kriging ordinario).   Dentro del método se eligió la opción Prediction Map.

    Como se recordará, en el ejercicio anterior se hizo un análisis de tendencia, encontrándose unafuerte tendencia en la dirección este-oeste; pero más exactamente, en la dirección sureste-noroeste.Un análisis cualitativo de la línea de tendencia permite suponer que un modelo matemático que larepresente puede ser un polinomio de orden 2. Ha de aclararse que es posible modelar los datos con

    dicho polinomio, pero ello implicaría que los datos que no forman parte del polinomio seeliminarían y son necesarios para el cálculo del semivariograma experimental; en consecuencia sedebe remover la tendencia de orden 2 de los datos. Verifiquemos lo anterior:

      En el paso 1 del  Geostatistical Wizard   se despliega la caja de diálogo  Order of Trend  Removal  y se selecciona Second  (con esto se elimina la tendencia de orden 2 existente en losdatos), se continua con el siguiente paso, esto se ilustra en la figura 38.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    40/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    41/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    42/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    43/113

    34

     Figura 43. Dirección de menor correlación Espacial de los datos

     Figura 44. Búsqueda de vecindades.

    El   efecto pepita (nugget) representa una medida del error debida a variaciones espaciales en las propiedades de la variable bajo estudio a nivel de microescala; es posible calcularlo activando laopción Nugget  del paso 3 del Geostatistical Wizard  (ver figuras 41, 42, 43).

     Búsqueda de vecindades: es común que cuando se quieran estimar valores en sitios en donde noexisten, se seleccionen algunos datos como condición inicial, a partir de los cuales se haga laestimación. En la herramienta estos datos se pueden seleccionar por medio de círculos o elipses;

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    44/113

    35

    además el círculo o la elipse se pueden dividir en sectores con el fin de seleccionar igual número dedatos por sector.

    Como se muestra en la figura 44, en el paso 4 de  Geostatistical Wizard  se puede especificar elnúmero de puntos que se van a usar para estimar un dato desconocido (máximo 200), el radio de

    selección que define una región circular en donde se encuentra la vecindad de los datos del puntoque se va a estimar (o ejes mayor menor para el caso de una elipse) y el número de sectores en losque se va a dividir el círculo o elipse con el fin de tener la misma cantidad de datos por sector (datosdistribuidos uniformemente).

    Por medio de un código de colores (de verde oscuro a rojo) se identifica el peso que cada datoseleccionado tendrá sobre el dato que se va a estimar, teniendo presente que datos cercanos al dato aestimar tendrán un mayor peso (en la figura 44, la ubicación de cuatro datos coloreados con rojo,tienen un peso mayor que el 10%, sobre el dato que se va a estimar).

    Para hacer esto con la herramienta, se realiza el siguiente procedimiento que se ilustra en la figura

    44:

      Se hace click  sobre la zona de datos en donde se quiere hacer la estimación. Esto también se puede hacer dando las coordenadas x, y en Test Location. Para el ejemplo, digite en x elvalor -2044968 y en y el valor 208630,37.

      Se define la forma de la región de estimación (círculo o elipse) activando la caja de chequeo shape. Para el ejemplo se usará una elipse con un ángulo de dirección de 338.1 grados, cuyovalor se introduce en la opción  Angle   de la misma caja. La selección de la forma deestimación define también el número de sectores.

      Seleccione el número de puntos por sector para la estimación por medio de la opción

     Neighbords to Include, para este caso se usarán 5 puntos por sector.   Seleccione el mínimo número de puntos por sector a usar por medio de la opción Include at 

     Least , para este caso un mínimo de 2 puntos por sector: esto garantiza que no hallan sectoresque no tengan datos para la estimación, finalmente se continúa con el proceso, opción Next .

    Validación Cruzada: Este proceso da una idea de la calidad de la estimación del modelo,corresponde con el paso 5 del  Geostatistical Wizard  y sus resultados se muestran en la pestaña

     Predicted  (ver figura 45).

    Internamente el algoritmo para la validación cruzada opera omitiendo un dato conocido, luego

    tomando los datos restantes estima el dato descartado y compara el valor del resultado estimado conel valor que inicialmente se tenía de él. De manera secuencial se procede con todos los demás datos.Los resultados se muestran en una gráfica en la cual la abscisa representa los datos conocidos,

     Measured , y la ordenada los datos estimados,   Predicted , esto se ilustra en la figura 45.Adicionalmente se tiene información sobre las estadísticas fundamentales, la ubicación de los datos,sus valores y la estimación.

     Finalmente, para hacer un buen análisis de los resultados de la validación cruzada deben tenerse

    en cuenta los siguientes criterios de decisión, que garantizan la calidad de un buen modelo de

    estimación:

      La raíz cuadrada del error medio cuadrático, Root Mean Square, debe ser pequeña.

      El error estándar promedio, Average Standard Error debe ser pequeño, y

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    45/113

    36

      La raíz cuadrada del error medio cuadrático estándar, Root Mean Square Standardized 

    debe ser cercana a 1.

      Figura 45. Error modelo de predicción ejercicio 3.

     Figura 46. Resumen del modelo teórico del semivariograma.

    Al finalizar el procedimiento de validación cruzada,  Finish, se tiene un cuadro con el resumen del

    modelo teórico del semivariograma como se muestra en la figura 46.

    Finalmente se obtiene un mapa de predicción con el método Ordinary Kriging  como lo ilustra lafigura 47.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    46/113

    37

     Figura 47. Mapa de predicción concentración de ozono del ejercicio 3.

     Figura 48. Mapa de error estándar de la predicciónde concentración de ozono del ejercicio 3.

    Tomando como base el mapa de la figura 47, se puede hacer un mapa de predicción de error estándar haciendo click  izquierdo sobre él y seleccionando la opción  Create Prediction Standard 

     Error . En el mapa de error estándar, ver figura 48, se puede observar que las zonas claras, enamarillo, representan buenos valores de predicción (el error estándar promedio tiende a cero),mientras que en las zonas oscuras, en café, los valores de la predicción no son tan buenos.

     Ejercicio 4: Comparación de Modelos. En los ejercicios 1 y 3, se hicieron dos mapas de predicciónde la concentración de ozono que se muestran en las figuras 49 y 50 respectivamente, en esteejercicio se busca determinar cual de las dos predicciones es la mejor.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    47/113

    38

     Figura 49. Mapa de predicción de concentración de ozono hecho en el ejercicio 1.

     Figura 50. Mapa de predicción concentración de ozono hecho en el ejercicio 3.

    Para realizar la comparación de los modelos de predicción se hace  click  derecho sobre el nombredel   layer  que corresponde con el mapa de predicción de concentración de ozono hecho en elejercicio 3, como se muestra en la figura 51; y se elige la opción Compare.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    48/113

    39

     Figura 51. Activación de la ventana de comparación de validación cruzada.

    Con ello se activa la ventana de comparación  Cross Validation Comparision, y como se puedeobservar en la sección izquierda de la figura 52; para el mapa de predicción del ejercicio 3 se tiene:

      Que el Root Mean Square Prediction Error  es menor que el del ejercicio 1 (0.01135 contra0.01137).

      Que el Root Mean Square Standarized Prediction Error  tiende más a 1 que el del ejercicio 1(0.8336 contra 0.7411).

     Figura 52. Comparación de errores de los modelos de predicción.

    Según al análisis anterior, se concluye que el modelo de predicción del ejercicio 3 es mejor que eldel ejercicio 1.

    La comparación de modelos de predicción también puede hacerse a partir de la información delerror de la predicción, Prediction Error , que se obtiene de la validación cruzada por medio de lacomparación de los valores del  Root Mean Square Prediction Error  y del  Root Mean SquareStandarized Prediction Error . La información del error de la predicción de los ejercicios 1 y 3 semuestra en las figuras 53 y 54 respectivamente.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    49/113

    40

     Figura 53. Error del modelo de predicción del Ejercicio I  

     Figura 54. Error del modelo de predicción del ejercicio 3

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    50/113

    41

    3. INTERPOLACIÓN O ESTIMACIÓN ESPACIAL.

    3.1. UNA APROXIMACIÓN PRÁCTICA A LA ESTIMACIÓN.

    Dos de los aspectos más relevantes de la Geoestadística, son el poder establecer tendencias ycorrelaciones espaciales entre los datos, y a partir de esto, poder estimar datos desconocidos. Antesde iniciar con el formalismo inherente a las técnicas y procedimientos de estimación, se realizará unejercicio manual en donde se mostrarán los cálculos, para su posterior conceptualización yoperacionalización computacional.

     Ejercicio: Una de las técnicas Geoestadísticas para la estimación se denomina método del Krigingque en esencia consiste en la determinación de un dato desconocido a partir de otros conocidos

     basándose en la idea de que para estimar dicho dato, los datos más cercanos tienen una mayor influencia (peso) sobre él. Tal influencia o peso se calcula con base en la información obtenida por el Semivariograma, de la siguiente forma:

         -1

    * g En donde    es el vector que contiene los pesos de influencia de los datos conocidos sobre el dato

     por estimar; en donde   -1 es la matriz inversa de las semivarianzas  i,j , es decir, la semivarianza decada dato conocido con respecto a los demás datos conocidos (obtenidas a partir del modelo teóricodel Semivariograma), y así mismo, donde g  es el vector de semivarianzas de cada uno de los datosconocidos con relación al dato por estimar, igualmente se obtienen a partir del Semivariograma

    teórico. Con la información de los pesos , se estima el dato desconocido por medio de la siguientefórmula:

     Z  0    i * Z i 

    En donde Z  0  es el valor del dato por estimar y los Z  i , son los valores de los datos conocidos.

    Con base en lo anterior, en la figura 55, se muestra la ubicación espacial de los datos conocidos parala estimación del dato ubicado en la posición (1, 4).

     Figura 55. Ubicación espacial de los datos conocidos para la estimación del punto (1, 4).

    1, 3

    1, 4

    1, 5

    3, 4

    4, 5

    5, 1

    0

    1

    2

    3

    4

    5

    6

    0 1 2 3 4 5 6

       Y

    X

    Ubicación de Datos conocidos y a estimar 

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    51/113

    42

    Los valores de los datos conocidos se relacionan en la tabla 1.

    Tabla 1. Valores y posiciones de los datos conocidos.Ubicación del punto Valor Observado de la

    propiedad Z i,(1 , 5) 100

    (3 , 4) 105(1 , 3) 105(4 , 5) 100(5 , 1) 115(1 , 4) Dato a Estimar  

    Recuérdese que la distancia entre dos puntos se calcula por medio de la siguiente fórmula:d i, j  = sqrt ( (x i    x  j  )

    2+ (yi    y j  )

    2 ).

    Con la información anterior se calcula el semivariograma experimental, el procedimiento empleadose muestra en la tabla 2.

    Tabla 2. Procedimiento para el cálculo del semivariograma experimental.

    Comparación detodos los puntos

    Cálculo de ladistancia

    Valor de ladistancia

        2 Semivarianza

       2

    (1, 5) ; (3, 4) sqrt( (1 - 3 )^2 + (5 -4)^2) 2,236 (100- 105)^2 = 25 12,5

    (1, 5) ; (1, 3) sqrt( (1 - 1 )^2 + (5 -3)^2) 2,000 (100- 105)^2 = 25 12,5

    (1, 5) ; (4, 5) sqrt( (1 - 4 )^2 + (5 -5)^2) 3,000 (100- 100)^2 = 0 0,0

    (1, 5) ; (5, 1) sqrt( (1 - 5 )^2 + (5 -1)^2) 5,657 (100- 115)^2 = 225 112,5

    (3, 4) ; (1, 3) sqrt( (3 - 1 )^2 + (4 -3)^2) 2,236 (105- 105)^2 = 0 0,0

    (3, 4) ; (4, 5) sqrt( (3 - 4 )^2 + (4 -5)^2) 1,414 (105- 100)^2 = 25 12,5

    (3, 4) ; (5, 1) sqrt( (3 - 5 )^2 + (4 -1)^2) 3,606 (105- 115)^2 = 100 50,0

    (1, 3) ; (4, 5) sqrt( (1 - 4 )^2 + (3 -5)^2) 3,606 (105- 100)^2 = 25 12,5(1, 3) ; (5, 1) sqrt( (1 - 5 )^2 + (3 -1)^2) 4,472 (105- 115)^2 = 100 50,0

    (4, 5) ; (5, 1) sqrt( (4 - 5 )^2 + (5 -1)^2) 4,123 (100- 115)^2 = 225 112,5

    Se reordenan los datos de la tabla 2 teniendo en cuenta que para la construcción del semivariogramaexperimental se toman intervalos de distancia, lags y su número equivale a la mitad de la poblaciónde datos (en la tabla 2 se tienen 10 datos obtenidos por medio de la comparación de todos los puntosentre sí, y para este caso se tomarán 5 intervalos); se toma el promedio de distancias de cadaintervalo y el promedio de los valores de las semivarianzas, para obtener finalmente elsemivariograma experimental. En la tabla 3 se muestra el anterior procedimiento:

    Tabla 3. Reordenación de datos para el cálculo de l semivariograma experimental 

    Intervalo dedistancias (lags)

    Distanciascontenidas

    en el intervalo

    DistanciaPromedio

    del intervalo( este sería h )

    Semivarianzascontenidas

    en el intervalo

    SemivarianzaPromedio

    del intervalo( este sería   

    1 < di, j < = 2 1,114 ; 2 1,707 12,5 ; 12,5 12,500

    2 < di, j < = 3 2,236 ; 2,236 ; 3 2,491 12,5 ; 0 ; 0 4,167

    3 < di, j < = 4 3,606 ; 3,606 3,606 50 ; 12,5 31,250

    4 < di, j < = 5 4,472 ;4,123 4,298 50 ;112,5 81,250

    Más de 5 5,657 5,657 112,5 112,500

    De la tabla 3, si se grafica distancia promedio del intervalo contra la semivarianza promedio del

    intervalo; se obtiene la gráfica del semivariograma experimental de los datos como se muestra en lafigura 56.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    52/113

    43

     Figura 56. Semivariograma experimental de los datos.

    Para continuar con el proceso de estimación, se requiere ajustar un modelo teórico alsemivariograma experimental; para efectos netamente ilustrativos, se asumirá un modelo lineal(regresión lineal por mínimos cuadráticos) que pase por el origen, de tal manera que:

    Semivarianza promedio del intervalo = 13.5 * distancia promedio del intervalo

    O de otra forma:     .En la figura 57, se muestra el semivariograma teórico según el modelo lineal propuesto

     Figura 57. .Semivariograma teórico según modelo lineal.

    A partir del semivariograma teórico y los datos de la tabla 2 se procede a encontrar la matriz   delas semivarianzas   i,j  (cada   i,j  es un elemento de la matriz y se encuentra por medio de   i,j  = 13.5 *hi, j , por ejemplo para los pares de puntos (1, 5) y (3, 4), el valor de   i,j  es igual a 13,5 * 2,236 =30.19, siendo 2,236 la distancia hi, j  que hay entre ellos calculada en la tabla 2), en la tabla 4 semuestra la matriz    calculada con base en el procedimiento anterior.

    0,0

    20,0

    40,0

    60,0

    80,0

    100,0

    120,0

    0,000 1,000 2,000 3,000 4,000 5,000 6,000   S  e  m   i  v  a  r   i  a  n  z  a  p  r  o  m

      e   d   i  o   d  e   l

       i  n   t  e  r  v  a   l  o   (                    

    Distancia Promedio del Intervalo (h)

    Semivariograma Experimental

    y = 13,5*x

    0,0

    20,0

    40,0

    60,0

    80,0

    100,0

    120,0

    0,000 1,000 2,000 3,000 4,000 5,000 6,000

       S  e  m   i  v  a  r   i  a  n  z  a  p  r  o  m  e   d   i  o   d  e   l

       i  n   t  e  r  v  a   l  o   (                    

    Distancia Promedio del Intervalo (h)

    Semivariograma Teórico

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    53/113

    44

    Tabla 4.     (1, 5) (3, 4) (1, 3) (4, 5) (5, 1)   Columna

    aumentadade 1

    (1, 5)   0 30.19 27 40.5 76.37 1

    (3, 4)   30.19 0 30.19 19.09 48.67 1(1, 3)   27 30.19 0 48.67 60.37 1(4, 5)   40.5 19.09 48.67 0 55.66 1(5, 1)   76.37 48.67 60.37 55.66 0 1Filaaumentadade 1

    1 1 1 1 1 0

    Para calcular el vector  g , se determina la distancia del punto por estimar (1, 4) a todos los demás puntos y usando el modelo teórico del semivariograma se halla  i,o en donde i es el punto dado y 0es el punto por estimar, dicho procedimiento se muestra en la tabla 5.

    Tabla 5. Cálculo del vector g.PuntoDado

    Distancia al punto aestimar (1, 4)

    hi, o

    Semivarianza según el modelo teóricoi,o = 13.5 * hi, o

    Estos son los valores del vector g (1, 5)   1 13.5 * 1 = 13.5(3, 4)   2 13.5 * 2 = 27(1, 3)   1 13.5 * 1 = 13.5(4, 5)   3.162 13.5 * 3.162 = 42.69(5, 1)   5 13.5 * 5 = 67.5

    Los valores del vector  g  se muestran en la tabla 6.

    Tabla 6. Valores del vector g.g

    13.527

    13.542.6267.5

    1 (valor extendido del vector g para efectosde la multiplicación por la matriz  )

    Se hallan los valores de los pesos  a partir de     -1

    * g , con estos pesos se puede calcular el valor  por estimar en el punto (1, 4) por medio de Z  0    i * Z  i , En donde Z  0 es el valor a estimar y los Z  i , son los valores conocidos. El proceso del cálculo de Z  0, se muestra en la tabla 7.

    Tabla 7.   Cálculo del valor por estimar Z  0 .Puntodado

    Valores dados Z  i 

    Pesos 

    Producto  i * Z  i 

    (1 , 5) 100 0.46757 46.7570(3 , 4) 105 0.09834 10.3257(1 , 3) 105 0.46982 49.3311(4 , 5) 100 -0.02113 -2.1130(5 , 1) 115 -0.01460 -1.6790

    -0.18281 Z  0    i * Z  i  102.6218

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    54/113

    45

    De la tabla 7 se puede observar como aquellos puntos que están más cercanos al punto a estimar tienen más peso [(1, 3) y (1, 5)], y los más lejanos tienen menos peso [(4, 5) y (5, 1)].

    Suponiendo que los errores de la estimación obedecen a una distribución normal, es posible definir un intervalo de confianza para la estimación por medio de la siguiente fórmula:

     Z  0 + / - 1.96 * SQRT(Varianza del Kriging).

    La varianza del Kriging (VK), de la fórmula anterior, se calcula por medio de la expresión:

    i    i 

    El procedimiento de la VK , se muestra en la tabla 8

    Tabla 8. Cálculo de la varianza del Kriging.Valores del

    vector g g  i 

    Pesos 

     i 

    Producto

     g  i * 

     i 

    13.50 0.46757 6.31219527.00 0.09834 2.65518013.50 0.46982 6.34257042.69 -0.02113 -0.90204067.50 -0.01460 -0.985500

    1 -0.18281 -0.182810 i    i    13.239600 SQRT (VK)   3.638600

    Con base en los cálculos anteriores, el intervalo de confianza estaría dado por:

    [95.49, 109.75] (102.62 + / - 1.96 * 3.6386).

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    55/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    56/113

    47

    un área tan grande como sí lo son las muestras no agrupadas. En este caso un estimador como lamedia, que asigna igual peso a todos los datos, no sería adecuado ya que introduciría un sesgo.

    Existen varios métodos de estimación global en los cuales su primordial interés es evitar lainfluencia debida al muestreo preferencial.

     Método de los polígonos de influencia. En este método a cada dato se le asigna un polígono deinfluencia ó área de influencia de un dato, como se muestra en la figura 59. El área del polígono deinfluencia de cada dato dividida por el área total, es el peso que se le asigna a ese dato. De estaforma se tiene en cuenta el efecto de agrupamiento de los datos, ya que datos espacialmenteagrupados tendrán menos pesos correspondientes a polígonos de influencia pequeños, mientras quedatos con polígonos de influencia grandes, los cuales son representativos de áreas mayores,recibirán mayor peso. Sin embargo este método de asignación de pesos tiene una desventaja y esque áreas pobremente muestreadas podrían recibir un peso exagerado, debido a polígonos deinfluencia muy grandes.

     Figura 59. Polígono de influencia de un dato.

     Método de celdas. En este método se divide el área total en celdas (rectángulos o cuadrados) y cadadato recibe un peso inversamente proporcional al número de datos que caen dentro de la mismacelda, como se muestra en la figura 60 en donde n es el número de datos de cada celda y 1/n sería el

     peso que se la asigna a los datos de esa celda.

     Figura 60. Asignación de pesos por el método de celdas.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    57/113

    48

    Datos preferencialmente agrupados recibirán menos pesos ya que las celdas en las cuales seencuentran localizados contienen también otros datos; el peso wi estaría dado por  wi = 1/ni. El valor estimado obtenido por este método depende del tamaño de celda seleccionado. Si las celdas sonmuy pequeñas, cada dato caerá en una celda individual y todos los datos recibirán un peso de 1. Silas celdas son tan grandes como el área total, todos los datos caerían en la misma celda y de nuevo

    recibirían iguales pesos (no habría desagrupamiento); en consecuencia, para este método se debeseleccionar un tamaño de celda que permita obtener un caso intermedio entre estos dos extremos, lousual es probar con varios tamaños de celda y seleccionar aquel con el que se obtenga un valor estimado similar al valor del promedio global de los datos.

    En los casos en que los tamaños de celdas no son iguales, cada celda recibe un peso determinado por el área de la celda dividida por el área total; este peso es redistribuído igualmente entre los datosque caen dentro de cada celda particular.

    Tanto el método de polígonos de influencia como el de celdas tienen en cuenta el efecto deagrupamiento pero la desventaja es que pueden producir valores discontinuos en los extremos del

    área de estudio que no tienen nada que ven con la realidad. En el método de celdas, debido a que laconfiguración de estas no es única, diferentes configuraciones de celdas producen valores estimadosdiferentes; en contraste, el método de polígonos de influencia posee la ventaja de que producevalores estimados únicos. Ambos métodos se basan en simples consideraciones geométricas, sintener en cuenta las relaciones espaciales entre los datos.

    3.4. MÉTODOS TRADICIONALES DE ESTIMACIÓN: ESTIMACIÓN LOCAL (PUNTUAL).

    La estimación global es importante en las etapas iniciales de estudio; sin embargo, es mucho más

    importante obtener valores estimados en áreas más pequeñas e inclusive en localizacionesespecíficas del área de estudio. En la estimación local sólo se tienen en cuenta los datos máscercanos al punto por estimar o área de interés. Las técnicas de estimación local deben tener encuenta tanto el efecto de agrupamiento como también la distancia hacia el punto por estimar.

    Por ejemplo, para saber cuál es la distribución de las zonas ricas y pobres dentro de un yacimientomineral, o conocer las zonas de permeabilidad alta o baja en estudios de flujos de fluido, o de zonasque deben ser remediadas en los estudios de contaminación, se requieren estimaciones locales.

     Método de los polígonos de influencia. Utiliza un concepto similar al usado en la estimaciónglobal, sólo que en la estimación puntual se utiliza como valor estimado, el valor del dato que esta

    más cercano al punto por estimar. Cualquier punto que esté dentro de la zona de influencia de undato recibirá el mismo valor estimado. De esta manera el método no tiene en cuenta la variabilidadespacial de los datos, al asignar un valor constante sobre todo el polígono de influencia de un dato,generando así una serie de discontinuidades que no representan la realidad.

    En la figura 61 se muestra el polígono de influencia de un dato con valor 328; cualquier punto por estimar, cuyas coordenadas estén dentro de este polígono de influencia, recibirá el valor de 328como su valor estimado. Resulta obvio pensar que este tipo de procedimiento generarádiscontinuidades altas en los valores estimados.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    58/113

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    59/113

    50

    En expresión anterior, Z  es el valor de la variable, x  es la coordenada Este, y y  es la coordenadanorte. A partir de las coordenadas  (x1, y1), (x2, y2) y (x3, y3)  de tres datos cercanos al dato aestimar y los valores de sus propiedades  z1, z2 y z3, se pueden calcular los coeficientes  a, b, c,solucionado el siguiente sistema de ecuaciones:

    a*x1 + b*y1 + c = Z1a*x2 + b*y2 + c = Z2a*x3 + b*y3 + c = Z3

    En la figura 63, se tienen 7 datos conocidos de la concentración en partes por millón (ppm) de unavariable bajo estudio y con ellos se desea estimar, con el método de triangulación, el punto indicado

     por la flecha

     Figura 63. Datos para realizar una estimación del punto marcado con la flecha.

    Sean Z1 = 696 ppm, Z2 = 227 ppm y Z3 = 606 ppm; tres datos cercanos al punto por estimar,remplazando sus coordenadas y valores en la ecuación del plano se tiene el siguiente sistema de 3ecuaciones y 3 incógnitas (a, b y c):

    63a + 140b +c = 696 64a + 129b + c = 227 71a + 140b + c = 606 

    La solución de este sistema es: a = -11.250, b = 41.614 y c = -4421.159.Con base en los cálculos anteriores, la ecuación del plano que contiene el punto por estimar por elmétodo de triangulación está dada por la siguiente ecuación:

    Z = -11.250x + 41.61y-4421.159

    Reemplazando en la ecuación anterior las coordenadas ( x, y) del punto por estimar, se obtendrá suvalor, que en este caso es Z = 548.7 ppm.

    Aunque se podría usar la ecuación anterior para producir estimaciones en cualquier localización,éstas no deben estar mas allá de los límites del triángulo que conecta los tres datos que fueron

    usados para calcular los coeficientes del plano, lo cual implica que el método   no es útil paraextrapolar .

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    60/113

    51

    En la figura 64, se muestra el plano de estimación definido por el método de triangulación calculadousando los tres datos seleccionados. En el procedimiento anterior, se seleccionaron de manera  a la ubicación del valor por estimar; sin embargo, existe un métodollamado triangulación de Delanay para seleccionar los datos.

     Figura 64. Plano de estimación por el método de triangulación.

    Triangulación de Delanay: es una forma de triangulación fácil de calcular que posee la ventaja deque produce triángulos muy cercanos a triángulos equiláteros. Tres datos definen un triángulo deDelanay, si sus polígonos de influencia comparten por lo menos un vértice en común. En la figura65, los polígonos de influencia para los datos 696 ppm, 227 ppm y 606 ppm comparten un vérticeen común cerca al centro y por lo tanto pueden forman un triángulo de Delanay que se forma por launión de las coordenadas de la ubicación de los datos como se muestra en la figura 66.

     Figura 65. Polígonos de influencia que pueden formar triángulos de Delanay.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    61/113

    52

     Figura 66. Triángulos de Delanay..

    Una forma directa para estimar el valor del punto señalado de la figura 63 ubicado en lascoordenadas ( x = 6265E, y = 137N) que se encuentra dentro del triángulo de Delanay definido por los datos Z1 = 696 ppm, Z2 = 227 ppm y Z3 = 606 ppm  sin tener que solucionar el sistema deecuaciones obtenido por la ecuación del plano; es expresarlo como una combinación lineal de lostres datos   Z1, Z2, Z3   que conforman el triángulo de Delanay para calcular pesos a partir lageometría. En la figura 67 se muestra la localización de tres datos, designados como I, J y K ; los

    valores de estas localizaciones son respectivamente Vi, Vj y Vk . El punto O es la ubicación del valor  por estimar, Vo, y está dentro del triángulo IJK .

     Figura 67. Estimación Geométrica del valor en el punto O.

    El valor por estimar en el punto  O, Vo, estaría dado por una combinación lineal de los tres valoresconocidos Vi, Vj, y Vk ; por medio de la siguiente expresión:

    Vo = (Aojk * Vi + Aoik * Vj + Aoij * Vk) / Aijk 

    Donde cada  Amnr   representa el área de un triángulo de vértices  m, n y r . En esta fórmula deestimación, el peso de cada valor  Vq, está dado por la relación entre el área del triángulo opuesto al

    vértice q  y el área del triángulo de Delanay, de esta forma se garantiza que datos más cercanos al punto por estimar reciban un mayor peso.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    62/113

    53

    Usando la fórmula anterior para estimar el valor en el punto ( x = 6265E, y = 137N), y tomandocomo base los valores de Z1 = Vi = 696 ppm, Z2 = Vj =227 ppm y Z3 = Vk = 606 ppm = 696 ppm;se obtiene:

    Vo = ((22.5)*(696) + (12.0)*(227) + (9.5)*(606)) / 44 = 548.7 ppm.

    El valor de Vo, es el mismo que se obtuvo mediante la solución de la ecuación del plano para losvalores de prueba.

     Método del Inverso de la distancia. En el método del polígono de influencia se usa sólo el dato máscercano al punto por estimar, y en el método de triangulación se usan los tres datos más cercanos.De esta forma se ignora gran parte de la información contenida en otros datos cercanos en lavecindad del punto por estimar. El método del inverso de la distancia elimina este problema,incluyendo más datos cercanos y asignando a cada uno de ellos un peso equivalente al inverso de sudistancia al punto que se va a estimar:El valor por estimar se obtiene mediante la siguiente fórmula:

    n

    i p

    i

    n

    i

    i p

    ii

    vd 

    v

    1

    1

    )(

    1

    *)(

    1

    Donde cada di,....dn; representa la distancia de cada una de las ubicaciones de los datos conocidosal punto por estimar, y vi,....,vn son los valores de los datos conocidos.

    El valor del exponente p

     da origen a diferentes fórmulas para el cálculo de estimaciones:

      Si p = 0, todos los pesos 1/(di) son iguales a 1 y la fórmula sería la del promedio aritmético.   A medida que p aumenta, los pesos individuales se hacen menos similares, y en este caso el

     peso de los datos más alejados es menor, mientras que el de los más cercanos adquieremayor influencia.

      Cuando p  tiende a infinito, la fórmula de estimación por este método se aproxima a la delmétodo local de los polígonos de influencia, dándole todo el peso al dato más cercano.

      Tradicionalmente el valor mas usado para p  es 2. Aunque la elección del valor de  p  esarbitraria, con   p = 2   se realizan menos cálculos, lo cual optimiza la eficienciacomputacional.

    En la figura 68, se compara la realidad (figura superior) con valores estimados calculados con elmétodo de los polígonos de influencia (figura central: note las discontinuidades) y el método delKriging (figura inferior), que se verá más adelante.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    63/113

    54

     Figura 68. Comparación de la realidad con modelos de estimación.

    3.5. MÉTODOS DE ESTIMACIÓN GEOESTADÍSTICOS.

    Los métodos de estimación tradicionales, no consideran la correlación espacial entre los datos. Lacontinuidad existe en la mayoría de los datos que se tienen en los estudios de ciencias de la tierra.Dos datos cercanos entre sí, tienen probablemente valores más similares que datos que están muyapartados; en consecuencia, es necesario que el método de estimación tenga en cuenta la estructurade correlación espacial que existe entre los datos.

    Los métodos de estimación Geoestadísticos caracterizan, modelan y utilizan la correlación espacial.Además de suministrar valores estimados, estos métodos suministran la confiabilidad de la

    estimación, proporcionando una medida del error de estimación.

    Una de las contribuciones importantes de los métodos de estimación geoestadísticos es que declaranampliamente la naturaleza del modelo en el cual se basan, virtud de la que carecen los métodosvistos anteriormente, los cuales sólo tienen en cuenta el arreglo geométrico de los datos.

    El método del kriging (estimación lineal sin sesgo y con mínima varianza - Best Linear Unbiased     -, conocida también como filtro de Wiener) es uno de los principalesmétodos de estimación geoestadísticos el cual definió una nueva era en las tareas de pronóstico enlas ciencias geológicas mineras, y otras que han empleado los conceptos y procedimientos de estarama aplicada de las Matemáticas.

    De forma general la estimación en un punto, teniendo en cuenta los valores de los puntos máscercanos a él, se puede realizar a través de la siguiente expresión:

     Z  0    i * Z i 

    En donde Z  0 es el valor a estimar,   son los pesos de los Z  i , que son los valores conocidos.

    El Kriging es considerado un estimador lineal no sesgado, en el cual los pesos    se calculan demodo tal que el estimador cumpla con la condición de no sesgo y que la varianza de la estimación(  ²e) sea mínima.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    64/113

    55

     Método del Kriging Ordinario (KO).

    Es un proceso de estimación basado en el conocimiento de las covarianzas (semivariograma) de losdatos en los puntos de observación, lo cual significa que considera la correlación espacial entre losdatos. Según D. G Krige es una regresión múltiple puesta en un contexto espacial, tomando como

     base la siguiente fórmula:

    En donde el subíndice KO hace referencia al método del Kriging Ordinario,

    Es el dato por estimar 

    Son los pesos

    Son los datos a partir de los cuales se va a realizar la estimación.

    Para que la estimación (interpolación) sea óptima, hay que calcular los pesos de tal modo que sesatisfagan dos condiciones:

    a. Que la estimación no sea sesgada lo cual se cumple si el valor esperado de la diferenciaentre el valor estimado y los datos es cero:

     b. Que la en estimación la varianza del error sea mínima:

    La condición de que la estimación no sea sesgada conduce a validar la suposición de que la variableregionalizada Z( u  ) es estacionaria, con media µ constante localmente, dentro de un área limitada ycentrada en u ; esto es,

    Por definición, la media del error de estimación es igual a:

    En el mismo orden de ideas, como se quiere que la estimación no sea sesgada, entonces ladiferencia entre el valor estimado y los datos debe ser igual a cero, es decir, el término izquierdo de

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    65/113

    56

    la ecuación anterior debe ser cero; y para que esto se cumpla, la sumatoria de los pesos calculadosdebe ser igual a 1, como se ve en la siguiente ecuación:

    Verifiquemos la segunda condición, que la varianza del error de estimación sea mínima,inicialmente expresemos varianza en términos de la Covarianza (C), así:

    Ahora también expresémosla en términos de la semivarianza   , así:

    Ahora bien, minimizar la varianza de estimación teniendo en cuenta la condición de estimación nosesgada, significa además que su derivada debe ser igual a cero, esto es que:

    Finalmente considerando las condiciones anteriores, el sistema de ecuaciones de krigeado ordinarioen términos de la semivarianza es el siguiente:

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    66/113

    57

    La formulación matricial del sistema anterior, se expresa de la siguiente forma:

    La solución del sistema anterior, permite encontrar los n pesos de ponderación; y tiene la siguienteforma:

    La expresión anterior es equivalente a la expresión      -1 * g , utilizada en el ejercicio propuesto ydesarrollado en la sección 3.1.

    En las ecuaciones del Kriging ordinario se consideró que la media µ era constante localmente y

    dada por la expresión

    i

     j 

    i   x f a0

    )(    en donde  ai  es un coeficiente de ponderación y   j = 0,

    aunque su valor era desconocido; eso no siempre es así, con respecto a la media µ puede ocurrir que:

    a. La media µ  sea constante, pero se conozca su valor; conservando las mismas suposiciones del

    Kriging ordinario; ésta situación da lugar al denominado Kriging Simple. Este caso y el del KrigingOrdinario, es propio de una variable aleatoria estacionaria

     b. La media   µ   es una función de los datos y se desconoce, está dada por la expresión

    i

     j 

    i   x f a0

    )(    en donde ai es un coeficiente de ponderación y j = 0  ; ésta situación da

    lugar al denominado Kriging Universal. Esto significa que la variable aleatoria no es estacionaria yen consecuencia muestra tendencias direccionales.

    En la siguiente sección, se muestra como se hacen estimaciones geoestadísticas en ArcGis usando elmétodo del kriging universal y el kriging simple; tomando los mismos datos del ejercicio 1, parafinalmente realizar una validación cruzada entre éstos métodos y el kriging ordinario realizado en elejercicio 3 y determinar de éstos cuál es el mejor modelo de estimación.

  • 8/16/2019 GEOESTADISTICA_978-3-659-01521-2

    67/113

    58

    3.6. ESTIMACIÓN USANDO GEOSTATISTICAL ANALYST®.

     Kriging Simple: Usando el Geoestatistical Wizard  y tomando los mismos datos del ejercicio 1, serealizará un mapa de predicción con Kriging Simple. Como en éste método el valor de la media delos datos debe ser constante y conocido, se toma el valor de 0.0992 como se ve en la figura 69. El

     punto a estimar tiene las coordenadas (x = -2044968, y = 208630), se toma un tamaño de lag  de12000 y con 10 lags, como se hizo en el ejercicio 1, ver figura 70.

     Figura 69. Estimación con Kriging simple.