Parte I II IIIgeoestadistica Curso Unsa

PARTE I

I. INTRODUCCIÓN

En el desarrollo de un proyecto minero o en la explotación misma de yacimientos, se

va precisando las necesidades de solución que requieren algunos problemas

cuantitativos geológico — mineros. A estos problemas se les plantea su solución

mediante técnicas estadísticas y/o geoestadísticas.

Básicamente seguimos 2 líneas de acción durante el desarrollo del curso: Aplicaciones

para yacimientos por explotar y explotados subterráneamente y a tajo abierto, dando

énfasis a lo segundo.

Estos estudios se circunscriben en todas las etapas de puesta en marcha de

proyectos mineros: prospección, exploración y explotación; los que se ubican en los

llamados estudios de pre-factibilidad y operación de explotación misma.

Dentro del desarrollo del curso confrontaremos los resultados teóricos, con los

resultados reales, de manera de tener una apreciación cabal de la bondad de estas y

otras técnicas que se aplican para la solución de estos problemas. Con ello estaríamos

validando la teoría de la geoestadistica y otras que se aplican.

Clásicamente se piensa que en yacimientos excepcionales de alta ley o polimetálicos

cuyo equivalente en un metal es alto, no se tiene necesidad de retinar el cálculo de la

ley media de cada panel estimado; inclusive quienes usan los métodos tradicionales

de cálculo de reservas se permiten castigar todas las leyes, aduciendo justificaciones

empíricas. Sin embargo con el objeto de optimizar la utilización del recurso natural y la

programación de la explotación a corto, mediano y largo plazo, es necesaria una

evaluación más confiable.

Naturalmente que los procedimientos clásicos, desde un punto de vista pragmático,

han demostrado y demuestran su validez, pero esto no significa que sea lo más

conveniente para el correcto uso del recurso no renovable, lo que sin duda es nuestro

deber defender, desde una posición que tecnológicamente consideramos correcta.

Ampliando este criterio, a continuación precisaremos muy brevemente la incidencia de

la interrelación entre la evaluación de las reservas y el diseño de la explotación, en el

beneficio óptimo.

Consideramos las alternativas siguientes:

1. Podemos tener una excelente evaluación de los recursos geológicos y un

pésimo diseño y método de explotación, lo que dará como resultado la

obtención de un "Beneficio Efectivamente Recuperado" equivalente al

"Beneficio Previsto" y naturalmente un alejamiento del "Beneficio Optimo"

Los riesgos de error sistemático de este método son bien conocidos; los

estudiaremos en el capítulo del krigeage.

A veces estas técnicas son las únicas utilizables (información escasa,

yacimiento demasiado irregular etc.). Sin embargo no las consideraremos más,

por no ser el objeto del curso. Nos interesa solamente en la medida que

puedan orientar a estudios cuantitativos ulteriores.

b) Las técnicas "científicas”: Con este nombre, un poco pomposo, designamos a

las técnicas que usan modelos matemáticos. Distinguiremos tres escuelas, por

orden cronológico.

1. Escuela Norteamericana: Conformada entre otros, por S. W. Hazen, R. D.

Berkenkotter, R. F. Hewlett, G. S. Koch, R. F. Links, ella se apoya

esencialmente sobre la estadística clásica de variables independientes. Esta

estadística clásica ha sido elaborada hace mucho tiempo y utilizada con éxito

en diferentes dominios extra mineros ( biología, economía, control de calidad,

etc.) Su principal defecto, reconocido por los autores, es que se fundamenta en

hipótesis demasiado restrictivas para rendir cuenta de la complejidad de los

fenómenos mineros (caracterizados por dimensiones múltiples, anisotropía, no

estacionariedad, tendencias y correlaciones espaciales). La realidad no debe

ser forzada por hipótesis inadecuadas y aún peor, alterada por una

observación sesgada ( muestreo tal que los datos verifiquen las condiciones de

independencia o ¡ reconocimiento preferencial de las zonas ricas!. Con tales

procedimientos, el fenómeno estudiado se simplifica notablemente pero ¿de

qué vale el resultado?

En presencia de no estacionariedad y de tendencias, los autores

norteamericanos proponen varios ajustes bastante arbitrarios de polinomios ("

Trend Surface Analysis") cuyo significado no es siempre claro.

Algunos autores, en particular F. P. Agterberg, han aproximado el formalismo

riguroso de las correlaciones espaciales mediante el concepto de

correlograma, que les permite en particular definir la noción esencial de área de

influencia.

Sin embargo, el correlograma es una herramienta menos general que el

variograma (no siempre existe).

En resumen, la hipótesis de independencia espacial, básica para la escuela

norteamericana es muy restrictiva. La geestadística encuentra todos los

resultados clásicos de la estadística de variables independientes, como casos

particulares.

Además el ajuste polinomial por mínimos cuadrados o por el método de

máxima verosimilitud son casos particulares muy simples de la teoría del

krigeage universal.

2. Podemos tener una mala evaluación de los recursos geológicos y un excelente

diseño y método de explotación, lo que dará como resultado un "Beneficio

Efectivamente Recuperado" muy diferente del "Beneficio Previsto" y

naturalmente un mayor alejamiento del "Beneficio Óptimo".

De lo expuesto, se deduce que lo más conveniente es que exista una adecuada

coherencia en el grado de confiabilidad de ambos factores ( evaluación de recursos y

diseño de la explotación ). En el peor de los casos, para los intereses particulares de

una Empresa, es más adecuada que se cumpla la primera alternativa. Pero para

poder armonizar los intereses de una empresa con los de la Nación y, a su vez de la

humanidad entera, es necesario proceder con una evaluación de recursos y un diseño

de la explotación correctos, del depósito mineral.

En otras palabras, hacer un uso más racional de los recursos renovables que nos

ofrece la naturaleza. Prácticamente esto se traduce como: no echar al estéril o dejar

de explotar el material aprovechable que podría estar dentro del volumen de la

explotación.

Al respecto justamente la teoría y técnica de la geoestadística, nos permite cuantificar

con mayor precisión las variables que intervienen para efectuar la explotación mas

racional de los recursos naturales no renovables.

- Actualmente la aplicación de los modelos matemáticos a la minería en general,

constituye una actividad de importancia para la puesta en marcha y explotación

de nuestros grandes y medianos yacimientos, mas aun considerando que

estos son de relativamente baja ley, es necesario el empleo de modelos más

ajustados al fenómeno geológico, de tal forma que aseguren la rentabilidad del

proyecto y a su vez custodie la racional explotación de nuestros recursos

mineros.

- La utilización de resultados obtenidos mediante bases teóricas sólidas y

procesadas con ayuda de la computadora, se debe entender como una

contribución hacia la correcta explotación de nuestros yacimientos, en lo que

tácitamente está involucrado la custodia de nuestros recursos naturales no

renovables.

II. LAS PRINCIPALES TÉCNICAS DE ESTIMACIÓN

Podemos clasificar, en dos grupos:

a) Las técnicas empíricas: Son todas las técnicas que no tienen fundamento

matemático y que suponen una larga experiencia del fenómeno mineralizado. Estas

técnicas incluyen el "olfato" del geólogo o del minero y todos los procedimientos

clásicos de la geología minera (petrografía, tectónica, etc...). Hacen a menudo uso de

informaciones cualitativas y se caracterizan por el hecho de que son incapaces de dar

el intervalo de confianza de sus estimaciones. Entre ellas podemos citar la famosa

técnica de los polígonos, donde se asigna a cada muestra un radio de influencia

empírico generalmente igual a la mitad de la distancia a la muestra más cercana; la

muestra es "representativa" dentro de su área de influencia.

2. Escuela Sudafricana: Esta escuela (Krige, Sichel, M.I. Watson ) nació del

estudio muy pragmático del inmenso archivo de datos que representan las

minas de oro sudafricanas.

De 1947 a 1960, Sichel y Krige hicieron las observaciones siguientes:

- Las leyes en oro de las muestras tienen una distribución log normal.

- Las distribuciones de las leyes son función de las dimensiones del soporte de

las muestras. Encontraron experimentalmente la relación de Krige :

(v/G) = (v/V) + (V/G)

Que la geoestadistica demostrará formalmente.

A partir de estas consideraciones, Krige y Sichel definieron estimadores t

insesgados de la ley media de un panel utilizando las características media y

varianza de los logaritmos de las leyes de las muestras.

Después, estudiando las regresiones entre las leyes verdaderas de bloques ya

explotados y medias móviles de las leyes de muestras disponibles a priori,

Krige y Ueckermann (1963) definieron nuevos estimadores óptimos no ligados

a la hipótesis restrictiva de la lognormalidad.

Estos estimadores de Krige que dieron nombre a la técnica del Krigeage

formalizada más tarde por Materno, permiten resolver sin sesgos el problema

difícil de la estimación de reservas después de una selección.

En resumen la escuela sudafricana, al establecer y aclarar las nociones claves

de:

- Correlaciones espaciales

- Influencia de las dimensiones de las muestras o del panel sobre las

distribuciones.

- Sesgos de estimación cuando se efectúan selecciones sobre el mineral.

3. Escuela Francesa: la escuela francesa aprovecho los trabajos de las dos

escuelas precedentes. Su iniciador G. Matheron, un minero matemático y

probabilista utilizó.

Utilizo el enorme conocimiento experimental de la escuela sudafricana. Su

formación teórica le permitió formalizar en un lenguaje riguroso las

observaciones experimentales de sus predecesores, en el Centro de

Morfologia Matemática de la Escuela de Minas de Paris, existe un Materno un

equipo de ingenieros de minas y geólogos que adaptan continuamente el

lenguaje probabilístico a la realidad concreta, habiéndose realizado muchos

estudios prácticos que figuran en la bibliografía.

La geoestadística está basada en la observación que cualquier variable ( ley,

potencia, acumulación, etc...) de un fenómeno mineralizado posee una función

de autocorrelación espacial, por compleja que sea. La independencia solo es

un caso particular (autocorrelación nula ). La autocorrelación nula se mide por

una función nula llamada variograma que es la herramienta fundamental de la

geoestadística. Para poder estimar el variograma a partir de la información

disponible se necesita una hipótesis de homogeneidad (estacionariedad) o

casi-homogeneidad, hipótesis casi siempre verificada en la práctica. A la

función variograma experimental obtenida, se le ajusta un modelo teórico

particular, característico de la mineralización y que será la base para la

resolución de todos los problemas de estimación ulteriores.

Insistamos sobre la extrema Homogeneidad de toda la teoría con el mismo

lenguaje probabilístico y la misma herramienta variograma, se resuelven

problemas tan diferentes como la estimación local, la homogeneización de

minerales, la selección.

La geoestadística ha encontrado y formalizado las principales nociones claves

de las dos escuelas que la han precedido; solo ha desechado las nociones

falsas y probadas como falsas.

Una condición esencial para una buena aplicación de la geoestadística es la

confrontación permanente de los resultados a la realidad minera: La

interpretación y las aproximaciones dependen de eso.

Por fin, queremos hacer una advertencia: la geoestadística trabaja en base a

datos, no crea información. De ninguna manera puede reemplazar una buena

exploración, pero si utilizará los datos disponibles en la mejor forma posible.

III. GEOESTADÍSTICA Y PROBLEMAS MINEROS

La geoestadística en los últimos años, ha devenido en una herramienta de decisión

dentro de la industria minera, básicamente en los estudios de reconocimiento,

estimación y explotación de yacimientos minerales. Esta situación no es fortuita, pues

es precisamente en contacto con los problemas mineros que el Dr. George Matheron

y su equipo del Centro de Geoestadística de la Escuela de Minas de París, han

desarrollado el formalismo teórico y los métodos prácticos que forman actualmente la

teoría y práctica de la geoestadística: estos métodos son suficientemente generales

para aplicarse dentro de los numerosos dominios donde se debe tratar

numéricamente las variables que miden los fenómenos naturales: geología petrolera,

geofísica, industria forestal, geología minera, cartografía, etc.

En una primera parte de este texto se describe rápidamente las etapas por las que

pasa el estudio de un gran proyecto minero, desde el reconocimiento geológico, hasta

la optimización del plan de explotación, insistiendo en la aplicación de estas

metodologías para la solución de los problemas encontrados. En una segunda parte

se familiariza el lector con el lenguaje de la geoestadística. Los problemas descritos en

la etapa siguiente de reserramiento de la malla permiten fijar los objetivos de clasificar

las reservas dentro de una categoría superior.

EL RECONOCIMIENTO A MALLA FINA

El yacimiento estando ya considerado como explotable, se tiene que definir en él

modalidades técnicas de explotación: tamaño de los equipos ( caracterizado por la

búsqueda de una cadencia de producción ) duración de la vida de la mina, método de

explotación, nivel de selección, ley de corte, etc.

Estas búsquedas son solamente posibles a partir de un conocimiento en detalle de la

repartición de las leyes dentro del yacimiento, el objetivo de esta etapa es de realizar

una estimación local de los tonelajes, leyes y de constituir un parametraje de reservas.

Por ello se define unidades de volumen al nivel de los cuales el método de explotación

tomado permite efectuar una selección: Estas unidades pueden ir de bloques de

10 x 10 x 10 m. en tajos abierto a bloques de 100 x 100 x 100 m. en una explotación

subterránea por " Block Caving”.

La malla fina de reconocimiento permite estimar cada una de estas unidades, que son

enseguida reagrupadas para suministrar una serie de planos de explotación

correspondiente a condiciones económicas diferentes: el contenido estimado en

tonelaje total y ley media de estos perfiles son llevados a una curva: tonelaje-ley media

estimada que constituye el parametraje de reservas explotables dentro de las

condiciones económicas dadas. Esta curva sintetiza las posibilidades económicas del

proyecto y permite apreciar el interés dentro de un ambiente dado pero sobretodo

pone en evidencia el riesgo tomado por la explotación, mostrando la evolución de las

reservas explotables en caso de variación de las condiciones económicas.

Se constata por consecuencia que las decisiones importantes son tomadas sobre la

base de la estimación local, debido a ello siempre los mineros han buscado métodos

para una estimación local no sesgada ( es decir no conducen a una sobre estimación

o sub estimación sistemática ): habiendo constatado que los métodos tradicionales

suministran una sobre estimación de la calidad y subestimación de la cantidad, los

mineros tienen el habito de corregir los resultados con un "coeficiente de corrección "

empírico que permite aproximarse a resultados reales de la explotación.

Esta forma de trabajo es poco satisfactoria en el caso de un yacimiento enteramente

nuevo y conduce generalmente a un pesimismo exagerado, que conlleva a un

pesimismo excesivo o igualmente puede dar lugar a dejar un proyecto perfectamente

viable.

Teniendo en cuenta que actualmente los yacimientos puestos en explotación

corresponden a inversiones cada vez más voluminosas y donde los recursos naturales

de ley "elevada" se hacen difíciles de encontrar; no es posible hacer reposar

decisiones de tal importancia sobre la "suerte" de un método empírico: entonces el

momento ha llegado para plantear y resolver de una manera rigurosa estos problemas

primera parte serán examinados sucesivamente en la tercera parte y se encuentra

como la geoestadística permite de resolverlos de manera satisfactoria.

LAS ETAPAS DE UN PROYECTO MINERO

No existe una secuencia estándar, los problemas se presentan de manera muy

diferente

Para un gran "pórfido cuprífero" y para una pequeña veta de oro, por ejemplo. La

secuencia aquí descrita corresponde sin embargo, bastante bien a la historia de un

proyecto minero de elevado tonelaje y ley baja, tales como Toquepala, Cuajone,

Michiquillay, Cerro Verde, etc.

EL RECONOCIMIENTO GEOLÓGICO

A partir de indicios geológicos ( afloramientos, anomalías geoquímicas o magnéticas,

prolongamiento del yacimiento conocido) se selecciona una zona supuesta favorable.

Después por un número limitado de trabajos de reconocimiento ( sondajes, galerías,

trincheras) se busca de probar la existencia de la mineralización y de fijar sus límites.

Dentro de esta etapa la preocupación es sobre todo de reunir los elementos de juicio

de orden cualitativo: Hay o no mineral dentro de la concesión? Bajo qué forma

mineralógica se presenta?, cuál es su grado de alteración? Que elementos de orden

cuantitativo (superficie cubierta por los sondajes positivos, profundidad de la zona

mineralizada) permiten decidir pasar a la fase siguiente?

EL RECONOCIMIENTO SISTEMÁTICO A MALLA GRANDE

Una vez reconocido el conjunto muy general de la zona positiva con una red de

sondajes a gran malla, más o menos regular; se espera localizar más precisamente la

masa mineralizada y estimar el tonelaje total y la ley media. Si los resultados son

juzgados prometedores teniendo en cuenta la coyuntura económica, se decide

continuar el reconocimiento efectuado una campaña de malla más cerrada, sino el

proyecto es puesto en "salmuera" esperando un mejoramiento de las condiciones

económicas. Desde esta etapa se confronta los problemas que son bien conocidos a

saber: ¿cómo estimar el volumen mineralizado con la ayuda de sondajes positivos y

negativos?

¿Cómo calcular la ley media, con la ayuda de datos de naturaleza diferentes

(sondajes, pozos, trincheras) de localización irregular?

¿ Que confianza dar a los resultados ? los mineros y geólogos saben por experiencia

que la precisión de la estimación de la ley media, no es solamente función del número

de sondajes; depende a la vez de la disposición regular o irregular de los sondajes y

de la variabilidad propia de la ley. Clásicamente el geólogo caracteriza la calidad de la

estimación por una clasificación de las reservas estudiadas, clasificación establecida

en función de un cierto número de criterios cualitativos. Una inversión importante no es

considerada, cuando las reservas no son suficientemente conocidas, entonces una

Tales como:

- Definición del estimador local más preciso y calculo de su precisión.

- Diferenciación entre recursos in situ y reservas explotables.

- Revisión de la selectividad de tal o cual método de explotación. Disposición

oprima de sondajes para la estimación de volúmenes.

LA PROGRAMACIÓN DE LA EXPLOTACIÓN

Estando definidos el método de explotación y criterio de selección queda por resolver

la programación de la explotación de manera óptima, respetando ciertas condiciones,

tonelaje mínimo o máximo o suministrar a la planta por unidad de tiempo,

regularización de la calidad del mineral a la entrada de la planta constitución eventual

de stocks. Esta programación reposa evidentemente sobre el conocimiento local de la

cantidad y calidad del mineral a explotar, pero las condiciones de funcionamiento de la

planta son tales que es necesario poder realizar la regularidad de la producción sobre

volúmenes pequeños y distribuidos en cada punto de arranque de la explotación: el

método actualmente empleado es aquel de la simulación de la marcha de la

explotación, por un calculador numérico. Es evidente que el método tiene interés solo

si se reproduce fielmente la variabilidad real de las leyes a través del yacimiento

fabricando una simulación de leyes que posee las cualidades siguientes:

- Misma variabilidad en el espacio de las leyes reales, provenientes de los

sondajes de exploración.

- Misma distribución estadística a través del yacimiento.

- Mismos valores numéricos de las leyes reales en los puntos donde ellos son

conocidos (sondajes).

Entonces se sabe que la fabricación de tal simulación es posible si se tiene de

antemano y cuantificadas las nociones de variación espacial, estructura, tendencias,

etc. De la mineralización. Veremos más adelante que el formalismo de la

geoestadística permite definir un método simple y elegante de simulación satisfaciendo

las condiciones precedentes nominadas.

Capítulo II

ESTADÍSTICA DESCRIPTIVA DE DATOS

1. ANÁLISIS UNI VARIABLE

Los datos se presentan con mayor claridad cuando están organizados. Gran parte de

la estadística aplicada tiene que ver con la organización, presentación y resumen de la

data.

TABLAS DE FRECUENCIA E HISTOGRAMAS:

Una de las presentaciones más comunes de los datos es mediante el histograma. La

figura 2 representa el histograma para los datos que se muestran en la Fig. 1:

previamente se ha elaborado la tabla de frecuencias (tabla 1) que registra el número.

Figura 1: Ubicación de 100 muestras V (ppm)

No existe una regla general en cuanto al número óptimo de clases (L); sin embargo

existen técnicas que permiten determinar lo para n observaciones:

Sturges: L=1+3.32log (n)

Dixon and kronwell: L=10log (n)

Veltenan: L=2

Para el ejemplo, n=100, se obtiene 7.64, 20 y 20 respectivamente, se ha optado por

L=15 para trazar el histograma de la figura 2.

Class Number Percentage

0 ≤ V < 10 1 1

10 ≤ V < 20 1 1

20 ≤ V < 30 0 0

30 ≤ V < 40 0 0

40 ≤ V < 50 3 3

50 ≤ V < 60 2 2

60 ≤ V < 70 2 2

70 ≤ V < 80 13 13

80 ≤ V < 90 16 16

90 ≤ V < 100 11 11

100 ≤ V < 110 13 13

110 ≤ V < 120 17 17

120 ≤ V < 130 13 13

130 ≤ V < 140 4 4

140 ≤ V < 150 4 4

Tabla 1: frecuencia de V con anchos Figura 2: Histograma de V

de clase de 10ppm

FRECUENCIA ACUMULADA:

En estimación de reservas mineras es interesante observar la frecuencia acumulada

sobre un límite inferior (cut oft). La tabla 2 muestra la frecuencia acumulada para la

variable V; observamos que en lugar de registrar las muestras inferiores a cienos

cutoffs. El histograma de acumulado (figura 3) es una función creciente entre 0 y

100%.

Class Number Percentage

V < 10 1 1

V < 20 2 2

V < 30 2 2

V < 40 2 2

V < 50 5 5

V < 60 7 7

V < 70 9 9

V < 80 22 22

V < 90 33 33

V < 100 49 49

V < 110 62 62

V < 120 79 79

V < 130 92 92

V < 140 96 96

V < ∞ 100 100

Figura 2: histograma del acumulado de V

0

5

10

15

20

0 20 40 60 80 100 120 140

Fre

qu

en

cy (

%)

V (ppm)

0

20

40

60

80

100

120

10 30 50 70 90 110 130 ∞

Cu

mu

lati

ve

Freq

uen

cy (

%)

V (ppm)

DISTRIBUCIÓN NORMAL Y LOGNORMAL:

Las técnicas de inferencia estadística son más eficientes si la distribución de los datos

disponibles sigue una ley normal o gaussiana. Gran parte de los fenómenos naturales

suelen seguir la distribución de gauss que tiene la ventaja de ser ampliamente

conocida y de una descripción matemática concisa; de allí el interés en verificar si los

datos en estudio siguen una distribución normal.

Para datos "normalmente" distribuidos, la taza del histograma del acumulado, ploteado

en papel semilogarítmico, seguirá una linea recta. La figura 4 muestra el ploteo

correspondiente a la variable V:

Figura 4: test de normalidad de la variable V.

Obviamente, no siempre los datos brutos siguen una distribución normal. Para

este tipo de distribuciones asimétricas la distribución lognormal es una buena

alternativa. La lognormalidad de los valores brutos puede verificarse al trazarse el

histograma acumulado en papel logarítmico: La distribución lognormal sigue una linea

recta:

Figura 5: test lognormal de la variable V

La presencia de valores extremos alteran la tendencia general de los datos en estudio,

de allí la importancia de analizarlos y de verificar si no se trata de valores erróneos. El

análisis de distribución de datos .es también usado para determinar la presencia de

poblaciones múltiples (ejemplo, zonas geológicas diferenciadas por alteraciones o

tectonismo). De notarse una variación abrupta en la tendencia general, deberá

investigarse las causas de este cambio.

La normalidad o lognormalidad de una distribución no es garantía de una buena

estimación, tampoco son pasos indispensables en una inferencia estadística, no

obstante, son herramientas que pueden aportar elementos de juicio al análisis de un

conjunto de muestras.

MEDIA:

La media, m, es el promedio aritmético de los valores de las muestras:

En el ejemplo, la media de la variable V para n=100 es:

MEDIANA:

La mediana, M, es el valor de muestra central cuando éstos se encuentran dispuestos

en orden creciente: < <… La mediana es calculada por la expresión:

Si n es impar

M =

Si n es par

Tanto la media como la mediana son mediciones de posición del centro de la

distribución. La media es bastante sensible a los valores altos erráticos. Si, “por

ejemplo, la muestra del valor 145 ppm. de la variable V fuera cambiada a 1450 ppm, la

media se elevaría a 110.60 ppm. La mediana permanece insensible a los valores altos

erráticos, sólo depende de cuantos valores son superiores o inferiores a ella. La

mediana de la variable V es 100.50 ppm, ver figura 6.

MODA

Es el valor que ocurre con mayor frecuencia; la barra de mayor altura en un

histograma nos dará una idea de la posición de la moda. En el histograma de la

variable V observamos que la clase 110-120 ppm es la de mayor frecuencia; dentro de

esta clase, el valor 111 ppm. es la de mayor ocurrencia.

La moda es imprecisa cuando se trabaja con mediciones a varios decimales puesto

que el hecho de redondear hace que dos muestras cercanas en valor tiendan a

duplicarse (ej. 108.75 ppm y 108.81 ppm tomarán el valor de 109 si se decide por

omitir los decimales).

MÍNIMO:

Es el valor más pequeño entre los datos disponibles. En situaciones prácticas, el valor

mínimo es el límite inferior de detección del equipo utilizado, en estos casos el valor es

cero o una cantidad arbitraria pequeña. Para algunos procesos o subrutinas de

cálculo, el cero no es una cantidad manejable por lo que se reemplaza por una

cantidad cercana de cero. En el ejemplo, el valor mínimo de V es 0 ppm.

MÁXIMO:

Es el mayor valor que puede tomar una variable. El valor máximo de V es 145 ppm. CUARTIL SUPERIOR E INFERIOR:

De la misma manera en que la mediana divide los datos en dos mitades, los cuartiles los dividen en cuartas partes. En el ejemplo, el cuartil inferior Q1= 81.25 ppm y el cuartil superior Q3= 116.25 ppm.

Figura 6: lectura de la mediana y de los cuartiles de la variable V. VARIANZA:

Es uno de los principales estadígrafos que cuantifica el grado de variabilidad de las muestras. Está determinada por la relación:

Puesto que la varianza es el promedio de las diferencias cuadráticas entre los valores y su media, siempre será positiva y altamente sensible a los valores erráticos. La variable V tiene 688 ppm2 de varianza. DESVIACIÓN ESTANDARD: Es la raíz cuadrada de la varianza.

A diferencia de la varianza, la desviación estandard ( ) conserva el mismo orden de magnitud. La desviación estandard de la variable V es 26.23 ppm. COEFICIENTE DE VARIACIÓN: Está definido por la relación

El coeficiente de variación de Ja variable V es 0.269. El coeficiente de variación de un indicio del grado de dificultad en las inferencias estadísticas: un coeficiente de variación mayor de 1 indica la presencia de valores erráticos disminuyendo la calidad de! estimador. Otro uso no menos importante, del coeficiente de variación es la de permitir la comparación del grado de variabilidad entre variables cuyas magnitudes son sensiblemente diferentes (ejemplo, Cu y Fe). RANGO INTERCUARTIL: El rango intercuartil (IOR) es la diferencia entre cuartiles superior e inferior:

A diferencia de la varianza o de la desviación estandard, el rango intercuartil no toma a la media como centro de distribución no siendo por consiguiente afectado por los valores erráticos. El rango intercuartil de la variable V es 35.50 ppm.

DETECCION DE VALORES EXTREMOS (OUTLIERS): Se define como valores extremos aquellas observaciones que se muestran inconsistentes con el resto de los valores de las muestras. Un valor extremo puede ser el resultado de un error de medición, de un error de metodología de muestreo o puede ser propio de la variabilidad inherente al fenómeno. El error de medición es causado por inadecuada medición o mal registro de valores mientras que los errores de metodología son causadas por un muestreo sesgado o una definición inadecuada de la población. Los outliers producto de la variabilidad de un fenómeno son raros pero no imposibles de presentarse. Los outliers tienen un gran impacto en las inferencias estadísticas y antes de eliminarlas es preciso evaluarlas porque pueden ser fuente de importante información (caso típico de prospección geoquímica). Los criterios de detección de outliers que a continuación se detallan deben ser tomados con bastante prudencia; siempre es mejor remuestrear o volver a analizar una muestra antes de eliminarla: Para n muestras normalmente distribuidas (x1,x2,………xn-V,x.Vn) de media rnx y de

varianza 2, el 99.3% de los valores estandarizados estarán comprendidos

entre el valor crítico + 2.7. Las muestras alejadas de este rango pueden considerarse potencialmente outliers. Si el número de muestras es pequeño (n<20), una muestra xi es potencialmente outlier si x,<(0, - 1.5 IOR ) o x,>(03 + 1.5 IOR).

COEFICIENTE SKEWNESS: El coeficiente skewness (y) tiene por finalidad describir la forma de distribución de los datos en estudio y está definido por la ecuación:

La potencia al cubo indica que y es mucho mas sensible que la media o la varianza a los valores erráticos. A menudo no se utiliza la magnitud de y sino solamente su signo para describir la simetría. Si y es positivo, indica que el histograma tendrá una cola extendida hacia la derecha implicando que la mediana es inferior a la media, en datos geoquímicos es usual obtener un o positivo cuando se trata del elemento menor. Si la cola del histograma es hacia la izquierda, y será negativa implicando que la mediana. sea mayor que la media, es el caso típico de concentraciones de elementos mayores, para y cercana de cero, el histograma será aproximadamente simétrica y la mediana estará cercana a la media. La figura 6 muestra algunos ejemplos típicos del coeficiente de skewness. El histograma de la V tiene un coeficiente de skewness igual a -.779. Su cercanía de cero nos indica una ligera simetría.

Figura 7: Ejemplos de distribuciones asimétricas comparadas con la distribución normal, y: índice de skewness, &: Índice de kurtosis.

PARTE III

LA VARIABLE REGIONALIZADA Y SU REPRESENTACIÓN 1.-PRESENTACIÓN DE LAS VARIABLES REGIÓNALIZADAS a) Un problema fundamental que se encuentra en todas las ciencias es el de la incertidumbre que rodea los fenómenos estudiados. Esta incertidumbre tiene dos causas principales: la complejidad de los fenómenos, que a menudo dependen de un número muy

grande de factores imposibles de evaluar con precisión, no puede ser descrita por las interpretaciones y los modelos simplificados que la ciencia utiliza.

de un punto de vista cuantitativo, el costo de la información y la imposibilidad

práctica de un conocimiento exhaustivo obliga a realizar estimaciones, lo que implica un cierto margen de error; por ejemplo, para hacer la cartografía de fondos submarinos se miden las profundidades para determinados perfiles y se realiza interpolaciones.

El primer problema mencionado es específico de cada ciencia no lo tomaremos aquí, sino muy parcialmente. En cambio el segundo es general: la estimación es una operación que se realiza en todos los campos de la actividad humana. En si mismo, una estimación no tiene mucho valor si no se puede determinar su precisión, o sea el orden de magnitud del error posible, no es indiferente económicamente saber si un yacimiento tiene reservas de cincuenta millones de toneladas de mineral con una precisión de 10 % o de 100 %. b) Para resolver este tipo de problemas estadísticos existen varias técnicas: -La estadística clásica, de uso muy antiguo y bien desarrollado necesita para

una aplicación correcta la hipótesis muy fuerte de independencia entre las variables, lo que sucede muy pocas veces en los fenómenos naturales. En consecuencia, no toma en cuenta la disposición espacial de los datos disponibles: es un limite bastante serio a su empleo ( en cartografía por ejemplo).

-Para describir las relaciones espaciales que existen entre las variables se ha desarrollado la técnica del " Trend Surface Análisis " que consiste en ajustar polinomios a los fenómenos estudiados, mediante el método de mínimos cuadrados o por series de Fourier; esta técnica tiene una utilidad incontestable, pero también limitaciones serias ( arbitrariedad del polinomio escogido, imposibilidad de calcular el error de estimación cometido ).

-Después de la segunda guerra mundial y simultáneamente en los campos de

la Minería ( Krige, Matheron ) y de la estimación forestal ( Matern ) se ha formado una teoría global que busca dar una representación unitaria de toda clase de problemas; ella ha alcanzado su máximo grado de desarrollo con Matheron y el Centro de Morfología Matemática de la Escuela de minas de París don de ha recibido el nombre de Teoría de las variables regionalizadas.

2.- NOCIÓN DE LA VARIABLE REGIONALIZADA a) Cualquier fenómeno cuantificable puede ser caracterizado por ciertas magnitudes o variables, que fluctúan en el espacio (o el tiempo). A estas variables se da el nombre de variables regionalizadas, nombre que no implica ningún modelo ni ninguna hipótesis. Citemos como ejemplos de variables regionalizadas (V.R.) la ley ( V.R. en el espacio a 3 dimensiones), la potencia de una capa mineralizada (V.R. a 2 dimensiones), el precio de un metal con especto al tiempo ( V.R. a 1 dimensión ) b) Del punto de vista matemático, una variable regionalizada se representa por una función f(x) del espacio o del tiempo. Esta función es muy compleja, generalmente desconocida, salvo en algunos puntos particulares ( Sondajes ). Sin embargo presentan 2 características esenciales: 1.- Una gran irregularidad local: una curva de leyes presenta, por ejemplo, numerosas fluctuaciones (" dientes de sierra "). 2.- Una cierta estructuración a escala mas grande: en casi todos los yacimientos se puede distinguir zonas ricas y zonas pobres, el valor de f(x) dependiendo de la implantación x. Citemos también los fenómenos de enriquecimiento o empobrecimiento progresivo. c) Para el estudio de las Variables Regionalizadas se utilizan:

- Los métodos transitivos que mediante la representación de valores numéricos permiten obtener una realidad física. Estos métodos no utilizan interpretaciones probabilísticas. - Los métodos intrínsecos que postulan la homogeneidad del fenómeno en el espacio y que se formulan en términos probabilísticos. Estudiaremos primero los métodos intrínsecos mas importantes, dejando para un curso ulterior los métodos transitivos.

.3.- REVISIONES ELEMENTALES DE PROBABILIDADES Variable Aleatoria: La noción fundamental de la teoría de las probabilidades es aquella de Variable Aleatoria (V.A.).- Intuitivamente una variable aleatoria es una variable que puede tomar un cierto número de valores según una cierta ley de probabilidad. Se distingue generalmente 2 tipos de variables aleatorias: - V.A. discreta: Puede tomar solamente un numero finito de valores. Ej: el lanzamiento de un dado; el resultado obtenido se anota N. N es una V.A. que no puede tomar mas que los valores de 1 hasta 6. Además P( N = n ) = Pn = 1/6 , si el dado no esta cargado. - V.A. continua: puede tomar un numero infinito de valores, la ley de probabilidad f(x)= P ( X = x ) siendo una función continua. Por ejemplo, en un punto dado, la ley de oro puede ser considerada como una V.A. continua que puede tomar cualquier valor entre 0 y 100 %. Se llama realización de la variable aleatoria cualquier valor tomado por aquella. (Por ejemplo: N = 5 en el caso del lanzamiento de un dado. T = 63,6 % en el caso de una ley de oro).

a) Algunas definiciones esenciales:

1.- Función de repartición de una V. A.. x.. Es lo que corresponde a la noción de histograma acumulado, es decir, la probabilidad de que una V.A.X. tome un valor inferior o igual a x. Esta función se representa por F(x). Por una V.A. discreta se tiene: F(x) = P( N < x) = Por una V.A. continua: 2) Esperanza matemática de una V.A..x. Es sencillamente la generalización de la noción de media ponderada por la frecuencia de ocurrencia.

Por una VA. Discreta: E {N}= m =

Por una VA. Continua: E {N}= m =

3) Varianza

Es una medida de las desviaciones de la variable aleatoria x con respecto a su media.

En realidad, se toma la media del cuadrado de las desviaciones respecto a la media.

V.A discreta: J2 = D2 (N) =E {(N-m)2} = -( )2

V.A. continua: J2 = D2 (X) =E {(X-m)2} = -

Se tiene la relación importante:

D2(X) = E(X)2-(E{X})2

La desviación estándar es igual a la raíz cuadrada de la varianza.

b) Variables aleatorias vectoriales – independencia

1) Se llama variable aleatoria vectorial con n componentes a una familia de n

variables aleatorias (X1, X2,.... Xn)

Se puede definir entonces la función de distribución de una variable aleatoria vectorial

(VAV) por la expresión:

F (X, X2……..X) = P {X, < X2 < X2...., Xn < X„}

Si todos los componentes son V.A. discretas, se tiene:

F (Xi, X2……..Xn) = n, < x1 m2 < x2 …………m,, < x„ Pmm

Con Pm1 m2……..mn = P {x1 = m1, x2 = m2.... x„ = m„}

Así mismo, si todas son V.A. continúas:

F(X1,....Xn)= (u1,u2,...un)du1du2dun

Citemos como ejemplo de V A V las leyes de plomo y zinc en un punto.

2) Dos variables aleatorias x1, x2 se dicen independientes si la función de

distribución del par es igual al producto de las funciones de distribución de ambas

variables:

F(x1,x2) = F(x1)F(x2)

Esta definición es la traducción precisa del hecho que el conocimiento de una V.A. no

nos proporciona ninguna información sobre la segunda.

Es lógico entonces buscar una herramienta que permita medir la relación entre 2 V.A.

no independientes; esta será la covarianza.

.4. LA REPRESENTACIÓN DE UNA V.R. POR UNA F.A.

a) Si se toma una función aleatoria por modelo de una variable regionalizada, se describe bien, las dos características esenciales de la variable regionalizada.

1) En un punto dado, la F.A. se reduce a una V.A. es decir una magnitud muy fluctuante que traduce el aspecto local desordenado de la V.R.

2) Entre dos puntos x y x + h, las V.A. Y (x) e Y(x + h), elementos de la F.A. están relacionados entre si, lo que traduce la existencia de una cierta estructura de la V.R.

El modelo estadístico clásico de las V.A. independientes no conviene, porque no considera el aspecto estructural de la V.R. Vemos un ejemplo muy sencillo: Supongamos que medidas hechas a intervalos regulares a lo largo de una galería hayan dado los dos resultados siguientes: • 1-2-3-4-5-6-5-4-3-2-1 (a) • 1-4-3-6-1-5-4-3-2-5-2 (b) En el caso (a) existe claramente una estructuración muy fuerte, mientras que el caso (b) parece mucho más caótico. Sin embargo, un análisis estadístico nos proporcionaría el mismo histograma, las mismas medias y varianzas. No tomaría en cuenta la estructura, es decir la repartición espacial de las leyes. b) Hay sin embargo un problema difícil: estimar la F.A. que sirve de modelo para nuestra V.R., para eso no disponemos de más que una realización de la F.A. (los valores conocidos de las leyes). Esta estimación es imposible sin hipótesis: en efecto, ¿cómo reconocer si un dado está defectuoso o no a partir de una sola tirada, 5 por ejemplo? No pudiendo, como en el caso de un dado, efectuar varias tiradas (¡Existe un único yacimiento!) tendremos que hacer una hipótesis de estacionaridad local de la F.A. que viene a corresponder en el hecho a una hipótesis de homogeneidad local del yacimiento.

5. LA HIPÓTESIS ESTACIONARIA a) La estacionaridad es una propiedad de algunas funciones aleatorias cuya ley de distribución no varía con una traslación en el espacio. Esto quiere decir que si X1……xn son puntos arbitrarios del yacimiento que permiten definir una F.A. mediante una ley de distribución F (x1…….x,,), al trasladarlos en el espacio en una distancia h, los nuevos puntos encontrados x1 + h, x2 + h,….Xn + h permiten definir otra F.A. Y (x + h) cuya ley de distribución F (x1 + h,……Xn + h) es igual a la anterior el fenómeno presenta cierto carácter permanente o estacionario. Esta propiedad permite establecer. E {Y(x)} = E {Y (x + h)} = Cte = m E {Y(x) - m2} = O2(x) = E {(Y (x+h) - m)2}= O2 (x + h) = Cte = O2

b) La función covarianza definida anteriormente permite correlacionarlos infinitos valores de una F.A. Y(x), tomando de dos en dos aquellos que se encuentran separados por una distancia h, de tal modo que, bajo la hipótesis estacionaria.

K (x, x+h) = K (h) = E({(Y(x) - m(x)} {Y (x+h)- m(x+h)}] = E {(x) Y((x+h)}- m (x) m (x +h)) Para el caso en que las variables son independientes, tenemos que: E {Y (x) Y (x+h) = m(x) m (x+h) Por lo tanto, en este caso, K (h) = 0

c) Por otra parte, la función varianza como lo hemos señalado permite medir la dispersión que existe entre cada valor de Y (x) y el valor medio de esta función. Para su cálculo, bajo la hipótesis estacionaria se hace h = 0 en la función covarianza:

K (x, x) = K (0) = E {(Y (x) - m (x) (Y (x+h) - m (x+h)}

d) En general, se podrán siempre considerar variables centradas, es decir que m (x) y m (x+h) pueden suponerse nulas, de manera que:

Covarianza - K(h) = E {Y (x) Y (x+h)} Varianza = K(0) = E {(Y (x))2}

Por lo visto en estos últimos párrafos se desprende que para una F.A. estacionaria Y(x)admita una función de covarianza K (h) es preciso y necesario que ella admita una varianza finita K(0).

Parte I II IIIgeoestadistica Curso Unsa

Documents

Transcript of Parte I II IIIgeoestadistica Curso Unsa