Tratamiento de Datos Con Gslib
-
Upload
cesar-zamora -
Category
Documents
-
view
159 -
download
12
Transcript of Tratamiento de Datos Con Gslib
TRATAMIENTO DE DATOS CON GSLIB
TRATAMIENTO DE DATOS CON GSLIB
Supongamos que conocemos la realidad de un episodio de contaminacin sobre un rea de 50*50 metros cuadrados. Se considera una malla regular (gran problema de GSLIB), de 50*50 pxeles cuadrados de un metro de lado.
En primer lugar dibujamos las 2500 medidas, dispuestas en el centro de cada una de las celdas. Para ello utilizaremos el programa CSCALE.EXE, cuyo archivo de parmetros se lista a continuacin. El resultado del mismo se puede apreciar en la Figura 2.
Figura 1. Archivo de parmetros para el programa CSCALE.EXE
Parameters for CSCALE
*********************
START OF PARAMETERS:
MEDIDAS_REALES.DAT \data file
MEDIDAS_REALES. PS \output PostScript file
1 \column number
50 1.0 \nx, xsiz
50 1.0 \ny, ysiz
1 1.0 \nz, zsiz
1 1 \igrid,iz
0.0 110.0 \cmin,cmax
MEDIDAS REALES \title
ESTE \X label
NORTE \Y label
Figura 2. Campo real
Como puede observarse, la escala utilizada no es demasiado afortunada, dado que la gran mayora de los datos se concentra en valores muy pequeos. Debiera cambiarse el valor mximo de la escala (cmax) a 30, ms o menos. El resultado se presenta en la Figura 3
Puede observarse como las concentraciones ms altas se concentran en las esquinas nordeste y suroeste del dominio, siguiendo aproximadamente una diagonal a travs del mismo. Asimismo, por ser este un caso excepcional en el que conocemos la realidad, podemos conocer sus estadsticos univariados. Para llevar a cabo esta tarea, utilizaremos el programa HISTPLT.EXE, cuyo archivo de parmetros se lista a continuacin (ver Figura 4). Obsrvese que el archivo MEDIDAS_REALES.DAT no se corresponde con el usado anteriormente, dado que el programa CSCALE.EXE utiliza una geometra regular, mientras que HISTPLT.EXE no. Por tanto, debemos introducir las coordenadas del punto de medida. El histograma se presenta en la Figura 5.
Figura 3. Campo real, sin considerar los valores extremadamente altos.
Figura 4. Archivo de parmetros para el programa HISTPLT.EXE
Parameters for HISTPLT
**********************
START OF PARAMETERS:
MEDIDAS_REALES.DAT \data file
3 0 \column for variable and weight
HISTOGRAMA_REAL.PS \output PostScript file
-0.99 999999. \trimming limits
0.0 110.0 \histogram minimum and maximum
55 \number of classes
0 \1=log scale, 0=arithmetic
HISTOGRAMA Y ESTAD. REALES \title
Figura 5. Histograma de las medidas del campo real
De nuevo hemos cometido el mismo error, dado que el lmite superior del histograma se corresponde con el mximo en los datos. Si lo dibujamos cambiando ese lmite superior a 20 (la frecuencia de muestras es inapreciable a partir de este valor), se obtiene el histograma de la Figura 6.
Figura 6. Histograma de las medidas del campo real, reduciendo su lmite mximo
Obsrvese que en la figura anterior aparecen los estadsticos univariados de la variable. Estos no dependen del mximo escogido para el dibujo del histograma, ni del nmero de clases utilizadas. En este caso, se confirma lo antes dicho. Los datos reales se acomodan entorno a valores muy bajos, con una desviacin bastante baja. Esto quiere decir que el campo es bastante uniforme, como se observ en los dibujos del campo (de hecho, en el 75% de los puntos - cuartil superior -, la concentracin es menor que 2.56. No obstante, hay una serie de valores extremos que, al estudiar un episodio de contaminacin, por ejemplo, son los de mayor inters, con valores mayores que 100.
Una vez obtenida una visin global del campo real, pongamos a prueba nuestros conocimientos. Imaginemos que ahora no conocemos el campo real, sino que disponemos de 97 puntos muestreados. De esos 97, se seleccionan los de mayor concentracin y se obtienen 43 muestras adicionales entorno a ellos. Finalmente se cuenta con un total de 140 medidas. Para dibujar su posicin y su valor, utilizaremos el programa SCATPLT.EXE, cuyo archivo de parmetros se muestra en la Figura 7.
Figura 7. Archivo de parmetros para el programa SCATPLT.EXE
Parameters for SCATPLT
**********************
START OF PARAMETERS:
MEDIDAS.DAT \data file
1 2 3 \column for X, Y, and weight
MEDIDAS.PS \output Postscript file
-1.0 1.0e21 \min and max variable X
-1.0 1.0e21 \min and max variable Y
0.0 50.0 \xmin and xmax
0.0 50.0 \ymin and ymax
Medidas de dos campaas \title
El resultado de este programa se presenta en la Figura 8. Obsrvese la agrupacin entorno a ciertos puntos (como cruces). No obstante, este grfico no ofrece ninguna informacin sobre los valores de las medidas. Ciertamente, resulta ms cmodo el uso de otros programas, tipo Grapher o Surfer. El resultado del uso de Surfer se presenta en la Figura 9..
Figura 8. Disposicin y estadsticos de las medidas de las dos campaas
Figura 9. Marcados con crculo los datos del primer muestreo y con cruz los del segundo. Tamaos de smbolo proporcionales al valor de la concentracin medida. Realizada con la herramienta POSTMAP de SURFER.
No obstante, no se observan los valores de las medidas. En cambio, utilizando la herramienta CLASSED POST MAP de Surfer se obtiene el siguiente resultado (ver Figura 10). En el se observan los smbolos, con tamao proporcional al valor de la medida, as como el valor de la misma.
Figura 10. Detalle de las medidas con sus valores asociados. Realizada con la herramienta CLASSED POST MAP de Surfer.
EL hecho de usar un sistema de informacin geogrfica nos permita asimismo, dibujar mapas en color de nuestros datos, que ayudan sobremanera a la comprensin de los mismos (ver Figura 11)
Figura 11. Mapeado a color de las medidas. Realizada con la herramienta CONTOUR PLOT de Surfer.
Pese a que en ningn caso vamos a conocer la realidad del campo (si en ste), pueden compararse los dos mapas presentados en las Figuras 11 y 3. As, puede verse que las medidas reproducen aproximadamente la forma de la pluma de contaminacin.
Conozcamos ahora los estadsticos univariados de nuestras medidas. Para ello, volvemos a aplicar el programa HISTPLT, con el que obtenemos el histograma de nuestros datos. El archivo de datos se muestra en la Figura 12. Naturalmente, ahora se fijado el lmite superior del histograma a 20, por lo que se coment anteriormente. El resultado (histograma y estadsticos) se muestra en la Figura 12.
Figura 12. Archivo de parmetros para el programa HISTPLT.EXE
Parameters for HISTPLT
**********************
START OF PARAMETERS:
MEDIDAS.DAT \data file
3 0 \column for variable and weight
HISTOGRAMA_MEDIDAS.PS \output PostScript file
-0.99 999999. \trimming limits
0.0 20.0 \histogram minimum and maximum
40 \number of classes
0 \1=log scale, 0=arithmetic
HISTOGRAMA DE MEDIDAS \title
Figura 13. Histograma y estadsticos de las medidas
Como se puede observar, el hecho de considerar medidas adicionales alrededor de las de mayor concentracin, aade ruido a nuestros resultados. Comparemos los estadsticos (ver Tabla 1). As, la media es 4.35, cuando la real era de 2.58. Lo mismo ocurre con la desviacin estndar, que es 6.7, cuando la real era 5.15. El mnimo prcticamente no vara (hay tantos puntos con baja concentracin que es muy fcil muestrear uno de ellos). En general, ningn cuartil vara ostensiblemente, salvo el mximo, que cae en picado, debido a que, dada la poca densidad de puntos con muy alta concentracin, resulta difcil muestrear en uno de ellos.
Tabla 1. Comparacin de los estadsticos reales y los de las medidas
nMediaDesv. St.MnimoQ. 25Q. 50Q. 75Mximo
Reales25002.585.150.010.340.962.56102.7
Medidas1404.356.70.060.692.125.3558.32
As, resulta conveniente realizar una desagrupacin de los datos. Para ello puede procederse de dos formas distintas: 1) Rpidamente (pero muy poco elegante), considerando nicamente las 97 muestras de la primera campaa.
2) Usando el algoritmo de desagrupacin (declustering) de GSLIB. Este algoritmo calcular un peso asociado a cada medida, en funcin de su proximidad a las dems. As no se desaprovechan datos que, ciertamente, aportan informacin pero no demasiada. En zonas donde los datos estn muy agrupados (las de la segunda campaa) recibirn menor peso que zonas con poca densidad de datos.
Posibilidad 1. Considerar nicamente los datos de la primera campaa
Procedemos de igual modo, calculando el histograma y los estadsticos. Los resultados se presentan en la Figura 14 y en la Tabla 2.
Figura 14. Histograma y estadsticos de los datos de la primera campaa
Tabla 2. Comparacin de los estadsticos reales y los de las medidas totales y slo las de la primera campaa.
nMediaDesv. St.MnimoQ. 25Q. 50Q. 75Mximo
Reales25002.585.150.010.340.962.56102.7
Medidas1404.356.70.060.692.125.3558.32
M. 1C972.213.170.060.331.022.5418.78
Como se puede observar, el hecho de haber eliminado valores extremos ha hecho que los estadsticos de primer y segundo orden se parezcan ms a los reales. Sin embargo, obsrvese el mximo. ste es ahora de 18.78, an menor. Esto sugiere que las muestras de la segunda campaa deben ser consideradas. Por tanto, consideraremos la opcin 2, de desagrupamiento.
Posibilidad 2. Desagrupamiento de los datos
Para ello utilizaremos el programa DECLUS.EXE. Este programa asocia un peso a cada posicin de medida. Si el peso es 1 implica que el punto tiene una especial relevancia. El archivo de parmetros para este programa se muestra en la Figura 15.
Figura 15. Archivo de parmetros para el programa DECLUS.EXE
Parameters for DECLUS
*********************
START OF PARAMETERS:
MEDIDAS.DAT \Archivo de datos
1 2 0 3 \Columnas de x,y,z y variable
0.0 1.0e21 \Valores minimo y maximo a considerar
OUTPUT.SUM \Output con resumen
OUTPUT.OUT \Output con datos y pesos
1.0 1.0 \Anisotropia: y,z. Si sizex=10, entonces sizey=1.0*sizex
0 \0=look for min, 1 max
24 1.0 25.0 \num, min and max size
5 \num of origin offsets
Los parmetros de anisotropa marcan el tamao de las celdas. Si las celdas son cbicas (cuadradas en este caso), deben fijarse a 1.0. Las dos ltimas filas marcan donde (o mejor, hasta donde) deben buscarse agrupamientos. Tal y como est fijado, se buscan a lo largo de todo el dominio.
El resultado del programa es un archivo, de formato anlogo al de medidas, cuya ltima columna contiene los pesos asociados a cada medida. Si ahora dibujamos el histograma de los datos desagrupados, obtenemos el resultado de la Figura 16 y la Tabla 3.
Figura 16. Histograma y estadsticos de los datos desagrupados
Tabla 3. Comparacin de los estadsticos reales, los de las medidas totales, las de la primera campaa y las de ambas con los datos desagrupados.
nMediaDesv. St.MnimoQ. 25Q. 50Q. 75Mximo
Reales25002.585.150.010.340.962.56102.7
Medidas1404.356.70.060.692.125.3558.32
M. 1C972.213.170.060.331.022.5418.78
M-DES1402.524.560.060.341.192.7558.32
Obsrvese que la media en ste caso es prcticamente la real, la desviacin se parece mucho y hemos recuperado el mximo de los datos. As, queda demostrado que sta es mucho mejor opcin que la primera.
ESTIMACIN CONDICIONADA (KRIGING)
Una vez se tiene la descripcin del variograma (modelo, alcance, anisotropa, meseta y pepita), puede llevarse a cabo una interpolacin en los puntos no muestreados, en base a ese/esos variograma/s y a las medidas disponibles. Como se coment en la clase anterior, el gran problema que tiene GSLIB es el trabajo en base a una malla regular. Portanto, no vamos a realizar en los puntos que nosotros queramos, sino en el centro de gravedad de las celdas. El programa que se va a utilizar es KTB3D.EXE para realizar krigeados de variable nica. Si se desea cokrigear, deber usarse el programa COKB3D.EXE, de funcionamiento muy similar (simplemente hay que definirle las medidas de las variables secundarias y los variogramas de estas, adems de los cruzados con la primaria). El resultado de estos programas es doble. Por un lado, genera el valor de la estimacin en los centros de gravedad de los pixeles, adems de la varianza de estimacin. Por el otro, genera un archivo de debugging, en el que se lista los puntos de medida y los pesos asociados utilizados en la interpolacin de un punto determinado.
Para visualizar los resultados pueden usarse los programas CSCALE.EXE (explicado en la clase anterior) o GSCALE (para mapas de grises,d e funcionamiento anlogo). Veamos el archivo de parmetros del programa KT3D, mostrado en la Figura 28.
Figura 28. Archivo de parmetros del programa KTB3D.EXE
Parameters for KTB3D
********************
START OF PARAMETERS:
DATOS.DAT \ARCHIVO CON LAS MEDIDAS
1 2 0 3 \COLUMNAS CON X,Y,Z Y VARIABLE
-1.0e21 1.0e21 \LIMITES DE CORTE
ESTIM.OUT \ARCHIVO DE RESULTADOS
1 \NIVEL DE DEBUGGING: 0,1,2,3
CHECK.DBG \ARCHIVO DE DEBUGGING
50 0.5 1.0 \NX,XMN,XSIZ
50 0.5 1.0 \NY,YMN,YSIZ
1 0.5 1.0 \NZ,ZMN,ZSIZ
1 1 1 \PUNTOS DE DISCRETIZACIN DE UN BLOQUE
4 16 \MIN Y MAX DE DATOS PARA EL SISTEMA DE KRIGING
0 \A RETENER POR OCTANTE (0:NO SE USA)
20.0 \SEMIEJE MAYOR DE BUSQUEDA
0.0 0.0 0.0 1.0 1.0 \ANGULOS Y ANISOTROPIAS DEL ELIPSOIDE DE BUSQUEDA
0 4.35 \0=KRIGING ORDINARIO; 1=KRIG. SIMPLE + MEDIA
0 0 0 0 0 0 0 0 0 \TENDENCIA POLINOMICA (0:INACTIVA); x,y,z,xx,yy,zz,xy,xz,zy
0 \0, ESTIMAR LA VARIABLE; 1, ESTIMAR LA TENDENCIA
0 \1: CONSIDERAR DERIVA EXTERNA
5 \COL DE LA DERIVA EN DATOS.DAT (SI 1 EN LA ANTERIOR)
NADA.DAT \ARCHIVO CON LA DERIVA CELDAS DE LA MALLA
4 \NUMERO DE COLUMNA EN ESE ARCHIVO
1 0.3 \NUMERO DE ESTRUCTURAS, PEPITA
1 10.0 20.0 \TIPO, ALCANCE MAYOR,(MESETA-PEPITA)
0.0 0.0 0.0 1.0 1.0 \ANG1,ANG2,ANG3,ANIS1,ANIS2
El resultado de la ejecucin de KTB3D.EXE es doble; por un lado, se muestra en la Figura 29 los valores de la estimacin y de la varianza de estimacin que ofrece el programa.
Figura 29. Estimacin y varianza de estimacin para el archivo de parmetros anterior
KTB3D ESTIMATES WITH: Clustered 140 primary and secondary data
2
Estimate
EstimationVariance
4.693 0.791
4.041 0.642
2.885 0.539
2.255 0.538
1.622 0.537
1.066 0.533
1.200 0.621
1.394 0.738
......
Ntese que, al trabajar sobre una malla regular, debe seguirse la ordenacin de pixeles descrita en la clase anterior. Por otro lado, la Figura 30 muestra parte del archivo de debugging, correspondiente a la estimacin del primero de los pixeles
Figura 30. Extracto del archivo de debugging
BLOCK: 1 1 1 at 0.5000000 0.5000000 0.5000000
Lagrange : -0.170163970157926
BLOCK EST: x,y,z,vr,wt
2.500 1.500 0.500 3.330 0.634
5.500 1.500 0.500 0.060 0.118
0.500 7.500 0.500 12.740 0.095
0.500 8.500 0.500 6.490 0.031
1.500 8.500 0.500 20.350 -0.010
2.500 8.500 0.500 8.900 -0.015
0.500 9.500 0.500 15.770 0.049
1.500 9.500 0.500 7.560 0.016
2.500 9.500 0.500 6.260 0.021
3.500 9.500 0.500 7.920 0.062
estimate, variance 4.692778 0.7912890
El resultado grfico de la aplicacin del programa, tras ejecutar CSCALE.EXE se muestra en la Figura 31. Uno de los resultados ms importantes a remarcar es el bajo valor de los valores esperados (recurdese que el kriging no es ms que un sistema de interpolacin y que el mximo de los datos utilizados es 58). Otro resultado importante es la suavidad inherente al campo, debido al uso de ste (o cualquier otro sistema de interpolacin). Si lo que se pretende es obtener un mapa que represente la variabilidad espacial de manera menos suave, debe utilizarse un algoritmo de simulacin. Obsrvese adems que hay puntos en blanco. Los valores interpolados en dichos puntos son negativos.
La Figura 32 muestra el campo de la varianza de estimacin. Lgicamente los valores menores de varianza de estimacin son los asociados a los pixeles prximos (o que contienen) a los puntos de medida.
Figura 31. Resultado grfico del krigeado ordinario
Figura 32. Varianza de estimacin del campo krigeado
GSLIB Ayuda de la pgina: Programas
Coordinate transformation: Transformacin de coordenadas:
addcoord add coordinates to a GSLIB grid file addcoord aadir coordenadas a una red GSLIB archivo
rotcoord 2-D coordinate rotation rotcoord 2-D rotacin de coordenadas
Probability distribution weighting, transformation, and smoothing: Probabilidad de ponderacin distribucin, transformacin, y suavizado:
declus cell declustering declus celular declustering
nscore normal score transformation nscore transformacin puntaje normal
backtr back transformation from normal scores backtr transformacin de nuevo desde los resultados normales
trans general distribution transformation trans transformacin distribucin general
histsmth smooth histogram / univariate distribution histsmth histograma liso / distribucin univariante
scatsmth smooth scaterplot / bivariate distribution (see also bivplt ) scatsmth scaterplot liso / distribucin bivariada (vase tambin bivplt )
Variograms: Variogramas:
gam variogram calculation of regular grid (use vargplt to plot results) GAM clculo variograma de malla regular (uso vargplt para graficar los resultados)
gamv variogram calculation of scattered data (use vargplt to plot results) gamv clculo variograma de los datos dispersos (uso vargplt para graficar los resultados)
varmap variogram map / volume calculation (use pixelplt to plot results) varmap mapa variograma / clculo del volumen (uso pixelplt para graficar los resultados)
vmodel creates a variogram from an analytical model that can be plotted with vargplt vmodel crea un variograma de un modelo analtico que se puede trazar con vargplt
bigaus can be used to get the indicator variograms from a Gaussian or normal scores variogram bigaus se puede utilizar para obtener el variogramas indicador de una gaussiana o normal puntuaciones variograma
The "variogram type" is specified by an integer code . El tipo de variograma "" se especifica mediante un cdigo entero . The type of variogram model is specified by another integer code. El tipo de modelo de variograma se especifica por otro cdigo entero.
Kriging: Kriging:
kb2d straightforward 2-D kriging kb2d 2-D kriging simple
kt3d flexible 3-D kriging kt3d 3-D kriging flexibles
cokb3d cokriging cokb3d cokriging
ik3d indicator kriging (use postik to postprocess results) ik3d kriging indicador (uso postik a los resultados post-procesar)
Stochastic simulation: Simulacin estocstica:
draw simple Monte Carlo stochastic simulation dibujar simples Monte Carlo de simulacin estocstica
lusim LU matrix Gaussian simulation lusim LU simulacin de matriz de Gauss
sgsim sequential Gaussian simulation sgsim simulacin secuencial gaussiana
gtsim truncated Gaussian simulation (uses the result of sgsim and proportion curves) gtsim truncada simulacin gaussiana (utiliza el resultado de sgsim y las curvas de proporcin)
sisim sequential indicator simulation including categorical and continuous and Markov-Bayes (program bicalib is used to process calibration data) sisim indicador de simulacin secuencial como categricas y continuas y Markov-Bayes (programa bicalib se utiliza para procesar los datos de calibracin)
pfsim probability field simulation pfsim simulacin de campo de probabilidad
ellipsim 3-D ellipsoid simulation ellipsim D elipsoide de simulacin-3
anneal annealing-based post processing / simulation recocido de post-procesamiento de recocido / simulacin
sasim annealing-based simulation and cosimulation sasim basado en simulacin de recocido y cosimulacin
postsim is used to post process a number of simulated realizations postsim se utiliza para post procesar una serie de realizaciones simuladas
PostScript plotting: PostScript trazado:
histplt histogram and cumulative histogram histplt histograma y acumulativos histograma
probplt normal and lognnormal probability plot probplt y lognnormal probabilidad normal parcela
scatplt scatterplot scatplt diagrama de dispersin
qpplt QQ or PP plot to compare two distributions qpplt QQ o el argumento del PP para comparar dos distribuciones
locmap gray and color 2-D data location map locmap gris y el color de 2-D de datos mapa de ubicacin
pixelplt gray and color 2-D pixel map pixelplt color 2-D pxel del mapa y gris
bivplt plot a smoothed bivariate probability distribution with the marginal distributions bivplt trazar una distribucin de probabilidad bivariado alisa con las distribuciones marginales