Manual práctico de quimiometría 2013

Post on 18-Dec-2014

1.037 views 7 download

description

Manual práctico de Quimiometría 2013

Transcript of Manual práctico de quimiometría 2013

Manual práctico Manual práctico

de Quimiometríade Quimiometría

Dr. Germán Tortosa Muñoz

german.tortosa@eez.csic.es

Departamento de Microbiología del Suelo y Sistemas SimbióticosEstación Experimental del Zaidín (EEZ-CSIC)

“Técnicas básicas de análisis químico en muestras de interés biológico”

III Edición, mayo de 2013

¿Qué es la Quimiometría?¿Qué es la Quimiometría?

““La aplicación de la estadística a La aplicación de la estadística a los problemas de la Química los problemas de la Química

(Analítica)”(Analítica)”-ProbabilidadProbabilidad (descifra el comportamiento de los (descifra el comportamiento de los fenómenos o sucesos aleatorios)fenómenos o sucesos aleatorios)

-Estadística descriptivaEstadística descriptiva (análisis (análisis descriptivo de los fenómenos o sucesos aleatorios)descriptivo de los fenómenos o sucesos aleatorios)

-Estadístida inferencialEstadístida inferencial (predicción y (predicción y conclusiones de los fenómenos o sucesos aleatorios)conclusiones de los fenómenos o sucesos aleatorios)

Conceptos básicosConceptos básicos

¿Qué es un fenómeno (o suceso) ¿Qué es un fenómeno (o suceso) aleatorio?aleatorio?

““aquel en que los resultados son inciertos, imprevisibles aquel en que los resultados son inciertos, imprevisibles o impredecibles”o impredecibles”

En la Ciencia y en la Química, se estudian fenómenos (o En la Ciencia y en la Química, se estudian fenómenos (o sucesos) aleatorios…sucesos) aleatorios…

¿Fenómenos determinista?¿Fenómenos determinista?

Población, muestra poblacional y Población, muestra poblacional y variablevariable

- Población:- Población: Conjunto global del sistema a estudiar Conjunto global del sistema a estudiar

- Muestra poblacional- Muestra poblacional: Un subconjunto : Un subconjunto representativo representativo

- Variable:- Variable: Propiedad medible de la muestra Propiedad medible de la muestra

VariableVariable

POBLACIÓPOBLACIÓNN

MuestraMuestraPoblacionalPoblacional

Conceptos básicosConceptos básicos

ProbabilidadProbabilidad

Ejemplo: ¿Cuál es la probabilidad de que me salga cara al Ejemplo: ¿Cuál es la probabilidad de que me salga cara al tirar una moneda?tirar una moneda?

Frecuencia relativa: Frecuencia relativa: en un experimento aleatorio, el en un experimento aleatorio, el cociente entre el número de veces que se obtiene un cociente entre el número de veces que se obtiene un

resultado deseado con respecto al total de veces que se resultado deseado con respecto al total de veces que se realizarealiza

http://bcs.whfreeman.com/ips4e/cat_010/applets/Probability.html

Probabilidad:Probabilidad: Valor al Valor al cual tiende la frecuencia cual tiende la frecuencia

relativarelativaCon la probabilidad trataremos de Con la probabilidad trataremos de

conocer el comportamiento que rigen conocer el comportamiento que rigen los sucesos (o conjunto de datos los sucesos (o conjunto de datos

aleatorios) que estudiamosaleatorios) que estudiamos

Ejemplo: 50%Ejemplo: 50%

EJEMPLO Nº1EJEMPLO Nº1

¿Cómo se distribuyen los datos ¿Cómo se distribuyen los datos aleatorios?aleatorios?

¿Cómo se distribuye su probabilidad?¿Cómo se distribuye su probabilidad?- Estudiamos una variableEstudiamos una variable- Representamos los resultados en forma de Representamos los resultados en forma de

histogramahistograma

Tipos de distribución de Tipos de distribución de probabilidadprobabilidad

Depende del Depende del tipo de tipo de variable variable (discreta o (discreta o continua):continua):

- Binomial- Binomial

- Normal- Normal

- Chi-cuadrado- Chi-cuadrado

- T de Student- T de Student

- F- F

- Poisson- Poisson

- Beta- Beta

- Gamma- Gamma

- Etc…- Etc…

Tipos de distribución de Tipos de distribución de probabilidadprobabilidad

Depende del Depende del tipo de tipo de variable variable (discreta o (discreta o continua):continua):

- Binomial- Binomial

- Normal- Normal

- Chi-cuadrado- Chi-cuadrado

- T de Student- T de Student

- F- F

- Poisson- Poisson

- Beta- Beta

- Gamma- Gamma

- Etc…- Etc…

El caso de la distribución El caso de la distribución normalizadanormalizada

-Gran cantidad Gran cantidad de pruebas de pruebas estadística se estadística se basan en ellasbasan en ellas

- Simétrica con - Simétrica con respecto a un respecto a un valor valor μμ y y descrita por descrita por σσ

Resultados de la concentración de nitratos en agua (μg L-1)0,51 0,51 0,51 0,50 0,51 0,49 0,52 0,50 0,470,51 0,52 0,53 0,48 0,49 0,50 0,52 0,49 0,500,49 0,48 0,46 0,49 0,49 0,48 0,49 0,51 0,470,51 0,51 0,51 0,48 0,48 0,47 0,50 0,49 0,480,51 0,50 0,50 0,53 0,53 0,52 0,50 0,51 0,51

EJEMPLO Nº2EJEMPLO Nº2

http://personal.us.es/jgam/applets/AppletsDocentes.htm

El caso de la distribución El caso de la distribución normalizadanormalizada

- Gran cantidad de pruebas estadística se Gran cantidad de pruebas estadística se basan en ellasbasan en ellas

- Simétrica con respecto a un valor - Simétrica con respecto a un valor μμ y y descrita por descrita por σσ

El caso de la distribución El caso de la distribución normalizadanormalizada

Muestra representativa y Muestra representativa y “Teorema “Teorema central del límite”central del límite”

“Cuando N≥30, la población

muestral grande, aunque la

población no esté distribuida

normalmente, la media aritmética

tenderá a una distribución

normal”

Muestra representativa y Muestra representativa y “Teorema “Teorema central del límite”central del límite”

Cuando N≥30, μ y σ (valor

verdadero y dispersión) se supone que

coincide con la media aritmética

muestral (o también la

mediana) y con la desviación estándar

(DISTRIBUCIÓN NORMALIZADA)

Muestra representativa y Muestra representativa y “Teorema “Teorema central del límite”central del límite”

¿¿¿QUÉ PASA

CUANDO SE

TRABAJA CON

N≤30???

Estadística DescriptivaEstadística Descriptiva

Estadístico: “Cualquier transformación de la muestra aleatoria”

EJEMPLO Nº3EJEMPLO Nº3

http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Descriptive.htm

Sentido de un valor analíticoSentido de un valor analítico

¿Qué lleva esta muestra?, ¿cuánto lleva esta muestra?Implica un valor numérico…

“No existen resultados cuantitativos de interés si no van acompañados de alguna estimación de los errores

inherentes a los mismos” (Miller y Miller, 2009)

Tipos de error:

-Groseros o accidentales (ej., un aparato se rompe…)-Aleatorio (no tendencia)-Sistemático (presente una tendencia, ej. Una pipeta mal calibrada, …)

Sentido de un valor analíticoSentido de un valor analítico

Otros conceptos importantes:

Precisión: describe los errores aleatorios. Hace mención a la dispersión de los datos con respecto al valor real. En el caso de las distribuciones normalizadas de datos, haría referencia a la anchura de la campana gaussiana siendo más ancha cuanto más dispersos están los datos y viceversa. Exactitud: es la proximidad al verdadero valor de una medida individual o un valor promedio (ejemplo: una pipeta mide teóricamente 50 ml y experimentalmente como media mide 49,9 ml, por lo que sería bastante exacta). Está afectada por los errores aleatorios y sistemáticos.

Sentido de un valor analíticoSentido de un valor analítico

Otros conceptos importantes:

 Reproducibilidad: es la capacidad de obtener los mismos resultados en un análisis independientemente de las condiciones usadas (laboratorio, analista, fecha, material, etc.).  Repetibilidad: capacidad de obtener los mismos resultados en un análisis en las mismas condiciones usadas (laboratorio, analista, fecha, material, etc.). Incertidumbre: intervalo dentro del cual es razonablemente verosímil que se encuentre el verdadero valor de la magnitud. Hace referencia a la expresión de un resultado analítico con su error inherente (aleatorio y sistemático).

Sentido de un valor analíticoSentido de un valor analítico

Incertidumbre de un valor analíticoIncertidumbre de un valor analítico

En ausencia de error sistemático, la media aritmética debería coincidir con el verdadero valor que se espera.

Intervalo de valores donde sea probable encontrar el valor verdadero. Este depende de dos factores:

-Precisión de las medidas (dispersión o desviación estándar)

-Número de medidas que se realice

N≥30 es poco viable (IMPORTANTE)Desde el punto de vista analítico, para medidas de

muestras repetidas, se puede suponer una distribución casi normal y se asume que las medias de las muestras muy pequeñas se distribuyen normalmente…

Límite de Confianza de la MediaLímite de Confianza de la Media

Intervalo de confianza para muestras grandes:

Z dependerá del grado de confianza requerido95%, z=1,96 ; 99%,z=2,58; 99,7%,

z=2,97 Intervalo de confianza para muestras pequeñas:

Valores de t para intervalosde confianza de

Grados de libertad

95 % 99%

2 4,30 9,925 2,57 4,03

10 2,23 3,1720 2,09 2,8550 2,01 2,68100 1,98 2,63

Límite de Confianza de la MediaLímite de Confianza de la Media

EJEMPLO Nº4EJEMPLO Nº4

http://graphpad.com/quickcalcs/CImean1.cfm?Format=C

Imagen conceptual del Límite de Imagen conceptual del Límite de Confianza de la MediaConfianza de la Media

Presentación de resultadosPresentación de resultados

No existe unaminidad. Posibilidades:

- Media y desviación estándar (estimación de la cantidad medida y precisión)

- Error estándar de la media (σ/√n)- Intervalo de confianza

Nota: el intervalo de confianza tiene sentido cuando tenemos muchas repeticiones. Cuando son pocas, (n ≤ 10) no tiene

mucho sentido

“Las cifras significativas no deben exceder de nuestra precisión”

Presentación de resultadosPresentación de resultados

Presentación de resultadosPresentación de resultados

Presentación de resultadosPresentación de resultados

Propagación de erroresPropagación de errores

EJEMPLO Nº5EJEMPLO Nº5

http://graphpad.com/quickcalcs/ErrorProp1.cfm?Format=SD

Inferencia estadísticaInferencia estadística

Decisión correcta de Tipo A: Suponemos que los nitratos son menores de 50 mg L-1 y lo confirmamos con los análisis. Podemos afirmar que NO HAY contaminación.Decisión correcta de Tipo B: Suponemos que los nitratos son mayores de 50 mg L-1 y lo confirmamos con los análisis. Podemos afirmar que HAY contaminación. Error de Tipo I (o de tipo α): Suponemos que la concentración de nitratos era mayor de 50 mg L-1 y no lo era.Error de Tipo II (de tipo β): Suponemos que la concentración de nitratos era menor de 50 mg L-1 y no lo era.

Nuestra elección Realidad H0 es cierta H1 es cierta

Escogemos H0 como cierta

Decisión correcta de Tipo A (p = 1-α)

Error de tipo II (p= β)

Escogemos H1 como cierta

Error de tipo I (p = α) Decisión correcta de Tipo B

(p= 1-β)

Inferencia estadísticaInferencia estadística

A la hora de descartar una u otra hipótesis, no podremos afirmar exactamente cual es la decisión correcta debido a que solo tenemos acceso a una parte de la población (una muestra de ella). Por lo tanto, es lógico que hablemos en términos probabilísticos, ya que así podremos evaluar el error que cometemos al equivocarnos.

Así, en términos de probabilidad tendríamos lo siguiente:

Probabilidad de escoger H0 siendo H0 cierta = 1-αProbabilidad de escoger H0 siendo H1 cierta = βProbabilidad de escoger H1 siendo H0 cierta = α

Probabilidad de escoger H1 siendo H1 cierta = 1-β

Nuestra elección Realidad H0 es cierta H1 es cierta

Escogemos H0 como cierta

Decisión correcta de Tipo A (p = 1-α)

Error de tipo II (p= β)

Escogemos H1 como cierta

Error de tipo I (p = α) Decisión correcta de Tipo B

(p= 1-β)

Inferencia estadísticaInferencia estadística

Inferencia estadísticaInferencia estadística

Estadístico de contraste y Estadístico de contraste y pp-valor-valor

¿Cuál es el criterio que debemos seguir para poder afirmar u descartar una hipótesis?

-Cálculo del estadístico de contraste

-Este es un parámetro que se calcula teniendo en cuenta que los datos cumplen la distribución normalizada y se relaciona con el área de la curva la cual se correspondería con la región de rechazo, es decir, que si nuestra muestra está en esa zona podríamos descartar la hipótesis nula (H0).

-Si ese valor fuese menor que el nivel de significación (α) que hemos prefijado, podríamos rechazar la hipótesis nula.

-Nota: los valores más usados para α son 0,05, 0,01 y 0,001, es decir, que la probabilidad de acertar en nuestra afirmación sería del 95%, 99% y 99,9% respectivamente.

Estadístico de contraste y Estadístico de contraste y pp-valor-valor

En resumen, descartaremos H0 si p-valor ≤ α, siendo α = 0,05, (también puede ser 0,01 y 0,001).

http://bcs.whfreeman.com/ips4e/cat_010/applets/pvalue_ips.html

Queremos saber si hay contaminación en estas aguas. ¿El valor obtenido de nuestras muestras es distinto significativamente de 50 mg L-1, valor que según el cual la legislación te dice que tienes contaminación por nitratos? Al hacer el contraste de hipótesis, definimos H0 y H1:

H0 : El valor de nuestros análisis es igual a 50 mg L-1

H1 : El valor de nuestros análisis es mayor a 50 mg L-1

EJEMPLO Nº6EJEMPLO Nº6

Estadístico de contraste y Estadístico de contraste y pp-valor-valor

http://bcs.whfreeman.com/ips4e/cat_010/applets/pvalue_ips.html

Como podemos observar, nos ha salido un p-valor = 0,0001 (p-valor ≤ 0,05). Por lo tanto, podemos rechazar la hipótesis nula y confirmar que la concentración de nitratos obtenida en las muestras analizadas es mayor que 50 significativamente (con un 95% de probabilidad).

Tipos de variablesTipos de variables

Cualitativas. Son aquellas que expresan una propiedad de las muestras que no se puede expresar numéricamente (ejemplo: el color de los ojos). A su vez, podemos clasificarlas en dos grupos:

- Ordinal o cuasicuantitativa, en la cual puede adoptar varios regidos por un cierto orden (ejemplo: leve, moderado o grave).

- Nominal, en la cual no existe ningún tipo de orden (ejemplo: tipo de medio de locomoción, coche, motocicleta, etc.).

Cuantitativas o numéricas, las cuales se pueden expresar mediante un valor numérico (ejemplo: la concentración de nitratos de 50 mg L-1). A su vez, se pueden clasificar en dos grupos:

- Discretas, en las cuales solo pueden adoptar valores enteros (ejemplo: número de hijos, días, etc.).

- Continuas, en las cuales pueden adoptar todos los valores posibles reales (ejemplo: la altura de un jugador de baloncesto es de 2,15 metros, hace -2ºC en la calle, etc.).

Tipos de variables y tests Tipos de variables y tests estadísticosestadísticos

-Variable independiente. Es aquella que no depende de ningún factor concreto y que a su vez, puede provocar una modificación en otras variables.

-Variable dependiente. Es aquella que puede ser modificada por otra variable (independiente). Un ejemplo es aquella propiedad que se mide en una muestra a lo largo del tiempo.

TIPOS DE TEST ESTADÍSTICOS:

Técnicas paramétricas. Se utilizan cuando las variables siguen una distribución normalizada y se basan en la media y la varianza.Técnicas no paramétricas o “robustas”. Se utilizan cuando no siguen un tipo de distribución conocida. Están basadas en el empleo de la mediana.

Tests estadísticos de interés en análisis químico de muestras

biológicas- Análisis para una muestra poblacional- Análisis para dos muestras poblacionales-Análisis para más de dos muestras poblacionales-Análisis de la correlación

Tests estadísticos de interés en análisis químico de muestras

biológicas- Análisis para una muestra poblacional

- Análisis descriptivos

Tests estadísticos de interés en análisis químico de muestras

biológicas- Análisis para una muestra poblacional

- Test de normalidad

http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm

EJEMPLO 7EJEMPLO 7

Tests estadísticos de interés en análisis químico de muestras

biológicas- Análisis para una muestra poblacional

- Contrastes de la media de una población con un valor de referencia (t de Student, paramétrico y de signos, no paramétrico)

p >0,05, no significativo, (NS)p entre 0,01 y 0,05, significativo, (*)p entre 0,001 y 0,01, muy significativo, (**)p < 0,001, extremadamente significativo, (***)

http://www.graphpad.com/quickcalcs/OneSampleT1.cfm?Format=SDhttp://www.fon.hum.uva.nl/Service/Statistics/Sign_Test.html

EJEMPLO 8EJEMPLO 8

Tests estadísticos de interés en análisis químico de muestras

biológicas

-Análisis para dos muestras poblacionales

- t de Student (paramétrico)

- U de Mann-Whitney (no paramétrico)

http://graphpad.com/quickcalcs/ttest1.cfmhttp://faculty.vassar.edu/lowry/utest.html

EJEMPLO 9EJEMPLO 9

Tests estadísticos de interés en análisis químico de muestras

biológicas

- Análisis para más de dos muestras poblacionales

-ANOVA (paramétrico)

Que las variables sean independientesQue tengan una distribución normalizadaQue sus varianzas no difieran significativamente.-Pruebas “post-hoc”

-Análisis de Kruskal-Wallis (no paramétrico)

http://www.amstat.org/publications/jse/v18n2/ANOVAExercise.xlshttp://department.obg.cuhk.edu.hk/researchsupport/KruskallWallis.aspEJEMPLO 10EJEMPLO 10

Inferencia estadísticaInferencia estadística

ANÁLISIS DE REGRESIÓN (LINEAL )

RECTA DE REGRESIÓN DE Y SOBRE X

(MÉTODO DE LOS MÍNIMOS CUADRADOS)

y=y0+ax

R (coeficiente de correlación)

http://faculty.vassar.edu/lowry/corr_stats.html

Pér

did

as d

e M

O (

%)

0

5

10

15

20

25

30

35

40

45

50

55

60

AL+G AL+G+Fe AL+G+P

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40

0

5

10

15

20

25

30

35

40

45

50

55

60

65

AL+S AL+S+Fe AL+S+P

Proceso de compostaje (semanas)

y = y0 + ax

y = a(1-e-bx)

EJEMPLO 11EJEMPLO 11

Bibliografía imprescindible:Bibliografía imprescindible:- Estadística y Quimiometría para Química Analítica. - Estadística y Quimiometría para Química Analítica. Miller y Miller. Miller y Miller.

ISBN: 84-205-3514-1 ISBN: 84-205-3514-1

- - QuimiometríaQuimiometría. Carlos Mongay Fernández. ISBN: 9788437059235. Carlos Mongay Fernández. ISBN: 9788437059235

- - QuimiometríaQuimiometría .Guillermo Ramis Ramos y Mª Cecilia García Álvarez- .Guillermo Ramis Ramos y Mª Cecilia García Álvarez-Coque. ISBN: 8477389047Coque. ISBN: 8477389047

Webs:

Web Pages that Perform Statistical Calculations! (http://statpages.org)

STAT-ATTIC STATistics Applets for Teaching Topics in Introductory Courses. (http://sapphire.indstate.edu/~stat-attic/index.php)Apuntes sobre Bioestadística, Universidad de Málaga (http://www.bioestadistica.uma.es/baron/apuntes/).Aula Virtual de Bioestadística. http://e-stadistica.bio.ucm.es/index.htmlDr Arsham´s Statistic site (http://home.ubalt.edu/ntsbarsh/Business-stat/opre504.htm)Material de clase de la asignatura Estadística 2 (http://augusta.uao.edu.co/moodle/course/view.php?id=284)Estadística aplicada a la Bioinformática (http://sebbm.bq.ub.es/BioROM/contenido/UIB/bioinfo/index.htm)Bioestadística, Universidad de Granada (http://www.ugr.es/~bioestad/)Department of Obstetrics and Gynaecology. The Chinese University of Hong Kong.(http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp) Applets y software gratuito:  Recopilación muy completa sobre software estadístico libre y de pago (http://statpages.org/javasta2.html)

Variable:Variable:-Estadística descriptiva (media, DE, Estadística descriptiva (media, DE, …)…)-Representación gráficaRepresentación gráfica-Test de Normalidad : Test de Normalidad :

-Paramétrico (p)Paramétrico (p)-No paramétrico (np)No paramétrico (np)

POBLACIÓNPOBLACIÓN

MuestraMuestra

PoblacionalPoblacional

RepresentativaRepresentativa

N≥30N≥30

Estadística Estadística inferencialinferencial1 muestra poblacional:1 muestra poblacional:

-Contraste con valor de refenciaContraste con valor de refencia-t de Student (p)t de Student (p)- Prueba de signos (np)Prueba de signos (np)

2 muestras poblacionales:2 muestras poblacionales:-t de Student (p),t de Student (p),- U de Mann-Whitney (np)U de Mann-Whitney (np)

Más de 2 muestras Más de 2 muestras poblacionales:poblacionales:-ANOVA (p),ANOVA (p),- Krustal-Wallis (np)Krustal-Wallis (np)

Relación entre variables Relación entre variables (Correlación):(Correlación):-Regresión linealRegresión lineal