Introduccion Al Tratamiento Estadistico de Datos

23
1 CAPÍTULO 1 ÍNTRODUCCIÓN AL TRATAMIENTO DE DATOS 1.1 CONCEPTOS FUNDAMENTALES “La estadística es una disciplina matemática formada por un conjunto de métodos adecuados para manejar (recoger, representar, clasificar y resumir) datos, así como para hacer inferencias (extraer consecuencias) científicas a partir de ellos”. Según esta definición podemos distinguir entre: a) ESTADÍSTICA DESCRIPTIVA, estudia la población de la que derivan los datos. b) INFERENCIA ESTADÍSTICA, predice el comportamiento y extrae conclusiones a partir de una información incompleta. Esta permite, a partir de los resultados de una(s) muestra(s), obtener conclusiones válidas para una población entera. Una POBLACIÓN de medidas son todas las posibles medidas que puedan ser realizadas, mientras que MUESTRA es un conjunto de medidas seleccionadas de esa población. 1.2 VARIABLES Son propiedades respecto a las cuales los elementos de una muestra se diferencian entre sí. Las variables pueden ser medidas en tres tipos de escalas estadísticas: a) ESCALA NOMINAL. Se utiliza cuando los individuos u objetos pueden sólo ser descritos con palabras (ejemplo un objeto puede ser blanco, negro, etc.). Estas suelen llamarse variables cualitativas, categóricas o atributos. b) ESCALA ORDINAL. Se utiliza cuando se dan valores de rango a las variables. La calidad de un objeto puede ser muy mala, mala, media, buena o excelente. Las variables medidas en esta escala se denominan variables de rango. c) ESCALA DE DIVISIONES E INTERVALOS. Se utilizan cuando la distancia o diferencia a lo largo de la escala puede medirse con un número, por ejemplo las medidas de temperatura. Estas se denominan variables cuantitativas o variables de medida. Dentro de las VARIABLES CUANTITATIVAS podemos distinguir entre variables discretas y continuas. a) VARIABLE DISCRETA cuando toma un número finito de valores o aunque dicho número sea infinito, si pueden ser ordenados en una secuencia es una variable discreta. Así los días del año son variables discretas. b) VARIABLE CONTINUA cuando puede tomar cualquier valor dentro de un intervalo. Así, son variables continuas la concentración, la longitud o la temperatura.

description

Es una introduccion al tratamiento de datos en quimica

Transcript of Introduccion Al Tratamiento Estadistico de Datos

Page 1: Introduccion Al Tratamiento Estadistico de Datos

1

CAPÍTULO 1 ÍNTRODUCCIÓN AL

TRATAMIENTO DE DATOS

1.1 CONCEPTOS FUNDAMENTALES

“La estadística es una disciplina matemática formada por un conjunto de métodos adecuados para

manejar (recoger, representar, clasificar y resumir) datos, así como para hacer inferencias (extraer

consecuencias) científicas a partir de ellos”. Según esta definición podemos distinguir entre:

a) ESTADÍSTICA DESCRIPTIVA, estudia la población de la que derivan los datos.

b) INFERENCIA ESTADÍSTICA, predice el comportamiento y extrae conclusiones a partir de una

información incompleta. Esta permite, a partir de los resultados de una(s) muestra(s), obtener

conclusiones válidas para una población entera.

Una POBLACIÓN de medidas son todas las posibles medidas que puedan ser realizadas, mientras que

MUESTRA es un conjunto de medidas seleccionadas de esa población.

1.2 VARIABLES Son propiedades respecto a las cuales los elementos de una muestra se diferencian entre sí. Las variables

pueden ser medidas en tres tipos de escalas estadísticas:

a) ESCALA NOMINAL. Se utiliza cuando los individuos u objetos pueden sólo ser descritos con palabras

(ejemplo un objeto puede ser blanco, negro, etc.). Estas suelen llamarse variables cualitativas,

categóricas o atributos.

b) ESCALA ORDINAL. Se utiliza cuando se dan valores de rango a las variables. La calidad de un objeto

puede ser muy mala, mala, media, buena o excelente. Las variables medidas en esta escala se

denominan variables de rango.

c) ESCALA DE DIVISIONES E INTERVALOS. Se utilizan cuando la distancia o diferencia a lo largo de la

escala puede medirse con un número, por ejemplo las medidas de temperatura. Estas se denominan

variables cuantitativas o variables de medida.

Dentro de las VARIABLES CUANTITATIVAS podemos distinguir entre variables discretas y continuas.

a) VARIABLE DISCRETA cuando toma un número finito de valores o aunque dicho número sea infinito, si

pueden ser ordenados en una secuencia es una variable discreta. Así los días del año son variables

discretas.

b) VARIABLE CONTINUA cuando puede tomar cualquier valor dentro de un intervalo. Así, son variables

continuas la concentración, la longitud o la temperatura.

Page 2: Introduccion Al Tratamiento Estadistico de Datos

2

1.2.1 FRECUENCIA DE CLASE

Cuando se desean representar gráficamente los valores de una determinada variable, es útil agrupar dichos

valores en intervalos o clases y contar cuántas veces el valor de la variable se encuentra comprendido en

dicho intervalo. Al número de veces en que una variable se encuentra en dicho intervalo se le denomina

frecuencia de clase.

Así por ejemplo si tomamos en cuenta al conjunto de estudiantes de una clase y los agrupamos por edades

entre 16 a 18, 19 a 21, 22 a 24 y 25 a más años, encontrando 10 estudiantes en el primer rango, 12 en el

segundo, 4 en el tercero y 3 en el cuarto, las frecuencias de clase para los intervalos serian estos valores.

Esto se observa mejor en la siguiente tabla:

Intervalo de edades Número de estudiantes Frecuencia de clase

16 a 18 años 10 10

19 a 21 años 12 12

22 a 24 años 4 4

25 a más años 3 3

La representación de los intervalos de la variable en función de la Frecuencia de los mismos se denomina

HISTOGRAMA (Figura 1). Si el valor del intervalo tiende a cero y se unen las frecuencias de cada uno de

dichos intérvalos, se obtienen una curva denominada función de densidad de probabilidad.

Figura 1. Histograma de concentración y función de densidad de probabilidad.

1.3 MEDIDAS DE POSICIÓN Y DE DISPERSIÓN

1.3.1 MEDIDAS DE POSICIÓN

Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de individuos. En

general para calcular las medidas de posición es necesario que los datos estén ordenados de menor a

mayor. Las principales medidas de posición son:

Page 3: Introduccion Al Tratamiento Estadistico de Datos

3

1.3.1.1 MODA (M).

Es el valor más frecuente de una distribución y coincide con el máximo de la función de distribución, éste

sólo tiene sentido ante un gran número de datos, no ante unos pocos. Es un poco utilizado, ya que al utilizar

un único dato de la población implica una gran pérdida de información.

𝑀 = 𝑋1, 𝑋2, 𝑋3, 𝑋2, 𝑋4, 𝑋5, 𝑋2, ⋯ 𝑋𝑛 𝑙𝑎 𝑚𝑜𝑑𝑎 𝑒𝑠 𝑋2

1.3.1.2 MEDIANA (m).

Si los datos de una variable se ordenan de mayor a menor, la mediana es aquel dato que deja tantas

observaciones de la variable por debajo como por encima de ella.

Para un conjunto de n datos, la mediana se calcula como:

1.3.1.2.1 Si el número de datos (n) es IMPAR (1, 3, 5, 7,…), la mediana es:

m = xm (el valor central de la serie)

1.3.1.2.2 S i el número de datos (n) es PAR (2, 4, 6, 8,…), la mediana es:

𝑚 = 𝑋𝑚 + 𝑋𝑚+1

2

Donde xm y xm+1, son los valores que se encuentran en el centro de la serie.

1.3.1.4 MEDIA.

Representa el valor más probable de la variable. Si se cuenta con una gran cantidad de datos esto es una

población, la media se estima a través de la siguiente ecuación:

𝜇 = ∑ 𝑋𝑖

𝑁

Donde μ es la media poblacional, Xi es el valor de cada observación y N es el número total de datos de la

población.

Si la cantidad de datos es pequeña y la media viene dada por la siguiente expresión:

�̅� = ∑ 𝑋𝑖

𝑛

Donde �̅� es la media de la muestra, Xi es el valor de cada observación y n es el número total de datos de la

población.

La media es el parámetro de posición más frecuente, sin embargo, tiene la desventaja de estar fuertemente

afectado por los valores extremos.

1.3.2 MEDIDAS DE DISPERSIÓN

Las medidas de dispersión nos informan sobre cuanto se alejan del centro los valores de la distribución de

un conjunto de datos. Las medidas de dispersión más frecuentes son:

Page 4: Introduccion Al Tratamiento Estadistico de Datos

4

1.3.2.1 RANGO (RECORRIDO O AMPLITUD)

Se define como la diferencia entre el valor más grande y más pequeño de una población, siendo el parámetro

más simple y de mayor valor intuitivo. Es de fácil cálculo y se expresa en las mismas unidades que los datos

originales.

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

1.3.2.2 RANGO MEDIO

Es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor

valor.

�̅� =𝑥𝑚𝑎𝑥 + 𝑥𝑚𝑖𝑛

2

1.3.2.3 DESVIACIÓN MEDIA (�̅�)

Se usa para definir una medida de dispersión en la que participen de modo efectivo todas las observaciones

de la población.

�̅� = ∑|𝑋𝑖 − �̅�|

𝑛

Suele interpretarse como la media aritmética de las desviaciones absolutas respecto a la media.

1.3.2.4 DESVIACIÓN ESTÁNDAR O TÍPICA

Se calcula mediante las siguientes expresiones:

𝜎 = √∑(𝑥𝑖 − 𝜇)2

𝑁 𝑆 = √

∑(𝑥𝑖 − �̅�)2

𝑛 − 1

Donde σ es la desviación estándar poblacional y s es la desviación estándar muestral. La desviación estándar

es la medida de dispersión que más se utiliza en las ciencias.

1.3.2.5 VARIANZA

Es el cuadrado de la desviación estándar, viene dada por las siguientes expresiones:

𝜎2 =∑(𝑥𝑖 − 𝜇)2

𝑁 𝑆2 =

∑(𝑥𝑖 − �̅�)2

𝑛 − 1

Donde 𝜎2 es la varianza poblacional y 𝑆2 es la varianza muestral. Es también muy utilizada ya que es fácil

de calcular. El principal inconveniente es que viene expresada en unidades que son el cuadrado de las

unidades de las observaciones originales.

1.3.2.6 DESVIACIÓN ESTÁNDAR RELATIVA (DER). También llamada coeficiente de variación (CV) se

estima a través de la expresión:

𝐷𝐸𝑅 =𝜎

𝜇 𝑥 100 𝐷𝐸𝑅 =

𝑆

�̅� 𝑥 100

La DER se expresa en % siendo un número independiente de las unidades de medida. Es muy utilizada

espacialmente cuando queremos informar del % de dispersión de datos.

Page 5: Introduccion Al Tratamiento Estadistico de Datos

5

1.4 LÍMITES DE CONFIANZA DE LA MEDIA

El intervalo dentro del cual podemos suponer de manera razonable que se encuentra el valor verdadero se

conoce como intervalo de confianza, y los valores extremos de dicho intervalo se llaman límites de

confianza.

El tamaño del intervalo de confianza dependerá de la certeza que queramos tener de que se incluya el valor

verdadero: cuanto más grande sea la certeza, más grande será el intervalo requerido.

En la práctica generalmente disponemos de una población de datos, con una media l (�̅�) y una desviación

estándar (S) conocidas por lo que el intervalo de confianza para la media a un 95% de probabilidad se calcula

como:

�̅� − 𝑡(0.05;𝑛−1) (𝑆

√𝑛) < 𝜇 < �̅� + 𝑡(0.05;𝑛−1) (

𝑆

√𝑛)

El que podemos resumir como:

𝜇 = �̅� ± 𝑡(0.05;𝑛−1) (𝑆

√𝑛)

Donde t es el estadístico t de student; 0.05 es el nivel de riesgo de la prueba y que equivale a asumir un 5%

de error en su aplicación; n-1 son los grados de libertad con los que se aplica la prueba, n es el número de

datos de la prueba. Los valores del estadístico t, se encuentran tabulados para un nivel de riesgo (α) y grados

de libertad (n-1) determinados.

1.5 TEST DE HIPÓTESIS

Los test de hipótesis se usan para aceptar o rechazar una hipótesis que se emite sobre un parámetro de una

población. Los test de hipótesis, también llamados test de significación o prueba de hipótesis, son un conjunto

de reglas que permiten decidir que hipótesis debe aceptarse o rechazarse a partir del resultado obtenido en

una muestra.

En un test de significación se plantean dos hipótesis: la HIPÓTESIS NULA (H0) y la HIPÓTESIS

ALTERNATIVA (H1). Las siguientes reglas son de gran interés para la aplicación de un test de hipótesis:

1. La hipótesis nula siempre debe plantearse como una igualdad: H0: µ1 = µ2

2. Toda hipótesis nula tiene su hipótesis alternativa, la cual es confirmada si la hipótesis nula es rechazada,

es decir si el test conduce a un resultado negativo: 𝐻1: 𝜇1 ≠ 𝜇2

3. Si la hipótesis nula no resulta rechazada ello no implica su aceptación, sino que para los datos existentes

las diferencias no son concluyentes.

4. En todo test de hipótesis se pueden cometer dos tipos de errores: α (tipo 1) y β (tipo 2) (ver Figura 2).

5. Cada resultado de un test es sólo válido para un cierto nivel de significación, P, libremente elegido. En

general se utiliza un nivel P = 0.95 que corresponde a un riesgo α = 0.05 (α = 1 - P).

Page 6: Introduccion Al Tratamiento Estadistico de Datos

6

Figura 2. Errores tipo 1 y 2.

1.6 TIPOS DE ERRORES

1. Error α o de tipo 1: Concluir por H1 cuando es cierta H0 (falso positivo).

2. Error β o de tipo 2: Concluir por H0 cuando es cierta H1 (falso negativo).

Un investigador sólo puede controlar el error α, ya que puede elegir de antemano qué valor del error quiere

admitir. Generalmente se usa un α = 0.05, lo que indica que estamos dispuestos a aceptar un error del 5%

cuando concluimos por H0. Al valor (1 - α) se le denomina nivel de confianza, lo que indica que tenemos un

95% de confianza en nuestra conclusión por H0. El error β toma un valor distinto para cada alternativa que

consideremos.

Así, si β estima la probabilidad de decidir H0 cuando es cierta H1, entonces el valor 1-β = θ será la probabilidad

de decidir H1 cuando en realidad es cierta. Este valor θ se conoce como potencia de un test. Un test será

tanto mejor cuando mayor sea su potencia (menor β).

1.7 TEST DE UNA Y DOS COLAS

Anteriormente hemos planteado la hipótesis nula y alternativa como:

H0: µ1 = µ2 (los dos conjuntos de medias �̅�1 𝑦 �̅�2, pertenecen a la misma población)

H1: µ1 ≠ µ2 (las medias comparadas �̅�1 𝑦 �̅�2, son diferentes y pertenecen a poblaciones diferentes).

En muchas situaciones, el investigador NO TIENE UNA IDEA PREVIA a la realización del experimento con

relación a si la diferencia entre las medias será positiva o negativa. En estos casos es necesario aplicar una

prueba que cubra esta posibilidad la que se denomina prueba o TEST DE DOS COLAS (O BILATERAL).

Sin embargo cuando de ANTEMANO SABEMOS que un determinado valor puede ser mayor o menor que

otro, pero no las dos cosas, es más adecuado utilizar un tipo diferente de prueba, planteándose las hipótesis:

H0: µ1> µ0 (la media es mayor que un determinado valor)

H1: µ1 < µ0 (la media es menor que un determinado valor)

Este tipo de test se llama de TEST UNA COLA (O UNILATERAL).

Page 7: Introduccion Al Tratamiento Estadistico de Datos

7

Para realizar un test, es necesario representar numéricamente H0 y H1 y para ello es indispensable realizar

medidas experimentales.

Estas permiten el cálculo de una cantidad numérica, Ccal, denominada estadístico calculado. Esta cantidad

se compara con otra cantidad teórica, denominada estadístico de control o de contraste, obtenida en función

del tamaño de muestra, del nivel de confianza (1-α) fijado y del tipo de prueba (una o dos colas).

Generalmente el estadístico de contraste se encuentra tabulado (Ctab) y corresponde a los valores P(x) de

una distribución de determinada probabilidad. En general los resultados de esta comparación pueden ser:

Ccal < Ctab ≡ H0 (No significación) (Se acepta H0)

Ccal ≥ Ctab ≡ H1 (Significación) (Se rechaza H0)

1.7.1 TEST DE DETECCIÓN DE ANÓMALOS

La presencia de datos anómalos (outliers) o muestras erróneas que no son representativas del resto de los

datos tiene una gran influencia en la estimación de parámetros como la media y la desviación estándar. Por

ello es necesario su detección y eliminación del conjunto de datos. Para tal fin existen diferentes test, siendo

el de Dixon, Grubbs y Hubber de los más populares. En este curso usaremos el test de Dixón.

1.7.1.1 TEST DE DIXON

Es uno de los más utilizados ya que es muy fácil de calcular. Para su aplicación los datos deben estar

ordenados en orden creciente de magnitud. Está basado en la comparación de la diferencia entre el valor

sospechoso y su vecino más cercano sobre el rango de los datos o el rango modificado. Este se calcula

como:

𝑄𝑐𝑎𝑙 = (𝑋𝑛 − 𝑋𝑛−1)

(𝑋𝑚𝑎𝑦𝑜𝑟 − 𝑋𝑚𝑒𝑛𝑜𝑟)

Dónde: Q cal es el estadístico de Dixon calculado, X n es el valor sospechoso, Xn-1 es el valor más próximo al

sospechoso, X mayor es el valor mayor de la serie de datos y X menor es el menor valor de la serie de datos.

Las hipótesis nula y alternativa planteadas son:

H0: X n no es un valor sospechoso y no debe ser eliminado de la serie de datos

H1: X n es un valor sospechoso y debe ser eliminado de la serie de datos

El valor de Q cal se compara con el Q tab a un determinado nivel de significación (P).

CONCLUYENDO QUE:

Si el Q calculado es mayor que el valor de Q tabulado (Q cal > Q tab) el dato sospechoso es erróneo y hay que eliminarlo de la serie de datos.

Si el Q calculado es menor que el valor de Q tabulado (Q cal < Q tab) el dato sospechoso NO es erróneo y NO hay que eliminarlo de la serie de datos.

Page 8: Introduccion Al Tratamiento Estadistico de Datos

8

1.7.2 TEST DE COMPARACIÓN DE MEDIAS

1.7.2.1 COMPARACIÓN DE UNA MEDIA CON UN VALOR CONOCIDO

Se debe comprobar que la diferencia entre el valor conocido considerado como verdadero (µ) y la media

calculada �̅� no es significativa. Por tanto H0 se formula como:

𝐻0: 𝜇 = �̅� (𝜇 − �̅� = 0)

Mientras que H1 se formula:

𝐻1: 𝜇 ≠ �̅� (𝜇 − �̅� ≠ 0) Para un test de dos colas

𝐻1: 𝜇 > �̅� (𝜇 − �̅� > 0) Para un test de una cola

𝐻1: 𝜇 < �̅� (𝜇 − �̅� < 0)

Para comprobar estas hipótesis, partimos de la siguiente ecuación:

𝜇 = �̅� ± (𝑡(0.05;𝑛−1)𝑆

√𝑛)

Reorganizando, esta ecuación para ponerla en función t, tenemos la ecuación de cálculo de la t de student

para esta prueba:

𝑡𝑐𝑎𝑙 = |𝜇 − �̅�|√𝑛

𝑆

Mediante esta ecuación se calcula el valor de t, y se compara con el valor del estadístico t de student tabulado

a un nivel de confianza (α) de 0.05 y n-1 grados de libertad. Las hipótesis nula y alternativa planteadas en

este caso son:

𝐻0: 𝜇 = �̅� (La media de la serie de datos es igual al valor verdadero o de referencia)

𝐻1: 𝜇 ≠ �̅� (La media de la serie de datos es distinta al valor verdadero o de referencia)

CONCLUYENDO QUE:

Si el t calculado es mayor que el valor de t tabulado (tcal > ttab) La media de la serie de datos es distinta al valor verdadero o de referencia.

Si el t calculado es menor que el valor de t tabulado (tcal < ttab) La media de la serie de datos es igual al valor verdadero o de referencia.

1.7.2.2 COMPARACIÓN DE LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES

En función del tamaño de muestra, dos diferentes aproximaciones pueden ser consideradas.

1.7.2.2.1 COMPARACIÓN DE LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES CON VARIANZAS

IGUALES

Si las varianzas S21 y S2

2 SON IGUALES, es necesario estimar inicialmente una varianza conjunta (S2conj),

la que se calcula de la manera siguiente:

Page 9: Introduccion Al Tratamiento Estadistico de Datos

9

𝑆𝑐𝑜𝑛𝑗2 =

(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆2

2

(𝑛1 + 𝑛2 − 2)

Donde S21 y n1 son la varianza y el número de datos del primer conjunto de datos y S2

2 y n2 son la varianza

y el número de datos del segundo conjunto de datos. Posteriormente se realiza el cálculo del estadístico t de

la forma siguiente:

𝑡𝑐𝑎𝑙 = �̅�1 − �̅�2

√𝑆𝑐𝑜𝑛𝑗2 (

1𝑛1

+1

𝑛2)

El t calculado (t cal), se compara con el valor del estadístico t de student tabulado a un nivel de confianza (α)

de 0.05 y n1 + n2 - 2 grados de libertad. Las hipótesis nula y alternativa planteadas en este caso son:

𝐻0: �̅�1 = �̅�2 (La media de la serie de datos 1 es igual a la media de la serie de datos 2)

𝐻1: �̅�1 ≠ �̅�2 (La media de la serie de datos 1 es distinta a la media de la serie de datos 2)

CONCLUYENDO QUE:

Si el t calculado es mayor que el valor de t tabulado (tcal > ttab), la media de la serie de datos 1 es distinta a la media de la serie de datos 2.

Si el t calculado es menor que el valor de t tabulado (tcal < ttab), la media de la serie de datos 1 es igual a la media de la serie de datos 2.

1.7.2.2.2 COMPARACIÓN DE LAS MEDIAS DE DOS MUESTRAS INDEPENDIENTES CON VARIANZAS

DIFERENTES

Si las varianzas S21 y S2

2 SON DISTINTAS O DIFERENTES, NO es necesario estimar una varianza conjunta

(S2conj) por lo que el test en este caso varía. Y es necesario aplicar el llamado t test de Cochran, que se basa

en la comparación de t calculado con un valor critico de t tabulado, para esto es necesario calcular

inicialmente el valor de t de la forma siguiente:

𝑡𝑐𝑎𝑙 = �̅�1 − �̅�2

√(𝑆1

2

𝑛1+

𝑆22

𝑛2)

Para encontrar el valor crítico de t tabulado, es necesario calcular los grados de libertad (𝜏) para lo cual se

utiliza la siguiente formula:

𝜏 = (

𝑆12

𝑛1+

𝑆22

𝑛2)

2

(𝑆1

2

𝑛1)

2

𝑛1 + 1 +(

𝑆22

𝑛2)

2

𝑛2 + 1

El valor de 𝜏 es el número entero más próximo al resultado obtenido, y proporciona los grados de libertad

que deben usarse para encontrar el valor de t tabulado a un nivel de confianza (α) de 0.05. Las hipótesis

nula y alternativa planteadas en este caso son:

𝐻0: �̅�1 = �̅�2 (La media de la serie de datos 1 es igual a la media de la serie de datos 2)

𝐻1: �̅�1 ≠ �̅�2 (La media de la serie de datos 1 es distinta a la media de la serie de datos 2)

Page 10: Introduccion Al Tratamiento Estadistico de Datos

10

CONCLUYENDO QUE:

Si el t calculado es mayor que el valor de t tabulado (tcal > ttab), la media de la serie de datos 1 es distinta a la media de la serie de datos 2.

Si el t calculado es menor que el valor de t tabulado (tcal < ttab), la media de la serie de datos 1 es igual a la media de la serie de datos 2.

1.7.2.3 COMPARACIÓN DE LAS MEDIAS DE DOS MUESTRAS APAREADAS

Hablamos de muestras apareadas cuando existe correspondencia entre los miembros de las muestras o

series de datos. Para el cálculo del estadístico se obtiene las diferencias entre los pares de observaciones:

𝑑𝑖 = 𝑋1𝑖 − 𝑋2𝑗

Donde X1i son los datos i de la serie 1 y X2j, son los datos j de la serie 2.

A continuación se calcula la media de las diferencias mediante la siguiente ecuación:

�̅� = ∑ 𝑑𝑖

𝑛

Donde n representa el número de parejas de muestras; �̅� es una aproximación de la verdadera, pero

desconocida, diferencia de medias δ. Así, si no hay diferencias entre las medias obtenidas por ambos

procedimientos δ = 0. A continuación se calcula el estadístico t mediante la siguiente ecuación:

𝑡𝑐𝑎𝑙 = �̅� √𝑛

𝑆𝑑

En este caso la H0 se plantea como:

H0: δ =0 (No hay diferencias entre las medias de las 2 series de datos)

Y la hipótesis alternativa:

H1: δ ≠ 0 Para un test de dos colas

H1: δ > 0 Para un test de dos colas

H1: δ < 0

El t calculado (t cal), se compara con el valor del estadístico t de student tabulado a un nivel de confianza (α)

de 0.05 y n - 1 grados de libertad.

CONCLUYENDO QUE:

Si el t calculado es mayor que el valor de t tabulado (tcal > ttab), las medias de la serie de datos apareados son distintas.

Si el t calculado es menor que el valor de t tabulado (tcal < ttab), las medias de la serie de datos apareados son iguales.

Page 11: Introduccion Al Tratamiento Estadistico de Datos

11

1.7.3 TEST DE COMPARACIÓN DE VARIANZAS

1.7.3.1 COMPARACIÓN DE DOS VARIANZAS

La comparación de las varianzas de dos conjuntos o series de datos (S21 y S2

2) se realiza por medio del test

de la Fisher:

𝐹𝑐𝑎𝑙 = 𝑆1

2

𝑆22

Siendo S12 la mayor de las dos varianzas.

El valor de F calculado (Fcal) se compara con el valor de F tabulado al nivel de significación elegido (por lo

general α= 0.05). El valor tabulado de F, depende del tamaño de las dos muestras, se determina haciendo

coincidir la columna 𝜏1 para n1 - 1 grados de libertad de la primera serie de la que se obtuvo S12 y la fila 𝜏2

para n2 - 1 grados de libertad de la segunda serie de la que se obtuvo S22.

En este caso la H0 se plantea como:

H0: S12 = S2

2 (Las varianzas de las dos series de datos son iguales)

Y la hipótesis alternativa:

H1: S12 ≠ S2

2 Para un test de dos colas

H1: S12 > S2

2 Para un test de dos colas

H1: S12 < S2

2

El F calculado (Fcal), se compara con el valor del estadístico F de Fisher tabulado 𝜏1 (n1-1) y 𝜏2 (n2-1) grados

de libertad y a un nivel de confianza (α) de 0.05.

CONCLUYENDO QUE:

Si el F calculado es mayor que el valor de F tabulado (Fcal > Ftab), las varianzas de las dos serie de datos son distintas.

Si el F calculado es menor que el valor de F tabulado (Fcal < Ftab), las varianzas de las dos serie de datos son iguales.

1.7.3.2 ANÁLISIS DE VARIANZA (ANOVA)

El Análisis de la Varianza es una técnica estadística que se utiliza para separar y estimar las posibles fuentes

de variación en un resultado y así poder separar la variación debida al error aleatorio y cualquier otra variación

provocada al cambiar el factor de control. Cuando en el análisis estadístico solo existe una variable o factor,

la técnica se denomina ANOVA de 1 factor o vía. Que compara diversos conjuntos de resultados que difieren

sólo en una variable, lo que nos permite detectar si alguno de estos conjuntos de resultados difiere de forma

significativa de los demás.

Las hipótesis a contrastar en este caso serán:

𝐻0: �̅�1 = �̅�2 = ⋯ = �̅�𝑛 (Todas las medias de las series de datos son iguales)

𝐻1: �̅�1 ≠ �̅�2 ≠ ⋯ ≠ �̅�𝑛 (Todas las medias de las series de datos son diferentes)

Page 12: Introduccion Al Tratamiento Estadistico de Datos

12

Para la aplicación de la técnica ANOVA, se han de cumplir tres hipótesis, aunque se aceptan ligeras

desviaciones respecto a las condiciones ideales:

1. Cada conjunto de datos es aleatorio e independiente de los demás.

2. Los resultados obtenidos para cada conjunto de datos siguen una distribución normal.

3. Las varianzas de cada conjunto de datos deben ser homogéneas u homocedasticas.

1.7.3.2.1 HOMOGENEIDAD DE VARIANZAS

Para la comparación de varias varianzas independientes se aplican tres test: test de Bartlett, test de Levene

y test de Cochran. En este curso usaremos el test de Cochran por su sencillez y rapidez de cálculo.

1.7.3.2.2 TEST DE COCHRAN

Es de aplicación fundamentalmente cuando los tamaños de las series de datos son iguales, es decir, cuando

el número de repeticiones realizadas para cada nivel de la variable X es siempre el mismo (n1 = n2 = .... =

nk).

𝐺𝑐𝑎𝑙 = 𝑆𝑖 (𝑚á𝑥𝑖𝑚𝑎)

2

𝑆12 + 𝑆1

2 + ⋯ + 𝑆𝑘2

Donde S2i (máxima), es la varianza mayor de las serie de datos, S2

1, S2i y S2

k son las varianzas de cada una

de las series de datos. En este caso la H0 se plantea como:

𝐻0: 𝑆12 = 𝑆1

2 = ⋯ = 𝑆𝑘2 (Las varianzas de todas las series de datos son iguales)

Y la hipótesis alternativa:

𝐻1: 𝑆12 ≠ 𝑆1

2 ≠ ⋯ ≠ 𝑆𝑘2 Para un test de dos colas

𝐻1: 𝑆12 > 𝑆1

2 > ⋯ > 𝑆𝑘2 Para un test de dos colas

𝐻1: 𝑆12 < 𝑆1

2 < ⋯ < 𝑆𝑘2

El valor de G calculado (Gcal) se compara con el valor de G tabulado a un número de series k y n-1 grados

de libertad.

CONCLUYENDO QUE:

Si el G calculado es mayor que el valor de G tabulado (Gcal > Gtab (n–1,k)), las varianzas de todas las series de datos son distintas.

Si el G calculado es menor que el valor de G tabulado (Gcal < Gtab (n–1,k)), las varianzas de todas las series de datos son iguales.

El valor de la G teórica de Cochran se busca en la correspondiente tabla (ver tabla 7).

1.7.3.2.3 CÁLCULOS DE ANALISIS DE VARIANZA (ANOVA) DE UN FACTOR

El ANOVA es una herramienta que permite comparar simultáneamente varias medias de series de datos.

Estas se comparan para establecer si todas son iguales (H0) o si al menos una de ellas es distinta (H1).

Para una serie de resultados 1, 2,…., j ,…..h, la H0 se plantea como:

𝐻0: �̅�1 = �̅�2 = ⋯ = �̅�𝑗 = ⋯ = �̅�ℎ (Todas las medias de las series de datos son iguales)

Page 13: Introduccion Al Tratamiento Estadistico de Datos

13

Mientras que la H1, plantea como:

𝐻1: �̅�1 ≠ �̅�2 ≠ ⋯ ≠ �̅�𝑗 ≠ ⋯ ≠ �̅�ℎ (Todas las medias de las series de datos son diferentes)

Para el caso de un modelo unifactorial (de un factor), se emplea para estudiar el efecto de un cierto Factor

sobre unas determinadas series o grupos de datos. Siendo el total de grupos = a, y el número de

determinaciones o medidas realizadas a cada grupo = n.

Podemos considerar que Xn,j es la medida de la determinación n del grupo j o que X3,2, es la medida de la

determinación 3 realizada en el grupo 2.

Si consideramos a T.j como la suma de la n observaciones del grupo j, entonces la media del grupo j sería:

�̅�𝑗 = 𝑇.𝑗

𝑛

Por otra parte la suma total de todas las observaciones es:

Total = T.1 + T.2 + T.3 + …+ T.J+….Ta

Mientras que el número total de datos de las series a ser comparadas es:

N = n x a

Si consideramos al número total de datos de las series (N), entonces la media general de todos los datos se

calcula como:

�̿� = 𝐿𝑎 𝑠𝑢𝑚𝑎 𝑇𝑜𝑡𝑎𝑙

𝑁= [

∑ �̅�𝑗𝑎1

𝑎] = [

∑ ∑ 𝑋𝑖𝑗𝑎1

𝑛1

𝑁]

La varianza total:

𝑆2 = 𝑆𝑆𝑇

𝜈𝑇=

∑ ∑ (𝑋𝑖𝑗 − �̿�)2𝑎1

𝑛1

(𝑁 − 1)

La varianza total de los datos es el cociente entre la suma de cuadrados totales (SST) y los grados de libertad

totales 𝜈𝑇 = N - 1.

Mientras que la suma de los cuadrados totales es la sumatoria para N datos del cuadrado de las diferencias

entre cada valor y su promedio general.

𝑆𝑆𝑇 = ∑ ∑(𝑋𝑖𝑗 − �̿�)2

𝑎

1

𝑛

1

= ∑ ∑[(𝑋𝑖𝑗 − �̅�𝑗) + (�̅�𝑗 − �̿�)]2

𝑎

1

𝑛

1

Efectuando el desarrollo del cuadrado y simplificando nos queda:

𝑆𝑆𝑇 = ∑ ∑(𝑋𝑖𝑗 − �̅�𝑗)2

𝑎

1

𝑛

1

+ ∑ ∑(�̅�𝑗 − �̿�)2

𝑎

1

𝑛

1

De manera simplificada lo anterior se puede expresar como:

𝑆𝑆𝑇 = 𝑆𝑆𝐷 + 𝑆𝑆𝐸

La suma de los cuadrados dentro de las muestras (SSD) se calcula como la sumatoria del cuadrado de las

diferencias entre cada observación y el promedio del grupo al cual pertenece.

Page 14: Introduccion Al Tratamiento Estadistico de Datos

14

La suma de los cuadrados entre las muestras (SSE) se calcula como la sumatoria al cuadrado de las

diferencias entre los promedios de cada grupo y el promedio general o media muestral.

Los grados de libertad se calculan como:

𝜈𝑇 = N - 1 = N – a + a – 1 = (N - a) + (a – 1) = 𝜈𝐷 + 𝜈𝐸

Donde N es el número total de datos y a es el número total de grupos. Los grados de libertad dentro de

grupos (𝜈𝐷) se calcula como:

𝜈𝐷 = 𝑁 − 𝑎

Los grados de libertad entre los grupos (𝜈𝐸) se calcula como:

𝜈𝐸 = 𝑎 − 1

Si dividimos la suma de los cuadrados por sus grados de libertad obtendremos una cantidad con las

características de una varianza, denominada cuadrados medios o MS (Mean of Squares). Estos serían:

Cuadrados medios dentro de grupos:

𝑀𝑆𝐷 = 𝑆𝑆𝐷

𝜈𝐷

Cuadrados medios entre grupos:

𝑀𝑆𝐸 = 𝑆𝑆𝐸

𝜈𝐸

Podemos calcular un estadístico F para contrastar la H0 de la manera siguiente:

𝐹𝑐𝑎𝑙 = 𝑀𝑆𝐸

𝑀𝑆𝐷

Este lo podemos contrastar con un valor de F de tabla a una determinado significación (a) y (a-1); (N-a)

grados de libertad (Fa;(a-1);(N-a)) se rechaza H0 si Fcal > Ftab.

De todos los cálculos anteriores obtenemos los que se denomina cuadro de ANOVA:

Page 15: Introduccion Al Tratamiento Estadistico de Datos

15

1.8 REGRESIÓN LINEAL POR MÍNIMOS CUADRADOS

En el caso que se desee ajustar los datos de respuesta de una medida frente una determinada concentración,

estos generalmente se ajustan a una función lineal, mediante un AJUSTE REGRESIÓN LINEAL por mínimos

cuadrados (RLMC), que es lo más frecuente en las calibraciones indirectas para ensayos químicos o

farmacéuticos.

El modelo implica dos únicas variables: El MESURANDO que es la variable independiente que se ubica en

el eje de las X y la RESPUESTA que es la variable dependiente que se ubica en el eje de las Y.

La regresión lineal de éste modo se realiza desde loa valores del eje Y sobre el eje X: Y = f(X). No en forma

inversa ya que, aunque no parezca lógico, los resultados pueden ser diferentes dependiendo del algoritmo

de ajuste. El modelo matemático teórico en estas condiciones viene dado por la siguiente expresión:

𝑌 = 𝑏0 + 𝑏1𝑋 + 𝜀

En la situación real, los coeficientes de regresión del modelo ajustado: intercepto (b0) y pendiente (b1) son

desconocidos y sólo pueden ser estimados a partir de datos experimentales del ajuste del modelo empírico

y el término ε es el error que se asume al realizar el ajuste.

Para cada valor de X, el modelo permite calcular o predecir un determinado valor de Y, al que se le

denominada "Y predicha " y que se suele representar por �̂�, de modo que para el cálculo de valor de Y

predicho, se emplea la siguiente ecuación:

�̂� = 𝑏0 + 𝑏1𝑋

A la diferencia entre el valor obtenido de la variable respuesta, Y, y el valor predicho, �̂�, se le denomina

residuo o resto, ei, el que se calcula de la forma siguiente:

𝑒𝑖 = 𝑌𝑖 − �̂�𝑖

Este suele ser conocido más comúnmente como "residual", literalmente del inglés.

El objetivo es buscar los valores de ambos coeficientes de forma tal que la suma de los cuadrados de los

residuos de los diferentes valores de respuesta sea mínima. El residuo representa la distancia vertical entre

el punto experimental y la recta y es esta distancia la que se busca minimizar; esto lo que se busca con el

ajuste.

1.8.1 PARÁMETROS DE AJUSTE DEL MODELO DE REGRESIÓN LINEAL

La pendiente de la recta de ajuste se calcula a partir de la expresión siguiente:

𝑏1 = ∑(𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�)

∑(𝑋𝑖 − �̅�)2

El intercepto se calcula a partir de:

𝑏0 = �̅� − 𝑏1�̅�

Page 16: Introduccion Al Tratamiento Estadistico de Datos

16

La desviación estándar de los residuos (o desviación estándar residual de la regresión), Sy/x o Sres, que

expresa la variabilidad de los valores de la respuesta con relación a los predichos por el modelo con n – 2

grados de libertad, se calcula por:

𝑆𝑌/𝑋 = √∑(𝑌𝑖 − �̂�𝑖)2

𝑛 − 2

Donde n es el número total de parejas de valores respuesta/mesurando utilizadas para la elaboración de la

recta de regresión. A partir del valor de la desviación estándar residual, se calcula la desviación estándar

asociada a la estimación de los coeficientes, pendiente e intercepto como:

𝑆𝑏1 = 𝑆𝑌/𝑋

√∑(𝑋𝑖 − �̅�)2

𝑆𝑏0 = 𝑆𝑌/𝑋 √∑(𝑋𝑖)2

𝑛 ∑(𝑋𝑖 − �̅�)2

Como veremos más adelante, estos parámetros, Sb0 y Sb1, serán utilizados para el cálculo de la incertidumbre

de calibración.

Otro parámetro es el denominado coeficiente de determinación, r2 que representa la fracción de la

variabilidad total de los datos que es explicada por el modelo. Es una medida de la idoneidad del modelo

matemático elegido pero no de la calidad del ajuste.

𝑟2 = ∑(�̂�𝑖 − �̅�)

2

∑(𝑌𝑖 − �̅�)2=

𝑆𝐶𝑒𝑥𝑝

𝑆𝐶𝑇=

𝑆𝑒𝑥𝑝2

𝑆𝑇2

Su raíz cuadrada es el denominado coeficiente de correlación lineal simple, r, que mide el grado de

dependencia entre las dos variables respuesta y mesurando, pero en absoluto indica nada sobre la linealidad.

𝑟 = ∑(𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�)

∑(𝑋𝑖 − �̅�)2 ∑(𝑌𝑖 − �̅�)2

1.8.2 CALCULO DE UNA CONCENTRACIÓN Y SU ERROR ALEATORIO

En general la concentración de una muestra a partir de los coeficientes de regresión de una recta se realizan

mediante:

𝑋 = 𝑌 − 𝑏0

𝑏1

Sin embargo conviene estimar el error asociado a la concentración calculada, mediante la siguiente ecuación:

Para una recta en la que sólo se ha realizado una lectura de cada punto de la recta o de la muestra (m = 1),

la ecuación para el cálculo de la incertidumbre o error de la determinación viene dada por la siguiente

ecuación.

Page 17: Introduccion Al Tratamiento Estadistico de Datos

17

𝑆𝑋0 =𝑆𝑌/𝑋

𝑏1 √1 +

1

𝑛+

(𝑌0 − �̅�)2

𝑏12 ∑(𝑋𝑖 − �̅�)2

Para una recta en la que se han realizado lecturas por triplicado de cada punto de la recta o de la muestra

(m = 3), la ecuación para el cálculo de la incertidumbre o error de la determinación viene dada por la siguiente

ecuación.

𝑆𝑋0 =𝑆𝑌/𝑋

𝑏1 √

1

𝑚+

1

𝑛+

(𝑌0 − �̅�)2

𝑏12 ∑(𝑋𝑖 − �̅�)2

Donde Y0 es el valor experimental de Y a partir del cual se determina la concentración X0, Sxo es la desviación

estándar estimada de X0, n es el número de puntos de la recta de regresión y m es la cantidad de veces que

se ha realizado la lectura de cada punto de la recta o de la muestra.

Una vez calculado esto se expresa la concentración de la muestra como un intervalo, como sigue:

𝑋0 ± 𝑡(0.05,𝑛−2) 𝑆𝑋0

Las rectas de regresión en adición patrón se construyen de similar forma que en el caso de la regresión lineal

simple. En este caso la concentración del analito se encuentra como el cociente de:

𝑋0 = |𝑏0

𝑏1|

Ya que b0 y b1, están sujetos a error, el valor calculado también lo estará, en este caso la desviación estándar

de la predicción de la concentración vendrá dada por:

𝑆𝑋0 =𝑆𝑌/𝑋

𝑏1 √

1

𝑛+

(�̅�)2

𝑏12 ∑(𝑋𝑖 − �̅�)2

La concentración calculada de esta forma se expresaría de la siguiente forma:

𝑋0 ± 𝑡(0.05,𝑛−2) 𝑆𝑋0

Page 18: Introduccion Al Tratamiento Estadistico de Datos

18

1.9 EJERCICIOS

1.9.1 Las calificaciones de historia del arte de 40 alumnos de una clase viene dada por la tabla siguiente:

Calificaciones (Xi) 1 2 3 4 5 6 7 8 9

Frecuencia de clase (Fi) 2 2 4 5 8 9 3 4 3

a) Encuentre la media, la moda y la mediana. c) Encuentre la varianza, la desviación estándar y el coeficiente variación (DER)

1.9.2 El número de personas en distintos autobuses en una carretera son: 15,17,14,16,19,15,16,11,15,13,17.

¿Cuál es la moda?

1.9.3 Calcule la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1. 1.9.4 Durante el análisis de hierro en muestras de frijoles blancos, negros y rojos, se obtuvieron los siguientes

resultados en mg/100g.

Replica Blancos Negros Rojos

1 12.16 11.90 16.41

2 12.25 11.82 16.49

3 12.34 11.90 16.41

Calcule la media de cada serie de resultados.

1.9.5 Determine para el siguiente conjunto de valores: 8, 7, 6, 9, 4, 5, el rango.

1.9.6 Determine para el siguiente conjunto de datos 2, 3, 3, 4, 5, 6, 7, 8, el rango medio.

1.9.7 Calcule la desviación estándar del siguientes conjunto de datos: 17, 14, 2, 5, 8, 7, 6, 8, 5, 4, 3, 15, 9,

15, 9, 12, 11, 6

1.9.8 Calcule la varianza del siguientes conjunto de datos: 25.5, 21.0, 3.0, 7.5, 12.0, 10.5, 9.0, 12.0, 7.5, 6.0,

4.5, 22.5, 13.5, 22.5, 13.5, 18.0, 16.5, 9.0

1.9.9 Calcule la desviación estándar relativa del siguiente conjunto de datos: 19.87, 27.17, 34.48, 32.04,

29.61, 34.48, 27.17, 24.74, 22.30.

1.9.10 Se sabe que la desviación estándar de la determinación de ocratoxina A en muestras de café verde

es 0.05 ppb. En un laboratorio se analizan 4 muestras de café verde y se encuentra que contienen 2.5 ppb

de ocratoxina A, ¿Cuál es el intervalo de confianza del 95% para la media de la muestra?

1.9.11 Comprueba de la siguiente serie de resultados si 26.5 es un valor anómalo: 22.1, 22.4, 22.9, 23.0,

23.5, 23.7, 23.9, 26.5.

Page 19: Introduccion Al Tratamiento Estadistico de Datos

19

1.9.12 Comprueba de la siguiente serie de resultados si 14.7 es un valor anómalo: 12.3, 12.9, 12.7, 13.0,

12.7, 14.7. Usando el test de Dixon.

1.9.13 En la determinación de Hg por AA se obtuvieron los siguientes resultados: 38.9, 37.4 y 37.1% para un

material de referencia que contiene 38.9% de Hg. ¿Qué se puede decir de la media respecto al valor

verdadero?

1.9.14 En la determinación de Ca por volumetría se obtuvieron los siguientes resultados: 17.5, 17.4 y 18.3

ppm para un material de referencia que contiene 18.0 ppm de Ca. ¿Qué se puede decir de la media respecto

al valor verdadero?

1.9.15 En la comparación de dos procedimientos de digestión previos a la determinación de Nitrógeno en

harina se obtuvieron los siguientes resultados:

Procedimiento 1: media 1 = 2.05g /100g s12 = 0.050 (n1= 30)

Procedimiento 2: media 2 = 2.21g /100g s22 = 0.040 (n2= 32)

Es conocido que mediante el procedimiento 1 hay alguna pérdida de Nitrógeno durante la digestión.

¿Muestran ambos procedimientos resultados similares?

1.9.16 Consideremos el caso del ejemplo anterior en el que se varia el número de muestras n1 y n2:

Procedimiento 1: media1 = 2.05g/100g s12 = 0.050 (n1= 8)

Procedimiento 2: media 2 = 2.21g/100g s22 = 0.040 (n2= 7)

¿Son iguales las medias de ambos procedimientos?

1.9.17 Consideremos una situación en la se obtuvieron los siguientes datos:

Método 1: media1 = 5.08 s12 = 0.035 (n1= 4)

Método 2: media 2 = 7.09 s22 = 0.038 (n2= 3)

¿Son iguales las medias de ambos métodos?

1.9.18 Consideremos otro ejemplo en el que se quiere comparar 2 métodos:

Método1: media 1 = 2.05g/100g s12 = 0.050 (n1= 9)

Método 2: media 2 = 2.21g/100g s22 = 0.010 (n2= 8)

¿Son iguales las medias de ambos métodos?

1.9.19 Consideremos una situación en la se obtuvieron los siguientes datos:

Método 1: media1 = 19.6 s12 = 1.439 (n1= 6)

Método 2: media 2 = 23.9 s22 = 0.123 (n2= 5)

¿Son iguales las medias de ambos métodos?

Page 20: Introduccion Al Tratamiento Estadistico de Datos

20

1.9.20 En un laboratorio se desarrolló para el análisis de un antibiótico y se contrastó con los resultados de

un método de referencia, indique si existe una diferencia significativa entre los 2 métodos. Los resultados de

ambos métodos fueron:

Desarrollado 89.6 76.6 52.2 50.4 72.4 75.0 34.1 60.3

Referencia 91.0 73.6 58.2 49.9 82.1 73.4 38.1 60.1

1.9.21 Se determina la pureza de sal común en dos almacenes determinándose el cloruro por argentometría.

Los resultados se muestran en la tabla siguiente:

Punto Almacén 1 Almacén 2

1 98.6 98.5

2 98.7 98.6

3 99.5 99.1

4 99.9 100

5 99.7 99.3

¿Son iguales las medias de los 2 almacenes?

1.9.22 Los valores de la varianzas para dos conjuntos de datos fueron: S12 = 0.035 (n1 = 7) y S2

2 = 0.044 (n2

= 8) ¿son iguales las varianza de los dos conjuntos de datos?

1.9.23 Se realiza ejercicio de determinación de ácido acético en vinagre por volumetría acido base, en dos

muestras obteniendo los siguientes resultados:

n Muestra 1 Muestra 2

1 5.7 5.4

2 5.9 5.3

3 6.1 5.2

4 5.8

¿Son iguales las varianzas de las 2 muestras?

1.9.24 Un análisis de Cadmio en 5 muestras, produjo los siguientes resultados:

n M1 M2 M3 M4 M5

1 32.9 33.0 32.5 35.0 33.2

2 34.1 33.3 34.7 35.2 34.0

3 36.4 37.1 35.0 36.3 34.5

4 37.5 37.4 37.5 37.1 37.5

5 36.3 36.2 34.8

6 35.9

Determine si las varianzas de las muestras son iguales.

Page 21: Introduccion Al Tratamiento Estadistico de Datos

21

1.9.25 Un análisis de Cadmio en 5 muestras, produjo los siguientes resultados:

Durante el análisis de aflatoxina B1 en 5 muestras de maní, se obtuvieron los siguientes resultados:

n M1 M2 M3 M4 M5

1 2.6 3.3 1.7 5.1 3.2

2 4.5 3.9 1.8 5.2 3.4

3 6.6 3.7 1.9 6.3 3.5

4 7.3 3.4 1.6 7.1 3.7

5 5.3 1.4 3.8

6 1.9

Determine si las varianzas de las muestras son iguales.

1.9.26 Considere el ejemplo de análisis de Hierro en 3 muestras de frijoles cocidos, determine la

homogeneidad de las varianzas.

n Frijol Blanco Frijol Negro Frijol Rojo

1 3.039 3.497 1.931

2 3.059 3.639 2.214

3 3.215 3.487 2.072

1.9.27 Considere el caso del anterior de determinación de aflatoxina B1, pero con los siguientes resultados.

n M1 M2 M3

1 3.2 1.7 5.1

2 3.4 1.8 5.2

3 3.5 1.9 6.3

Determine la homogeneidad de las varianzas usando el test de Cochran

1.9.28 En un laboratorio se determina plomo en agua en muestras provenientes de 3 ríos, los resultados

obtenidos en ppm se muestran en la tabla siguiente.

n Rio1 Rio2 Rio3

1 2.94 3.01 3.30

2 2.96 3.10 3.20

3 2.95 3.04 3.20

4 2.96 3.06 3.10

5 2.94 3.04 3.30

Determine si existen similitudes entre las medias de los resultados de los 3 ríos.

Page 22: Introduccion Al Tratamiento Estadistico de Datos

22

1.9.29 Se ha realizado el análisis 3 vinos en relación a sus grados alcohólicos (GA), pH y acidez total (Aci

Tot), con el objetivo de comparar estos parámetros. Los resultados se muestran en la tabla siguiente:

GA pH Aci Tot

Vino 1 8.03 2.57 4.17

Vino 2 12.00 3.79 5.23

Vino 3 8.00 2.51 4.17

Determine la si las medias de los parámetros son iguales.

1.9.30 Considérese el caso de los siguientes datos:

n x y

1 0.5 0.123

2 1.0 0.248

3 1.5 0.499

4 2.0 0.994

5 2.5 1.983

Obtenga la gráfica de x vs y, determine los coeficientes de regresión, los residuos, la gráfica de los residuos.

Esta información se puede obtener a partir del software MS Excel, usando la herramienta de análisis de datos

y la opción regresión.

1.9.31 Se ha realizado una curva de calibrado de un método espectrofotométrico para el análisis de fósforo.

Los resultados se muestran en la tabla siguiente:

Concentración Absorbancia

0 0.053

5 0.085

10 0.097

20 0.155

40 0.240

Determine los coeficientes de regresión y los residuos.

1.9.32 Calcular la desviación estándar del intercepto, de la pendiente de la recta y los límites de confianza

para la pendiente y el intercepto, para el siguiente conjunto de datos:

xi 0 2 4 6 8 10 12

yi 2.1 5 9 12.6 17.3 21 24.7

Page 23: Introduccion Al Tratamiento Estadistico de Datos

23

1.9.33 Tomando los datos de determinación de hierro mostrados en la tabla siguiente, determine la

concentración de hierro en una muestra y su error aleatorio asociado.

Concentración Replica1 Replica2 Replica3 Media

0.00 0.006 0.001 0.002 0.003

0.25 0.029 0.034 0.031 0.031

0.50 0.047 0.047 0.047 0.047

0.75 0.07 0.07 0.069 0.070

1.00 0.094 0.094 0.094 0.094

Muestra

0.048

0.049

0.047

Media 0.0480

1.9.34 Tomando los datos del problama19.31, determine la concentración de fosforo en una muestra de

pinol y su error aleatorio asociado.

Muestra de Pinol

0.155

0.156

0.157