Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios,...

175
1 Biometría Ciencias Biológicas Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Apuntes Teóricos 2009

Transcript of Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios,...

Page 1: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

1

Biometría Ciencias Biológicas

Facultad de Ciencias Exactas y Naturales

Universidad de Buenos Aires

Apuntes Teóricos

2009

Page 2: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

2

Indice Página Introducción…………………………………….. 3 Muestra y Población…………………………...

3

Estadística descriptiva…………………………

9

Distribucion de Frecuencias…………………..

9

Probabilidades………………………………….

16

Distribución en Probabilidades……………….

30

Distribuciones Discretas……………………….

39

Distribuciones Continuas……………………...

52

Distribuciones Muestrales. Estimación………

62

Prueba de Hipótesis…………………………...

78

Análisis de Frecuencias……………………….

95

Análisis de la Varianza de un Factor………...

109

Análisis de la Varianza de dos Factores…….

137

Análisis de Regresión y Correlación…………

158

Page 3: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

3

Por Javier Calcagno BIOMETRÍA

INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística para resolver problemas relacionados con las Ciencias Biológicas. El significado de esta definición no es trivial, porque si bien los conocimientos teóricos son de primordial importancia para la comprensión de los procedimientos y la validación de los supuestos de las técnicas estadísticas aplicadas, es imprescindible el conocimiento de los procesos biológicos que rigen el funcionamiento y la actividad de los organismos y de su relación con el medio. De nada sirve el conocimiento teórico si no se tiene el criterio profesional del biólogo en el momento de tomar decisiones, plantear experiencias y evaluar el resultado de las mismas. Los organismos son mas que números No es casual que en las mas importantes Universidades del mundo, sean biólogos los académicos a cargo del dictado de la estadística para biólogos. Es significativo el hecho de que los textos de referencia por excelencia en biometría son obra de biólogos. Claros ejemplos son dos textos propuestos en este curso (Biometry, de R. SOKAL y R. ROHLF que trabajan en la State University of New Cork y Biostatistical Análisis, de J. H ZAR, profesor Departamento de Ciencias Biológicas de la Northern Illinois University)

MUESTRA Y POBLACIÓN Se definen como datos estadísticos a un conjunto de dos o más mediciones, puntajes o valores registrados sobre individuos u objetos, o conjuntos de individuos u objetos que se caracterizan por su variabilidad. Por ejemplo si se tiene un conjunto de datos constituido por el largo de la valva de mejillones, este es un conjunto estadístico de datos pues esa medida puede tomar, teóricamente, infinitos valores en un rango dado; pero la misma observación realizada sobre un conjunto de mejillones cuya valva mide exactamente lo mismo, no resulta un conjunto estadístico, pues no presenta variabilidad. A continuación se definen términos que serán de uso constante en el desarrollo del curso y que constituyen la base para la comprensión de los métodos estadísticos. Unidad experimental (u.e.) Es la mínima unidad sobre la que se realiza la medición. Ejemplos a) si se quiere estudiar el peso de ratas sometidas a un determinado tratamiento, la u.e. es cada una de las ratas sometidas a ese tratamiento. b) si se quiere estudiar la cantidad de huevos puestos por hembra de un insecto, la u.e. es cada hembra de ese insecto. c) si se estudia el largo del tallo de una variedad de trigo, la u.e. es cada una de las plantas de trigo de esa variedad. d) Si se estudia la cantidad de individuos de una especie de pájaro parasitados con cierto platihelminto por cada cinco individuos de esa especie de pájaro escogidos al azar, la u.e. es un conjunto de cinco individuos de esa especie de pájaro.

Page 4: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

4

Observación individual (o.i.) Es cada una de las observaciones o mediciones tomadas sobre cada unidad experimental. En los ejemplos anteriores: a) peso de una rata sometida a un determinado tratamiento. b) cantidad de huevos puestos por una hembra de un insecto. c) largo del tallo de una planta de trigo de esa variedad. d) cantidad de individuos de una especie de pájaro parasitados con cierto platielminto de un grupo de cinco individuos de esa especie de pájaro. Variable Es una propiedad o característica que toma valores diferentes (varía) de unidad experimental en unidad experimental: la variable es una propiedad con respecto a la cual las unidades experimentales de una población difieren de algún modo verificable. Sobre cada unidad experimental pueden observarse una o más variables. Comúnmente las variables se denotan utilizando las últimas letras del alfabeto en mayúscula, es decir X, Y ó Z y para las observaciones de esas variable, las mismas letras pero en minúscula, con el agregado de un subíndice. Por ejemplo xi es una observación particular de la variable X. En los ejemplos anteriores: a) X: peso, en gramos de ratas sometidas a un determinado tratamiento. b) Y: cantidad de huevos puestos por hembra de un insecto. c) Z: largo del tallo, en cm. de plantas de trigo de esa variedad. d) W: cantidad de individuos de una especie de pájaro parasitados con cierto platielminto por cada cinco individuos de esa especie de pájaro. Distintos conceptos de población Si se le pregunta a una persona que es una población, probablemente la mayoría responda que se trata de un grupo de personas que viven en el mismo lugar o hábitat y en el mismo momento. Esa persona no estaría equivocada si por ejemplo se estuviera refiriendo a su ciudad o país, pero en biología se puede hacer una generalización y extender esta idea para entender el concepto ecológico que dice que una población está formada por individuos de la misma especie, que conviven en un lugar y en un tiempo determinado. Esta definición es perfectamente válida, pero en el contexto de un estudio estadístico se deben tener en cuenta otros conceptos relacionados con la población: Población Es el conjunto de todas las unidades experimentales que en el ejemplo (c) serían, por ejemplo todas las plantas de trigo de esa variedad. As veces la población puede coincidir con la llamada población biológica, pero en otras oportunidades la población en estudio no está representada por el mismo concepto. Población estadística Es el conjunto de las observaciones individuales realizadas sobre todas las unidades experimentales. En el mismo ejemplo, serían los largos de todas las plantas de trigo de esa variedad (que en este caso estará representada por números reales positivos. Por esta razón la población estadística se suele llamar universo de las medidas).

Page 5: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

5

Población hipotética o virtual Es el caso en el que de hecho la población en cuestión no existe. En el ejemplo a) donde se estudia el peso de ratas sometidas a un determinado tratamiento la población acerca de la cual podrían extenderse las conclusiones a todas las ratas de esa raza sometidas al mismo tratamiento. Esta es la población es 'virtual' o 'imaginaria' porque obviamente no existe un lugar donde convivan ratas sometidas a ese tratamiento sino que son producto de un experimento realizado por el investigador. Por lo general, debido a limitaciones presupuestarias, de tiempo, de personal, etc no es posible tomar a toda la población para realizar un estudio. En ese caso se toman subconjuntos de esta población, son las muestras. La muestra será la única información disponible, por lo que deberá representar lo más fielmente posible a la población en estudio. La información suministrada por la muestra se utiliza básicamente para inferir características o propiedades de la población (estimación) y para responder preguntas concretas acerca de ella. Muestra de tamaño n Es un conjunto de n unidades experimentales seleccionadas por algún procedimiento específico. En los ejemplos anteriores una muestra podría ser: (a) muestra de tamaño n=20: 20 ratas sometidas al tratamiento en cuestión; (b) muestra de tamaño n=35: 35 hembras del insecto atrapadas en un bosque; (c) muestra de tamaño n=200: 200 plantas de trigo de esa variedad en un campo de Santa Fé; (d) muestra de tamaño n=30: 30 grupos de cinco individuos de esa especie de pájaro. Muestra estadística de tamaño n Es un conjunto de n observaciones individuales realizadas sobre cada una de n unidades experimentales seleccionadas antes. En los ejemplos anteriores una muestra podría ser: (a) muestra de tamaño n=20: los pesos, en gramos, de las 20 ratas sometidas al tratamiento en cuestión; (b) muestra de tamaño n=35: la cantidad de huevos de 35 hembras del insecto atrapadas en un bosque; (c) muestra de tamaño n=200: el largo, en cm de 200 plantas de trigo de esa variedad en un campo de Santa Fé; (d) muestra de tamaño n=30: la cantidad de individuos parasitados de 30 grupos de cinco individuos de esa especie de pájaro. Es importante tener en cuenta que las conclusiones a las que se llegue a partir de la muestra obtenida serán válidas para la población de la que fue extraída. Sin embargo, desde el punto de vista del experimentador los resultados pueden ser extrapolables a unidades experimentales cuya inclusión en la muestra era imposible. Esa extrapolación se realiza a un conjunto más amplio, esa experiencia tiene un determinado alcance. Alcance de la experiencia Es el grado de generalidad que deberán tener las conclusiones, el conjunto al cual resulta válido extender los resultados obtenidos para la población de la que se extrajo la muestra, sobre la base de consideraciones teóricas del hecho particular de que se trate, de las condiciones en que se ha realizado el experimento, etc. Aunque las conclusiones obtenidas, estrictamente son solo válidas para las condiciones en que se realizó la experiencia o el muestreo, si se toma el ejemplo (a) las deducciones que se obtienen acerca de la fisiología de las ratas en cuestión puede justificar su validez para todas las ratas e incluso, bajo ciertas condiciones

Page 6: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

6

generales, pueden ser válidas para otras especies; de allí el valor de los estudios en animales en la investigación aplicada a la salud. No son pocos los adelantos producidos por la medicina humana, que tienen su base en experimentos realizados con animales de laboratorio.

Muestreo

La obtención de una muestra de la población a estudiar es una de las etapas fundamentales de todo plan de investigación. Existen distintas técnicas de muestreo, pero todas se basan en el hecho de que cada unidad experimental debe tener la misma probabilidad de ser elegida para integrar la muestra y esta probabilidad es, en general, conocida por el investigador. Cuando se habla de una muestra de tamaño n se requiere que cada conjunto de n unidades experimentales tenga la misma probabilidad de ser seleccionado. Algunos de los métodos o técnicas de muestreo son: muestreo simple al azar, muestreo estratificado, muestreo sistemático. En cada caso, existe un procedimiento al azar para determinar que unidades experimentales (o qué conjunto de unidades experimentales) serán incluidas en la muestra. Muestreo aleatorio simple Una muestra estadística simple al azar de tamaño n consiste en un conjunto de n observaciones realizadas sobre cada una de n unidades experimentales extraídas de una población donde todos los conjuntos de tamaño n tienen la misma probabilidad de ser seleccionados para integrar la muestra. Para extraer una muestra al azar un proceso tradicional sencillo es la utilización de números aleatorios: se enumeran las unidades experimentales de la población en estudio y se van extrayendo al azar según los números de una tabla de números aleatorios o utilizando una computadora. Muestreo aleatorio estratificado El muestreo al azar algunas veces introduce variabilidad muestral. En algunas situaciones la variabilidad puede reducirse usando alguna otra información acerca de la población. Una muestra aleatoria estratificada es la obtenida mediante la separación de la población en grupos excluyentes, llamados estratos, y la selección posterior de una muestra aleatoria dentro de cada estrato. Si por ejemplo se quiere estimar la densidad poblacional de una especie que tiene una preferencia marcada por un determinado hábitat, si se hiciera un muestreo al azar simple por ejemplo por medio de una cuadrícula de superficie fija donde eligiéramos al azar algunos de estos cuadrados y contáramos los individuos en cada uno de ellos, probablemente habría muchos cuadrados vacíos y otros con una gran cantidad de organismos, pues los organismos que estamos estudiando no se disponen al azar en el espacio. En estos casos es adecuado dividir el hábitat en subhábitats o estratos que tienen diferente densidad de individuos. Si luego dentro de cada uno de estos estratos el muestreo es al azar, el muestreo se llama muestreo aleatorio estratificado. Muestreo sistemático La idea de este tipo de muestreo es tomar la muestra en forma sistemática, repitiendo un procedimiento fijado de antemano, siguiendo algún criterio, espacial o temporal. a) tomar uno de cada diez nombres de una lista, b) tomar una muestra cada 20 metros en una transecta, etc.

Page 7: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

7

Variabilidad explicada En la naturaleza se observa una gran variabilidad y esta variabilidad se puede deber a múltiples factores. El propósito del análisis estadístico es evaluar los factores que causan variabilidad en un conjunto de observaciones. Si se registran pesos de individuos de la misma edad y especie no todos resultarán iguales, el peso variará de individuo en individuo. Esta variabilidad puede ser explicada por ejemplo por causas genéticas, diferencias en la alimentación, diferentes historias clínicas, diferentes ambientes donde desarrolla sus actividades, etc. Si se toman por ejemplo grupos de individuos provenientes de diferentes regiones geográficas, puede detectarse una variabilidad entre los organismos provenientes de diferentes regiones (variabilidad entre grupos o poblaciones) y también entre los individuos provenientes de la misma región (variabilidad dentro del grupo o entre individuos).

Tipos de variables aleatorias Variables categóricas o cualitativas Cuando los miembros de la población en estudio son divididos en categorías, (color, sexo, etc) se está en presencia de una variable categórica. Las categorías pueden ser naturales, como el caso del sexo y el color o arbitrarias, como las ocupaciones laborales (profesional, empleado, transportista, etc). Debido a que en este tipo de variables no se realiza una medición que se exprese numéricamente, sino que se registran características (cualidades), se dice que estas variables son categóricas o cualitativas. Cuando se trata de una variable con solo dos categorías, la variable es dicotómica. Variables numéricas o cuantitativas Son aquellas que pueden ser expresadas numéricamente mediante un número que se obtiene simplemente de un conteo o de una medición. Existen dos tipos de variables cuantitativas, las discretas y las continuas. Variables discretas son aquellas que resultan de conteos y por lo tanto sus posibles valores se pueden expresar mediante números enteros (0, 1, 2,......). Volviendo a los ejemplos del principio, son variables discretas la (b) Y: cantidad de huevos puestos por hembra de un insecto y la (d) W: cantidad de individuos de una especie de pájaro parasitados con cierto platielminto por cada cinco individuos de esa especie de pájaro. Variables continuas son aquellas que resultan de mediciones cuyos posibles valores pueden ser expresados por medio de números reales. En los ejemplos del principio, son variables continuas la (a) X: peso, en gramos de ratas sometidas a un determinado tratamiento y la (c) Z: largo del tallo, en cm. de plantas de trigo de esa variedad.

Escalas

Además de la clasificación de las variables en categóricas y numéricas éstas pueden ser clasificadas según el tipo de escala:

Escala de las variables categóricas Las categorías en las que está dividida la variable pueden o no tener una ordenación natural. Una clasificación realizada en cuanto al sexo, por ejemplo no tiene una

Page 8: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

8

ordenación natural, pues no existe razón lógica para pensar que un sexo se debe poner en orden anterior o posterior al otro. En estos caso la escala es nominal. Si las categorías siguen una ordenación natural o se pueden ordenar, por ejemplo si se clasifican organismos según el orden en que nacen (primero, segundo, tercero, etc), se dice que la escala es ordinal. Escalas para variables numéricas Las variables numéricas siempre se pueden ordenar ya que los números por definición tienen un orden establecido. Las variables numéricas, sean discretas o continuas, se clasifican según que el cero de la escala tenga o no un significado. Si en el marco de un experimento para medir fertilidad de un insecto, un individuo pone cero huevos, ese cero tiene sentido ya que expresa la ausencia de huevos puestos por el individuo en cuestión. En cambio si se registra la temperatura en, por ejemplo grados Fahrenheit o Centrígrados, el valor cero en esa escala es artificial, pues no indica la falta de temperatura. Tampoco tiene sentido decir que un objeto cuya temperatura es de 32 grados es el doble de caliente que uno cuya temperatura es de 16 grados; pero sí tiene sentido decir que la diferencia entre 200C y 25°C es la misma que entre 50C y 10°C (ó 77°F- 68°F = 50°F - 41°F) . En el caso de las temperaturas, la escala se denomina escala intervalo. En estos casos, tiene sentido comparar diferencias pero no cocientes. Cuando se pueden comparar cocientes se dice que la variables se miden en escala cociente; por ejemplo la variable peso, ya que el cociente entre dos pesos es el mismo sea éste registrado en gramos o en onzas.

Escala nominal Categórica Escala ordinal

Variable Escala de intervalo Numérica Escala de cociente

Page 9: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

9

ESTADÍSTICA DESCRIPTIVA

Regla para el registro de datos Cuando se va planea una experiencia o un muestreo es necesario en primer lugar establecer algunos puntos a tener en cuenta en cuanto a la manera en que se van a expresar los datos obtenidos. En primer lugar es necesario conocer de antemano con cuantas cifras significativas han de hacerse los registros. Por cifras significativas se entiende todos los dígitos antes y después de la coma decimal, comenzando a contar desde el primero distinto de cero. Por ejemplo 14,3 tiene tres cifras significativas mientras que 0,028 tiene sólo dos. Una regla para el registro de datos puede ser que todos los registros se hagan con el mismo número de decimales

DISTRIBUCIÓN DE FRECUENCIAS Frecuencia absoluta Sea {x1,...,xn} una muestra aleatoria de tamaño n de la variable aleatoria X. Se llama frecuencia absoluta o simplemente frecuencia, de la observación xi a la cantidad de veces que ésta aparece en la muestra y se indica F(xi) = Fi Frecuencia relativa Es el cociente entre la frecuencia absoluta y el tamaño de la muestra, se indica: Frecuencia acumulada Es el número de veces que la variable toma en la muestra valores menores o iguales a un valor dado. Se indica : Fa(xi) = F(X ≤ xi) Distribución de frecuencias sin agrupar Si se tiene una muestra de tamaño n de una variable aleatoria X, la distribución de frecuencias sin agrupar se puede resumir en una tabla, llamada de frecuencias, donde a cada valor de la variable corresponde su frecuencia (absoluta o relativa) y se indica:

X Frec. Absoluta Frec relativa. x1 Fi f1 x2 F3 f2 - - - - - -

Xk Fk fk Suma n 1

Distribución de frecuencias agrupadas Cuando se refiere a frecuencias agrupadas para una variable continua, esto significa que la variable se presenta dividida en intervalos. Estos intervalos se denominan intervalos de clase que deben ser contiguos (pegados) y excluyentes (una observación no puede pertenecer a dos intervalos) y los intervalos de clase así definidos deben contener a todos los valores de la muestra.

fnFf )xi(

ii ==

Page 10: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

10

Existen distintos criterios para la construcción de los intervalos de clase para que se puedan satisfacer los requisitos citados mas arriba: a) Cuando un valor de la muestra cae en algún extremo del intervalo se utiliza como

regla que dicho valor se asigna al intervalo inferior o al superior. Cualquiera de los dos criterios son válidos, siempre que se aplique de la misma manera para todos los intervalos.

Gráficos La información resumida en las tablas de frecuencias puede ser presentada gráficamente. La gama de gráficos que pueden hacerse es amplia y su construcción y análisis se verá con detalle en las clases prácticas.

USO DESCRIPTIVO DE LOS ESTADÍSTICOS

Una de las utilidades básicas de la muestra es la de caracterizar a la población, estimando algunas de sus características y hacer inferencia acerca de ellas. Estadístico. Sea {x1,...,xn} una muestra aleatoria de tamaño n de la variable aleatoria X. Un estadístico es una función real de la muestra:

ε = f(x1,....., xn} Por extensión suele usarse el término estadístico para referirse al valor de la función . Entonces se habla del estadístico y = ε = f(x1,....., xn} cuando en realidad se está refiriendo a la función Y= f(X, ...., Xn) De la definición se deduce que el valor del estadístico varía de una muestra a otra de la misma variable. Se los llama estadísticos o "características muestrales"; para diferenciarlos de los parámetros que son las "características poblacionales". Los estadísticos son útiles para describir la muestra y para estimar parámetros de la población. El estudio del uso descriptivo de los estadísticos es lo que se denomina Estadística Descriptiva.

Estadísticos de posición o medidas de tendencia central

Son los que indican el 'centro' de la muestra, representan los valores alrededor de los cuales fluctúan las observaciones individuales de la muestra. Entre los estadísticos de posición se encuentran la media aritmética, la media geométrica, la mediana, la moda, los cuartiles, los percentiles. De aquí en mas {x1,...., xn} se refiere a una muestra aleatoria de tamaño n de una variable aleatoria X, extraída de una población determinada.

Page 11: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

11

1) Media aritmética. También conocida simplemente como media. Se define

como el promedio aritmético de los valores de la muestra, y se indica :

donde Fi es la frecuencia de la observación xi cuando cada xi tiene frecuencia uno

Media geométrica. Se índica MGx y se calcula como:

Es útil para promediar porcentajes, tasas, índices, etc. 3) Moda. Es el valor de la variable de mayor frecuencia en la muestra y se indica con Mo. Cuando se tiene una distribución de frecuencias agrupadas con intervalos de igual tamaño, la moda es sencillamente la marca de clase del intervalo de mayor frecuencia, llamado 'intervalo modal'; cuando los intervalos son de distinta longitud puede no coincidir con este valor y tanto más cuanto más diferentes son las longitudes de los intervalos. Existen distribuciones con más de una moda. 4) Mediana: En una serie de datos ordenados de menor a mayor es un valor de la variable que deja mitad de observaciones a la izquierda y mitad a la derecha. Se indica con Me. Es decir la mediana es un valor M de la variable tal que:

F(X ≤ Me) = F(X ≥ Me) = Fa(Me) = 0.50n, donde n el tamaño de la muestra. Para estimar la mediana se procede del siguiente modo: Primero se ordenan los datos de menor a mayor. Si n es impar, la mediana es el valor de la variable que ocupa el lugar

Si n es par, la mediana es el valor de la variable entre los valores que ocupan los

lugares y

x

n

xix

n

1∑

=

n

Fixix

n

1∑

=

∑=⋅⋅⋅=n

y logantilogn nx 21 x.....xxMG

21n +

22n +

2n

Page 12: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

12

Relación entre la media, moda y mediana La media, la mediana y la moda son estimadores de la media poblacional. La elección del estimador de la media poblacional depende de la población en estudio. Si la distribución es simétrica los tres estimadores coinciden, en caso contrario la media “se desplaza” hacia la cola más pesada de la distribución, de manera que cuanto mas asimétrica la distribución menos adecuada la elección de la media como medida de tendencia central.

5) Cuartiles. Son tres valores de la variable, Q1, Q2 y Q3 tales que:

Fa(Q1) = 0.25 n Fa(Q2) = 0.50 n Fa(Q3) = 0.75 n Observar que Q2 = M

Estadísticos de dispersión

Dan una medida de la dispersión de los valores de la muestra alrededor del valor central. 1) Amplitud muestral. Es la diferencia entre los valores máximo y mínimo de la muestra. Se indica: w = xmax − xmin 2) Desviación intercuartil. Q3 − Q 1 3) Promedio cuadrático de las desviaciones 5) Varianza muestral . 6) Desviación estándar.

simétrica asimétrica hacia la derecha asimétrica hacia la izquierda

( )n

xxiq2

∑ −=

( )1nxxis

22

−∑ −

=

ss 2=

Page 13: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

13

Ventajas de s² sobre q q subestima la varianza poblacional y debe ser corregido con el factor n/(n-1) obteniéndose s², que es un estadístico insesgado, o sea que no depende de la muestra específica sino que su valor esperado coincide con el verdadero valor de varianza. El estimador q es útil cuando se tiene un censo o cuando sólo interesa la variabilidad de la muestra específica con la que se está trabajando, pero no se quiere realizar una estimación poblacional. Para un tamaño de muestra suficientemente grande ambos coinciden. Suma de cuadrados. Se denomina así a la suma de cuadrados de las desviaciones respecto a la media, se la indica SC y se define como:

SC = ∑1n (xi − )² = ∑xi ² − n ² = SCxx

El subíndice de la suma de cuadrados, xx, indica que la suma de cuadrados está calculada para la variable X. Grados de libertad. El denominador de s², n − 1, se refiere a los grados de libertad de la varianza. Los grados de libertad representan el número de sumandos independientes de la suma de cuadrados; es decir la cantidad de desviaciones independientes. También pueden ser definidos como el número de desvíos totales menos el número de parámetros a estimar para el cálculo de dichos desvíos Cuadrado medio Como se vio, la varianza muestral es el cociente entre una suma de cuadrados y sus grados de libertad. Este cociente recibe el nombre de cuadrado medio. Entonces la varianza muestral, basada en una muestra de tamaño n, es un cuadrado medio con n−1 grados de libertad. Estadístico de asimetría Es el Coeficiente de asimetría, g1, que mide cuanto se aleja de la simetría la distribución de una variable aleatoria y se calcula como:

el signo del coeficiente indicará si la cola más pesada es a la derecha o a la izquierda, o sea si la media se corre a la derecha o a la izquierda. Si la curva es perfectamente simétrica g1=0. Si g1> 0 la distribución es asimétrica hacia la derecha y si g1<0 la distribución es asimétrica hacia la izquierda.

x x

( )sn

Fxxig 3i

3

1∑ −

=

Page 14: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

14

Estadístico de aplanamiento Es el Coeficiente de kurtosis, g2, que indica si las colas de la distribución son demasiado pesadas o demasiado livianas y se calcula como: Si la curva es normal g2 = 0. Si g2 > 0 la curva es leptocúrtica y si g2 < 0 la curva es platicúrtica.

g2 = 0 g2 > 0 g2 < 0 Coeficiente de variación muestral Mide la variabilidad de una muestra independientemente de su media y se calcula como: Para muestras pequeñas, este coeficiente es sesgado por lo que se calcula como:

Ejemplos de utilización del CV 1) Se quiere estudiar si una muestra es más o menos variable con respecto a una característica que a otra. A una muestra de mujeres de 20 años se le registra el peso (en kg) y la altura (en cm). El CV es útil en este caso para saber cual de las dos características medidas es más variable en esta muestra

Peso Altura Media 52 160 Desvío estándar 8 9,92 CV 15,39 % 6,20 %

( ) 3sn

Fxxig 4i

4

2 −⎥⎥⎦

⎢⎢⎣

⎡∑ −=

100xsCV ⋅=

⎟⎠⎞

⎜⎝⎛ +=

n411CVCV*

Page 15: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

15

Aunque el valor del desvío estándar es mayor para la altura, esto no significa que sea esta la que presenta mayor variabilidad, pues como se dijo mas arriba, este valor está influenciado por el valor de la media y las si la variable está medida en diferentes unidades. Cuando se observa el valor del CV se verifica que, para las mujeres de 20 años el peso presenta una mayor variabilidad que la altura. 2) Se quiere comparar la variabilidad de dos poblaciones con respecto a una misma variable: altura de hombres jóvenes blancos

Inglaterra Argentina Media 75 pulgadas 160 cm Desvío estándar 2 pulgadas 10 cm Coef. Variación 2.6 % 6.25 %

Sobre la base del valor del CV se concluye que los argentinos serían de alturas más variables que los ingleses. En este caso como la altura está medida en diferentes escalas para ambas muestras, la utilización del s es, además de incorrecta, confusa.

Page 16: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

16

PROBABILIDADES Introducción La idea de probabilidad se puede interpretar adecuadamente a nivel intuititivo. A menudo se escuchan frases como: "la probabilidad de que llueva hoy es del 95%" o "hay un 10% de probabilidad de que llueva hoy". En general sucesos o eventos muy comunes tendrán una probabilidad alta y los improbables o muy poco comunes una probabilidad pequeña. Se dice "la inundación pudo haber sido causada por la lluvia" cuando no se está seguro de la causa o "la inundación fue causada con seguridad por la lluvia" cuando se lo está. Los estadísticos reemplazan las palabras informativas "pudo" y "con seguridad" por un número que va de cero a uno, que indica que tan probable o improbable es la causa de la inundación. La interpretación del concepto de probabilidad puede sintetizarse de la siguiente forma: 1.- Las probabilidades son números comprendidos entre cero y uno inclusive, que reflejan las expectativas con respecto a que un suceso físico determinado se produzca o no. 2.- Una probabilidad próxima a uno indica que es de esperar que un determinado suceso ocurra. No indica que el suceso vaya a producirse, solo que es un tipo de suceso que generalmente ocurre. 3.- Una probabilidad próxima a cero indica que no es de esperar que un determinado suceso ocurra. No indica que el suceso realmente no ocurrirá. 4.- Una probabilidad próxima a ½ indica que es tan verosímil que el suceso ocurra como que no ocurra. A un suceso que se produce con absoluta certeza se le asigna probabilidad 1 y a un suceso que cuya ocurrencia es imposible se le asigna probabilidad cero. ¿Qué puede ser considerada una probabilidad grande o pequeña? Sin duda una probabilidad de 1 es grande y una de 0 es pequeña. ¿Cuán cerca a estos extremos debe encontrarse una probabilidad para ser considerada grande o pequeña?. No existe una respuesta definitiva para esta pregunta. La interpretación de las probabilidades siempre incluye una cuota de subjetividad. Una probabilidad que se considera grande en un contexto, puede parecer pequeña en otro. Por ejemplo si se va a realizar un paseo al aire libre y la probabilidad de lluvia para ese día es del 10%. Si se considera que esa probabilidad es baja no hay mayor problema en salir de todas maneras y sin paraguas porque lo más probable es que no llueva y si de todos modos lloviera no sería tan grave mojarse un poco. Pero si se supone que uno es convocado para ser el primer hombre en descender al fondo del océano en un nuevo aparato submarino y existe una probabilidad del 10% de que falle, la valoración de esa probabilidad puede ser distinta a la que se hace en el primer ejemplo.

Page 17: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

17

Experimento o ensayo aleatorio En muchos campos diferentes de la actividad científica se pueden realizar experimentos u observaciones que pueden repetirse varias veces en iguales condiciones, dando cada repetición un resultado (u observación) cierto definido. Algunos ejemplos de experimentos:

1.1. Arrojar una moneda al aire tres veces y contar el número de caras. 1.2. Arrojar dos monedas al aire y registrar sobre que cara caen. 1.3. Contar el número de ácaros en un lobo marino (huésped). 1.4. Contar el número de peces extraídos de un estanque hasta conseguir uno

marcado. 1.5. Registrar el peso de una rata de quince días. 1.6. Inyectar tres ratas con una droga letal y registrar la sobrevida (cantidad de

días hasta morir) Cada uno de estos ejemplos corresponde a un experimento aleatorio y puede ser caracterizado de la siguiente manera: a) Es posible repetirlo un número indefinido de veces, sin cambiar las condiciones. Por repetición se entiende cada una de las veces que se repite el experimento; por ejemplo en el caso de las tres monedas o de una misma moneda arrojada tres veces, que es lo mismo (ejemplo (1.1)), repetición es cada una de las veces que se arrojan al aire las tres monedas, en el (1.5) cada vez que se pesa una rata de quince días y en el (1.6) cada vez que se inyectan tres ratas. b) Para cada uno de ellos se conocen todos los resultados posibles, aunque no

pueda predecirse un resultado en particular en una determinada repetición. Una moneda caerá cara o ceca pero no se sabe exactamente cual de los resultados es el que se dará en una determinada repetición del experimento.

c) A medida que el experimento se repite, los resultados individuales parecen ocurrir en forma caprichosa. Sin embargo, cuando el experimento se repite un "gran" número de veces, aparece un modelo definido de regularidad. Esta regularidad hace posible la construcción de un modelo matemático preciso con el cual se analizará el experimento. Por ejemplo sea el caso de n lanzamientos de una moneda equilibrada. Aunque las caras y las cecas aparecen sucesivamente, de una manera arbitraria, es bien conocido el hecho empírico de que después de un gran número de lanzamientos, la proporción de caras y de cecas será aproximadamente la misma si la moneda es equilibrada. Esto significa que hay un modelo de regularidad al repetir la experiencia n veces. La pregunta es ¿Qué valor toma n? y ¿qué tan grande debe ser n?

Espacio muestral Realizado un determinado experimento aleatorio se llama espacio muestral (S) al conjunto de todos los resultados posibles. En los experimentos aleatorios definidos mas arriba los espacios muestrales serían: S1 = { 0, 1, 2, 3 } S2 = { CC, CS, SC, SS } S3 = { 0, 1, 2,......} S4 = { 1, 2, 3, ......}

S5 = { x / x ε R+ } S6 = { (x1, x2, x3) con xi = 1, 2, ....., }

En el ejemplo (1.6) se define la variable X: cantidad de días hasta morir de tres ratas tratadas.

Page 18: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

18

Para este ejemplo la unidad experimental serían las tres ratas tratadas y la población las ternas de ratas tratadas a las que se les registra la sobrevida Si en el mismo ejemplo se define la variable Y: cantidad de ratas muertas al cabo de diez días, entonces S = {0, 1, 2, 3}, la unidad experimental y la población son las mismas que la de la variable X. Suceso o evento Es un subconjunto de resultados posibles, es decir, es un subconjunto del espacio muestral. En particular el espacio muestral es un suceso y se dice que es el suceso cierto. En cambio se llama suceso imposible al que no puede ocurrir. En los experimentos aleatorios definidos en la sección 1 ejemplos de sucesos podrían ser: En 1.1 el suceso A = {al menos una cara} ⇒ SA = {1, 2, 3}. En 1.2 el suceso B = {una moneda de cada lado} ⇒ SB = {CS, SC}. En 1.3 el suceso C = {a lo sumo 3 ácaros}⇒ SC = {0, 1, 2, 3}. En 1.4 el suceso D = {número par de extracciones} ⇒ SD= {2, 4, 6,..}. En 1.5 el suceso E = {ratas de más de 200 gr} ⇒ SE = {x / x ε R+

, x > 200} Tanto en el caso del espacio muestral como en el de los sucesos algunas veces los resultados posibles pueden ser contados y otras no; pero siempre se podrá calcular la posibilidad de que un determinado resultado ocurra. Se define también un suceso que no puede ocurrir al que llamaremos suceso vacío o imposible, que se diferencia del suceso que nunca ocurre. Para el cual hay una imposibilidad teórica, física, real para que no ocurra (tendrá probabilidad cero). Ejemplos Suceso imposible o vacío: con un dado numerado de 1 a 6, obtener un 7. Suceso que nunca ocurre: el sol deje de salir Sucesos mutuamente excluyentes Se dice que los sucesos A y B en S son mutuamente excluyentes (m.e.) cuando no pueden ocurrir al mismo tiempo. En términos de teoría de conjuntos esto significa que su intersección (que representa la ocurrencia simultánea) es vacía, o sea A ∩ B = ∅. En el ejemplo 1.1 de la sección 1 dos sucesos mutuamente excluyentes pueden ser A = {al menos una cara} y B = {ninguna cara}. Frecuencia relativa Con lo dicho hasta aquí se puede describir todo el conjunto de los resultados posibles de un experimento aleatorio pero no se puede asegurar la ocurrencia o no de un determinado suceso A. Para ello se necesita asociar con cada suceso un número que mida la posibilidad de ocurrencia de A . Se vio que una de las características de un experimento aleatorio se basa en que puede ser repetido indefinidas veces bajo las mismas condiciones experimentales. Sea por lo tanto un experimento aleatorio E que se repite un número n finito de veces y sean A y B dos sucesos asociados con él. Sean nA y nB el número de veces que ocurren A y B respectivamente, en las n repeticiones . Se define

fA = nA / n

Page 19: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

19

como la frecuencia relativa del suceso A en las n repeticiones del experimento E y es tal que cumple : 1) 0 ≤ fA ≤ 1 2) fA = 1 si y solo si A ocurre siempre (suceso cierto) 3) fA = 0 si y solo si A nunca ocurre 4) Si A y B son m.e. entonces fA ∪ B = fA + fB 5) Si la cantidad n de repeticiones es muy grande entonces la frecuencia relativa

converge (en probabilidad) a un número llamado probabilidad del suceso A; es decir fA → P(A), cuando n → ∞. Esto significa que la frecuencia relativa basada en un número creciente de repeticiones tiende a estabilizarse en las proximidades de un valor definitivo. Esto es una realidad empírica, no una noción rigurosamente matemática; cuando esto sucede se dice que el experimento muestra regularidad estadística, es decir, una regularidad de los resultados medios de largas series de repeticiones, en contraposición a la irregularidad aleatoria de las repeticiones individuales.

El objetivo planteado es buscar un modelo matemático para la descripción e interpretación de los fenómenos que muestran regularidad estadística (modelos probabilísticos o no deterministas) . Nociones de probabilidad El problema planteado es el de definir para todo suceso A un número P(A) que mida la probabilidad de ocurrencia de A. Para la asignación de probabilidades se podría utilizar alguno de los tres siguientes métodos enunciados y ejemplificados al principio: estimación personal o subjetiva estimación por medio de la frecuencia relativa estimación clásica Axiomas de probabilidad. Sea un experimento aleatorio E; con cada suceso A asociado a él, se define el número P(A), llamado probabilidad de A, tal que: 1.- 0 ≤ P(A) ≤ 1 , para todo A 2.- P(S) = 1 3.- Si A y B son sucesos mutuamente excluyentes, entonces P(A U B) = P(A) + P(B) Además P(Ø) = 0 , de lo que se puede deducir para todo n finito que si los Ai, con i=1,....n, son mutuamente excluyentes de a pares, entonces

P( U Ai) = ∑ P(Ai) con i = 1, 2, ...., n En el caso de tratarse de espacios infinitos hay que considerar un quinto axioma 5.- Si A1, A2,..,An.. son sucesos m.e. de a pares, entonces

P ( U Ai) = ∑i P(Ai) , con i = 1, 2, ........., ∞ Cuando a cada elemento del espacio muestral S = {s1,.....,sn} correspondiente a un experimento aleatorio E se le asigna un número pi = P(si) tal que ∑ipi = 1 se obtiene el espacio de probabilidades asociado a E que se indica P = {p1,.......,pn}.

Page 20: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

20

Es de notar que esta definición de probabilidad no permite calcular la probabilidad de un suceso dado, sino que, como toda definición axiomática, da las propiedades básicas llamadas axiomas. Las restantes propiedades que se necesiten para el cálculo de probabilidades habrá que deducirlas de ellas. Veamos algunas propiedades sencillas de P(A) : Proposición 1 : P(AC) = 1 - P(A), donde AC es el complemento de A En efecto. Para todo suceso A vale S = A U AC y además A y AC son mutuamente excluyentes, entonces por los axiomas (2) y (4)

1 = P(S) = P(A) + P(AC) ⇒ P(AC) = 1 - P(A) Proposición 2: Sean A y B dos sucesos cualesquiera, entonces

P(A ∪ B) = P(A) + P(B) − P(A∩B) En efecto. Se puede escribir A ∪ B = A ∪ (B∩AC), con A y (AC ∩B) mutuamente excluyentes B = (A∩B) U (B ∩ AC), con (A ∩B) y (AC ∩B) mutuamente excluyentes Entonces: P(A ∪ B) = P(A) + P(B∩AC) P(B) = P(A∩B) + P(B∩AC) Restando: P(A ∪ B) – P(B) = P(A) - P(A∩B) ⇒ P(A ∪ B) = P(A) + P(B) − P(A∩B) Proposición 3 .Sean A, B y C tres sucesos cualesquiera, entonces

P(A ∪B ∪C ) = P(A) + P(B) + P(C) − P(A∩B) − P(A∩C) − P(B∩C) + P(A∩B∩C) Generalización: P( U Ai) = ∑P(Ai) − ∑ P(Ai∩Aj) + ..... +(-1)

n P(∩Ai) Proposición 4 : Si A ⊂ B , entonces P(A) ≤ P(B) En efecto Se puede escribir:

B = A U (B∩AC), con A y (B∩AC) mutuamente excluyentes.

Entonces P(B) = P(A) + P(B∩AC) , puesto que P(B∩A) > 0 Resultados igualmente probables La suposición que más comúnmente se hace en experimentos aleatorios con un número finito de resultados posibles es la de equiprobabilidad, que significa que cada uno de los resultados posibles tiene la misma probabilidad de ocurrencia.

Page 21: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

21

Si los k resultados de un experimento aleatorio son igualmente probables se puede utilizar la definición P(A)=fA para calcular probabilidades y puede por lo tanto deducirse que cada uno de ellos tiene una probabilidad p = 1/k de ocurrencia. Esto sale del hecho de que ∑pi = 1, de donde kpi = 1. Luego si A es un suceso que consta de r resultados favorables resulta:

P(A) = r/k

Este método de evaluar a P(A) a menudo se indica :

P(A) = [# resultados favorables a A] / [# resultados posibles] Es decir

P(A) = [casos favorables] / [casos posibles] = CF / CP (1) Es importante destacar que la expresión (1) para evaluar P(A) es sólo consecuencia de la equiprobabilidad y la finitud del espacio muestral S. Para poder aplicar la expresión (1) se debe tener equiprobabilidad de los resultados. Probabilidad condicional Ejemplo. Sea la población de alumnos de Biometría de la cursada de 2005, clasificados según el turno de TP al que asistieron y la condición de haber aprobado o no los TP de la materia, como muestra la siguiente tabla :

Turno Aprobado No aprobado Total % Aprobados Mañana (M) 20 10 30 67,00 %

Tarde (T) 25 15 40 62,50 % Noche (N) 15 15 30 50,00 %

Total 60 40 100 60,00 % Sean los sucesos: M = {turno mañana} , T = {turno tarde} , N = {turno noche}, A = {aprobado} , NA = {no aprobado} Se plantea el cálculo de las siguientes probabilidades: a) Cuál es la probabilidad de que un alumno cualquiera, elegido al azar: a1) haya concurrido al turno tarde? a2) haya aprobado los TP? b) Cuál es la probabilidad de que un alumno del turno mañana, elegido al azar, haya aprobado los TP? O, dicho de otra forma, ¿cuál sería la probabilidad de que el alumno extraído al azar de entre los del turno mañana haya aprobado los TP?, o, ¿cuál es la probabilidad de que el alumno haya aprobado los TP, dado que era del turno de la mañana ? c) Cuál es la probabilidad de que un alumno seleccionado al azar haya concurrido al turno mañana y haya aprobado los TP?

Page 22: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

22

Respuestas: a) Estas probabilidades son del tipo de las que ya se calcularon: a1) P(T) = 40 / 100 = 0,4 a2) P(A) = 60 / 100 = 0,60

b) Este caso se trata de otro tipo de probabilidad. Hay que calcular la P(Aprobado / turno mañana) = P(A / M), que se lee probabilidad de A condicional a B, o probabilidad de que el alumno haya aprobado los TP dado que concurrió al turno mañana . La probabilidad propuesta puede ser calculada de dos maneras:

i) restringiendo el espacio de resultados posibles sólo a los alumnos del turno mañana, entonces utilizando (1) resulta:

P(A/M) = CF/CP = 20/30 = 2/3 = 0,67

Esto en realidad se puede considerar como un cociente entre dos probabilidades pues dividiendo el numerador y el denominador por el n total (100 en este ejemplo), se obtienen las probabilidades en ambos; el resultado no cambia, pero es otra forma de cálculo. Se obtiene:

P(A/M) = [(20/100)] /[(30/100)] = P(Ap y TM) / P(TM) = P(A∩ M ) / P(M)

Se observa que el numerador (P(A∩M)) es la probabilidad de que ambos sucesos ocurran al mismo tiempo y por ello se llama probabilidad de ocurrencia simultánea, mientras que el denominador es la probabilidad de ocurrencia del suceso M y se llama probabilidad total Esto último lleva a la siguiente definición de probabilidad condicional : Dados dos sucesos, A y B, se define la probabilidad de A condicionada a B como:

P(A / B) = P(A∩B) / P(B) si P(B) ≠ 0

ii) Cuando se calcula la P(A/M) utilizando la definición es simplemente:

P(A/ M) = P(A∩M) / P(M) = [20 /100] / [30 /100] = 20/30 = 2/3 = 0,67 Que es el mismo resultado al que ya se había llegado mas arriba. d) Lo que se pide es sencillamente la probabilidad de ocurrencia simultánea, o sea el

numerador del cálculo de la probabilidad condicional.

P(A∩M) = P(M). P(A/M) = 20/100 = 0.20 Otros cálculos interesantes para el mismo ejemplo

a) Si se considera a los datos originales como una muestra de la cursada de 2005, se pueden estimar las proporciones de aprobados en cada uno de los TP, que más adelante se compararan para estudiar su significación estadística y ver si el TP influye en la aprobación de la materia; estas estimaciones son, en realidad, probabilidades condicionales:

P(A/M)x 100 = 67% ; P(A/T)x 100 = 62,50% ; P(A/N) x 100 = 50%

Page 23: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

23

estos números son las estimaciones de las proporciones de aprobados en el turno mañana, en el tarde y en el de la noche. Esta comparación se estudiará más adelante con una prueba de bondad de ajuste (Prueba de independencia) b) Si se supone que 100 es el tamaño de la población de alumnos de la cursada Biome 2005, la tabla del ejemplo puede escribirse en termino de probabilidades

Turno Aprobado No Aprob. Total Aprobado No Aprob. Total Mañana (M) P(M∩A) P(M∩NA) P(M) M 0,20 0,10 0,30

Tarde (T) P(T∩A) P(T∩NA) P(T) T 0,25 0,15 0,40 Noche (N) P(N∩A) P(N∩NA) P(N) N 0,15 0,15 0,30

Total P(A) P(NA) 1 Total 0,60 0,40 1 La probabilidades que aparecen en la fila y columna de los totales son las probabilidades marginales: La columna corresponde a la distribución en probabilidades de la variable Turno de TP, mientras que la fila lo es de la variable condición del alumno. Ocurrencia simultánea Se vio que para el cálculo de la probabilidad de extracción al azar de un alumno aprobado del turno mañana, o sea la P(aprobado y turno mañana), se obtuvo:

P(A∩ M) = 20 / 100 = 0,20 Esta es la definición de probabilidad de ocurrencia simultánea de dos sucesos cualesquiera A y B, y por definición de probabilidad condicional es:

P(A∩B) = P(A)P(B/A) = P(B) P(A/B) (2) cualesquiera sean los sucesos A y B, y no se necesita la condición de probabilidad distinta de cero. La forma en que se calcula P(A∩B) es según que probabilidades se conozcan a priori (o sea de los datos de que se disponga). La generalización de (2) recibe el nombre de Teorema de la multiplicación y dice: Sean los sucesos Ai con i = 1, .., n, entonces:

P(A1∩A2∩......∩An) = P(A1)P(A2/A1)P(A3/ A1A2) ..... P(An/A1...An-1) Probabilidad total Partición del espacio muestral : Se dice que los sucesos B1, B2, ...,Bk constituyen una partición del espacio de resultados posibles S si: (a) Bi ∩ Bj = ∅ ∀para todo par i ≠ j. Esto significa que al realizar la experiencia ocurre

uno y solo uno de los Bi (b) ∪ Bi = S (c) P(Bi) > 0 para todo i=1,2,...,k

Page 24: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

24

Dada una partición de S, para cualquier suceso A asociado a S es decir A ⊂ S se puede escribir:

A = (B1 ∩ A) ∪ (B2 ∩ A) ... ∪... (Bk ∩ A) donde los (Bi ∩ A) son disjuntos dos a dos puesto que los son los Bi y, eventualmente alguno puede ser vacío. Luego:

P(A) = P(B1 ∩ A) + P(B2 ∩ A) + ...... + P(Bk ∩ A) y en razón de (9.1)

P(A) = P(B1)P(A/B1) + P(B2)P(A/B2) +.....+ P(Bk)P(A/Bk) Es decir: P(A) = ∑ P(Bi)P(A/Bi) (3) llamada probabilidad total. Las probabilidades conocidas P(Bi) y P(A/Bi) se llaman probabilidades a priori. Aplicando este concepto resulta que la probabilidad propuesta es:

P(turno mañana) = P(aprobado)P(turno mañana/aprobado) +

+ P(no aprobado)P(turno mañana/no aprobado) utilizando la notación usada anteriormente se escribe :

P(M) = P(A)P(M/A) + P(NA)P(M/NA) = 20/100 + 10/100 = 0.30 (3)

P(A) = P(M)P(A/M) + P(T)P(A/T) + P(N)P(A/N) = 0,60 Teorema de Bayes o de las probabilidades a posteriori Este es el caso de calcular una probabilidad a posteriori, es decir calcular una probabilidad cuando se conocen los resultados de la experiencia. Sea el siguiente ejemplo: Se tienen tres urnas con bolillas blancas y rojas con la siguiente composición:

Cantidad de bolillas Urna Blancas Rojas Total 1 (U1) 3 7 10 2 (U2) 5 3 8 3 (U3) 3 9 12 Total 11 19 30

La experiencia consiste en elegir una urna al azar y de ella extraer una bolilla también al azar. Supongamos que la bolilla extraída es blanca y queremos saber cuál es la probabilidad de que provenga de la urna tres Sean los sucesos B = {extraer una bolita blanca} y Ui = {elegir la urna i} con i 1, 2, 3. Luego:

Page 25: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

25

Probabilidades a priori:

P(B/U1) = 3/10 , P(B/U2) = 5/8 , P(B/U3) = 3/12 Para la elección de las urnas sean las siguientes dos situaciones: Situación 1: equiprobabilidad, o sea : P(Ui) = 1/3 para todo i. Situación 2: P(U1) = P(U2) = ¼ , P(U3 ) = 1/2 En ambas situaciones se trata de calcular la P(U3 / B), que es una probabilidad condicional y por lo tanto se calcula como:

P(U3 / B) = P(U3 ∩ B) / P(B)

Además P(B) = P(U1)P(B/U1) + P(U2)P(B/U2) +P(U3)P(B/U3) Situación 1: P(B) = 0,3917 ⇒ P(U3 / B) = 0,2127 Situación 2 : P(B) = 0,3562 ⇒ P(U3 / B) = 0,3509 Nota: Los resultados obtenidos obviamente dependen de las probabilidades asignadas a priori a los elementos de la partición. El resultado en la situación 1 es menor que en la situación 2. Esto se debe a que en la situación 2 la probabilidad a priori para la urna 3 es mayor que la de las otras dos, Este resultado corresponde al teorema de Bayes. cuyo enunciado general es :" Sea B1,B2..., Bk una partición del espacio muestral S y A un suceso asociado con S. Sean conocidas las probabilidades a priori P(Bi) y P(A/Bi) para i=1,2,..., k. Entonces para las probabilidades a posteriori vale la siguiente expresión

P(Bi/A) = [P(Bi ∩A)] / P(A) = [P(Bi)P(A/Bi)] / ∑ P(Bi)P(A/Bi) " Este teorema no es de fácil aplicación porque generalmente las probabilidades a priori no son conocidas y además son subjetivas en el sentido de que distintos sujetos pueden elegirlas distintas. La elección inadecuada de las P(Bi) hace que el resultado sea objetable. Como se ve en el ejemplo de las tres urnas, el resultado final cambia según la asignación de probabilidades a las urnas.. Sucesos independientes Se dice que dos sucesos A y B son independientes cuando ninguno de ellos da información con respecto al otro. En algunas situaciones es bien claro cuando dos sucesos son independientes, por ejemplo, que un paciente tenga apendicitis es independiente de que padezca sinusitis; en cambio la pesca de pejerreyes en la laguna Chascomús no es tan evidente que sea independientes de la pesca en la laguna de Chis - Chis. Generalizando : Si A y B son independientes: P(A/B) = P(A) y P(B/A) = P(B) Asimismo:

)A(P)B/A(P)B/A(P ==

Page 26: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

26

A es independiente de B y B es independiente de A. Es por esto que se verifica que los sucesos A y B son independientes si y solo si:

P(A∩B) = P(A).P(B) En el ejemplo de la sección 8, si el pertenecer al turno mañana es independiente de la aprobación de los TP:

P(A/M) = 20/30 = 0,33 P(M/A) = 20/60 = 0,66 Luego el cursar en el turno mañana no sería independiente de la aprobación de los TP. Este mismo razonamiento es válido si se tienen mas de dos sucesos: Dados tres sucesos, sean A, B y C se dice que son mutuamente independientes si y solo si se cumplen : P(A∩B) = P(A)P(B) P(A∩C) = P(A)P(C) P(B∩C) = P(B)P(C) P(A∩B∩C) = P(A)P(B)P(C)

Aplicaciones de probabilidad condicional y del Teorema de Bayes Prueba de diagnóstico Un diagnóstico es una prueba para detectar la presencia de alguna condición (por ejemplo una enfermedad) en una unidad experimental. Es deseable que estas pruebas de diagnóstico sean siempre seguras en el sentido de que siempre detecten la condición, si esta está realmente presente y detecten su ausencia cuando no lo está. Esto no siempre sucede en general. Solo puede esperarse que las pruebas de diagnósticos conocidas no den resultados erróneos muy a menudo. Indiquemos con A a la condición: A+ si está presente y A- si no lo está y con T al resultado del test: T+ si detecta la condición y T- en caso contrario. Los datos generalmente se colocan en una tabla de 2x2: El individuo (unidad experimental) puede ser positivo (A+) o negativo (A-) para la condición (enfermedad) y el test aplicado puede dar positivo (T+) o negativo (T-), entonces se presentan cuatro categorías: 1.- La condición está presente y el test la detecta. Es decir el sujeto está realmente enfermo (positivo) y el test da positivo (T+). Entonces no se ha cometido error:

Sensibilidad: P(T+ /A+) es la proporción de positivos entre los enfermos. 2.- La condición está presente y el test no la detecta. Es decir el sujeto está enfermo (A+) y el test da negativo (T-). Entonces se ha cometido error:

Coeficiente falso-negativo = P(T- / A+) 3.- La condición no está presente pero el test detecta su presencia. Es decir el individuo no está enfermo (A-) y el test da positivo (T+). Entonces se ha cometido error.

Coeficiente falso-positivo = P(T+ / A-) 4.- La condición no está presente y el test detecta su ausencia. Es decir el individuo está sano (A-) y el test da negativo (T-). Entonces no se ha cometido error.

Page 27: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

27

Especificidad : P(T- / A-) es la proporción de negativos entre los sanos. Lo expuesto puede resumirse en la siguiente tabla de probabilidades condicionales: Test + (T+) Test - (T-) Enfermo (A+) No error: Sensibilidad Error: Coef falso-negativo Sano: (A-) Error: Coef falso-positivo No error: Especificidad

Una buena prueba de diagnóstico daría bajos coeficientes y alta sensibilidad y especificidad. De los dos errores el más peligroso es el falso-negativo, porque el sujeto está realmente enfermo pero el test no lo detecta y en consecuencia el individuo no considera someterse a tratamiento. El falso-positivo es menos grave porque a lo sumo el paciente se someterá a un tratamiento innecesario. Ejemplo. Se realiza una experiencia con 2000 sujetos elegidos al azar de entre aquellos que son suceptibles a una cierta enfermedad (A), de los cuales 1420 son personas sanas. Los resultados obtenidos se vuelcan en la siguiente tabla de 2x2:

Resultados Positivo (T +) Negativo (T -) Total

Enfermos (A +) 540 400 580 Sano (A -) 120 1300 1420

Total 660 1340 2000 Coef Falso - Positivo = P(T+ / A-) = 120/1420 = 0,084 ⇒ 8,40% Coef Falso - Negativo = P(T- / A+) = 40/580 = 0,067 ⇒ 6,70% Sensibilidad = P(T+ / A+) = 540/580 = 0,93 ⇒ 93% Especificidad = P(T- / A-) = 1300/1420= 0,9154 ⇒ 91,54% En el 93% de los pacientes enfermos el test detecta la enfermedad y en el 91,54% de los sanos detecta su ausencia (son estimaciones). Mediante el Teorema de Bayes se puede también estimar los llamados Valor Predictivo positivo y Valor Predictivo negativo que daría una prueba de diagnóstico (test), definidos como: Valor Predictivo Positivo : es la probabilidad de que un individuo sea realmente

positivo cuando el test dé positivo, es decir es la P(A+/T+) Valor Predictivo Negativo: es la probabilidad de que un individuo sea realmente

negativo cuando el test dio negativo, es decir es la P(A-/T-). Calculando resulta: Valor predictivo positivo = P(A+/ T+) = 540 / 660 = 0,8181 81,81 % Valor predictivo negativo = P(A- / T-) = 1300 / 1340 = 0,97 97 %

Page 28: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

28

Sabiendo también que en el ejemplo anterior 660 de las pruebas dieron positivas, y suponiendo conocidas la especificidad y la especificidad, se puede construir una tabla de probabilidades para este ejemplo:

Resultados Positivo (T +) Negativo (T -) Total

Enfermos (A +) 0,27 0,02 0,29 Sano (A -) 0,06 0,65 0,71

Total 0,33 0,67 1 Riesgo relativo Sea el caso de una sp de ratones atacada por moquillo. Se prueba un tratamiento nuevo (TN) y se compara con el utilizado tradicionalmente (TT). Supongamos que de una muestra de 1160 ratones con moquillo, a 570 se les aplica el nuevo tratamiento y al resto el tratamiento tradicional y se obtienen los siguientes resultados:

Muertos Vivos Total % Muertos TT 300 290 590 51 %

Marginal fijo TN 130 440 570 23 %

Total 430 730 1160 Se podría deducir que hay diferencia entre los porcentajes de mortalidad según con que fueron tratados. Parece que el nuevo tratamiento es más efectivo. Pero, ¿cuánto? ¿Qué riesgo existe al no utilizarlo? Esto lleva a la noción de riesgo relativo. Se denomina factor de riesgo a un factor que se cree puede estar relacionado con una condición específica (por ejemplo una enfermedad). Para calcularlo (en realidad estimarlo) se seleccionan dos muestras aleatorias; una de individuos expuestos al factor de riesgo (E) y otra de individuos no expuestos (E'). Los individuos se clasifican según posean (D) o no (D') la condición específica (enfermedad). Entonces se define el riesgo relativo como:

RR = [P(D / E)] / [P(D / E')] y es una medida del impacto del factor de riesgo. Los datos se ponen en una tabla de 2x2. En general los totales marginales correspondientes al factor de riesgo deberían ser fijos, por lo tanto lo que se calcula es una aproximación del riesgo relativo verdadero. RR = 1 indica que no existe relación entre el factor de riesgo y la aparición de la

enfermedad. RR > 1 indica que estar expuesto al riesgo aumenta la probabilidad de contraer la

enfermedad RR < 1 indica que la exposición al riesgo disminuye la probabilidad de contraer la

enfermedad. Volviendo al ejemplo de los ratones, calculemos el riesgo relativo de la no utilización del nuevo tratamiento. Acá el factor de riesgo es el TT = E: P(M / TT) = 300/590 = 0,46 P(M / TN) = 130/570 = 0,23 RR = 0,46/0,23 = 2

Page 29: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

29

Esto nos dice que un ratón con moquillo tratado con el tratamiento tradicional tiene el doble de probabilidad de morir que uno tratado con el nuevo tratamiento. Usos en epidemiología (Ver Sokal y Rohlf, pag 69) Sea el suceso C = {individuo con mal de Chagas}. Entonces la P(C) es la probabilidad de que un individuo perteneciente a una población particular sea chagásico, y P(C') = 1 - P(C) es la probabilidad de que no lo sea. En epidemiología P(C) expresada en porcentaje es conocida como la prevalencia de una enfermedad. Sea el suceso T = {cierto test da resultado positivo}, o sea en nuestro ejemplo indica que la persona resulta positiva para una prueba de mal de Chagas. Una vez conocido el resultado de test, el médico querrá conocer la P(C/T), es decir la probabilidad de que el paciente realmente tenga Chagas dado que la prueba resultó positiva. Entonces calcula:

P(C/T) = P(paciente con prueba + tenga Chagas) = = [P(C∩T)] / P(T) = [P(C) P(T/C) / P(T)] =

= [(Prevalencia/100)P(prueba + entre los enfermos)] / P(prueba positivo) En la expresión del cálculo de P(C/T), la probabilidad del denominador es la probabilidad total y se calcula como:

P(T) = P(C)P(T/C) + P(C')P(T/C') Donde C´ indica a los pacientes sanos. La forma en que se recoge la información para responder a la pregunta, no es la requerida para este cálculo puesto que los test se practican en personas que ya se sabe si tienen o no mal de Chagas (P(T/C) y P(T/C') son conocidos). Es decir que si los datos se ponen en una tabla de 2x2, uno de los totales marginales (enfermedad) es fijo. En Epidemiología se estiman: P(T/C) = sensibilidad P(T'/C') = especificidad Donde T´ indica que la prueba dio resultado negativo, y que representan la proporción de resultados positivos entre los enfermos y la de resultados negativos entre los sanos, respectivamente. Es de esperar que estas probabilidades estén cercanas a uno. P(T/C') = 1 - P(T'/C') = probabilidad complementaria de la especificidad. Con estos datos se calcula la P(T) o sea la probabilidad de que la prueba de diagnóstico dé un resultado positivo, en paciente con o sin Chagas. La expresión

P(C/T) = [P(C∩T)] / P(T) = [P(C) P(T/C) / P(T)] es el Teorema de Bayes. Lo que se objeta a este teorema es la utilización de las probabilidades a priori, que en general son estimadas de forma subjetiva.(Ver comentarios a Teorema de Bayes)

Page 30: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

30

DISTRIBUCIÓN EN PROBABILIDADES Así como antes se hablaba de distribución de frecuencias de una variable aleatoria ahora hablaremos de distribución en probabilidades, es decir hablaremos de la distribución teórica de la variable aleatoria. Supongamos que se está estudiando la población del número de materias aprobadas por alumno del segundo año de la carrera de Biología en FCEYN. La población es el número total de alumnos del segundo año de la carrera, sea N y la población estadística es el número de materias aprobadas (0, 1, 2,….). Si se extrae una muestra aleatoria de tamaño n (n alumnos de entre los N) se puede construir una distribución de frecuencias y se podrá estimar el número medio de materias aprobadas o algún otro parámetro de interés. Pero si se utiliza toda la población (censo), la distribución de frecuencias relativas se transformará en la distribución en probabilidades, la que también puede ser obtenida en base a consideraciones teóricas, y que de hecho se hace cuando no se tiene un censo. Esquematizando sería:

En la muestra En la población X f X P

xi fi Xi pi

Suma 1 Suma 1

Distribución de frecuencias relativas Distribución en probabilidades En el ejemplo dado supongamos la distribución en probabilidad es:

X 0 1 2 3 4 ó más P 1/8 1/8 2/8 2/8 2/8

Luego si se elige un alumno de segundo año al azar se tiene una probabilidad del 25% de que haya aprobado tres materias y una probabilidad del 50% que tenga más de dos materias aprobadas. Por lo dicho se deduce que si se conoce toda la población la distribución de frecuencias relativas es la distribución en probabilidades. Para describir la distribución en probabilidad se habla de variable; en el ejemplo anterior la variable es el número de materias aprobadas por alumno de segundo año. Estas variables se llaman aleatorias puesto que sus valores dependen del alumno elegido al azar, es decir depende de la unidad experimental elegida al azar sobre la que se registró. Mas precisamente: Definición: Una variable aleatoria es aquella cuyos valores son los resultados de un experimento aleatorio. Notación: Se indica con mayúscula la variable y con minúscula sus valores, entonces:

pi = P(X = xi) = PX(xi) que se lee: pi es la probabilidad de que la variable aleatoria X tome el valor xi. En el ejemplo:

Page 31: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

31

P(X = 2) = 2/8 = 0,25 P(X > 2) = 1 - [1/8 + 1/8 +2/8] = 0,50 En general para cada unidad experimental uno puede definir varias variables. En el ejemplo dado podrían también haberse definido las variables aleatorias: Y: edad, en meses, Z: coeficiente intelectual (IQ), etc. De lo expuesto se deduce que conocer la distribución en probabilidad o la distribución de una variable aleatoria X discreta significa conocer para cada uno de sus k valores, xi , las correspondientes probabilidad (pi = P(xi)) y tales que: 0 ≤ pi ≤ 1 para todo i = 1, .., k ∑pi = 1

Es decir conocer el espacio de probabilidad P = {p1, ...., pk} . Observación: Cuando las variables no son medibles, caso de los atributos, se les puede hacer una conveniente asignación de valores. Caso de Distribución en probabilidad de una variable aleatoria continua Supongamos que se tiene una muestra aleatoria de treinta notas de alumnos de segundo año de la carrera y se realiza una distribución de frecuencias agrupadas en ocho intervalos (longitud = 12,50). Se tiene el siguiente histograma de áreas:

La nota de un alumno, elegido al azar, es una variable aleatoria. Sea X. Si se toman en el histograma intervalos de longitud mas pequeña, por ejemplo de 7 puntos (15 intervalos), se ve que la idealización del mismo es una curva acampanada. Si se quiere la frecuencia relativa de alumnos con notas entre 60 y 70 puntos, eso no será otra cosa que el área correspondiente en el histograma, puesto que el área total del histograma es igual a uno. Esto es lo que sucede en la muestra.

ExpectedNormal

NOTAS

Upper Boundaries (x <= boundary)

No

of o

bs

0

1

2

3

4

5

6

7

20 30 40 50 60 70 80 90 100

Page 32: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

32

En la población, el área del histograma es equivalente al área debajo de la curva límite entre las alturas establecidas. Luego conociendo la expresión de dicha curva, llamada función de densidad de probabilidad de la variable aleatoria X, y que se denota fX, se puede calcular cualquier probabilidad mediante el cálculo de la integral definida:

P(a ≤ X ≤ b) = ∫ab fX(x) dx Entonces se tendría la distribución en probabilidad de la variable aleatoria X. Todo esto conduce a la siguiente definición de variable aleatoria continua: Definición: Se dice que X es una variable aleatoria continua si existe una función continua fX(x), llamada densidad de probabilidad tal que: 1) fX(x) ≥ 0 ∀ - ∞ ≤ x ≤ ∞ 2) ∫ fX(x) dx = 1 con - ∞ ≤ x ≤ ∞ Observar que si x es una variable aleatoria continua no tiene sentido calcular la probabilidad en un punto, o sea P(X = a), ya que esta probabilidad es nula. Para calcularla hay que definir un intervalo de incertidumbre alrededor del valor de X = a e integrar entre esos límites. Función de distribución acumulada El concepto de probabilidad acumulada es análogo al de frecuencia relativa acumulada. Se dará una definición de función de distribución acumulada (llamada comúnmente de distribución) tanto para variables discretas como para continuas, en base a esta analogía. Se indicará como FX(x) a la función de distribución de X. Definición: Para una variable aleatoria X la función de distribución se define como Fx(x) = P(X ≤ x). Luego: Si X es una variable aleatoria discreta que toma valores x1,....xk con probabilidad

p1,..., pk entonces: FX(xt) = ∑ pi = ∑ P(X ≤ xi) desde i = 1 hasta i = t ≤ k

Si X es una variable aleatoria continua con función de densidad fX(x) que toma

valores entre menos y mas infinito, entonces:

ExpectedNormal

NOTAS

Upper Boundaries (x <= boundary)

No

of o

bs

0

1

2

3

4

5

20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

Page 33: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

33

FX(x) = ∫ -∞x fX(t) dt

Propiedades de FX(x) 1) FX(x) es no decreciente, o sea si x1 ≤ x2, entonces FX(x1) ≤ FX(x2) 2) FX(- ∞) = 0 ; FX (+∞) = 1 3) Si X es una variable aleatoria continua, entonces ∂FX(x) / ∂dx = fX(x) Observación: de la propiedad (3) se deduce que FX(x) es una primitiva de la fX(x), luego según la regla de Barrow: P(a ≤ X ≤ b) = ∫ ab fx(x) dx = FX(x) ]ab = FX(b) − FX(a) de modo que conocida la función de distribución, FX(x), de una variable aleatoria continua X, es sencillo calcular cualquier probabilidad. La búsqueda de estas primitivas puede ser engorrosa debido a la dificultad de integrar funciones de densidad que suelen ser complicadas. Pero para la mayoría de las distribuciones las probabilidad están tabuladas en tablas o se pueden calcular utilizando algún paquete estadístico, como por ejemplo EXCELL. .

Esperanza y varianza poblacional La idea es definir parámetros de la distribución en probabilidad, es decir definir media y varianza poblacional. Estos parámetros son la esperanza y la varianza. Como la variable aleatoria identifica a la población se habla de esperanza y varianza de una variable aleatoria y no de la distribución en probabilidades propiamente dicha. Esperanza Matemática o valor esperado Es el valor medio de la distribución en probabilidades de la variable. Se indica E(X) = µ, donde X es la variable aleatoria Se define: Caso discreto E(X) = ∑1

k xi pi Caso continuo E(X) = ∫-∞∞ x fX(x) dx

Se observa que la media de la distribución en probabilidades es la media de la población.

Función de ditribución

variable

frec

uenc

ia

acum

ulad

a

Page 34: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

34

Nota: Sea una población finita de tamaño N y sea la variable aleatoria discreta X que toma valores x1,...., xN con probabilidades p1 ,..., pN, donde cada pi = 1/N. Entonces:

Pero cuidado, = µ es solamente porque se 'muestrea' toda la población. O sea se tiene un censo. Recordar que la media aritmética es un estimador de la media y no necesariamente coinciden. Ejemplo 1: Sea la variable aleatoria X: número de materias aprobadas /alumno de segundo año de la carrera de Biología con la siguiente distribución en probabilidad:

X 0 1 2 3 4 ó más P 0,05 0,15 0,20 0,40 0,20

Calculando resulta: E(X) = µ = 2,55 . Ejemplo 2: Sea una variable aleatoria continua con función de densidad: fX(x) = 1 / (b –a) para a ≤ x ≤ b fX(x) = 0 para X fuera del intervalo [a, b] Entonces E(X) = µ = ∫ab x f(x) dx = [b - a] / 2 Var (X) = σ² = [b - a]² / 12

Nota: Esta distribución en probabilidades corresponde a una variable con distribución uniforme, como se verá más adelante Propiedades de E(X) Sean a y b constantes, X e Y variables aleatorias, entonces: a) E(a) = a b) E(a + bX) = a + bE(x). O sea que si variamos la escala con que se mide la variable,

basta realizar el mismo cambio en la esperanza c) E(X + Y) = E(X) + E(Y). O sea la esperanza de la suma de variables aleatorias es

la suma de las esperanzas d) E(X - µ) = 0. O sea la esperanza de las desviaciones con respecto a su media es

nula. Combinado las propiedades (a), (b) y (c) se tiene:

E(aX + bY) = aE(X) + bE(Y) Con lo que la esperanza resulta ser un operador lineal e) Si X e Y son variables aleatorias independientes, entonces E(XY) = E(X)E(Y) Varianza de una variable aleatoria Es el valor esperado o promedio de los cuadrados de las desviaciones al valor medio, o sea: Var(X) = E[X − E(X)]²= σ² y estima, en promedio, la mayor o menor dispersión de los valores de la variable alrededor de la media. De la definición se deduce:

1) Var X ≥ 0 ; 2) Var X está en unidades al cuadrado

[ ] =∑∑ == N/1xpx)x(E iii [ ]∑ μ== xxN/1 i

x

Page 35: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

35

Para tener una idea de la dispersión en las mismas unidades que la variable se define la desviación estándar como la raíz cuadrada positiva de la varianza y se indica σ. Se puede demostrar que : Var X = E(X²) − E²(X) = σ² En el ejemplo de el número de materias aprobadas por alumnos resulta: Var(X) = σ2 = 1,25 ( σ = 1,12) Propiedades de VarX Sean las a, b constantes y las variables aleatorias X e Y, entonces: 1) Var(a) = 0 2) Var(aX) = a2Var(X) 3) Var(aX ± b) = a²Var(X) 4) Si X e Y son variables aleatorias independientes, entonces Var(X ± Y) = Var(X) +

Var(Y) Variables aleatorias bidimensionales y su distribución en probabilidades Sea por ejemplo el experimento que consiste en elegir hojas al azar de un árbol y medirles el largo(Y) y el ancho(X) en cm. Los datos se pueden arreglar en una tabla del siguiente tipo:

Hoja X (cm) Y (cm) 1 20 62 2 19 60

....... ....... ....

Otros ejemplos: a) Y: peso, en gramos, X: largo, en cm de langostas hembras b) Y: largo st (cm), X: largo cabeza (cm) de truchas arco iris juveniles machos c) Y: número de espinas, X: largo (cm) de rama de algarrobo. En cualquiera de estos casos se tiene definida una variable aleatoria bidimensional (X,Y) que toma valores (xi , yj). Cuando se dispone de datos de una variable aleatoria bidimensional se puede graficar un diagrama de dispersión, en el que cada punto representa una unidad experimental. Por ejemplo:

Diagrama de Dispersión

54565860626466

0 10 20 30 40

Largo

Anc

ho

Page 36: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

36

La dispersión de la nube de puntos da una idea aproximada de la distribución de los individuos (unidades experimentales) en la población en estudio. En casos sencillos hasta puede postularse la hipótesis de que los individuos están separados en grupos más o menos distinguibles. Pero estos temas corresponden a la estadística multivariada. A veces se está interesado en buscar una relación funcional entre las variables y la intensidad de tal relación. Este punto se resolverá más adelante con un análisis de regresión lineal y uno de correlación lineal respectivamente. Las probabilidades correspondientes a una variable aleatoria bidimensional pueden ser tabulados en tablas de doble entrada. Sea por ejemplo el caso de pájaros de tres especies (sp 1, 2 y 3) y de cuatro lugares de procedencia (L 1, 2, 3 y 4); las probabilidad en la intersección de fila i con la columna j representa la probabilidad de que un pájaro de la sp i pertenezca a la localidad j :

L 1 L2 L3 L4 Total sp 1 0,01 0,07 0,09 0,03 0,20 E(sp) = 2,14 sp 2 0,02 0,16 0,18 0,10 0,46 E(L) = 2,80 sp 3 0,01 0,10 0,15 0,08 0,34 Cov(sp, L) = 0,048 Total 0,04 0,33 0,42 0,21 1 Gráfico de perfiles: Uso de los gráficos

Gráfico de lugares en sp

0

0,05

0,1

0,15

0,2

sp 1 sp 2 sp 3

prob

abili

dad

L1L2L3L4

Gráfico de sp en lugares

0

0,05

0,1

0,15

0,2

L1 L2 L3 L4

prob

abili

dad

sp 1sp 2sp 3

Page 37: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

37

Viendo estos gráficos podríamos plantear algunas hipótesis respecto a la distribución de las especies en las cuatro localidades (o algunas hipótesis sobre la distribución de la población de aves en las localidades), y para estudiar su significación, como veremos más adelante, se trabajará con muestras aleatorias de aves extraídas de cada una de las cuatro localidades y separadas por especies. 1.- Mirando el gráfico de los lugares en las especies vemos: 1.1.- Aparece como un patrón similar para la distribución de las especies en los lugares 2, 3 y 4. 1.2.- En la localidad 1 la cantidad de cada especie es similar y hay bastante menos aves que en las otras tres localidades. 2.- Mirando el gráfico de las especies en los lugares: 2.1.- Aparece como un patrón similar: la curvas de distribución de las especies en las cuatro localidades parecen paralelas 2.2.- La sp 1 parece ser menos abundante que las otras dos en las localidades 2, 3 y 4. 2.3.- En la localidad 1 parece haber la misma abundancia de aves de las tres especies 2.4.- La sp 2 es la más abundante en las localidades 2, 3 y 4. Lo mismo que en el caso univariado, cuando se ha muestreado toda la población o si se la determinó mediante consideraciones teóricas, se tiene la distribución en probabilidades. La distribución en probabilidad de la variable aleatoria (X, Y) se llama distribución conjunta en probabilidades y se define como sigue Caso discreto: Sean X e Y variables aleatorias discretas que toman valores xx con i = 1, 2, ..., k e yj con j = 1, 2, ..., h, respectivamente. Luego los datos pueden tabularse de la siguiente forma:

Yj .....................

Xi ........ pij = PXY(xi , yj) ........ pi. = Px(xi) ....................

p.j = PY(yj)

Las probabilidades que aparecen en los bordes (totales) son las probabilidades marginales, y representan las distribuciones en probabilidades de las variables X e Y: el total marginal columna es la distribución en probabilidades de la variable X, mientras que el total marginal fila lo es de la variable Y. Además:

pij = P(X = xi, Y = yj) = PXY(xi,yj) con i=1, ...,k ; j = 1, ..., h

Luego conocida la distribución conjunta en probabilidad de la variable bidimensional (X, Y) se conocen las distribuciones en probabilidades de cada una de las variables univariadas.

Page 38: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

38

Caso continuo: Sean X e Y variables aleatorias continuas. En este caso se tiene una función de densidad conjunta, que se indica fXY(x,y), de dos variables; las correspondientes densidades marginales serán fX(x) y fY(y), calculadas como:

fX(x) = ∫ fXY (x, y) dy ; fY(y) = ∫ fXY (x, y) dx

Independencia de variables aleatorias Recordar que dos sucesos A y B son independientes si P(A ∩ B) = P(A) P(B). Cuando se trabaja con variables aleatorias los sucesos pueden ser identificados como por ejemplo;

A = {X = x} B = {a ≤ X ≤ b} o cualquier otro ejemplo. En base a este razonamiento se da la siguiente definición: Las variables aleatorias discretas X e Y son independientes si y solo si:

P(X = x, Y = y) = P(X = x) P(Y =y), es decir PXY = PX PY Si las variables son continuas , entonces : f XY = fX fY Covarianza Para las variable aleatoria bidimensionales se tiene un nuevo parámetro que indica la variación conjunta de las variables intervinientes. Se llama covarianza y se define como: cov(X, Y) = σ XY = E{[X − E(X)][Y − E(Y)]} = E(XY) − E(X) E(Y) Propiedades de la covarianza Sean las variables aleatorias X e Y, y las constantes a, b, k, m, entonces: 1) cov(aX, bY) = ab cov(X, Y) 2) cov(X, X) = Var(X) 3) cov(X ± k, Y ± m) = cov (X, Y) 4) Si las variables X e Y son independientes, entonces cov(X, Y)= 0 (esto sale del

hecho de que si las variables son independientes, entonces E(XY) = E(X) E(Y) ) La recíproca de la propiedad (4) no es verdadera en general. Es decir puede ser cov(X, Y) = 0 y no necesariamente ser independientes las variables X e Y. Lo que vale es que si cov(X, Y) ≠ 0 entonces las variables son dependientes. Cálculo de la varianza de la suma de variables aleatorias Si las variables aleatorias X e Y son independientes ya vimos que:

V(X ± Y) = V(X) + V(Y) Pero si las variables aleatorias X e Y no lo son, entonces:

V(X ± Y) = V(X) + V(Y) ± 2 Cov(X,Y) Y en general V( ∑i=1...k Xi) = ∑i=1 ... k V(Xi ) + (- 1) k ∑i≠j Cov(Xi,Xj)

Page 39: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

39

donde la primer suma es sobre el total de variables y la segunda para los sumandos en que i es distinto de j. Muestra aleatoria Una muestra aleatoria de tamaño n de una variable aleatoria con una cierta distribución en probabilidades es un conjunto de n variables aleatorias independientes cada una con la misma distribución en probabilidad. Es decir se trata de n variables independientes equidistribuídas. Esta nueva definición de muestra aleatoria utilizando el concepto de independencia de variables es válida aún cuando la población sea infinita. Ejemplo : Sea una muestra aleatoria de 50 plantas de la sp A. Se define X: altura, en cm, de plantas de la sp A, que es una variable aleatoria con una cierta distribución en probabilidad, con media µ y varianza σ². Para cada una de las 50 plantas se tiene la variable aleatoria Xi: altura de la planta i ; y cada una de ellas con la misma distribución en probabilidad de la variables X, o sea con media µ y varianza σ². Además las 50 variables Xi son independientes porque las plantas están elegidas al azar. Luego la muestra estadística está constituida por los 50 valores: cada uno de los cuales proviene de la medida de la altura (Xi) de la planta i), que son independientes y están equidistribuídas.

MODELOS DE DISTRIBUCIÓN DE VARIABLES ALEATORIAS DISCRETAS Introducción Es un hecho conocido que ciertas distribuciones de frecuencia se observan empíricamente más a menudo que otras y esto hace suponer que podrían ser descriptas en forma teórica. La idea básica de estudiar la distribución teórica de variables discretas es definir modelos aleatorios o probabilísticos que expliquen las probabilidades de ocurrencia de los fenómenos biológicos. No necesariamente se requieren modelos extremadamente complejos (y muchas veces inasibles para el lego), ya que existen modelos muy simples que son capaces de describir un gran número de fenómenos. Elegir un modelo probabilístico equivale a definir una variable aleatoria y asignarle una determinada distribución en probabilidades. Esta distribución dependerá de las condiciones bajo las cuales se efectúa la experiencia. Una vez elegido el modelo, es decir, establecida la distribución de la variable aleatoria, se podrá hallar la probabilidad de ocurrencia de los distintos resultados posibles en futuras repeticiones de la experiencia, que será la probabilidad de obtener los distintos valores de la variable. Ensayo de Bernoulli Supongamos que una variable aleatoria X toma uno de dos valores. Se asigna el valor 0 a uno de los resultados posibles y 1 al otro. Al resultado 1 suele llamárselo "éxito" y al 0 "fracaso". Esta asignación de 0 y 1 al fracaso y al éxito es, por supuesto arbitraria y, como se definió anteriormente, a este tipo de variables se las llama dicotómicas.

Page 40: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

40

Sea la variable X: número de éxitos y tal que : S = {0,1} P(x = 1) = p = probabilidad de éxito P( x= 0) = q = (1-p) = probabilidad de fracaso

Entonces se dice que X es una variable Bernoulli de parámetros p (probabilidad de éxito) y 1 (número de repeticiones) y se indica X ∼ Bi(p, 1). Como vemos sólo depende del valor de p, o sea tiene un solo parámetro

Cálculo de la esperanza y la varianza E(x) = p.1 + q.0 = p Var(x) = E[X - E(X)]2 = p[1-E(x)]2+ q[0-E(x)]2 = p[1-p]2 + (1-p) p2 = p – p2 = pq

Ejemplo de ensayos de Bernoulli: Para un determinado organismo se registra: a) el sexo (macho = 0, hembra =1), b) el estado reproductivo (inmaduro =0, maduro = 1), c) el color (blanco = 0, otro = 1); etc. La unidad experimental es un individuo para el que se determinan simultáneamente el sexo, el estado reproductivo o el color. Si se tienen n repeticiones independientes de un ensayo de Bernoulli se tendrá una muestra aleatoria de tamaño n de la distribución de Bernoulli formada por una secuencia de unos y ceros. En estas condiciones, la probabilidad empírica de éxito resulta :

Si se atribuyó el valor 0 al fracaso y 1 al éxito se tiene que ; donde X es la variable número de éxitos y n el número de ensayos de Bernoulli independientes. A medida que aumenta n, la diferencia entre y p disminuye ya que La repetición independiente de ensayos de Bernoulli proporciona la base para construir modelos teóricos adaptados a circunstancias que se presentan en la práctica que resultan en variables aleatorias cuyas distribuciones pueden deducirse utilizando las propiedades de la distribución de Bernoulli. Por ejemplo: Se cuentan los éxitos obtenidos en una cantidad fija de repeticiones

independientes del ensayo en condiciones idénticas : Distribución Binomial Se cuentan los éxitos cuando las condiciones de cada ensayo varían como

consecuencia de los resultados de otros ensayos. La probabilidad p en cada ensayo depende de la cantidad de éxitos en los otros ensayos (muestreo sin reposición): Distribución Hipergeométrica

Se cuentan los éxitos cuando se repite el ensayo de Bernoulli en condiciones idénticas con valores de n muy grandes y valores de p muy chicos: Distribución de Poisson.

Se cuentan los fracasos hasta obtener el primer éxito en repeticiones independientes en condiciones idénticas: Distribución Geométrica

ensayos de total cantidad

éxitos de cantidadp =

nxp =

p pplimn

=∞→

Page 41: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

41

Se cuentan los fracasos hasta obtener el r-ésimo éxito en repeticiones independientes en condiciones idénticas: Distribución Binomial Negativa ó de Pascal.

Distribución Binomial Sean los siguientes experimentos aleatorios: 1. Arrojar seis veces una moneda equilibrada y contar la cantidad de caras. 2. Contar la cantidad de semillas germinadas, cada una de ellas plantada en una

maceta 3. Contar la cantidad de insectos infectados por muestra de seis insectos. Definimos la variables aleatorias X: cantidad de caras. Y: cantidad de semillas germinadas H: cantidad de insectos infectados. Se puede observar que estos ensayos tienen varias características en común: a) Los resultados posibles en cada repetición del ensayo son dicotómicos, pueden ser

considerados como éxito o fracaso. Para la variable X los resultados posibles son cara o ceca, para la Y la semilla germina o no germina y para la H el insecto está infectado o no lo está.

b) Cada uno de los ensayos se repite un número finito de veces, en este caso es seis para todos ellos. Seis veces se arroja la moneda, seis son las semillas que se observan y seis son los insectos que se consideran.

c) Las repeticiones de cada una de esos ensayos se realizan en forma

independiente. d) Para cada ensayo se puede definir una probabilidad de éxito, que se mantiene

constante para cada una de las repeticiones; esta probabilidad puede por ejemplo ser del 50% para X, si se supone que la moneda no está cargada.

En estas condiciones se dice que X es una variable binomial con parámetros p y n (o equivalentemente que sigue una distribución binomial) y se indica X ∼ Bi(p , n), donde p es la probabilidad de éxito y n es el número de repeticiones independientes. Su espacio muestral (o dominio) es S = {0, 1, ...., n} y la unidad experimental es el conjunto de los n ensayos, o sea seis monedas, seis macetas o seis insectos infestados en el ejemplo planteado. La probabilidad de que la variable tome un valor k (entre 0 y n) es:

con k= 0, 1,...., n Esta forma de calcular la probabilidad de una binomial puede deducirse de la siguiente forma: Sea x ∼ Bi(p, n). Se quiere calcular la probabilidad de k éxitos de entre los n resultados posibles. Denotemos con E al éxito y con F al fracaso. Luego k éxitos en n ensayos es un suceso con k valores E y n - k valores F, por ejemplo los k primeros ensayos son E y los restantes F, o sea:

)p1( knpkn

k)kX(P − −

⎟⎟⎠

⎞⎜⎜⎝

⎛==

Page 42: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

42

E E E....E F F ...F Como las repeticiones son independientes:

P(E E E....E F F ...F) = [P(E)]k [P(F)]n – k = pk (1 – p)n – k Ahora nos preguntamos cuantos sucesos hay con esta probabilidad. Esto se contesta calculando el número de sucesos con k valores E y n – k valores F. O sea de cuantas formas se pueden ordena n objetos donde hay k de una clase (repetidos) y n – k de otra. Estas son las combinaciones de n tomadas de a k. O las permutaciones de n objetos donde hay k repetidos y n – k repetidos:

La distribución Binomial así definida es en efecto una distribución en probabilidades puesto que: 1) 0 ≤ P(X = k ) ≤ 1 para todo k = 1,2,..,n 2) este es el binomio de Newton y de ahí el nombre de la distribución. Cálculo de la esperanza y la varianza Para el cálculo de la esperanza y varianza de una variable aleatoria con distribución Binomial de parámetros p y n se necesita la siguiente proposición: Sean las variables independientes X1 ∼ Bi(p,n1) y X2 ∼ Bi(p,n2) ; luego la variable aleatoria suma sigue una distribución binomial de parámetros p y n1 + n2, es decir

X1 + X2 ~ Bi(p, n1 + n2) En general la proposición dice: Si las variables aleatorias independientes Xi, con i = 1, 2,..., n, tienen cada una distribución Bi(p, ni), entonces la variable suma sigue también una distribución Binomial, o sea:

X = ∑ Xi ∼ Bi(p, ∑ni) Como se ha definido anteriormente, la variable Binomial resulta ser una suma de n ensayos de Bernoulli (ni = 1, ∀i) independientes; luego estamos en las condiciones de la proposición y vale: X = ∑ Xi ∼ Bi(p,n) Para el cálculo de la esperanza y varianza de una variable con distribución binomial de parámetros p y n resulta: Se tienen n variables aleatorias independientes Xi, cada una con distribución Bi(p,1) y X = ∑ Xi ∼ Bi(p, n), entonces:

)!kn(!k!nn

k −=⎟

⎟⎠

⎞⎜⎜⎝

1)qp()p1( knpkn

k)kX(P n =∑ +=− −

⎟⎟⎠

⎞⎜⎜⎝

⎛=∑ =

Page 43: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

43

E(X) = E [∑ Xi] = ∑ E(Xi) = ∑i=1n p = np

Var(X) = Var [∑ Xi] = ∑ Var Xi = ∑1n pq = npq = np(1 – p)

Conocidas la media y al varianza de una distribución Binomial quedan determinados sus parámetros p y n: Sea X ∼ Bi(p, n):

E(X) = np = a, y Var(X) = np(1 – p) = a(1 – p) = b Luego: p = 1 – b/a y n = a2 /(a – b)

Ejemplo: Sea la variable X: cantidad de ratas muertas de entre cuatro tratadas con una sustancia cancerígena, al cabo de 10 días. Luego n = 4, los resultados posibles son 0, 1, 2, 3 ó 4 ratas muertas. Si se supone para p= probabilidad de muerte las dos siguientes situaciones: a) p = 0,50 X ∼ Bi(0,50 , 4) b) p = 0,70 X ∼ Bi(0,70 , 4) Se calcula la probabilidad con que la variable toma sus distintos valores, para cada uno de los modelos y se tiene la distribución en probabilidades de la variable:

(a) (b) X X ∼ Bi(0,50 , 4) X ∼ Bi(0,70 , 4) 0 0,0625 0,0081 1 0,25 0,07556 2 0,3750 0,2646 3 0,25 0,4116 4 0,0625 0,2401

E(X) = µ 2 2,80 ≈ 3 Var(X) = σ2 1 0,84

Des st (X) = σ 1 0,9165 ≈ 1 Gráfico de barras (histograma)

00,10,20,30,40,5

0 1 2 3 4# ratas muertas

Bi(0,50,4)Bi(0,70,4)

Pb

Page 44: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

44

Extracciones con y sin reposición Cuando se realiza un muestreo, las unidades experimentales asignadas a la muestra pueden o no devolverse a la población una vez registrada la variable de interés. Cuando el muestreo es con reposición se supone que existe independencia entre los resultados obtenidos y, si la variable definida es dicotómica, tal vez su distribución se ajuste a una binomial. Cuando se muestrea sin reposición (las unidades experimentales no se devuelven a la población) no puede suponerse la independencia entre los resultados. Cuando la población de la que se saca la muestra es infinita, puede suponerse independencia entre los resultados obtenidos tanto si se realiza el muestreo con reposición como si se lo hace sin reposición. En el caso de poblaciones finitas y extracciones sin reposición, los resultados pueden ser considerados independientes si el tamaño de la muestra es a lo sumo del 5% del tamaño de la población. Cuando en la repetición de ensayos de Bernoulli no se cumplen los supuestos de independencia y/o la probabilidad de éxito p constante para cada ensayo se debe especificar la forma en que p cambia o la forma en que un ensayo depende de otro, a fin de poder calcular las probabilidades asociadas a los valores que toma la variable. Distribución Hipergeométrica Sean las siguientes situaciones experimentales: 1. - De una manzana con 7 hembras y 3 machos de un coleóptero, se sacan 4

coleópteros y se estudia la distribución de la cantidad de machos. 2. - De una jaula donde hay 7 conejos marcados y 3 sin marcar se eligen 4 al azar y se

estudia la distribución de la cantidad de marcados. 3. - De una caja con 7 semillas verdes y 3 amarillas se eligen 4 al azar y se estudia la

distribución de semillas verdes. Para estas experiencias se pueden definir las variables: 1. - X : número de machos de coleóptero 2. - Y : número de conejos marcados 3. - Z : número de semillas verdes Aquí es necesario aclarar como se realizaron las extracciones. a) Si se realizaron con reposición, cada una de las tres variables definidas pueden

seguir una distribución aproximadamente binomial con n = 4 y p = 0,30 constante. b) Si se realizaron sin reposición, la distribución es Hipergeométrica, ya que la

probabilidad cambia de una extracción a la siguiente. Deducción del cálculo de probabilidades para una distribución Hipergeométrica: En el caso de la variable X (# de machos), si se quiere calcular la probabilidad de que 2 sean machos, entonces los sucesos favorables serían las distintas ordenaciones de 2 hembras y 2 machos o sea: HHMM , MMHH , HMHM , MHMH , HMMH , MHHM La probabilidad de ocurrencia de cada uno de estos sucesos es:

Page 45: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

45

[7/10][6/9][3/8][2/7] = 0,05, P(2 machos)= 6x0,05 = 0,30

Esta probabilidad podría haberse calculado como: Esquema general de la distribución hipergeométrica Sea una población de moscas de la fruta que posea N individuos de los cuales D pertenecen al fenotipo mutante (M) y las restantes N - D pertenecen al fenotipo salvaje (S). Se extraen n (n ≤ N) moscas sin reposición y se quiere calcular la probabilidad de que k sean mutantes y n-k salvajes. El esquema sería:

Nro total de moscas Composición Extracción Se quieren D mutantes k mutantes

N n moscas sin reposición

N – D salvajes n – k salvajes Sea la variable X: cantidad de moscas mutantes, entonces la probabilidad de extraer k moscas mutantes se calcula como: El numerador de la expresión de la probabilidad es la cantidad de formas posibles de seleccionar k moscas mutantes de entre D y (n – k) salvajes de entre (N – D) (casos favorables), mientras que el denominador es la cantidad de formas de elegir n moscas de entre N (casos posibles). Se indica X ∼ Hi(N, D, n) y se lee X sigue una distribución Hipergeométrica de parámetros N, D y n. En el ejemplo planteado es X ∼ Hi(10, 3, 4). Y si hubiera interesado la variable Y: número de moscas normales, entonces sería Y∼ Hi(10, 7, 4). Rango de variación de la variable 1) k ≤ D (total de normales), k ≤ n, entonces k ≤ min(D, n) 2) k ≥ 0, n – k ≤ N - D, entonces k ≥ n + D - N, luego k ≥ Máx(0, n+D-N) De (1) y (2) se deduce

Máx(0, n+D-N) ≤ k ≤ min(D, n)

30,0CPCF)2X(P

10

4

3

2

7

2 =

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

===

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

==

−N

n

DN

kn

D

k)kX(P

Page 46: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

46

Esperanza y varianza Notar que el cociente D/N es como el p de la binomial, luego sería E(X) = np y V(X) = npq[(N - n) / (N - 1)], que coinciden con la esperanza y varianza de la binomial, salvo en el factor [(N - n) / (N - 1)], llamado de corrección. Para N (tamaño de la población) suficientemente grande comparado con n (tamaño de la muestra). La distribución hipergeométrica converge a la distribución binomial; el factor de corrección es prácticamente nulo. La distribución hipergeométrica queda completamente determinada con tres parámetros: N, D, y n. En biología la extracción de muestras de una población finita es bastante común; y, obviamente las extracciones son sin reposición. Una de las aplicaciones de la distribución hipergeométrica es en la estimación del tamaño poblacional mediante la captura, marcado y recaptura de individuos de la misma. Un caso particular de esta aplicación se verá en un ejercicio incluido en la guía de TP. Distribución de Poisson Esta distribución se presenta cuando se cuentan sucesos o eventos que se distribuyen al azar en el espacio o en el tiempo y específicamente se aplica al caso de sucesos que no se observan como consecuencia de un ensayo intencional, sino que ocurren aleatoriamente en un espacio físico o un período de tiempo. El experimentador sólo registra la ocurrencia o no del suceso en la unidad de tiempo o espacio fijado, o unidad de muestreo especificada, pero no interviene creando condiciones para que el suceso pueda producirse. Es decir no realiza la experiencia como en el caso de la binomial. Se observa un conjunto discreto de sucesos en un ” intervalo” de tiempo , longitud o espacio. Se utiliza la palabra “intervalo” en la descripción del proceso de Poisson, entendiendo que no lo es en el sentido matemático de la expresión. Por ejemplo: a) Se observa la cantidad de glóbulos rojos en una muestra de sangre. El suceso de interés es la observación de un glóbulo rojo y el intervalo es una gota de sangre. b) Se observa la cantidad de plantas de una especie a lo largo de una transecta. El suceso de interés es la cantidad de plantas de esa especie y el intervalo puede ser, por ejemplo, 50 metros. Otros Ejemplos 1) Contar la cantidad de colonias de hongos por caja de Petri 2) Contar la cantidad de microorganismos por cc de agua 3) Contar la cantidad de partículas emitidas por una fuente radiactiva por segundo 4) Contar la cantidad de mutaciones ocurridas en un gen 5) Contar la cantidad de plantas de una especie por m² en la ladera de una montaña. En todos los casos hay una variable que representa el número de sucesos por unidad de tamaño “t”.

nND)X(E ⎟

⎠⎞

⎜⎝⎛= ⎥⎦

⎤⎢⎣⎡

−−

⎥⎦⎤

⎢⎣⎡

⎟⎠⎞

⎜⎝⎛ −⎟

⎠⎞

⎜⎝⎛=

1NnN

ND1

NDn)X(V

Page 47: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

47

Proceso de Poisson La distribución de Poisson se deduce de una serie de axiomas que llevan a la formalización del cálculo de la probabilidad de que la variable tome un determinado valor. Sea un experimento aleatorio donde interesa la ocurrencia de un suceso A; se define la variable X: número de ocurrencias de A por unidad de muestreo o X: número de ocurrencias de A por unidad de muestra. Por unidad de muestra o de muestreo se entiende un espacio, tiempo volumen, área, etc. , de tamaño t, donde se registra la variable. Si se considera que A es éxito la variable sería X: cantidad de ocurrencias de A / unidad de muestra, o sea X: cantidad de éxitos/unidad de muestra. La unidad de muestra es por ejemplo, una caja de Petri, 1 cc de agua, una gota de sangre. Las siguientes hipótesis constituyen los axiomas que definen la distribución de Poisson. 1) Las variables cantidad de ocurrencias de A por unidad de muestra en unidades no

superpuestas son independientes. 2) La distribución de la cantidad de ocurrencias de A en cualquier unidad de muestreo

depende sólo el tamaño de la unidad pero no de la unidad específica. 3) Si la unidad de muestreo es suficientemente pequeña, la probabilidad de

ocurrencia de exactamente un suceso A es directamente proporcional al tamaño de la misma. O sea P(X=1) = λt, donde t es la unidad de muestreo y λ una constante de proporcionalidad.

4) La probabilidad de ocurrencia de dos o más sucesos A en una unidad de muestreo

pequeña es despreciable, es decir P(X ≥ 2) ≈ 0. Sobre la base de estas hipótesis se deduce: con x = 0, 1,........... Se indica X ∼ P (λ t) y se dice que la variable sigue una distribución de Poisson de parámetro (λ t). Por lo tanto la distribución tiene dos parámetros. Para esta distribución la esperanza y la varianza coinciden, es decir: E(X) = V(X) = λ t Luego λ t = E(X) es la cantidad esperada de ocurrencias de A λ = E(X)/t es la cantidad promedio de ocurrencias de A/unidad de muestra. Cuando t = 1, es E(X) = λ. Por ejemplo si X: cantidad de microorganismos/volumen de agua, entonces λ = E(X)/V representa la densidad media.

( )!x

te)xX(Pxt λ==

λ−

Page 48: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

48

Análisis de poblaciones en el espacio: contagio y repulsión Cuando los sucesos ocurren con independencia mutua, o sea están arreglados al azar, y cumplen los axiomas de Poisson, la variable sigue una distribución de Poisson y la población está dispuesta al azar. Si la ocurrencia de un suceso aumenta la probabilidad de ocurrencia de un segundo suceso similar al primero en la misma unidad de muestreo, se dice que la población está en contagio o agrupada (también se dice apiñada o agregada). ejemplos podrían ser: 1) animales que se reúnen para comer, 2) animales que se reúnen para invernar, 3) agrupaciones sociales, 4) bacterias en colonias, etc. Si la ocurrencia de un suceso disminuye la probabilidad de ocurrencia de un segundo suceso similar en la misma unidad de muestreo, se obtiene una población en repulsión. Por ejemplo animales en competencia por algún recurso limitado. Como se discutió cuando se vieron los distintos programa de muestreo, es importante conocer como están arreglados o dispuestos los individuos en la población. Si es al azar (Poisson) los individuos pueden ser extraídos mediante un muestreo simple al azar, pero en caso contrario habrá que buscar la forma de extraer la muestra. Prueba de razón Varianza/Media Una característica de la distribución de Poisson es que el valor de la varianza y la media coincide y este hecho se utiliza para reconocer, en la práctica, si una población está o no distribuida al azar. El cociente entre estos dos valores se denomina coeficiente de dispersión:

xsCD

2=

En aquellas variables que siguen una distribución de Poisson este valor está próximo a uno. Será mayor que uno en las agrupadas (contagio) y menor que uno en casos de repulsión (distribución uniforme): > 1 Contagio CD = 1 Azar < 1 Repulsión

Page 49: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

49

Contagio

Poisson

Repulsión

El estudio de la disposición de las poblaciones en el espacio puede también realizarse estudiando cuánto se separan las frecuencias observadas de las esperadas, bajo la hipótesis de azar, mediante el estudio del signo de las diferencias Fobservada – Fesperadas Si la mayoría de las Fobservada > Fesperada, entonces existe contagio puesto que las frecuencias observadas son mayores que las esperadas. En caso contrario existe repulsión. En el caso de la distribución binomial verifica lo mismo que en el caso de Poisson. Gráficamente se puede observar que cuando existe contagio “se levantan” ambas colas de la distribución y en repulsión “se aplastan”; es decir colas mas pesadas indican repulsión.

Tomado de Rabinovich, 1980Azar Contagio Repulsión

Page 50: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

50

Otra forma de ver lo mismo es comparar las desviaciones estándar observada y esperada. Si σobs > σesp existe contagio y si σobs < σesp se trata de repulsión.

Fobservadas - Fesperadas Azar Contagio Repulsión

+ + - - + - + + - + - + - - + + - + - - + - + - + + - - + -

Page 51: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

51

Distribución Geométrica Sea un experimento en el cual sólo se está interesado en la ocurrencia o no de un suceso A. Como en el caso de la binomial se repite un número independiente de veces y para cada repetición es P(A) = p y (1 - p)= q. El experimento se repite hasta que A ocurra por primera vez. Sea la variable X: cantidad de ensayos hasta que ocurra el primer éxito. Por ejemplo cantidad machos nacidos hasta el nacimiento de la primera hembra, cantidad de insectos hasta encontrar uno infectado, etc. Como se puede observar, la distribución geométrica se diferencia de la distribución binomial sólo en que en ésta la cantidad de repeticiones es finita mientras que en aquella está librada al azar. Por lo demás, la geométrica también es una suma de variables Bernoulli independientes, sólo que la cantidad de repeticiones no está acotada. La variable X sigue una distribución geométrica de parámetro p (por lo tanto depende de un sólo parámetro) y se índice X ∼ G(p). La probabilidad de que la variable tome un valor x se define como: P(X = x) = (1 - p) x - 1 p con x = 1, 2, .. ..... Se demuestra: E(X) = 1/ p

V(X) = q / p²

Como se puede observar, la esperanza es la cantidad esperada de ensayos hasta obtener el primer éxito. Cuanto menor es p, mayor es la cantidad esperada de ensayos hasta el primer éxito y al mismo tiempo la varianza también aumenta. Ejemplo Se estudia la cantidad de machos de una especie de pez que se tiene que pescar hasta pescar la primera hembra. El n no está fijado Se suponen los dos siguientes modelos: a) p = ½ = 0,50 b) p = 0,45 Entonces para cada modelo resulta

Modelo (a) Modelo (b) P(x = 3) (1/2)2 ½ = 1/8 = 0,125 (0,55)2 (0,45) = 0,1361 E(X) = µ 2 2,22 Var(X) = σ2 2 2,72 Des st = σ 1,4142 1,65

Page 52: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

52

Distribución Binomial Negativa Generalizando el caso anterior (distribución Geométrica) puede interesar la cantidad de fracasos hasta obtener el r- ésimo éxito. Entonces se define la variable:

X: cantidad de fracasos hasta obtener el r-ésimo éxito con S = {0,1, 2, 3...}. Cualquiera de las secuencias en que aparecen los primeros r-1 éxitos (el r-ésimo aparece siempre en el último ensayo de Bernoulli) tiene probabilidad:

La cantidad total de ensayos será siempre k + r, de los cuales k + r-1 son candidatos a que sean fracasos (el último es siempre éxito). O sea que k fracasos se pueden producir de Ck

k+r-1 formas. De ahí que:

Decimos entonces que X~ BN(p, r) donde p es la probabilidad de éxito y r indica el número de éxitos. Además vale :

E(X) = rq / p Var(X) = rq / p²

Aproximación de Poisson a la Binomial Para el caso de una X ∼ Bi(p, n) con n suficientemente grande y la probabilidad de éxito p, cercana a cero (en esta situación se suele decir que el suceso es raro), puede utilizarse una distribución aproximada para el cálculo de las probabilidades binomiales. "Sea X ∼ Bi(p, n) con n → ∞ , p → 0, pero np = λ constante. En estas condiciones se prueba que la distribución binomial converge, en probabilidad, a una de Poisson de parámetro λ = np. En la práctica se considera que esta aproximación es buena si np < 5, y n > 30. Nunca se debe perder de vista que la distribución exacta de la variable es la binomial y la de Poisson es sólo una aproximada y es tanto más buena cuanto mayor es n.

rkkr

kr

pqpqpEXITOfracasofracasofracasoexitoexitoexitoP =⋅⋅=⎟⎟

⎜⎜

⎛−

1

s vececes ve1

,,......,,....,

( ) ( )( )

rkrkrkk pq

rkrkpqCkXP

! 1!! 11

−−+

=== −+

Page 53: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

53

MODELOS DE DISTRIBUCIÓN DE VARIABLES CONTINUAS Distribución uniforme Distribución uniforme discreta Uno de los modelos probabilísticos más sencillos es aquel que corresponde al caso de elegir dígitos al azar. En este caso, por ejemplo, los enteros 0, 1, 2, ......, 9 son igualmente probables. Luego: P(elegir el dígito i) = 1/10, i = 0, 1, 2, ....., 9 Esta distribución en probabilidades se llama distribución uniforme en los dígitos 0, 1, ...., 9. En forma semejante se puede considerar la elección al azar de valores de la forma 0.0, 0.2, ...., 0.9 al azar. Entonces:

P(elegir un valor i/10) = 1 / 10, i = 0.0, 0.1, ........ 0.9 P(elegir un valor i/100) = 1 / 100, i = 0.00, 0.01, ........ 0.99 En general es: P(elegir un valor i/10t) = 1 / 10t, i = 0.00....0, ....., 0.99......9 Distribución uniforme continua Continuando el procedimiento de considerar distribuciones uniformes sobre números entre 0 y 1 con más y más decimales, al final resulta la distribución uniforme continua en [0, 1]. Este es el caso más general en el que la variable es continua, está definida para todos los números reales, y asigna igual probabilidad a intervalos del mismo tamaño, o sea si c y d son dos valores entre cero y uno, entonces: P(x ∈ [c , d]) = P(x ∈ [c’, d’]) sií ⏐d - c⏐ = ⏐d’ - c’⏐ La función de distribución es nula hasta el límite inferior del intervalo y luego crece linealmente hasta el valor 1, valor que alcanza en el límite superior. Se indica X ~ U[a, b]

Page 54: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

54

Expresión para la función de densidad, f(x), de la variable X ~ U[a, b] La función de distribución F(x) es cero hasta el valor a tenemos que: f(x) = 0 si x<a Como F(x) permanece constante (es igual a 1) para x > b tenemos: f(x) = 0 si x>b

Valor de f(x) para a ≤ x ≤ b : Por definición sabemos que f(x) = F’(x) = ∂F(x) / ∂x. Además, si F(x) crece entre 0 y 1 en el intervalo (a, b) con velocidad constante, entre a y b, F(x) es una recta de la forma: F(x) = k + t x Luego: F(a) = 0 ; F(b) = 1 F’(x) = f(x) = t F(b) = k + t b = 1 y F(a) = k + t a = 0 t b – t a = 1 t = 1/(b-a)

Entonces:

b xó a x si 0

b x a si 1)(

⎪⎩

⎪⎨⎧

><

≤≤−= abxf

Conociendo la función de densidad f(x) es fácil calcular E(X) y Var(X), para X ∼ U(a, b):

( )abababtxxdxtXE

b

a

b

a

+=⎟⎟⎠

⎞⎜⎜⎝

⎛−−

=== ∫ 21

21

2)(

22 2

|

O sea que la esperanza es el punto medio del intervalo [a, b]. Para obtener la varianza:

( )

( ) ( )12

)(41

31)()()(

31

31

3)(

222222

2233 3

22 |ababaabbXEXEXVar

aabbababtxdxxtXE

b

a

b

a

−=+−+−=−=

+−=⎟⎟⎠

⎞⎜⎜⎝

⎛−−

=== ∫

2.- Distribución exponencial Se dice que una variable aleatoria continua X, que toma valores no negativos, tiene una distribución exponencial con parámetro k si su función de densidad está dada

por:

0 x si 0 0 x si

)(

⎩⎨⎧

≤>

=−kxke

xf

Page 55: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

55

La distribución exponencial desempeña un rol importante en la descripción de numerosos fenómenos. El parámetro k de la distribución exponencial es una tasa, que para alguna experiencias se debe suponer constante y que, por la forma en que se ha definido la densidad, sólo puede tomar valores positivos. Es efectivamente una función de densidad puesto que:

1)1()0(|00

=−−−=−=∞

−∞

−∫ kxkx edxke

kxx

kxx

kx eedxkexXPxF −−− −=−==≤= ∫ 1)()( |00

cuando x ≥ 0

F(x) = 0 si x < 0. Luego P(X ≥ x) = e-kx

Se demuestra que : E(X) = 1/k y Var(X) = 1/ k2 Esto nos indica que el valor esperado de la variable es la inversa del cuadrado del valor del parámetro k. Por lo tanto si k es la tasa, por ejemplo de mortalidad, de algún organismo en horas, la E(X) nos indicaría el tiempo esperado de sobrevida del organismo. Además la E(X) crece con la disminución de la mortalidad y viceversa. Demostración (Se puede continuar la lectura sin esta demostración):

kdxxeXE kx∫∞

−=0

)( . Integrando por partes, tomando:kxkx evdvdxke

dxduxu−− −=⇒=

=⇒= ;

kke

kexeXE kxkxkx 110|10|)(

000=⎟

⎠⎞

⎜⎝⎛−−=−=−−−=

∞−

∞−

∞− ∫

[ ]22 )()()( XEXEXVar −= . Luego solo es necesario el cálculo de E(X2).

kdxexXE kx∫∞

−=0

22 )( . Integrando por partes, tomando:kxkx evdvdxke

xdxduxu−− −=⇒=

=⇒= ;22

Page 56: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

56

E X x e e xdxkk

e xdxk

ke xdxk

Var X E X E Xk k k

kx kx kx kx

E X

( )

( ) ( ) ( )

( )

2 20 0 0 2

2 22 2 2

0 2 02 2 2

2 1 1

= −∞

− − = + = =

= − = − =

− −∞ −∞ −∞∫ ∫ ∫

Distribución Normal La distribución normal aparece como caso límite de varias distribuciones (en general cuando el tamaño de la muestra tiende a infinito), lo que permite utilizarla como aproximación en el cálculo de probabilidades. Los errores de medición muy frecuentemente se distribuyen según esta ley, razón por la cual se la conoce también como "ley de frecuencias del error". Esto se debe a que la distribución de una suma de variables aleatorias independientes se aproxima a la distribución normal a medida que aumenta su número. En la práctica esto significa que es posible utilizarla como modelo para la distribución de variables aleatorias que resultan de la suma de muchas causas de pequeña magnitud. Sea X una variable aleatoria continua (puede tomar cualquier valor en la recta real). X tiene una distribución normal o de Gauss - Laplace, que se indica X ~ N(µ, σ²) cuando su función de densidad es:

Se demuestra que: E(X) = µ y Var(X) = σ² son los parámetros de X ~ N(µ, σ²), o sea que la distribución normal tiene dos parámetros.

Tomado de Sokal y Rohlf, 1995, pp103

( ) e21

f x−

πσ= ⎟

⎠⎞

⎜⎝⎛

σ

μ−x2

2

1

Page 57: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

57

El gráfico de la función de densidad de la distribución normal es simétrica y, debido a su forma, es común que se la llame la 'Campana de Gauss'. Toma el valor máximo en x = µ y los puntos de inflexión en µ ± σ. Vale

P(µ - σ ≤ X ≤ µ + σ) 100 = 69 %

P(µ -2 σ ≤ X ≤ µ + 2σ) 100 = 95 %

P(µ - 3σ ≤ X ≤ µ + 3σ) 100 = 99 % Proposiciones 1.- Sean dos variables aleatorias, cada una con distribución normal de igual media µ y varianzas σ2

1 < σ22, respectivamente. Representadas en el mismo gráfico se observa

que la de menor varianza es más puntiaguda, mientras que la otra tiene las colas más pesadas. 2.- Sean las variables aleatorias independientes X1

∼ N(µ1, σ21) y X2 ∼ N(µ2, σ2

2). Entonces la variable aleatoria suma de ambas también sigue una distribución normal; con media µ1 + µ2 y varianza σ2

1 + σ22:

a) la suma de variables aleatorias independientes con distribución normal sigue una distribución normal b) E(X) = E(X1 + X2) = E(X1) + E(X2) = µ1 + µ2 Var (X) = Var(X1 + X2) = σ2

1 + σ22

3.- En general si X1 y X2 como en (2) antes, a y b constantes, entonces vale aX1 + bX2 ∼ N(aµ1 + bµ2, a2 σ2

1 + b2 σ22 )

Si se considera el caso particular de µ = 0 y σ2 = 1, se indica X ∼ N(0, 1), esta distribución es la comúnmente llamada normal cero uno. En este caso la función de densidad se indica: y la variable se denota con la letra Z , o sea Z ~ N (0 , 1 ). Proposición: Si X ∼ N(µ , σ2.), entonces Z = [X - µ] / σ ~ N(0, 1). a) Sigue distribución normal por ser combinación lineal de una variable con distribución normal. b) E(Z) = E[(X - µ) / σ] = 1/σ [E(X) - µ] = [µ - µ]/ σ = 0 Var(Z) = Var[(X - µ) / σ] = [1 / σ2.] Var(X) = σ2 / σ2 = 1

e21)x( −

πσ=ϕ ⎟

⎠⎞

⎜⎝⎛

σ

μ−x2

2

1

Page 58: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

58

Los valores de probabilidad correspondientes a variables aleatorias con distribución N(0,1) se calculan a partir de la función de distribución y están tabulados. Mediante el proceso de estandarización, pueden utilizarse para calcular probabilidades para cualquier variable con distribución normal. Por supuesto también pueden resolverse estos casos utilizando una planilla de cálculo o cualquier programa estadístico. Función de distribución acumulada de X ∼ N(0, 1) Se define como Ejemplo de cálculo de probabilidades: Sea X ∼ N(6.05, 4), se quiere calcular la probabilidad de que la variable tome valores menores que 7,50: P(X ≤ 7,50) = P( [(X – 6,05)/ 2] ≤ [(7,50 – 6,05) /2] ) = P(Z ≤ 0,725) = 0,7658 Proposición: Si X ~ N(0, 1), entonces φ (− x) = 1 − φ (x) Por simetría φ (−x) = P(X ≤ −x) = P( X ≥ x) Además P( X ≥ x) = 1 − P(X ≤ x) = 1 − φ ( x) φ (−x) = 1− φ (x). Aproximación normal Aproximación normal a la distribución Binomial Sea X ∼ Bi(p, n), entonces para n suficientemente grande vale: Esta aproximación es tanto mejor cuando n > 30 y p cercado a ½. En general se utiliza para np ≥ 5. Corrección por continuidad Se está utilizando una distribución de variable continua para aproximar la distribución de una variable discreta y para una variable continua no tiene sentido el cálculo de P(X = k), que sí lo tiene para una discreta. En esta situación corresponde aplicar una corrección (llamada por continuidad) que consiste en definir un intervalo de incertidumbre alrededor del valor k, entonces:

P(X = k) = P(k - ½ < x < k + ½)

∫ φ−φ=≤≤→ϕ=φ∞−

x)a()b()bxa(Pdx)x()x(

N(0,1)~npq

np-xZ =

Page 59: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

59

Ejemplo: Sea X ∼ Bi(0,4 , 40) e interesa calcular P( X = 20). Como X ∼ Bi(0,4 , 40), entonces µ = np = 0,4x40 = 16 y σ =[npq]1/2 = [40x0,4x0,6]1/2 = 3,10. Luego: P(X = 20 ) = P(19,5 ≤ X ≤ 20,5) = P(1,13 ≤ z ≤ 1,45) = φ(1,45) - φ(1,13) = 0,9265 – 0,8708 = 0,0542 Aproximación normal a la distribución de Poisson

Sea X ~ P ( λ), luego E(X) = Var(X) = λ , entonces vale: Valen las mismas acotaciones en cuanto a corrección. como X ~ Bi(p, n) con n > 30, entonces, np < 5, p → 0 es Bi(p, n) → P (np) np > 5, p → ½ es Bi(p, n) → N(np, npq) Distribución χ2 (Chi-Cuadrado) Sean las variable aleatoria X1 , X 2 , ....., Xk, independientes cada una con distribución N(0 , 1). Entonces la variable aleatoria X = ∑ Xi

2

se dice que sigue una ley de distribución Chi-Cuadrado con k grados de libertad y se indica como X ∼ χ2

k . Los grados de libertad corresponden al número de sumandos independientes. Está definida entre 0 y +∞. El gráfico de la función de densidad depende de los grados de libertad. A medida que éstos crecen la curva va cambiando de forma

N(0,1)xZ ∼λλ−

=

Page 60: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

60

Propiedades 1.- Si X ∼ χ2

k , entonces E(X) = k y la Var(X) = 2k 2.- Si Y∼ χ2

k , entonces para k suficientemente grande vale [2Y]½ ≈ N([2k-1]½, 1) 3.- Si X ∼ χ2

k , Y ∼ χ2k , independientes, entonces X + Y ∼ χ2

k+q . Distribución ‘t’ de Student Sean las variable aleatoria independientes X ∼ N(0 , 1) e Y ∼ χ2

k , entonces la variable

sigue una distribución ‘t ‘de Student con k grados de libertad. Se observa que los grados de libertad son los de la Chi-Cuadrado del denominador. Se indica T ∼ tk . Está definida entre -∞ y + ∞. La gráfica de la función de densidad es acampanada y simétrica alrededor del origen. Cuando los grados de libertad son mayores que 30 el gráfico de la distribución ‘t’ se aproxima al de una Normal con media cero y varianza uno.

kY

XT =

Page 61: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

61

Para utilizar una tabla y/o algún programa valen las mismas indicaciones que para la distribución Chi-Cuadrado. Distribución ℑ de Fisher Sean las variables aleatorias independientes X ~ χ2

p e Y~ χ2q , entonces la variable

aleatoria x/y sigue una distribución ℑ de Fisher con p grados de libertad en el numerador y q en el denominador y se indica ℑp, q. Está definida entre 0 y + ∞. La forma del gráfico de la curva depende de los grados de libertad, pero su forma general es:

Page 62: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

62

Propiedades ♦ ℑp, q, 1-α ≠ ℑq, p, 1-α . E n su lugar vale: ℑp, q, 1-α = 1 / ℑq, p, α ♦ E(ℑp, q, ) = q / [q - 2] → 1 cuando q → ∞ Relación entre ℑ y χ2 ℑp,∞ = [χ2

p / p] / [χ2∞ / ∞] χ2

p /p , porque χ2q / q → 1 cuando q → ∞, entonces χ2

p = p ℑp,∞ Relación entre ℑ y ‘t’ tp = Z / [χ2

p / p]½ t2p = Z2 / [χ2p / p] = [χ2

1 / 1] / [χ2p / p] = ℑ1,p. Luego t2p, α/2 =

ℑ1 , p, α Relación entre ℑ y N(0 , 1) Sea Z~ N(0, 1); Z ~ t∞ Z2 ~ t2∞ . Luego Z2 = t2∞ = ℑ1, ∞

Page 63: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

63

DISTRIBUCIONES MUESTRALES. ESTIMACIÓN Distribuciones muestrales Sea una población cualquiera P de tamaño N de la que se extraen todas las muestras posibles, con o sin reposición, de tamaño n. Para cada una de esas muestras se calculan los estadísticos de interés, cada uno de los cuales es una variable aleatoria que toma valores en cada una de las muestras extraídas. Luego interesa conocer su distribución en probabilidades: la distribución muestral del estadístico en cuestión. Por ejemplo si de una población se extraen todas las muestras posibles de tamaño n y para cada una de ellas se calcula la media muestral, , entonces se tendrá una muestra aleatoria de la variable aleatoria y se puede estimar su media y su varianza, o estudiar su distribución en probabilidades. Entonces se tendrá la distribución muestral de medias. La distribución muestral o distribución de probabilidades de un estadístico puede ser construida: a) Empíricamente: en el caso de una variable discreta con N finito y

extracciones con reposición b) Analíticamente: realizando la deducción matemática Cuando la variable es discreta y el tamaño de la población P no es demasiado grande se puede hallar empíricamente la distribución muestral (ver problema 1 del TP 5). Si el tamaño N de la población es apreciable, la construcción empírica de la distribución muestral es casi imposible de realizar. En estos casos se la deduce analíticamente mediante el modelo matemático que mejor se ajuste a la realidad estudiada. Generalmente se tiene interés en conocer la media, la varianza y la expresión de la distribución muestral. A continuación se verá el caso de la distribución muestral de una media, de una proporción y de una varianza.

Distribución muestral de medias Sea X la variable que identifica a la población en estudio, entonces denotaremos: Para la variable X : E(X) = µX Var(X) = σ ²X Para la variable

Para deducir la distribución muestral de la media se distinguen varios casos: Población infinita

Se extraen todas las muestras posibles de tamaño n, con o sin reposición. (En el caso de población finita equivale a extraer las muestras con reposición). Entonces vale: E( ) = E(x) Var( ) = Var(x)/n

μ= x)x(E:X σ= 2x)x(Var

xx

xx

Page 64: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

64

Población finita de tamaño N Se sacan todas las muestras posibles de tamaño n sin reposición, entonces vale: E( ) = E(x) La expresión [(N − n) / (N − 1)] es un factor de corrección para la varianza. Si el tamaño n de las muestras es pequeño con respecto al tamaño N de la población, el efecto de esta corrección es despreciable, pues el factor es aproximadamente uno. En la práctica se considera esta situación cuando el tamaño de las muestras es a lo sumo del orden del 5% del de la población (n ≤ 5% N). Población normalmente distribuida (infinita): En este caso se demuestra la siguiente proposición: "Si {x1,...xN} es una muestra aleatoria de una población N(µ, σ), entonces ∼ N(µ, σ / √n) Demostración 1) La distribución de la variable es normal por ser combinación lineal de

variables independientes con distribución normal (Recordar la definición de muestra aleatoria).

2) Población infinita con cualquier distribución En estos casos se debe tener en cuenta el Teorema Central del Límite (TCL), que dice: "Dada una población con cualquier distribución, con media µ y varianza finita σ2 entonces ∼ N(µ, σ / √n), cuando el tamaño, n, de la muestra es suficientemente grande". Esto significa que a medida que aumenta el tamaño de la muestra, la distribución de las medias de las muestras extraídas de una población cualquiera se aproximará a una distribución normal. Para la aplicación de este teorema se presenta el problema de determinar que tan grande debe ser el tamaño n de las muestras. No existe una respuesta unívoca debido a que el tamaño necesario de la muestra dependerá de la extensión de la no normalidad de la población estadística. Cuanto más se aleja la población de la normalidad, mayor deberá ser el n. Una regla empírica muy utilizada afirma que es suficiente con n ≥ 30.

x

x

x

σ=⋅⋅=∑= 2

2 n1)x(Varn

n1

nxVar)x(Var i

iμ=⋅μ

=∑= nnn

xE)x(E i

x

1NnN

n)x(Var)x(Var

−−

⋅=

Page 65: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

65

Distribución muestral de proporciones El conocimiento de la distribución muestral de proporciones es útil cuando se trabaja con variables discretas y los estadísticos que se estudian son proporciones de una muestra. Tal es el caso de la población de los lanzamientos de una moneda con probabilidad p de caer cara, donde interesa la proporción de caras. Sea una muestra aleatoria de tamaño n de una población con distribución Bi(p, 1) (ensayo de Bernoulli). Luego es la proporción estimada de éxitos. El problema consiste en estudiar la distribución en probabilidades de , o sea su distribución muestral. Caso de población infinita Se extraen todas las muestras posibles, con o sin reposición, de tamaño n de la población (si la población fuera finita se extraerían con reposición). Entonces vale:

pues: y Cuando el tamaño, n, de las muestras es suficientemente grande, en virtud del TCL, la distribución de proporciones se aproxima a una distribución normal siempre que se tomen los estimadores de p y q en lugar de ellos mismos, o sea: luego

Se está utilizando una proposición ya demostrada: "Sean Xi ∼ Bi (a, 1) n (ensayos de Bernoulli) variables independientes, entonces converge en distribución a N(0, 1)". En la práctica para aceptar a la aproximación como buena se debe cumplir:

n ≥ 30, np ≥ 5 y nq ≥ 5.

Ejemplo: Sea p = 0,6 y q = 0,4 Para n = 10 resulta np = 6 > 5 y nq= 4 < 5 Para n = 15 resulta np = 9 > 5 y nq= 6 > 5 Para n = 20 resulta np = 12 > 5 y nq= 8 > 5 Luego alcanzaría con muestras de al menos 15 datos

nXp =

p

p)p(E =npq)p(Var =

ppnn)x(E

n1)p(E =⋅=⋅=

npq

nnpq)x(Var

n1)

nX(Var)p(Var

22==⋅==

⎟⎟⎠

⎞⎜⎜⎝

⎛∼=

nqp,pN

nXp ( ) ( )1,0N

qpnpp ∼=−

)a1(nanaxi−

∑ −

Page 66: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

66

Población Finita Si se extraen todas las muestras posibles de tamaño n sin reposición, como en el caso de la distribución muestral de medias, se debe aplicar un factor de corrección a la varianza y se obtiene:

Error típico o error estándar El error típico o estándar es la desviación estándar de la distribución muestral de un estadístico y forma parte de la medida de la confianza de la estimación Ejemplos: , cuando σ es conocido,

, cuando σ es desconocido

El error estándar depende del tamaño de la muestra, y decrece a medida que el tamaño muestral aumenta. Es decir que cuanto más grande es el n para estimar, por ejemplo , menor es el error que se comete. En cambio la desviación estándar poblacional permanece invariable frente a cambios del tamaño de la muestra. Aquí es oportuno un comentario acerca de la adecuada expresión de los errores en un estudio estadístico. Muchas veces se resume la información obtenida de una serie de datos como y frecuentemente no se aclara de que desvío se trata, y esto es de fundamental importancia ya que está basado en principios estadísticos y no depende solo de la preferencia del autor: Si lo que se quiere es expresar la dispersión de los datos, la expresión correcta es: Pero si en cambio lo que se quiere mostrar es cuan buena es la estimación de la media realizada, lo correcto es: Generalmente el objetivo está relacionado con el primer caso, pero se elige la última expresión debido a que ES < s y se desea mostrar que los datos considerados tienen un “error” menor al que realmente presentan.

p)p(E =1NnN

npq)p(Var

−−

⋅=

n)x(ES σ

=

ns)x(ES =

nqp)p(ES =

x

desvíox ±

sx ±

ESx ±

Page 67: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

67

Distribución muestral de s² Partiendo de una población normalmente distribuida de la cual se extraen todas las muestras posibles de tamaño n, se puede demostrar que:

cuando µ es desconocida

cuando µ es conocida

ESTIMACIÓN ESTADÍSTICA

Como se vio, las diferentes funciones de distribución se caracterizan por sus respectivos parámetros poblacionales y uno de los propósitos de la estadística es la estimación de los mismos. La estimación de los parámetros poblaciones puede realizarse de dos formas: puntualmente o mediante intervalos de confianza. Estimación puntual Cuando se quiere obtener el valor estimado de un parámetro a partir de una muestra de tamaño n, se debe buscar un estadístico muestral que se utiliza como estimador, estableciendo un algoritmo o fórmula que permita calcular el estimador a partir de los datos de la muestra. Para obtener esa fórmula es necesario definir las propiedades que debe tener el estimador. Básicamente un estimador puntual de un parámetro es un número que se aproxima al verdadero valor. Sea el problema general de estimar una característica poblacional o parámetro θ sobre la base de una muestra aleatoria de tamaño n extraída de la población. Se puede elegir entre varios estimadores; anteriormente se vio que para la media poblacional de una distribución simétrica, la media aritmética, la mediana o la moda son algunos de sus estimadores puntuales. Para estimar la varianza de una población de la que no se conoce la media pueden utilizarse los estimadores s² o El problema consiste en decidir cual es el mejor estimador o el que mejor se aproxima al verdadero valor del parámetro. Para responder a esta cuestión sea la siguiente situación: 1) Se quiere estimar un parámetro desconocido θ. 2) La muestra sacada de la población que lo tiene como parámetro dará

información sobre él. Se usará una función de la muestra (estadístico) como estimador, o sea que se calculará un número (estimador) de la muestra.

( ) χ−

∼σ

− 2

1n2

2s1n

( ) χ∼σ

− 2

2

2

ns1n

( )n

XXI2

∑ −

Page 68: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

68

3) El estimador varía de muestra a muestra, es decir que es una variable aleatoria y por lo tanto posee una distribución muestral.

Para decidir cual es el mejor estimador hay que comparar las características salientes de sus distribuciones muestrales. El estimador óptimo será el insesgado de mínima varianza. Sesgo Para ser un buen estimador es esencial que el centro de su distribución muestral coincida (aproximadamente) con el verdadero valor del parámetro. Cuando se utiliza la media para indicar el centro de la distribución muestral, se está introduciendo el concepto de estimador insesgado. Se dice que un estimador es insesgado cuando la media de su distribución muestral coincide con θ, es decir E( ) = θ, es decir cuando la esperanza o valor esperado del estimador coincide con el verdadero valor. Por ejemplo es un estimador insesgado de µ y s² lo es de σ2 , mientras que ∑(xi – x )² / n, no lo es ya que subestima a la varianza En efecto: El hecho de que el valor esperado de la media muestral de un estimador insesgado sea igual al parámetro (valor poblacional) implica que la distribución muestral del estimador está centrada (en términos de la media) en el verdadero valor. El sesgo de un estimador es la media o valor esperado de su distribución muestral menos el valor paramétrico; o sea Sesgo( ) = E( ) - θ. De aquí se deduce que el sesgo de un estimador insesgado es nulo. Si el sesgo es cercano a cero, o pequeño, se pude considerar como aceptable a dicho estimador. Variabilidad Una vez encontrados los estimadores insesgados de un dado parámetro se debe seleccionar de entre ellos el mejor, por lo tanto es necesaria una medida de variabilidad. La distribución muestral de un estimador debe estar centrada alrededor del valor paramétrico. La desviación estándar, o equivalentemente la varianza, de la distribución muestral del estimador es decir su error estándar, es una

θθθ

θ

( ) ( ) μ=⋅=∑⋅=⎟⎠⎞

⎜⎝⎛ ∑= xE

nn

xEn1

nxE)x(E ii

i

( ) ( )σσ =

⎥⎥⎦

⎢⎢⎣

−∑ −

⇒⋅−

=⎥⎥⎦

⎢⎢⎣

⎡∑ − 22

22

1nxxiE

n1n

nxxiE

θθ

x

Page 69: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

69

medida de su concentración alrededor de su media E( ). Cuando un estimador es insesgado es E( ) = θ, entonces la varianza es una medida de la concentración de la distribución muestral alrededor del parámetro mismo. Por lo tanto un buen estimador será aquel que tenga varianza de la distribución muestral pequeña. Luego, de entre todos los estimadores insesgados se debe elegir el de menor varianza. Por ejemplo, la media muestral es mejor estimador de la media poblacional que la mediana, porque la varianza de la media muestral es σ²/n y la de la mediana es 1,57 σ²/n. Para grandes muestras las distribuciones muestrales de los estadísticos más utilizados son aproximadamente normales. De modo que están caracterizadas por la media y la desviación estándar. Resumiendo, el estimador óptimo de un parámetro debe cumplir las propiedades: 1) Ser insesgado 2) Varianza mínima Esto nos dice que el estimador le "apunta" al parámetro a estimar (propiedad 1) y la "puntería" es la mejor posible (propiedad 2) Para obtener una estimador óptimo también se puede utilizar el concepto de: Error Cuadrático Medio (o función de pérdida media) Para caracterizar la distribución muestral en lugar de considerar una medida de posición y una dispersión se puede utilizar una sola que resume a ambas y por ende, a toda la información. Tal medida es el error cuadrático medio, que se define como:

La diferencia , es una pérdida o medida de la pérdida al considerar a en lugar de θ, y el ECM es la pérdida media, porque es el valor esperado de esa pérdida. El ECM indica cuanto se pierde el estimar θ con , en promedio. También se lo puede interpretar viendo que la cantidad es el cuadrado de la distancia entre el parámetro y su estimador; o sea es el error cuadrático. El error cuadrático medio es el promedio de los cuadrados de las distancias entre el estimador y el parámetro. Para que para un determinado parámetro, un estimador es mejor que otro cuando su ECM es menor. O sea es mejor que si . Esta propiedad puede combinarse con los dos criterios de menor sesgo y mínima varianza, demostrando que:

Ambos sumandos son positivos.

θθ

)ˆ(E)ˆ(ECM 2θ−θ=θ

θ−θ θ

θ

)ˆ( 2θ−θ

θ1 θ2 )ˆ(ECM)ˆ(ECM 21 θ<θ

( )θ+θ=θ ˆsesgo)ˆ(Var)ˆ(ECM 2

Page 70: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

70

Estimación del tamaño muestral en base al ECM Caso de una población con distribución normal: Un estimador de la media poblacional es y es insesgado. Luego Si se quiere un tamaño de muestra tal que el ECM( ) ≤ a, entonces: Observar que para la aplicación de este método se debe tener conocimiento de la varianza de la población a muestrear. Estimación por Intervalos de Confianza Se definieron los estimadores puntuales de parámetros poblacionales como una función de la muestra, de modo que se aproximan la verdadero valor, pero ¿qué precisión tienen estas estimaciones?. Es interesante obtener un intervalo de valores con una probabilidad conocida de cubrir el parámetro buscado lo que llamaremos intervalo de confianza y que proporciona una medida de la precisión de la estimación. El método se conoce como estimación por intervalo. Saber que es un estimador insesgado de µ no es suficiente, porque sería útil determinar la confianza que merece esa estimación de µ. Para obtener esa confianza se define el intervalo de confianza: Sea un parámetro θ y un estimador puntual del mismo; se quiere determinar, a partir de una muestra, un intervalo de la forma [a, b] tal que con probabilidad 1- α, contenga a θ. Es decir se busca un intervalo [a, b] tal que:

P(a ≤ θ ≤ b) = P(θ ∈ [a, b]) = 1 - α

P(θ ∉ [a, b]) = α

Donde a y b son los límites del intervalo, α es el margen de error y (1 - α) es el nivel de confianza es decir la probabilidad de que el intervalo de confianza (IC) contenga al verdadero valor. Por ejemplo si 1 - α = 0,95, significa que al repetir la experiencia y tomar muestras para estimar un parámetro poblacional, en 95 de cada 100 veces el intervalo contendrá a θ, y en 5 no; y no significa que se tiene un 95% de seguridad de que el verdadero valor esté entre a y b. Esto es incorrecto ya que el verdadero valor θ es un valor fijo, los que son variables son los límites del intervalo.

xˆ =μ

)x(Var)x(ECM =

x

an,a

n)x(Var

22 σ≥⇒≤σ=

x

θ

Page 71: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

71

Pueden construirse intervalos de confianza de tal manera que el coeficiente de confianza sea tan grande como se quiera. Entonces podría decirse: a) 95 de cada 100 intervalos de confianza contienen al parámetro; b) 99 de cada 100 intervalos contienen al parámetro y así siguiendo. Sin embargo a medida que la confianza aumenta, sus informes se hacen más vagos porque aumenta la longitud del intervalo de confianza El intervalo más preciso es el más pequeño. Por otro lado, a medida que se aumenta la confianza el intervalo aumenta de longitud y ya no es tan preciso. Se quieren intervalos que estimen lo mejor posible: con un buen nivel de confianza y de pequeña amplitud, cosa que se obtendrá, como se verá mas adelante, aumentando el tamaño de la muestra. Construcción de los intervalos de confianza Sea un parámetro θ y un estimador insesgado. Para la construcción de un intervalo de confianza se necesita conocer la distribución en probabilidades del estimador (o sea su distribución muestral), a fin de determinar un estadístico de prueba de la forma: donde ES ( ) es el error estándar (o desvío estándar de la distribución muestral) de Cada estadístico de prueba tendrá una función de distribución indicada por F( ) Los límites del intervalo de confianza del (1 - α)%, para un intervalo simétrico serán:

± VC ES( ) donde VC significa valor crítico (llamado coeficiente de confianza) y depende de la distribución muestral del estimador. La expresión VC ES( ), da la precisión de la estimación, que según se observa es de la forma: ± múltiplo del error estándar del estimador De la definición surge que: Longitud de IC = L = 2 VC ES( ) Construcción de los intervalos de confianza Se dará la construcción completa de un intervalo de confianza del (1 - α ) % para la media de una población con distribución normal, a modo de ejemplo.

- Intervalo de confianza del (1 - α)% para la media poblacional µ

Suposiciones Sea una población normalmente distribuida de la que se extrae una muestra aleatoria de tamaño n. Es decir {x1, .....,xn} es una muestra aleatoria de X ∼ N( µ, σ2).

θ

θ

( ))ˆ(ES

ˆθθ−θ

θθ

θ

θθ

θ

θ

Page 72: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

72

Caso de conocida

Un estimador puntual de µ es

porque

el estadístico de Gauss para una muestra como :

Entonces:

nzx 2σ

± α

N(0,1)~

n

μ−=ε

σ2

x

)n

,N(~x σμ ),N(~x σμ

α−=≤ε≤− αα 1)zz(P 22

)z

n

xz 22 αα ≤

σμ−

≤−

nzxnz 22

σ≤μ−≤

σ− αα

nzxnzx 22

σ+≤μ≤

σ− αα

Valor crítico

Error estándar

IC para µ con conocidaσ2

Hay que distinguir si la varianza de la población es conocida o no σ2 conocida Un estimador puntual de µ es , el cual sigue una distribución normal con media µ y varianza σ2/n, porque la población de la que extrae la muestra está normalmente distribuida. La idea es buscar un estadístico en función de que tenga una distribución muestral conocida. De los supuestos se deduce que ∼ N(µ, σ2/n), luego se define como estadístico de prueba a:

La figura muestra los Intervalos de confianza para la media poblacional del 95% de 100 muestras de largo de ala de moscas. La linea horizontal representa la media poblacional μ y la ordenada representa los valores de la variable. Tomado de Sokal y Rohlf, 1995, pp1403

xx

x

Page 73: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

73

Caso de desconocida

Cuando no se conoce se estima a partir de la muestra de tamaño n

Cuando se utiliza un estimador de la varianza el estadístico deja de tener una distribución N(0, 1) y se denomina 'estadístico de 't' para una muestra:

( )1nxxis

22

−∑ −

=

t

ns

x1n−∼

μ−=ε

σ2

σ2

Valor crítico

Error estándar

nsx t 1n,2 −α±

IC para µ con desconocidaσ2

Observaciones: a) Es importante destacar que el estadístico `t` bajo los supuestos de muestra aleatoria con distribución normal y varianza desconocida, sigue exactamente una distribución ´t´ de Student. No es necesario realizar ninguna aproximación, como ocurre cuando la distribución de la población de la que se extrae la muestra no es normal pero el Teorema Central del Límite asegura una buena aproximación para muestras de tamaño considerable. b) Para n pequeño el intervalo de confianza normal es de menor longitud que el de 't'; a medida que el n aumenta los intervalos se asemejan en longitud. Para n pequeños ICnormal < ICt ‘t’ es más conservativo. Para n grandes son aproximadamente iguales.

n z tn - 1

16 1,96 2,131 25 1,96 2,062 31 1,96 2,042 61 1,96 1,980

c) Cuando la distribución de la variable X no es normal. Hay varias alternativas: c.1.) Cuando el tamaño muestral es pequeño pueden realizarse transformaciones de la variable.

Page 74: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

74

Una vez hallado el intervalo de confianza con los datos transformados, para volver a los datos originales y tener un intervalo de confianza de la media poblacional se deben “destransformar” los límites hallados (pero no la media). c.2.) Si la muestra es grande (a modo de orientación cuando n ≥ 30) puede aplicarse el teorema central del límite “confiando” en que la diferencia entre los valores calculados bajo la aproximación y los verdaderos será pequeña y no incidirá en los resultados. Como se ve en este caso la solución aparece por vía del tamaño de muestra. Por el teorema central del límite, la distribución en el muestreo es aproximadamente normal con media µ y varianza σ²/n. Cuando el n es grande la aproximación es aceptable y no se ve afectada por el hecho de que la varianza sea desconocida ya que dividir por n o por n-1 es prácticamente lo mismo a los fines de la aproximación. Se utiliza el estadístico de Gauss. Luego para n suficientemente grande:

Xn ~ N(µx, σx²/n) c.3) Finalmente, cuando la muestra es chica y la distribución no es normal (y no se consigue una transformación que normalice la distribución de la variable en la población) puede construirse un intervalo de confianza utilizando métodos no paramétricos. En resumen, en el caso de la media poblacional el estadístico a utilizar depende de la distribución de la variable X, del tamaño de la muestra y del conocimiento que se tenga de la varianza poblacional Distribución Normal Otra distribución Muestra chica -Varianza conocida: estadístico

de Gauss -Varianza desconocida: estadístico t de Student

-Transformación de la variable para llevarla al caso normal -Pruebas no paramétricas -Técnicas de remuestreo

Muestra grande

-Varianza conocida: estadístico de Gauss -Varianza desconocida: estadístico de Gauss porque t se aproxima a Normal.

-Estadístico de Gauss por aplicación del Teorema Central del Límite.

Page 75: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

75

nqp

zp 2α±

Intervalo de confianza del (1 - α )% para una proporción p

Sea una muestra aleatoria de tamaño n de una población con distribución Bi(p, 1), donde p es la proporción de éxitos.

Un estimador puntual de es parapnXp = )n,p(BiX ∼

Cuando n es suficientemente grande (n ≥ 30) y

se puede probar que para el estadístico de prueba vale el estadístico de Gauss para una proporción como :

5p.n ≥ 5)p1(pn ≥−

)1,0(N

nqppp

∼−

Valor crítico Error estándar

IC para una proporción

Intervalo de confianza del (1 - α)% para la varianza

Sea una muestra aleatoria de tamaño N de una población con distribución normal de media µ y varianza σ2

El estimador puntual para la varianza es:( )

1nxxisˆ

222

−∑ −

==σ

Para construir un intervalo de confianza del (1 - α)% para el desvío estándar (σ) basta con extraer la raíz cuadrada de los limites del intervalo para la varianza.

Entonces resultan los siguientes límites para el intervalo de confianza del (1 - α)%:

( )χ

α−2

2,1n

2s1n( )χ

α−−2

21,1n

2s1nLímite inferior: Límite superior:

Valor crítico

Error estándar

y la distribución muestral del estadístico de prueba será:( )

χ∼σ

−= −ε 2

1n2

2s1n

Page 76: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

76

Intervalo de confianza del (1 - α)% para la diferencia de medias (µ1- µ2) de poblaciones normales Suposiciones: -. {x1,......., xn} muestra aleatoria de X ∼ N(µ1,σ1) -. {y1,......., ym} muestra aleatoria de Y ∼ N(µ2, σ2) -. muestras independientes En el caso de dos muestras independientes debe tenerse también en cuenta si las varianzas de las poblaciones son conocidas o no.

Caso de conocidasσ2

Un estimador puntual de la diferencia es

Y su distribución muestral:

( )μ−μ 21 xx 21−

⎟⎟⎠

⎞⎜⎜⎝

⎛ σ+σμ−μ− ∼ nn,xx

2

22

1

21

21N21

Estadístico de Gauss para dos muestras con varianzas conocidas:

nnzxx

2

22

1

21

221σ+σ±− α

( ) ( )N(0,1)~

nn

xx

2

22

1

21

2121

σ+σ

μ−μ−−=ε

Valor crítico

Error estándar

IC para con conocidasσ2( )μ−μ 21

Page 77: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

77

Caso de desconocidasσ2

En este caso se debe hacer una suposición adicional:

-Homogeneidad de varianzas:

Y la distribución muestral es:( ) ( )

⎟⎟⎠

⎞⎜⎜⎝

⋅+

−+−+−

μ−μ− ∼ nnnn

2nns1ns1n,xx

21

21

21

222

211

2121 t

Estadístico t para dos muestras independientes con varianzas desconocidas:

( ) ( )nnnn

2nns1ns1n

2nnxx21

21

21

222

211

2121 t ⋅+

−+−+−

±− −+

( ) ( )( ) ( ) t 2nn~

nnnn

2nns1ns1n

xx21

21

21

21

222

211

2121−+

⋅+

−+−+−

μ−μ−−=ε

Valor crítico

Error estándarIC para con desconocidasσ2( )μ−μ 21

σ=σ 22

21

Intervalo de confianza del (1 − α)% para la diferencia de proporciones Suposiciones: -. {x1,......., xn} m. a. de X ∼ Bi(p1,1), p^

1 = X/n -. {y1,......., ym} m. a. de Y ∼ Bi(p2,1), p^

2 = Y/m -. muestras independientes

Page 78: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

78

Caso de p ( ) conocidas

Un estimador puntual de la diferencia es

⎟⎟⎠

⎞⎜⎜⎝

⎛ ⋅+

⋅−− ∼ n

qpn

qp,pppp2

22

1

1121N21

el estadístico de Gauss para dos muestras de proporciones con p conocidas:

nqp

nqp

zpp2

22

1

11221

⋅+

⋅±− α

( ) ( )N(0,1)~

nqp

nqp

pppp

2

22

1

11

2121⋅

+⋅

−−−=ε

Valor crítico Error estándar

IC para con p conocidas( )pp 21−

σ2

Distribución muestral:

pp 21− pp 21−

Caso de p ( ) desconocidas

el estadístico de Gauss para dos muestras de proporciones con p desconocidas:

nqp

nqp

zpp2

22

1

11221

⋅+

⋅±− α

( ) ( )N(0,1)~

nqp

nqp

pppp

2

22

1

11

2121⋅

+⋅

−−−=ε

Valor crítico Error estándar

IC para con p desconocidas( )pp 21−

σ2

Page 79: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

79

PRUEBA DE HIPÓTESIS Una hipótesis estadística es una proposición o supuesto sobre los parámetros de una o más poblaciones, mientras que una hipótesis biológica es también una proposición, pero expresada en términos de la teoría o los conocimientos de que se dispone respecto del problema en estudio. Por lo tanto una hipótesis estadística biológica es una formalización, y en esos términos se puede aplicar un modelo probabilístico. Esto implica establecer una correspondencia entre el problema biológico y los elementos del modelo estadístico. Muchos problemas en ciencia, requieren la toma de una decisión acerca de aceptar o rechazar una proposición sobre algún parámetro, o sea una hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos pueden formularse por medio de una prueba de hipótesis. Una prueba de hipótesis permite, además que la decisión respecto de un fenómeno observado, se tome conociendo la probabilidad de que ésta sea equivocada, sobre la base de la información suministrada por una muestra. En este capítulo se estudiará en detalle el procedimiento que permite establecer una regla de decisión de tal manera que la probabilidad de error sea, como máximo, un valor, que indicaremos α. Este valor se establece en forma externa al procedimiento, es arbitrario y depende del problema particular que se esté tratando de resolver. Idealmente, α, al tratarse de una probabilidad, puede tomar cualquier valor entre 0 y 1. La idea central del método se asemeja a una demostración por el absurdo, donde se niega lo que se quiere demostrar llegando a una conclusión absurda. En una prueba de hipótesis existe una teoría preconcebida relativa a la característica de la población sometida a estudio e implica que en cualquier estudio estadístico haya de hecho dos teorías que generan dos hipótesis implícitas. Una de ellas, denotada Ha, se denomina hipótesis de investigación o alternativa, y la otra, H0 y es la denominada hipótesis nula. El propósito de un experimento es decidir si la prueba tiende a apoyar o refutar la hipótesis nula. Cuando se formulan Ha y H0 se deben tener en cuenta tres afirmaciones generales: 1) La hipótesis nula es la hipótesis de "no diferencia". En términos prácticos

esto quedará explicitado en la afirmación de que la igualdad forma parte de H0.

2) Se ha de procurar detectar o fundamentar la hipótesis alternativa. Es por esto que se denomina a la afirmación hecha bajo la Ha “hipótesis de investigación”.

3) Las hipótesis estadísticas se formulan siempre con la esperanza de que sea posible rechazar H0.

Page 80: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

80

De modo que la prueba de hipótesis tendrá dos resultados posibles que son mutuamente excluyentes: a) Rechazar H0. con probabilidad α de hacerlo cuando H0 es cierta. b) No rechazar H0. Ejemplo El Departamento. de Salud ha fijado en 70 ppm de un metal pesado el nivel medio máximo aceptable para las aguas en que se practica la recolección de almejas. Se quiere establecer un patrón gubernamental para las aguas. La hipótesis biológica es que las aguas están contaminadas. Como se hace lo posible para apoyar o descubrir la hipótesis alternativa, ésta hipótesis será: µ > 70. Esto implica automáticamente que la hipótesis nula es la negación de Ha, es decir, que :µ ≤ 70. De modo que las dos hipótesis en juego son:

H0 : µ ≤ 70 Ha: µ > 70 (aguas peligrosas) la variable es X: concentración en ppm del metal pesado

Como se dijo mas arriba la afirmación de igualdad forma parte de la hipótesis nula. Además desde el punto de vista del Departamento de Salud se espera que H0 sea rechazada (con lo cual se alertará a la población sobre la ingesta de almejas). Una vez que se ha tomado una muestra y se tienen los datos, debe tomarse una decisión, rechazar o no H0. O sea que se quiere saber si la muestra tomada proviene de una población con media μ ≤ 70 o μ>70

Muestra de tamaño n

75=x

?Población

70≤μ

Población

70>μ

70:Ho ≤μ 70>μ:Ha

La decisión se tomará observando el valor de algún estadístico (estadístico de prueba), cuya distribución en probabilidades, bajo la presunción de que H0 sea cierta, es conocida. La idea es que si el valor de la media es superior a 70 ppm, entonces se rechazará la hipótesis nula en favor de la alternativa; si el

Page 81: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

81

valor observado es uno que bajo la presunción de que H0 es cierta se presenta comúnmente, entonces no se rechazará la hipótesis nula. Cualquier estudio de prueba de hipótesis propone alguna de las siguientes situaciones:

H0 es verdadera H0 es falsa Se rechaza H Error de Tipo I No error

No se rechaza H0 No error Error de Tipo II 1) Si se rechazara H0 siendo cierta; se habrá cometido lo que se conoce como

error de tipo I. 2) Si se tomara la decisión correcta de rechazar H0, siendo la alternativa Ha

cierta, no se estaría cometiendo ningún error. 3) Si no se rechazara H0 siendo esta falsa, se habrá cometido lo que conoce

como error de tipo II 4) Si se tomara la decisión correcta de no rechazar H0 siendo esta cierta no se

estaría cometiendo ningún error. Sobre la base de este esquema se definen: 1) α = máx P(cometer error tipo I) = máx P(rechazar H0 / H0 es verdadera) =

nivel de significación de la prueba = nivel más bajo para sostener la H0 ( cualquier valor de la P(error Tipo I) más pequeño que α, dará un resultado significativo)

2) β = P(cometer error de tipo II) = P(aceptar H0 / H0 es falsa). 3) 1 − β = P(rechazar H0 / H0 es falsa) = Potencia de la prueba

Cuando se rechaza H0 se conoce la probabilidad de equivocarse mientras que, cuando no se rechaza, corresponde estudiar la potencia de la prueba para, al menos varias hipótesis de interés. Un α = 0,05 indica que 5 de cada 100 veces que se realiza la prueba se rechazará la hipótesis nula cuando en realidad es verdadera. Es decir nos permitimos equivocarnos como máximo cinco de cada cien veces.

Page 82: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

82

Procedimiento general para las pruebas de hipótesis Prueba de hipótesis para la media de una población con distribución normal Este caso implica que antes de llevar a cabo el experimento, se debe tener un valor teórico para µ (valor paramétrico de la población). Ejemplo 1. Es el que plantea el Departamento. de Salud con respecto de la recolección de almejas y el agua contaminada. A fin de establecer un patrón gubernamental para las aguas, interesa contrastar las hipótesis:

H0 : µ ≤ 70 Ha : µ > 70 (aguas peligrosas)

donde la variable es X: concentración en ppm del metal pesado y se supone sigue una distribución normal con media 70 y varianza desconocida Ejemplo 2. La concentración de almidón en plantas de lechuga en la provincia de Buenos Aires, sigue una distribución normal con media 28 g y varianza 25 (µg)2. Se quiere poner a prueba la hipótesis de que la concentración media de almidón disminuye con un tratamiento de abono. En esta situación interesa contrastar las hipótesis:

H0:µ ≥ 28 Ha:µ < 28

Ejemplo 3. El promedio total de proteínas en sangre de un adulto sano es de 7,25 g/dl. En un análisis de sangre, el técnico está contrastando las hipótesis:

Ho: µ = 7,25 Ha: µ ≠ 7,25

Para la variable X: cantidad de proteínas en sangre en adulto sano, que sigue una distribución normal con media 7,25 g/dl y varianza desconocida Como se ve en los ejemplos la hipótesis sobre la media poblacional µ puede optar por cualquiera de tres formas diferentes. Sea µ0 el valor hipotético de la media poblacional (llamado valor nulo). Las tres formas generales son:

Page 83: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

83

Ho: µ ≤ µ0

Ho: µ ≥ µ0

xμo

α−1

α

α−1α

α−1

Ha: µ > µ0

Prueba de una cola a la derecha

Ha:µ < µ0Prueba de una cola a la izquierda

Ha: µ ≠ µ0Prueba de dos colas

Ho: µ = µ0

1)

2)

3)

Estadístico de prueba Es un estadístico cuyo valor se calcula a partir de la muestra y su distribución muestral depende de las suposiciones del problema. El estadístico de prueba es el que permite tomar las decisiones respecto de las hipótesis involucradas en la prueba. Para muestras provenientes de poblaciones con distribución normal, en general un estadístico de prueba es de la forma: donde es el error estándar del estimador de la media poblacional, o sea la desviación estándar de su distribución muestral, y por lo tanto depende de la distribución muestral de . Para un muestra de tamaño n toma la forma:

♦ , cuando la varianza es conocida (ε∼ N(0, 1) ) ♦ , cuando la varianza es desconocida(ε ∼ tn – 1)

( )ESx

x

μ−=ε

ns

xt 1nμ−

==ε −

( )ES x

n

xzσ

μ−==ε

x

Page 84: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

84

Observación: estima a la media poblacional. Si H0 es verdadera está estimando a µ0, por eso la diferencia entre ellos debería ser pequeña. En cada caso un valor pequeño del estadístico es una indicación de que no debería rechazarse H0. En el caso (1), de una cola a la derecha, la hipótesis de investigación es µ > µ0 ; si esto es cierto, entonces está estimando un valor medio realmente mayor que el valor estipulado por la hipótesis nula. Se debería esperar que fuera superior a µ0, forzando a la diferencia ( - µ0) a ser positiva. Así, en esta situación se rechazará H0 en favor de Ha para valores positivos grandes del estadístico . Un argumento parecido conduce a la conclusión de que en el caso (2) se rechaza H0 en favor de Ha, para valores negativos grandes del estadístico. En el caso (3) se rechazará la hipótesis nula para valores inusualmente grandes del estadístico tanto en sentido positivo como negativo. Regla de decisión Los distintos valores que puede tomar el estadístico de prueba se dividen en dos grupos. Un grupo son los valores que con mayor probabilidad podría tomar cuando la hipótesis nula es verdadera que es la Zona de Aceptación, y el otro es el caso contrario que sería la Zona de Rechazo. La zona de rechazo está determinada por el nivel de significación de la prueba, ya que cuando se plantea una prueba de hipótesis se selecciona el nivel de significación α, o sea cuanto estamos dispuestos a equivocarnos, como ya se dijo. Sea ε0 el valor del estadístico de prueba, entonces la regla de decisión es: Prueba de dos colas: Se rechaza H0 α % sii ⏐ε0⏐ ≥ VC Prueba de una cola a la derecha: Se rechaza H0 α % sii ε0 ≥ VC Prueba de una cola a la izquierda: Se rechaza H0 α % sii ε0 ≤ VC El VC (valor crítico) dependerá de la distribución en probabilidades del estadístico de prueba ε0 . La prueba de hipótesis de dos colas de nivel α, se puede resolver también con un intervalo de confianza para la media del (1- α)%. La prueba rechazará la H0 sii µ0 no pertenece al intervalo. Valor p de la prueba Cuando se habla de “valores inusualmente grandes" se hace referencia a aquellos valores del estadístico que se consideraría sorprendente si se observaran si H0 fuera verdadera. Si el valor nulo es correcto (H0 verdadera) entonces el estadístico, en el caso en que la varianza no es conocida, sigue una distribución de 't' con n-1 grados de libertad (tamaño de la muestra menos uno). Ese hecho puede utilizarse para comprobar si el experimento ha producido o no un resultado inusual. Esto se hace calculando el valor p o valor de probabilidad de la prueba o probabilidad de azar, definido como “La probabilidad de que el estadístico asuma un valor tanto o más extremo que el que se observa cuando se supone que la hipótesis nula es verdadera.” O sea

x

xx

x

Page 85: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

85

Si es el valor del estadístico de prueba: εo

)(Pp oεε ≥= prueba de una cola a la derecha

)(Pp oεε ≤= prueba de una cola a la izquierda

)(Pp oεε ≥= prueba de dos colas

Relación entre α y p

α = máx p y la regla de decisión también se puede expresar como:

p < α se rechaza H0 al α % ó H0 es significativa (S) al α%

p > α no se rechaza H0 al α % ó H0 es no significativa (NS) al α%

p = P exacta (cometer error de Tipo I) = P(rechazar H0 / H0 es verdadera) Hodges y Lehman (1970) describen el valor p como "el que da, en un solo número adecuado, una medición del grado de sorpresa que el experimento causaría en un partidario de la hipótesis nula". Para pruebas con cola a la derecha, el valor p bajo es el área bajo la curva de la distribución teórica hacia la derecha del valor observado; para una cola a la izquierda es el área a la izquierda.

Ejemplo Sean los datos del ejemplo 1 en el cual el Departamento de Salud se ocupan de vigilar las aguas en las que se realiza la pesca de almejas. Como lo que interesa es detectar si las aguas son peligrosas se toman las hipótesis: Ho: µ ≤ 70 (las aguas son seguras) Ha: µ > 70 (las aguas no son seguras) La variable X: concentración en ppm del metal pesado, sigue una distribución normal con µ = 70 y varianza desconocida Supongamos que se extrae una muestra aleatoria de 9 alícuotas de 1 cc de agua y en cada una se determina la concentración en ppm del metal pesado. Si se fija como nivel de significación α = 0,05. Como la varianza no es conocida el estadístico de prueba es el de `t` de Student para una muestra:

t 1n

ns

x−∼

μ−=ε

Page 86: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

86

Si cuando se realiza el experimento se obtienen los siguientes datos:

69 74 75 70 72 73 73 71 68

Entonces: = 71,70; s = 2,3 ε0 = 2,22 bajo Ho : Regla de decisión: a) Sobre la base de la zona de rechazo: Se rechaza H0 al 5% sii ε0 > t8, 0.05 =

1,86

x70

95,0

05,0

86,10 t8

μ

Supuesto: )Nx σμ∼ 2,(

Regla de decisión:

Si se rechaza con ⇒>ε α−−t 1;1n Ho α

05,0=α 95,01 =α− 86,1t 95,0;8 =

22,2

Zona de aceptación

Zona de rechazo

Conclusión estadística

Como se rechaza

con

⇒> t22,2 95,0;8 Ho

05,0=α

Conclusión biológica

El agua estaría contaminada. No se aconseja recolectar almejas

70,71

b) Sobre la base del valor p Por definición el valor p es la probabilidad de observar un valor tanto o más extremo que aquel realmente obtenido. Para una prueba de una cola a la derecha "más extremo" significa a la derecha del valor obtenido. Entonces resulta: p = P( ε0 ≥ 2,22)

x

22,2

93,2

7070,71=

−=ε

Page 87: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

87

Observando una tabla de distribución ´t´ para 8 grados de libertad, se tiene que el valor 2,22 está entre los valores 1,860 y 2,306 . Además P(t8 ≥ 1,860) = 0,05 P(t8 ≥ 2,306) = 0,025 Luego 0,025 <p < 0,05 Calculando el valor exacto a partir de, por ejemplo una planilla de cálculo resulta: p = P(t8 ≥ 2,22) = 0,029 Como el nivel de significación fijado fue del 5 % y p = 0,029, se rechaza la hipótesis nula. Luego se concluye que las aguas estarían contaminadas (P < 0,05) y no se deberían comer almejas de ese lugar Los programas estadísticos dan siempre la probabilidad exacta, pero el ejemplo de cálculo a partir de la tabla puede ser útil si no se cuenta con una computadora a mano. Cabe aclarar que si el nivel de significación α no hubiera sido fijado junto con la experiencia, se podría especular acerca de si el valor p obtenido es lo suficientemente pequeño como para rechazar la hipótesis nula. Recordemos que siempre que se rechaza H0 existe una probabilidad de estar cometiendo error de tipo I. El valor p es una medida del riesgo que se corre cuando se hace la hipótesis de investigación. Si las consecuencias de caer en dicho error son muy graves, entonces el valor p debe ser muy pequeño antes de que se decida rechazar H0. Si caer en un error de tipo I sólo produce inconvenientes no graves, entonces H0 puede rechazarse para valores grandes de p. Ejemplo 2. En este caso se somete a prueba las hipótesis:

H0: µ ≥ 28 contra H1: µ < 28 donde X : concentración de almidón en plantas de lechuga, que sigue una distribución normal con media 28 µg y desvío estándar 5 µg. Se trata de una prueba de una cola a la izquierda. Se prueba el tratamiento en una muestra de 49 plantas de lechuga de esa población y se obtiene una media de 27 µg. Como la varianza es conocida, el estadístico de prueba sigue una distribución normal con media cero y varianza uno (Estadístico de Gauss para una muestra) Regla de decisión a) Sobre la base de la zona de rechazo Para α = 0,05, resulta z0,05 = -1, 64 Resolviendo resulta ε0 = -1,40. Como ε0 = -1,40 > -1, 64 = z0,05 no se rechaza la H0.

Page 88: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

88

b) Calculo del valor p Se trata de una prueba de una cola a la izquierda, por lo tanto un 'valor más extremo' que el obtenido es uno a la izquierda de -1,40, y como la distribución N(0,1) es simétrica se puede calcular de la siguiente manera para no trabajar con valores negativos del estadístico:

p = P(Z ≤ - 1,40) = P( Z ≥ 1,40) = 1 – 0,91924 = 0,08076 Como p = 0,08 > α = 0,05 se concluye que no se rechaza H0 por lo tanto no hay evidencias para suponer que el tratamiento sea realmente efectivo (P > 0,05). Evaluación del valor p para una prueba de dos colas

Existen dos situaciones bien diferentes:

a) Si la distribución del estadístico es simétrica (como en el caso de la distribución Normal y la distribución t), para obtener el valor p de la prueba sólo es necesario multiplicar por 2 al valor p de la prueba de una cola.

b) Si la distribución es asimétrica se plantea una situación un poco más complicada y se pueden encontrar discrepancias en la manera en que distintos autores abordan el tema, pero una manera simple de hacer el cálculo es utilizar dos veces el valor p de la prueba de una cola.

Para ver de qué se trata este cálculo, se retoma el ejemplo 3 (proteínas en sangre). Si por ejemplo se realizan ocho análisis de sangre a un mismo paciente a lo largo de varios días y la variable considerada es el nivel total de proteínas. Esta variable sigue una distribución normal con media 7,25 g/dl. Como el nivel de proteínas en sangre no puede ser ni demasiado grande ni demasiado pequeño, se desea detectar cualquiera de los dos hechos y se plantean las hipótesis : H0 : µ = 7,25 (normal para un adulto) Ha : µ ≠ 7,25 Datos: 7,23 7,25 7,28 7,29 7,32 7,26 7,27 7,24. Entonces: x= 7,2680 ; s = 0,029 ; ε0 = 1,765 *Si se utiliza α = 0,05 para fijar la zona de rechazo:

resulta t0,975, 7 = 2,365 La prueba Rechaza H0 al 0,05% sii ⏐ε0⏐ > 2,365 Resolviendo resulta ⏐ε0⏐ = 1,765 < 2,365, entonces no se rechaza la H0.

Page 89: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

89

*Si se calcula el valor p utilizando la tabla de distribución ´t´: En la tabla de 't' resulta 1,415 < 1,765 < 1,895, entonces para una prueba de una cola a la derecha resulta 0,05 < p < 0,10. Duplicando los valores resulta: 0,10 < p < 0,20. *Si se calcula este valor utilizando un programa que permita hacerlo, la probabilidad exacta es: p = P( | t7 | ≥ 1,765) x 2 = 0,1209 x 2 = 0,2418 Se concluye que no hay evidencias para suponer que el nivel total de proteína se aleja significativamente de 7,25 µm, o sea que no se rechaza la hipótesis nula. Ejemplo. Un laboratorio está estudiando una nueva droga para ser utilizada en el tratamiento de cáncer de piel y su hipótesis es que éste resultará eficaz en la mayoría de los pacientes sobre los que se la aplique. Sea p la proporción de pacientes para los cuales la droga será efectiva. El laboratorio quiere realizar alguna prueba estadística que apoye tal información

H0: p ≤ 0,5 Ha: p > 0,5 La variable es X: cantidad de pacientes tratados que mejoran que sigue una distribución Bi(0,5 , 1). Ha indica que la droga es eficaz en la mayoría de los casos. Supongamos que tenemos una muestra de tamaño 100 (n = 100) de la variable X y resulta X = 13. Entonces:

Bajo los supuestos, el estadístico de prueba correspondiente es el de "Gauss para una proporción" que sigue una distribución N(0, 1).

p = P(ε ≥ ε0 ) = P(ε ≥ 0,400) = 0,344

Como 0,344 > 0,05 se concluye que no existen evidencias para rechazar la hipótesis nula, por lo tanto no se puede suponer que el tratamiento sea efectivo en la mayoría de los casos (P > 0,05).

52,010052p == 48,052,01q =−=

4,0

10048,052,05,052,0

nqppp

0 =⋅−

=⋅

−=ε

Page 90: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

90

Relación entre los errores de Tipo I y II Si se comete un error de tipo I, se habrá rechazado H0, siendo ésta cierta. En términos prácticos, se habrá concluido que la droga es eficaz para una mayoría de usuarios cuando en realidad no lo es. Este error puede conducir a la comercialización de un producto que no es efectivo para la mayoría de los pacientes. Por otro lado, se cometerá un error de tipo II si no se rechaza H0, cuando no es verdadera. En tal caso se concluirá que la tasa de efectividad de la droga es del 50% o menos, cuando, de hecho, es efectiva para una mayoría de los pacientes sobre los que se aplica. Este error puede conducir a la no comercialización de una droga útil. Ambos errores son muy importantes. El de tipo I es el que generalmente se considera más grave, ya que resultaría, en este ejemplo, en una dilatación en el tratamiento apropiado de la enfermedad. Por esto, determinar cuál de los dos errores es el más riesgoso dependerá del tipo de problema o experimento particular que se esté realizando. Potencia de la prueba

Se define como:

Potencia = 1 - β = P(Rechazar H0 / H0 es Falsa)

Es el complemento de la probabilidad de cometer error de tipo II y mide la efectividad de la prueba estadística. Tiene sentido su cálculo a posteriori cuando la hipótesis nula no fue rechazada. El cálculo a priori es útil para determinar, por ejemplo, el tamaño de la muestra para una potencia fijada por el investigador. Ejemplo de cálculo de la Potencia. Potencia a posteriori En el ejemplo 2 (concentración de almidón en plantas de lechuga) la hipótesis de una disminución del almidón por un tratamiento resultó no significativa. A continuación se calcula la potencia para distintos valores de la concentración media, como hipótesis alternativa. Siempre sesupone que se mantiene el valor de la varianza. Tenemos la variable X: concentración de almidón en plantas de lechuga, X ∼ N(28, 25). De la muestra de tamaño 49 resultó = 27. Pongamos la regla de decisión en términos de la variable.

Se rechaza H0 sii [ - 28] 7/5 < -1,64 < 26,83 Las hipótesis a probar son: H0 : µ = µ0 contra Ha : µ = µ1 (con µ1 ≠ µ0)

x

x x

Page 91: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

91

El estadístico de prueba es el de Gauss para una muestra y su distribución en probabilidades es: bajo la H0 bajo la Ha 1) Si se supone µ = 27. Entonces las hipótesis a probar son:

H0: µ = 28 contra Ha : µ = 27

La potencia se calcula bajo la hipótesis alternativa. Entonces: Potencia = P( < 26,83) = P(Z < (26,83 – 27)7/5) = P(Z < -0,238) = 0,4052 Esto da una potencia del 40 %, que es muy baja. 2) Si se supone µ = 26. Entonces las hipótesis son:

H0: µ = 28 contra Ha : µ = 26 La potencia se calcula bajo la hipótesis alternativa. Entonces: Potencia = P( < 26,83) = P(Z < (26,83 – 26)7/5) = P(Z <1,162) = 0,8769 Esto da una potencia del 88 %, que es una buena potencia. Potencia a priori: estimación del tamaño de muestra mínimo Supongamos que se quiere llevar a cabo una prueba de hipótesis que tenga una potencia determinada, es necesario saber el tamaño de muestra necesario para que la prueba pueda detectar una determinada diferencia. En estos casos conocer la potencia a priori sirve para estimar el tamaño de muestra n, si se tiene una estimación s2 de la varianza poblacional σ2. Para el cálculo de n se debe especificar α, β y se debe establecer cual es la diferencia mínima que se desea que la prueba detecte (δ) que es la diferencia entre μ (la verdadera media poblacional) y μo. Para una prueba con un nivel de significación α y una potencia de 1-β, el tamaño de muestra mínimo requerido es:

)zz(sn2

2

2β+α

δ= para distribución normal (1)

εo )1,0(N

n

x o ∼σ

μ−=

)1,0(N

n

x 1 ∼σ

μ−=ε1

x

x

Page 92: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

92

)t ,t ,(sn2

2

2υβ+υα

δ= para distribución t (2)

Ejemplo Para el juego de hipótesis

H0: µ = 0 contra Ha : µ ≠ 0

se quiere probar con una significación de 0.05 y con una probabilidad del 90% de detectar una media poblacional diferente de H0: µ = 0 tanto o mas chica que 1. Para esto se tomó una muestra piloto de la que se obtuvo una varianza de 1,5682. Se pueden dar dos situaciones:

a) se tiene una buena estimación de la varianza poblacional, por lo que se puede suponer que se está en condiciones de utilizar la ecuación (1) o

b) La estimación de la varianza que se hizo a partir de la muestra puede no ser muy precisa.

Se verá la resolución para las dos situaciones Situación a). Como se va a considerar que la estimación de la varianza que se posee es precisa, entonces a los efectos del cálculo se considerará σ2=1.5682 Se determinan Z0.975=1,96 y Z0,90=1,282. Entonces reemplazando en la ecuación (1)

482,16)282,196,1(15682.1n 2

2 =+=

Entonces se concluye que el tamaño de muestra buscado es de, como mínimo 17 Situación b). Un detalle a tener en cuenta es que las probabilidades de la distribución t se ven influenciadas por el tamaño de muestra. Por lo tanto para calcular el tamaño mínimo de muestra es necesario utilizar el método iterativo. Se supone que se parte de una muestra de tamaño 20, entonces ν=19, y se considera s2=1.5682. Entonces ahora se utiliza la ecuación (2) y los valores necesarios son t0.975,19=2.093 y t0,90,19=1.328.

Page 93: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

93

Reemplazando:

4.18)328.1093.2(15682.1n 2

2 =+=

Ahora se usará n=19 y entonces ν=18, t0.975,18=2.101, y t0,90,18=1.330. El valor de la varianza y la diferencia mínima se mantienen. Reemplazando:

5.18)330.1101.2(15682.1n 2

2 =+=

Entonces se concluye que el tamaño de muestra buscado es de, como mínimo 19 Nota: Como puede observarse, en la situación a) se obtuvo un valor de tamaño de muestra mínimo un poco menor que en la situación b). Esto es consecuencia directa de la bondad de la estimación de la varianza poblacional realizada. Mínima diferencia detectable Despejando de las ecuaciones utilizadas mas arriba es posible determinar cuan pequeña es δ (diferencia entre μ1 y μ0) para una potencia y un nivel de significación dados, utilizando un tamaño de muestra n. En el caso de distribución t la ecuación tiene la forma:

)t ,t ,(ns2

υβ+υα=δ

Prueba para comparar dos medias provenientes de poblaciones con distribución normal. Se presentan distintos casos Sean

[x1, ....., xn} una muestra aleatoria de la variable X ∼ N(µx , σx) [y1, ....., yn} una muestra aleatoria de la variable Y ∼ N(µy , σy)

Caso A: las dos muestras son independientes Caso B: las dos muestras son dependientes Ejemplo. Se quiere probar el efecto de dos medicamentos para mitigar la migraña. Se toma como variable el tiempo en que la migraña desaparece después del tratamiento Caso A: se selecciona una muestra aleatoria de individuos con migraña los

cuales se separan al azar en dos grupos; a cada uno de los grupos se le

Page 94: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

94

asigna al azar uno de los tratamientos. Entonces se tienen dos muestras independientes de la variable de interés

Caso B: Se selecciona una muestra aleatoria de individuos con migraña se

los trata al azar, primero con uno de los medicamentos y luego con el otro, dejando pasar un tiempo para atenuar el efecto residual. Entonces se tienen dos muestras dependientes o muestras pareadas. Sobre cada unidad experimental (cada individuo) se determinan dos variables

A continuación la resolución del problema para cada caso Caso A: Aquí se debe distinguir entre el caso de varianzas poblacionales conocidas o no : Hipótesis

H0 : µx = µy contra Ha : µx ≠ µy. Prueba de dos colas H0 : µx ≤ µy contra Ha : µx > µy. Prueba de una cola a la derecha H0 : µx ≥ µy contra Ha : µx < µy. Prueba de una cola a la izquierda

Estas mismas hipótesis pueden ser escritas también como

H0 : µx − µy = 0 contra Ha : µx − µy ≠ 0. Prueba de dos colas H0 : µx − µy ≤ 0 contra Ha : µx − µy > 0. Prueba de una cola a la

derecha H0 : µx − µy ≥ 0 contra Ha : µx − µy < 0. Prueba de una cola a la

izquierda En cualquiera de las tres situaciones, fijado el α, se necesita un estimador de la diferencia de medias y la distribución muestral de ese estimador. Estimador de la diferencia de medias: Estadístico de prueba *Varianzas conocidas: "Estadístico de Gauss para dos muestras independientes": *Varianzas desconocidas Se estiman con s2

x y s2y. Y se agrega un nuevo supuesto:

"Homogeneidad de varianzas, o sea que se supone que las varianzas son desconocidas pero deben suponerse iguales: σ2

x = σ2y = σ2 "

yxˆˆ yx −=μ−μ

)1,0(N

nn

)()yx(

2

yx

yx2

1

2∼

σ+σ

μ−μ−−=εo

Page 95: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

95

Caso B. dos muestras dependientes. En este caso se define una nueva variable, llamada D, que se construye como la diferencia entre X e Y, y se mide en cada unidad experimental. D = X – Y se tiene una muestra aleatoria de tamaño n de valores di = xi - yi : Hipótesis: Como en le caso de una prueba de una muestra para la media Estadístico de prueba: Este es el "estadístico de `t´ para dos muestras pareadas". La prueba se llama de `t´ para dos muestras pareadas y tiene como supuestos: Muestra dependientes Variable D = X – Y sigue una distribución normal con media cero y

varianza desconocida.

t 2

2

2

2

xx

yxnn

nnnn

2nns)1n2(s)1n(

)()yx(21

1

1

1

21

2 −+∼

⋅+

−+⋅−+⋅−

μ−μ−−=εo

yxdˆ d −==μ1n

)ddi(s

2

2d −

∑ −=

ns

d t 1ndd

−∼μ−

=εo

Page 96: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

96

ANÁLISIS DE FRECUENCIAS El análisis de frecuencias permite comparar una distribución de frecuencias observadas (muestra) con una distribución de frecuencias esperadas bajo alguna hipótesis respecto de la población de la que se extrajo la muestra. El objetivo es poner a prueba la hipótesis considerada para obtener las frecuencias esperadas, tomándola como hipótesis nula en una prueba de hipótesis. La hipótesis planteada se puede referir a alguna distribución en probabilidades supuesta para la población, a una determinada relación, a una proporción, etc. Las hipótesis a estudiar se realizan respecto de la distribución en probabilidades y no requieren ninguna forma particular de la misma. No se trata de utilizar la función de distribución sino la distribución en probabilidades; por lo que la prueba puede aplicarse a variables categóricas. Se estudia la distribución de frecuencias observadas en la muestra de donde proviene el nombre de análisis de frecuencias; más comúnmente estas pruebas se conocen con el nombre de pruebas χ2 (Chi - Cuadrado) de independencia, de homogeneidad o más generalmente de bondad de ajuste. Esta es una de las pruebas estadísticas no paramétricas, también llamadas de distribución libre porque no se supone que, en la población, la distribución de frecuencias tome alguna forma determinada (por ejemplo la prueba de hipótesis respecto de las medias en las que se supone distribución normal de la variable). En cierto sentido, todas las pruebas de este tipo se reducen a una prueba de bondad de ajuste puesto que en todos los casos se comparan distribuciones de frecuencias muestrales (observadas) con teóricas (esperadas). Pruebas de bondad de ajuste Esquema general Sean X1, X2, ....., Xk las k categorías mutuamente excluyentes en que se divide la variable X. Se toma una muestra aleatoria de tamaño n de la población (o sea una muestra aleatoria de unidades experimentales) y se determina cuantos elementos caen en cada una de las categorías definidas; es decir se construye la distribución de frecuencias observadas. Sean F1

obs, F2obs, ...., Fk

obs los elementos de la muestra que caen en las categorías X1, X2, ...., Xk respectivamente. Fi

obs es la frecuencia muestral (observada) absoluta de la categoría Xi y se cumple: ∑ Fi

obs = n. Fesp

i es la la frecuencia esperada para la categoría Xi, bajo alguna hipótesis (que dará origen a la hipótesis nula) que permita calcular las probabilidades pi de cada una de las categorías en la población. Se calcula entonces Fi

esp = npi y se cumple: ∑ Fi esp = n.

Page 97: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

97

Si la hipótesis nula es verdadera entonces la frecuencia observada se aproximará a la frecuencia esperada. La distancia entre ambas distribuciones (la observada y la esperada según la hipótesis nula) tiende a cero a medida que crece el n. La diferencia Fi obs – Fi esp mide la desviación de la frecuencia observada respecto a la frecuencia esperada para el valor Xi de la variable X bajo algún modelo supuesto. Además

∑ Fiobs - ∑ Fi

esp = n – n = 0 Una medida de la magnitud de estas desviaciones es una proporción de la frecuencia esperada, definida como:

Donde Fi es la frecuencia observada para el valor i de la variable y es la frecuencia esperada para el valor i de la variable Supuestos Como se dijo mas arriba, esta es una prueba no paramétrica o de distribución libre, de modo que a la variable que se estudia en la población no se le exige como supuesto, una determinada distribución en probabilidades. Los supuestos necesarios se pueden pensar como los correspondientes a la distribución binomial (que se aplica a cada una de las categorías): Resultados dicotómicos (cae o no cae en la categoría), lo que implica que

las k categorías deben ser mutuamente excluyentes y cubrir todos los resultados posibles.

Muestreo aleatorio Independencia entre las unidades experimentales

Además, la prueba debe realizarse bajo las siguientes restricciones: • n > 50, con n= tamaño de la muestra. • No se admiten frecuencias esperadas nulas. • Se acepta a lo sumo un 20% de frecuencias esperadas menores que 5 y en

caso de no cumplirse alguna de estas restricciones se pueden unir categorías de manera lógica. Las frecuencias correspondientes a esas nuevas categorías son las sumas de las anteriores (tanto para observadas como para esperadas).

En este último caso se debe tener cuidado porque los grados de libertad deben ser mayores o iguales a uno y cada vez que se juntan categorías se van perdiendo grados de libertad. Existe otro estadístico de prueba para comparar las frecuencias esperadas con las observadas que se basa en el cociente de verosimilitud y es el llamado estadístico G o logaritmo del cociente de verosimilitud, que también sigue una distribución χ²k - 1.

Fi

( )χ∼∑

−= 22

qk1

i

2

FFiFiX

Page 98: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

98

Esta prueba es más utilizada porque da mejores valores y es una mejor aproximación. Se define como:

Ambas pruebas son equivalentes y dan resultados más o menos parecidos; además ambas son aproximadas porque se distribuyen aproximadamente como una χ²k-1; .

APLICACIONES La forma general que hemos visto tiene diversas aplicaciones específicas, según el problema de que se trate, aunque se aplique el mismo modelo general. Pruebas de bondad de ajuste de una vía Se las conoce como pruebas de una vía porque las unidades experimentales se clasifican según un único criterio en varias categorías. En realidad aunque todas las pruebas χ² son pruebas de bondad de ajuste, esta designación se utiliza más comúnmente cuando se trata de verificar si la distribución en probabilidades de una variable aleatoria sigue un determinado modelo teórico de distribución. Para resolver el problema se plantean las hipótesis:

H0 : buen ajuste a una determinada distribución Ha: caso contrario

Una vez calculadas las frecuencias esperadas se obtiene el estadístico que, si se cumplen los supuestos y restricciones mencionados más arriba, sigue una distribución χ² con q = k - 1 - m grados de libertad, donde k es el número de categorías en las que se clasifica la variable aleatoria y m el número de parámetros que ha sido necesario estimar a partir de la muestra para obtener las probabilidades esperadas. La regla de decisión, para ambos estadísticos es: se rechaza si X2 > o si p < se rechaza si G > o si p <

Ho χ2q α

αχ2qHo

FFlnF2G

i

iK

1i∑ ⋅=

Page 99: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

99

Prueba de una vía de bondad de ajuste a una proporción con dos categorías Ejemplo. Se trata de verificar si la probabilidad de aprobar o no el primer parcial de Biometría en la cursada de 2004 es la misma (p=0,5) . Las hipótesis se plantean como:

H0: aprobado : no aprobado ≡ 1 : 1 Ha: caso contrario

Tabla de datos:

Condición Fobservada Fesperada Porcentaje observado Aprobado 186 113 82,30 No aprobado 40 113 17,70 Total 226 226

En la resolucion de los ejemplos, además del valor crítico sacado de tablas, se dá el p de la prueba, calculado utilizando la computadora.

X2 = 94,185: G = 102,3088 p ≈ 0 < 0,05

Conclusión: la proporción de aprobados:no aprobados no es 1:1 (P < 0,01 y mirando las frecuencias observadas, se puede llegar a la conclusión de que el rechazo de esta hipótesis nula se debe a que la proporción de aprobados es significativamente mayor a la de no aprobados. Prueba de bondad de ajuste a una distribución binomial Ejemplo. Se quiere estudiar la variable X: cantidad de caras en 4 tiradas de una moneda. Se toma una muestra aleatoria de tamaño 100 (se arrojan 100 veces cuatro monedas y se registra la cantidad de caras) y se quiere estudiar la veracidad de las siguientes hipótesis: a) la moneda está equilibrada (o sea p = 0,5), o sea que la variable sigue una

distribución binomial con p =0,5 b) la variable sigue una distribución binomial con el p (proporción de caras)

estimado de la muestra (P = 0,52) Las correspondientes hipótesis estadísticas serían:

a) H0 : X ~ Bi(0,5 ; 4) b) Ho : X ~ Bi(0,52 ; 4)

A partir de los valores obtenidos en la muestra se obtiene la distribución de frecuencias observadas. Y la distribución de frecuencias esperadas se obtiene calculando las probabilidades bajo cada una de la hipótesis particular :

841,3295,0;1q =χ =

Page 100: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

100

X Fobservada Fesp (Bi(0,5; 4)) Fesp (Bi(0,52; 4)) 0 5 P(X=0)100 = 6,25 P(X = 0)100 = 5,23 1 20 25 23 2 44 37,50 37,38 3 24 25 27 4 7 6,25 7,31 ∑ 100 100 100

Resultados.

a) q=K-1-m= 5-1-0=4 X² = 2,51 p = 0,777 > 0.05 NS G = 2,53 p = 0,774 NS c) q=K-1-m= 5-1-1=3

En este caso m=1 porque la p de la binomial se estimó a partir de la muestra.

X² = 1.93, p = 0,860 > 0,05 NS G = 1,90 p = 0,864 NS

En ambas situaciones la hipótesis nula no fue rechazada. Entonces uno se preguntaría ¿cuál de las dos probabilidades debe aceptarse como la de obtener una cara al arrojar la moneda: p = 0,5 ó p = 0,52?. Esta es una situación muy particular porque las dos hipótesis proponen probabilidades cercanas y en realidad lo que se acepta en ambos casos es que la moneda esta mas o menos equilibrada o la prueba no es capaz de detectar las diferencias en caso de que existan. Esta es una situación donde es apropiado estudiar la potencia de la prueba realizada.

Corrección por continuidad (Corrección de YATES) La realización de esta corrección corresponde en el caso de pruebas de una vía con dos clases (k=2) o pruebas de dos vías con dos filas y dos columnas(tablas de contingencia de 2 x 2). Las pruebas de dos vías se verán un poco mas adelante. Debido a que, se utiliza una distribución continua (χ²) para calcular probabilidad de ocurrencia de una variable discreta se obtiene un valor p (P(rechazar H0 / es verdadera) más pequeño que el verdadero, rechazando la hipótesis nula más veces de lo especificado por el nivel de significación elegido. O sea que este caso la probabilidad de cometer error de tipo I es mayor que α. En las pruebas de χ² con un grado de libertad, los valores de X² y G antes calculados muestran un sesgo (resulta un error de tipo I con un nivel mayor que el establecido) que puede ser modificado aplicando una corrección de Yates, que consiste en sumar y restar ½ a las frecuencias observadas de modo de minimizar el valor de X² o de G. Simplemente se ajustan las frecuencias observadas para reducir las diferencias entre éstas y las esperadas. Luego se calculan los estadísticos X²Yates y GYates y sus valores de probabilidad. Esta

488,9295,0;4q =χ =

816,7295,0;3q =χ =

Page 101: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

101

corrección suele dar pruebas mas conservativas (con una zona de rechazo menor) Observar:

P(X2 > X02) < P(X2

Yates > X20) mientras que X2

Yates < X2 La corrección por continuidad se aplica cuando n es menor que 200. De todas fomas, cabe destacar que esta corrección produce pocas diferencias entre los valores de los estadísticos X² y G, aún cuando sea n<200. Corrección de Williams Corresponde a pruebas con cualquier número de categorías y n<200. G, Williams (1976) propone: donde con q = grados de libertad, n = tamaño de la muestra y k = cantidad de categorías.

GW < G, entonces P(GW >G0) > P(G > G0) Esta corrección tiene por objeto mejorar la aproximación del estadístico a la distribución χ², asegurando el valor de la probabilidad de cometer error de tipo I (α ).

Tablas de contingencia (pruebas de bondad de ajuste de dos vías) Este es el caso en que las unidades experimentales se clasifican según dos criterios diferentes. Aunque existen la posibilidad de estudiar tablas de contingencia donde la clasificación se realiza según tres o mas criterios, no trataremos el tema en este curso. Para este tipo de diseño existen tres procedimientos de muestreo que determinan tres modelos diferentes, caracterizados según las frecuencias totales marginales tomen valores aleatorios (libres) o sean fijados por el experimentador:

Modelo I: ambos totales marginales libres: Prueba de independencia Modelo II: un total marginal libre y el otro fijo. Prueba de homogeneidad Modelo III: ambos totales marginales fijos. Prueba exacta de Fisher

Modelo I: ambos totales marginales aleatorios. Pruebas de independencia Uno de los usos más frecuentes de las pruebas de χ² es para poner a prueba la hipótesis nula de que dos criterios de clasificación son independientes cuando se aplican a las mismas unidades experimentales. Se dice que dos criterios de clasificación son independientes cuando la distribución de uno de ellos es la misma sin importar cual sea la del otro. El esquema general es el siguiente:

hG

Gw = nq61k1h

2 −+=

Page 102: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

102

Sean los criterios A y B con las categorías: A1, ......, Aa para A y B1, ...., Bb para B, los cuales deben ser mutuamente excluyentes.

Se toma una muestra aleatoria de tamaño n de la población y se cuenta la cantidad de elementos de la muestra que caen en cada una de las combinaciones de categorías. Sea Fij

o (indicamos como Fij para más simplicidad) el número de elementos de la muestra en la combinación de las categorías Ai y Bj., o sea la frecuencia absoluta de la casilla (i, j). Los datos se disponen en una tabla de doble entrada o Tabla de Contingencia de a x b, de la siguiente forma:

B1 Bj Bb Totales A1 F1.

Ai Fij Fi.

Aa Fa. Totales F.1 F.j F.b F..

Donde Fij es la frecuencia de la casilla o clase (Ai ,Bj) ó (i, j), Fi. y F.j son las frecuencias o totales marginales calculadas como: Fi. = ∑ Fij , sumado sobre j = 1, 2, ..., b y representa la cantidad de

elementos de la muestra que están en la categoría Ai . Fj. = ∑ Fij , sumado sobre i = 1, 2, ..., a y representa la cantidad de

elementos de la muestra que están en la categoría Bj. Además se cumple:

∑ Fi. = ∑ F.j = ∑ Fij = n Las hipótesis en una prueba de independencia se indican como:

H0 : los criterios A y B son independientes. Ha : caso contrario.

Para poner a prueba esta hipótesis, se utilizan los dos mismos estadísticos de prueba con una distribución aproximada χ2 con grados de libertad (a – 1)*(b – 1): y la regla de decisión es la misma que antes: se rechaza si X2 > o si p < se rechaza si G > o si p < y los valores p se calculan como:

P(χ2(a - 1)(b – 1) > X2

0) y P(χ2(a - 1)(b – 1) > G0)

Ho χ2q α

αHo χ2q

( )χ∼∑

−= 22

qk1

i

2

FFiFiX

FFlnF2G

i

iK

1i∑ ⋅=

Page 103: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

103

Cálculo de las : La hipótesis nula biológica se expresa, en términos de la distribución en probabilidades (hipótesis nula estadística):

H0 : Prob(A i ∩ Bj) = Prob(A i ) . Prob(Bj) para todo i,,j. Entonces, si la hipótesis nula es verdadera, tenemos que la probabilidad en cada celda de la tabla es igual al producto de las probabilidades marginales: En tablas de este tipo, los grados de libertad de la distribución Chi cuadrado a la que se aproxima el estadístico X2 cuando la hipótesis nula es verdadera se calcula como:

Grados de libertad = (# de filas –1) .(# de columnas –1).

Esto se debe a que los totales marginales deben ser los mismos.

Ejemplo. Una muestra de tamaño 100 de alumnos de Biometría de la cursada de 2004, se clasifica según el turno de TP al que asistieron y la condición de haber aprobado o no los TP de la materia:

Turno Aprobado No aprobado Total Mañana (M) 20 10 30

Tarde (T) 25 15 40 Noche (N) 15 15 30

Total 60 40 100 Interesa estudiar la independencia entre ambas características Las hipótesis son:

H0: La condición de aprobar es independiente del turno de TP Ha: Caso contrario

G = 1,5635, GL = 2, p = 0,4576 ; GW = 1,5307, p = 0,4652 Conclusión: no hay evidencias para rechazar la independencia entre la aprobación del parcial y el turno de TP (P > 0,05).

nFF

nF j..iij =

Fij

Page 104: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

104

Modelo II: un total marginal fijo y el otro aleatorio. Pruebas de Homogeneidad Se toman muestras de igual o distinto tamaño según las categorías de uno de los criterios (marginal fijo) y luego se clasifican según el otro (marginal aleatorio). En Biología, el tamaño de un experimento (tamaño de la muestra) está limitado, a menudo, por la disponibilidad de material vivo, por las dificultades para cultivarlo, el tiempo disponible para llevar cabo un experimento, el costo de los reactivos utilizados, etc. A veces los resultados de varios experimentos similares se agrupan para ser analizados, es decir se toman como una sola muestra; pero previo a ello hay que estudiar si el material es homogéneo, es decir si puede suponerse que proviene de una misma población. Incluso cuando un experimento o investigación comprende un tamaño grande de muestra se puede efectuar de una sola vez, si existen dudas respecto de la uniformidad del material experimental o sobre las condiciones del experimento, es conveniente disponer de los datos subdivididos en submuestras y ver su homogeneidad. La prueba de homogeneidad es matemáticamente igual a la de independencia pero responde a hipótesis diferentes. Si la pregunta es: ”¿son independientes dos criterios de clasificación? ” se trata de una prueba de independencia pero si la pregunta es :”¿las muestra extraídas pertenecen a poblaciones que son homogéneas con respecto a un criterio de clasificación?”, entonces se trata de una prueba de homogeneidad. En la práctica se fija uno de los totales marginales (el correspondiente a la población que se quiere ver si es homogénea) y el otro se deja librado al azar. Ejemplo. La siguiente tabla corresponde a la distribución de frecuencias de una especie de escarabajo (Cicindela fulgida) recogidos en cuarto ambientes de un bosque y luego clasificados según su color verde: brillante o no brillante. Se tomaron 50 ejemplares al azar en cada muestreo con los siguientes resultados:

Estación Verde brillante Verde Opaco Total Troncos caidos 36 14 50 Arboles vivos 29 21 50

Hojarasca 10 40 50 Claros 25 25 50 Totales 90 110 200

Page 105: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

105

Hipótesis de homogeneidad: H0: Los ambientes del bosque son homogénoas en la distribución de colores. H1: Los ambientes del bosque no son homogénoas en la distribución de colores. Calculando resulta G = 62,5 p= 1,71778.10-13 la hipótesis de homogeneidad es rechazada, por lo tanto las estaciones del año no son homogéneas en la distribución de colores. Corrección al estadístico de prueba en tablas de rxc Corrección de Yates Esta corresponde a las tablas de 2x2, tanto para el estadístico X2 como para el G. Se procede como en el caso de una vía. Corrección de Williaams Para el caso general de r filas y c columnas, Williams propone una corrección para el estadístico G :

GW = G / c con c = 1 + [[n ∑(1 / Fi.) - 1] [n∑(1 / F.j - 1)]} / 6n(r – 1)(c – 1) Modelo III: ambos totales marginales fijos. Este es el modelo menos frecuente. La resolución de este tipo de problema se realiza mediante la Prueba Exacta de Fisher que se basa en las probabilidades de una distribución hipergeométrica (Ver Sokal-Rohlf, Cap. 16 y textos de estadística no paramétrica). Si bien la prueba corresponde al caso de totales marginales fijos se suele utilizar cuando el tamaño total de la muestra (N) es pequeño y no se está en las condiciones de la prueba Chi cuadrado de independencia Ejemplo1. Se quiere estudiar la preferencia de la larva de gorgojo por dos tipos de porotos que difieren en el color de la cubierta de la semilla: verde o amarillo. Se toman 50 semillas de porotos de cada color (marginal fijo). Las semillas se colocan en un recipiente al que se agregan 70 larvas (suponiendo que en estas condiciones de densidad no entrará más de una larva por semilla y que cada larva entrará en una semilla). Después de un tiempo se cuenta el número de semillas de cada color atacadas. Las variables son X: color de la semilla e Y ataque.

815,7295,0;3

21;q == χχ α−

Page 106: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

106

Los dos totales marginales son fijos y quedaría una tabla del tipo:

Atacadas No atacadas Total Verdes 50 Amarillas 50 Total 70 30 100

H0 : No hay preferencia por el color de la semilla

Ejemplo 2. Se colocan 100 trampas para ratones, 50 trampas impregnadas con un aroma que se supone atractivo a los ratones y 50 sin impregnar. Se sueltan 100 ratones, 60 de sp A y 40 de sp B. Se supone que en cada trampa entra un solo ratón y que todos los ratones entran en alguna trampa. Se cuenta, al cabo de un tiempo el número de ratones en cada combinación de trampa y especie Las variables son : especie de ratón e Y: presencia del aroma La tabla de datos es la siguiente:

Sp A Sp B Total Impregnadas 15 Sin impregnar 13 Total 16 12 28

H0 : las especies no tienen preferencia con respecto al aroma. Ejemplo 3. En un campo experimental se tienen acacias de dos especies diferentes. Para un experimento con plaguicidas se rocían con hormiguicidas15 árboles de la sp A y 13 de la sp B. Posteriormente se traen 16 colonias separadas de hormigas de una especie que ataca a las acacias. Las colonias se sitúan equidistantes a los 28 árboles que forman parte del experimento, permitiéndoseles la invasión. Se registra la cantidad de árboles de cada especie de acacia invadidos por las hormigas. Se supone que cada colonia invade a una sola planta y que todas las colonias invaden. Las variables son X: sp de acacia e Y: invasión La tabla resultante es:

Invadidas No invadidas Total Sp A 15 Sp B 13 Total 16 12 28

H0: las hormigas no tienen preferencia con respecto a la sp de acacia Prueba de Kolmogorov-Smirnov o de Dmax Al utilizar para una prueba de bondad de ajuste a una determinada distribución, como estadístico de prueba el X2 cuando la variable en estudio admite una relación de orden (o sea se puede construir una Función de Distribución), particularmente cuando es numérica, se pierde información respecto del orden,

Page 107: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

107

resultando una prueba con menor potencia. En este caso se utiliza una medida de distancia entre distribuciones, conocida como la distancia de Kolmogorov ya que este autor describió su distribución en el muestreo con la que se construye el estadístico de prueba. Esta es una prueba no paramétrica que se utiliza fundamentalmente en el caso de variables continuas con muestras de tamaño pequeño; también puede utilizase con variables discretas, como se verá más adelante con un ejemplo. Comparación de la prueba de K-S con la prueba de χ2 -La prueba de K-S no requiere que las observaciones sean agrupadas, como en las pruebas de χ2. La consecuencia de estad diferencia es que la prueba de K-S utiliza toda la información presente en el conjunto de datos. -La prueba de K-S puede utilizarse con muestras de cualquier tamaño. La prueba centra su atención en la función de distribución (acumulada) indicada como F(x) = P(X ≤ x). Si se extrae una muestra aleatoria de una población con función de distribución F0 (x) desconocida (este es el único supuesto) y se está interesado en poner a prueba la hipótesis de que esa F(x) es una cierta F0(x) conocida, por ejemplo una distribución normal, entonces se están planteando las hipótesis:

Ho : F(x) = F0(x) contra Ha: F(x) ≠ F0(x) Se decide en base a la función de distribución de la muestra, sea S(x). Para ambas funciones de distribución se toman las frecuencias relativas. La prueba a utilizar depende del tipo de hipótesis de que dispone: 1) Hipótesis extrínseca: µ y σ² son conocidos: prueba de K – S. 2) Hipótesis intrínseca: µ y σ² no conocidos entonces se estiman con x- y s²:

prueba de Lilliefors (1967). Para la prueba de Kolmogorov el estadístico de prueba de dos colas es:

n

xFxSsupD

)i(o)i(max

−=

donde sup = supremo sobre x y n el tamaño de la muestra. Se rechaza la H0 cuando el Dmax > VC (valor de la tabla de Kolmogorov). Esquema de cálculo:

X Frecuencia Fre Acumulada Fr ac bajo modelo F0 ⏐S(xx) – F0(xi)⏐

xi F i S (xi) F 0(xi) D

Page 108: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

108

Para la prueba de Lilliefors el estadístico de prueba de dos colas es:

n

xSxSsupD

)i(o)i(max

−=

donde sup = supremo sobre x y n el tamaño de la muestra y S0 (x) es la distribución de frecuencias acumuladas calculadas con los parámetros estimados de la muestra. Se rechaza la H0 cuando el Dmax > VC (valor de la tabla de Lilliefors). Se puede utilizar una tabla de Kolmogorov cuando los parámetros de la población no son conocidos con lo que se hace más conservativa. Para modificar esta situación la diferencia entre la frecuencia esperada y observada, se calcula de manera diferente. Se dispone de una tabla como la de mas arriba, pero la diferencia entre la frecuencia acumulada observada y esperada se toma la mayor diferencia entre:

)i(o)i( xSxS − y )i(o)1i( xSxS −−

Para mas información ver Sokal y Rohlf, § 17.2. Prueba χ² de bondad de ajuste versus K – S, en el caso discreto Ejemplo Supongamos el caso de 10 individuos seleccionados al azar que eligen entre 5 gamas de un color con los siguientes resultados:

Tonalidad Gama Fobs Fesp + claro 1 0 2 2 1 2 3 0 2 4 5 2 + obscuro 5 4 2

Se quiere poner a prueba la hipótesis de que hay preferencia en la elección de las gamas del color. Entonces la hipótesis nula a probar es:

H0 : no existe preferencia (o sea se asignan 2 individuos a cada gama)

a) Resolución como prueba χ²:

Como no se cumplen las restricciones de la prueba hay que juntar categorías. Esto puede realizarse, por ejemplo, de las dos siguientes formas, según como se defina la tonalidad:

Page 109: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

109

a1) Tonalidad Fobservada Fesperada Claro (1, 2) 1 4 X² = 2,40 p =0,1213 Obscuro (3, 4, 5) 9 6 X²Y = 1,07 p =0,3117 NS

a2)

Tonalidad Fobservada Fesperada Claro (1, 2, 3) 1 6 X² = 5,49 p =0,0191 Obscuro (4, 5) 9 4 X²Y =3,52 p =0,0608 NS

b) Resolución con K – S

Gama Fobservada Sobservada Sesp acumulda ⏐D⏐ 1 0 0 2 2 2 1 1 4 3 3 0 1 6 5 Dmax 4 4 5 8 3 5 5 10 10 0

Dmax = 0,5 > 0,489 = D10, 0.01 .O sea p < 0,01 (dos colas) para K – S S Se llega a la conclusión que con la prueba de K-S, en la que no es necesario juntar categorías se llega a un resultado significativo al 1%, como parece ser el resultado mas cercano a la realidad al observarse la distribución de frecuencias.

Page 110: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

110

ANALISIS DE VARIANZA DE UN FACTOR El análisis de la varianza es una técnica muy utilizada en el diseño experimental, debido a que en investigación científica es muy común que se quiera comparar mas de dos tratamientos. O sea en aquellos casos donde los estadísticos para la comparación de dos tratamientos vistos en capítulos anteriores son insuficientes. El Análisis de la Varianza (Anova) es un modelo estadístico que permite comparar varias medias entre si con el objeto de poner a prueba la hipótesis referente a si dos o más muestras provienen de una misma población (o sea de poblaciones con una misma media).

La denominación de Análisis de la Varianza se debe a que, para poner a prueba la hipótesis de igualdad de medias, utilizando las varianzas. Uno de los objetivos de este capítulo es brindar los conocimientos necesarios para la comprensión de la relación existente entre la magnitud de las varianzas que expresan las diferentes fuentes de variabilidad y las medias de las subpoblaciones involucradas en el experimento. Por otro lado, se trata de un ANOVA de un factor porque las muestras son clasificadas según un único criterio. En ANOVA de un factor, el Factor se corresponde con la fuente de variación que se desea comparar; los niveles de este factor son, en el caso general, cada uno de los grupos o tratamientos del mismo tipo. La manera de ordenar los datos, se puede resumir en la siguiente tabla:

s²i s²1 Varianza

Media

bi b1 Tamaño de la muestra

ybi y1b1

... ....

yij y1j

... ....

yi1 y11 Respuesta

Ti .... T1 Tratamientos

y .1 y .i Y ..

Page 111: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

111

Donde:

i

j.i

.i b

yy

∑=

media del grupo o tratamiento i

∑=∑

∑=

ijiji

ii

ijij

.. ybb

yY media general

( )( )

2

i

.iij2i 1b

yys ∑

−=

Notación: Ti : grupo o tratamiento i con 1 = 1, 2,....., a bi : tamaño de la muestra del grupo o tratamiento i yij: respuesta u observación de la unidad experimental j del grupo i, con j

= 1, 2,..., bi bi = N = número total de observaciones = número total de unidades

experimentales El método permite poner a prueba hipótesis referidos a los efectos relativos de los grupos o tratamientos sobre la variable de interés. Las hipótesis tienen la siguiente forma general: H0 :los tratamientos no producen efectos diferenciados Ha : caso contrario Para resolver esta prueba de hipótesis es necesario construir un modelo estadístico que describe los resultados en términos probabilísticas. Modelo estadístico En el caso de una variable aleatoria medida en una muestra aleatoria, tomada de una población con media µ, el modelo estadístico describe a la observación realizada (observación individual) en una unidad experimental como el resultado de la media poblacional, común a todas las observaciones, más un error aleatorio: y = µ + ε Si se tienen a muestras aleatorias independientes extraídas de una población, a las que se les aplican distintos tratamientos, se tienen a subpoblaciones y cada una de ellas puede ser representada de la siguiente manera:

yij = µi + εij Donde la observación i,j es la j-ésima observación del i-ésimo tratamiento y el modelo la representa como la media de la subpoblación más el error individual.

Page 112: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

112

Además: εij = yij - µi, con i= 1, 2,... , a, j = 1, 2,... , bi que expresa la desviación del individuo j con respecto de la media (µi) de su subpoblación. A su vez la media de cada subpoblación puede ser entendida como el resultado de la media general µ más el efecto del tratamiento particular aplicado a la población, que se indica αi. De esta forma, la población total (cuya media es µ) está subdividida en a subpoblaciones o grupos independientes con valores medios µi :

µi = µ + αi con i = 1, 2,...., a

Si se tiene en cuenta que de cada una de estas subpoblaciones se extrae una muestra, cada valor de la variable estudiada (cada observación individual) se puede expresar descomponiéndola de la siguiente forma:

(1) yij = µ + αi + εij , con i= 1, 2, ., a; j = 1, 2, ... , bi Donde: µ = media poblacional (media general) αi = efecto del tratamiento o grupo i. Es común a todos los miembros de la subpoblación i y varía de una subpoblación a otra. εij = término de error. Corresponde a aquella fuente de variación que no se puede asignar a una causa determinada. Se dice también que esta fuente de variación es no controlada, varía de una observación a otra y es la responsable de que dos unidades experimentales sometidas al mismo tratamiento tengan una respuesta diferente. Además E(εij) = 0 La expresión (1) más las condiciones: αi son constantes y ∑ αi = 0, constituyen el Modelo lineal de Anova de un factor. Cuando se planea una experiencia, la forma en que se definen los tratamientos, se asignan y seleccionan las unidades experimentales a los distintos tratamientos, se fija el número de observaciones y, en general, se determina el modelo a utilizar constituye el Diseño Experimental El modelo se dice de efectos fijos o modelo I cuando la inferencia es válida sólo para los niveles involucrados (tratamientos), es decir se analiza el efecto de los tratamientos sobre la población estudiada (los αi son constantes). Cuando los efectos son aleatorios se denomina modelo de efectos aleatorios o modelo II (los αi son variables aleatorias) y los niveles (tratamientos) son seleccionados aleatoriamente de un conjunto mayor.

Page 113: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

113

El caso que nos ocupa en este capítulo es el de un ANOVA de un factor de efectos fijos y por lo tanto interesa comparar el efecto medio de los tratamientos. El diseño se dice que es completamente aleatorizado (DCA) debido a que cada tratamiento es asignado al azar a las unidades experimentales o viceversa y de cada una de la a subpoblaciones independientes se extrae una muestra aleatoria de tamaño b Suposiciones para un modelo de efectos fijos a) Los a grupos son muestras aleatorias extraídas de sus respectivas

subpoblaciones (se refiere a la población de las unidades experimentales) b) Las a subpoblaciones son independientes. c) La respuesta o variable aleatoria que identifica a cada subpoblación está

normalmente distribuída con media µi y varianza σ²i. d) Las varianzas de las subpoblaciones son iguales. Homogeneidad de las

varianzas. De estos supuestos se deduce que los errores se distribuyen normalmente y son independientes. Planteo de las hipótesis La hipótesis nula propuesta es la que se refiere a que no existe efecto del tratamiento (hipótesis biológica), mientras que las hipótesis estadísticas correspondientes pueden ser de las dos siguientes formas :

H0 : µi = µ para todo i contra Ha: µi ≠ µ para algún i

H0 : αi = 0 para todo i contra Ha: : αi ≠ 0 para algún i Descomposición de la suma de cuadrados total y construcción del estadístico de prueba Para poner a prueba esta hipótesis se debe definir un estadístico de prueba. Para definirlo es necesario descomponer la suma de cuadrados total, que es una medida de la variabilidad de las todas las observaciones con respecto a la media general. Una medida de la variabilidad de una medición, que ya se ha utilizado ampliamente en este curso, está dada por su varianza. El ANOVA, supone que la variabilidad total puede descomponerse en fuentes de variación parciales y esta es la base de esta prueba estadística, ya que la comparación de las diferentes fuentes de variabilidad permite tomar una decisión acerca de la hipótesis planteada. La idea es identificar las diferentes fuentes de variabilidad involucradas en el diseño y en este sentido es útil una explicación detallada. En primer lugar, cabe recordar aquí la forma general de la varianza, tal cual ha sido definida al principio de este curso:

Page 114: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

114

( )GLSC

1nyny

1nyy

s222

2 =−

∑ −=

−∑ −=

Donde SC: suma de cuadrados GL: grados de libertad Utilizando la nomenclatura definida mas arriba:

( )2ij

..ijtotal yySC ∑ −=

Esta suma de cuadrados es una expresión de la variabilidad total y puede descomponerse en una variabilidad dentro de los grupos, que es la que expresa la diferencia de la respuesta entre todas las unidades experimentales sometidas a un mismo tratamiento y una variabilidad de la media entre los grupos, que es la que depende da la diferencia en la respuesta expresada por la media de los diferentes tratamientos:

( ) ( ) ( )2i ...ii2

ij.iij

2

ij..ij yybyyyy ∑ −+∑ −=∑ − (**)

SCtotal = SCdentro + SCentre Para construir varianzas es necesario obtener los grados de libertad correspondientes a cada una de las fuentes de variación. Los grados de libertad, como se ha definido oportunamente están determinados por la cantidad de desviaciones independientes o la cantidad de observaciones independientes en una serie de datos menos el número de parámetros estimados a partir de la muestra para calcular esas desviaciones. En ANOVA las varianzas toman el nombre de Cuadrados Medios (CM):

GLSCCMs2 ==

De modo que si las sumas de cuadrados definidas en (**) se dividen por sus grados de libertad se tendrán cuadrados medios y cada uno de ellos será un estimador de varianza. La descomposición en sumandos independientes es válida también para los grados de libertad:

GLtotal = GLentre + GLdentro N - 1 = (a - 1) + (N - a)

Page 115: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

115

Toda esta información se puede resumir en la siguiente tabla.: Fuente de variación G de L SC CM Entre

a – 1 YNyb 22

.ii

i −∑

CME = s2E

Dentro (error)

N – a

SCtotal-SCentre

CMD = s2

D Total N –1 YNy 2

ij

2ij −∑

El CMD es el llamado error experimental y representa a toda fuente de variación no controlada por el experimentador. Los distintos diseños experimentales tienen como objetivo el control del error experimental. De este modo se han obtenido dos estimadores insesgados de la varianza:

s²E = CME y s²D = CMD El s²D estima la varianza común dentro de los grupos y varía de grupo en grupo. 1) El s2

E estima la varianza de la media entre los grupos, es decir mide la variación de las medias entre los grupos

Recordar que las hipótesis estadísticas pueden ser expresada como: H0: µi = µ para todo i contra Ha : µi ≠ µ para algún i

ó H0: αi = 0 para todo i contra Ha: αi ≠ 0 para algún i

O sea que se postula que los tratamientos o grupos no producen efectos diferentes o lo que es lo mismo, que las muestras provienen de una misma población o de poblaciones con la misma media. Si la Ho es correcta, la variabilidad dentro y entre grupos no deberían ser diferentes, o sea que vale la igualdad:

E(s²E) = E(s²D) Por lo tanto si s²E y s²D son aproximadamente iguales debe suponerse cierta la hipótesis nula. En otras palabras, las diferencias encontradas entre los efectos de los tratamientos o grupos son debidas al azar (efecto nulo de tratamiento o grupo). Por el contrario si resulta que s²E difiere tanto de s²D que no puede ser explicado por el azar, la alternativa lógica sería que las µi son realmente diferentes entre sí, o sea que los tratamientos o grupos producen efectos diferenciados. Luego es necesaria una regla de decisión para poner a prueba la hipótesis planteada, y para ello se necesita definir un estadístico de prueba.

Page 116: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

116

Probar que la hipótesis nula es no significativa (NS) es lo mismo que probar que ambos estimadores de la varianza coinciden. Por lo tanto se define el estadístico de prueba:

2D

2E

ANOVA ss

F =

y se rechazará la hipótesis nula si FAnova > VC (valor crítico). Falta por lo tanto determinar el valor del VC, que estará determinado por la distribución en probabilidades del cociente de varianzas.

Puede probarse que el estadístico FAnova así definido sigue una distribución ℑ de Fisher, porque es la razón de dos estimadores independientes de una misma varianza (por lo tanto es un cociente de variables con distribución χ²), y que bajo H0 tienen la misma esperanza. Intuitivamente se ve que son independientes, puesto que están basados en observaciones diferentes: s²E se basa en los valores medios de los grupos mientras que s²D se basa tan sólo en las variaciones individuales dentro de los grupos (es decir se mide a partir de la media de su grupo), cualquiera sea la media del grupo. Entonces el valor crítico (VC) de la prueba es un percentil de la distribución ℑ de Fisher con a -1 grados de libertad en el numerador y N - a grados de libertad en el denominador. Una vez fijado el nivel de significación α, la regla de decisión resulta:

H0 se rechaza al α% si FAnova > ℑ a -1, N - a, α La regla de decisión se puede también poner en términos del valor p de la prueba, que en este caso sería: p = P(ℑ a - 1, N - a, > FAnova) y se rechaza H0 al α% si p < α. Intuitivamente es facil observar que la hipótesis de efecto nulo de tratamiento o grupo tiene mayor probabilidad de ser rechazada cuanto mayor sea el valor del FAnova; esto responde a valores grandes del numerador del cociente de varianzas con respecto al denominador, es decir la variación entre las medias de tratamiento con respecto a la variación dentro. Algunas consideraciones a tener en cuenta para la obtención de un diseño experimental adecuado 1) La unidades experimentales deben estar muy bien definidas; es decir debe

estar bien definida la población sobre la que se realizarán las inferencias (alcance).

2) Elección al azar (Aleatorización): debe asegurarse el proceso de

aleatorización de las muestras extraídas de cada población en estudio. Esto asegura una medida válida del error experimental.

3) Repeticiones: aseguran la manera de calcular el error experimental, y están

relacionadas con el grado de precisión. Para detectar pequeñas diferencias deben realizarse muchas repeticiones, en cambio para detectar diferencias

Page 117: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

117

más o menos grandes con unas pocas alcanza. Es importante no caer en seudoréplicas.

Diferentes tipos de repeticiones dan diferentes fuentes de variación: a) Repeticiones en un mismo objeto (unidad experimental): en esta situación

las lecturas sucesivas dan errores de variación humana, de variación de aparatos, o ambas.

b) Repeticiones en objetos diferentes: aquí aparecen variaciones por la sencilla razón de que los objetos no son idénticos.

La variación es un fenómeno fundamental en el material biológico. Deben considerarse dos tipos de variación: 1) Variación sistemática: se puede explicar 2) Fluctuaciones del azar: se pueden observar y describir mediante

observaciones repetidas bajo determinadas condicione en las cuales se controlan la variaciones sistemáticas, pero no se pueden explicar

Ejemplo. Se quiere estudiar el efecto de una nueva droga analgésica en pacientes con neuralgia crónica. Para ello se la compara con el efecto producido por la aspirina y por un placebo. Se seleccionan 30 pacientes al azar y se asignan, también al azar, diez a cada droga. Para medir el efecto de los tratamientos se toma como variable el número de horas en que el paciente está libre del dolor después del tratamiento. La siguiente tabla posee datos útiles para los cálculos:

Tratamiento Media Varianza Placebo 2.5 0.329 Aspirina 2.82 0.332

Droga nueva 3.2 0.260

Page 118: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

118

a = 3 bi (ni)= b =10 n = 30

VC

10,74529Total8,28927Dentro (error)

2,4562Tratamiento

Valor pFCMSCGLFuente de variación

X : número de horas hasta que desaparece el dolor

μ=μ=μ=μ 321o :H1,2,3i algún para :H ia =μ≠μ

0:H io =α0:H ia ≠α

4307,0

228,1=

228,12

456,2=

307,027

289,8=

ó

Como > 3,32 se rechaza con 4F = Ho 05,0=α

FGLentre GLdentro 1-α, ,

los tres tratamientos actúan en forma diferenciada sobre la desaparición de la neuralgia

F2 27 0,95; ; 32,3==

32,3 03,0

Hasta aquí el resultado del ANOVA, que solo nos dice que las tres drogas tienen efecto diferente sobre la neuralgia cronica, pero resulta obvio que la investigación estará completa cuando se puede saber cual o cuales tratamientos son los que provocan esta diferencia. Esto se verá más adelante cuando se trate el tema de contrastes y comparaciones múltiples. Relación entre Anova de un factor con dos niveles (a = 2) y prueba de 't' para dos muestras independientes Una de las situaciones mas comunes que se plantean en el curso de una investigación está relacionada con aquellos casos en los que se tienen dos tratamientos aplicados a dos muestras independientes. Muchas veces en estos casos se puede tener la duda acerca de la prueba estadística a aplicar: una prueba de t para dos muestras independientes o un ANOVA de un factor con dos niveles? Aquí se muestra la razón por la que ambas técnicas son adecuadas en este caso. Para el Anova con dos niveles resultaría: Grados de libertad entre = a - 1 = 2 - 1 = 1 Grados de libertad dentro = b1 + b2 - a = N - 2

Page 119: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

119

Como se vio cuando se trató el tema de prueba de hipótesis, para la prueba de ‘t’ de dos muestras independientes el estadístico toma la forma:

Las dos pruebas (el t y el ANOVA) son equivalentes debido a que el valor del estadístico t elevado al cuadrado da el valor del estadístico FAnova. En cuanto a la significación se debe tener en cuenta que vale la relación: ℑ1, q, α = t²q, α/2 puesto que la prueba de ℑ del Anova es de 1 cola. Validez de los supuestos del Anova y consecuencias de su violación (Ver Sokal y Rohlf, cap 13) El ANOVA es uno de los métodos estadísticos mas utilizados y potentes que existen, pero para su correcta aplicación es necesario tener en cuenta los supuestos en los que se basa, procurando que estos se cumplan. A continuación se detallan cuales son estos supuestos, se tratarán los métodos para comprobar su validez y por último se estudiarán las consecuencias que tienen la violación de los mismos sobre el resultado del Anova. Los supuestos para el Anova de un factor son: 1.- Muestreo aleatorio (aleatoriedad) 2.- Independencia de los errores. 3.- Errores normalmente distribuidos. 4.- Homogeneidad de la varianzas (Homocedacea) 1.- Muestreo aleatorio El ANOVA requiere que el muestreo de las unidades experimentales sea al azar. De esto se trata cuando se habla de aleatorización, que en cada diseño tendrá caracteristicas particulares. En el caso del DCA de un factor como el que se vio anteriormente, la aleatorización supone que la asignación de las unidades experimentales a cada tratamiento debe hacerse al azar. Otra manera de expresar este proceso azaroso es decir que cada unidad experimental debe tener la misma probabilidad de ser asignada a cualquiera de los tratamientos comprendidos en el ANOVA. En el ejemplo de la droga analgésica se tenían 30 pacientes a distribuir en 3 tratamientos. La idea es que cada uno de los pacientes es asignado al azar a uno de los tres tratamientos.

( ) ( )( ) ( ) t n2n1

2

21

21

222

211

2121

nn1nn

2nns1ns1n

xx+∼

⋅+

−+−+−

μ−μ=ε --

Page 120: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

120

La falta de aleatoriedad de la muestra puede provocar la falta de normalidad de la distribución de la variable, la falta de homogeneidad de las varianzas o no independencia de los errores. 2.- Independencia Como se vio cuando se dedujo el modelo estadístico del ANOVA, cada observación es de la forma yij = µ + αi + εij , y el supuesto hecho con respecto a los errores es que estos se distribuyen normalmente εij ∼ N(0, σ²) y que son independientes entre si. De esto se trata cuando se habla acerca de la independencia de los errores. La independencia de los errores no puede ser comprobada mediante una prueba estadística, pero puede ser asegurada mediante un correcto proceso de aleatorización. En el ejemplo de los analgésicos, si los pacientes han sido elegidos al azar de entre todos los disponibles y no guardan relaciones de parentesco, etc entre ellos, puede suponerse que la respuesta de un individuo al tratamiento será independiente de la de otro. Si no se puede garantizar la independencia, el camino a seguir es buscar un diseño del experimento que contemple esta característica del muestreo. Por ejemplo el diseño en bloques al azar (DBA), que se verá mas adelante en este curso, supera la falta de independencia de los errores, aleatorizando el efecto de las diferencias de los denominados bloques. Si los errores no son independientes la validez de la prueba de ℑ del Anova sobre la significación puede ser errónea. Observación: Como se deduce de lo antedicho, la independencia y la aleatoriedad son responsabilidad del investigador y dependen directamente de la manera en que se realiza el muestreo o se lleva a cabo el experimento y otra vez, estamos ante el caso en que el criterio del profesional es la unica herramienta valida y dependerá de cada caso particular. Por eso puede decirse que el cumplimiento de estos supuestos solamente puede comprobarse por medios indirectos, no generales y siempre externos al procedimiento estadístico en si mismo. 3.- Homogeneidad de las varianzas La homogeneidad de varianzas supone que las varianzas de las subpoblaciones de las cuales se extraen las muestras son iguales. Algunas posibles causas de la heterogeneidad de las varianzas podrían ser: 1) Algunas poblaciones son más variables que otras. 2) Algunas especies son relativamente uniformes para un carácter y no lo son

para otro. 3) Puede suceder que algunas de las muestras usadas para el Anova se hayan

tomado en condiciones diferentes a las otras. 4) En algunos casos es haber elegido mal la escala de medición. Con algunas escalas de medida la varianza varía con la media. De este modo las

Page 121: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

121

diferencias entre las medias provocan la heterogeneidad de las varianzas. Tal es el caso de una población con distribución de Poisson en la que, de hecho, la varianza es igual a la media y las poblaciones con mayores medias tendrán mayor varianza. Las desviaciones con respecto a la homogeneidad de varianzas pueden a menudo ser corregidas con un cambio de escala. Un chequeo rápido para detectar si las medias y las varianza son

independientes es considerar los cocientes y

s2

o ys , que no serán

aproximadamente constantes para las muestras y variarán independientemente. Las consecuencias de la no homogeneidad de varianza son: a) Caso en que la no homogeneidad es moderada: a1) no es muy grave para el Anova a2) es grave para las comparaciones, sobre todo de a pares. a3) no es de preocuparse si el diseño es balanceado b) Caso en que son marcadamente no homogéneas Cuando esto sucede y no hay forma de remediarlo, cabe la posibilidad de comparar las medias con pruebas aproximadas (por ejemplo la aproximación de Games y Howell a la prueba de 't' para dos muestras independientes, Sokal y Rohlf, pag 401), siempre que se cumpla el supuesto de normalidad, o utilizar alguna prueba no paramétrica. 4.- Normalidad Lo que se supone es la normalidad de los errores, es decir εij ∼ N(0, σ²). La violación del supuesto de distribución normal no es muy grave, salvo en el caso de una distribución de los errores muy asimétrica que tendría un efecto muy marcado sobre el nivel de significación de la prueba de Fisher o sobre la potencia. La mejor forma de corregir la falta de normalidad es realizar alguna transformación a los datos, cuando esto sea posible. Comprobación de los supuestos del Anova Aleatoriedad e independencia De todo lo expuesto se deduce que para la no violación de los supuestos debe ponerse mucho cuidado en el diseño experimental seleccionado y por lo tanto en la extracción de la muestra. Hay pruebas no paramétricas para probar la aleatoriedad de una muestra: son las pruebas de rachas. En Zar (Capítulo 24, §24.6 y §24.7) se da una prueba para probar la aleatoriedad de una muestra correspondiente a una variable continua y a de una muestra de una variable discreta.

Page 122: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

122

También hay pruebas de rachas para el caso de dos muestras independientes y de dos muestras dependientes. Pero la mejor forma de garantizar la aleatoriedad sigue siendo mediante un muestreo correctamente diseñado y cuidadosamente ejecutado. Normalidad (Ver Sokal y Rolhf §17.2). 1-Métodos gráficos Q-Q plot Este es un método gráfico utilizado para evaluar el ajuste a una distribución en probabilidades teórica (la normal inclusive) y aunque no llevan a cabo una prueba de hipótesis para la bondad de ajuste, son muy utilizados. El siguiente es un ejemplo de un gráfico Q-Q plot normal aplicado a una muestra con distribución aproximadamente normal (programa INFOSTAT)

Los gráficos Q-Q plot, representan la correlación entre los cuantiles observados en la muestra versus los cuantiles de la distribución teórica seleccionada. En nuestro caso, la distribución Normal (eje X ) cuyos parámetros se estiman a partir de la muestra. La idea es que si la muestra proviene de una distribución normal, entonces los puntos muestrales deberían estar sobre una recta. Existen otros métodos gráficos para la evaluación de la normalidad, pero solo se muestra el Q-Q plot a manera de ejemplo por ser uno de los mas utilizados. Por otro lado, en este curso se hará mas hincapié en los métodos analíticos. 2.- Métodos analíticos Existen varias pruebas para comprobar normalidad de una serie de datos. Entre las mas comunes puede citarse la prueba de χ² de bondad de ajuste, la prueba de Kolmogorov-Smirnov para aquellos casos en que la media y varianza poblacional son conocidas (hipótesis extrínseca) o la de Lilliefors, que

Page 123: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

123

se utiliza cuando la media y varianza son estimados a partir de la muestra (hipótesis intrínseca). A continuación se da un ejemplo utilizando el programa estadístico Biom, pero las consideraciones son perfectamente generales. ----- BIOMstat 3.2c: Date 19/08/2004, Time 11:13:00 ----- Basic statistics. Data file: BASTAT1.DTA Title: Aphid stem mother femur length data (BOX 2.1) Total number of records in file: 25 Variable: FemLen Alpha: 0.05000 Total sample size = 25 Results: Statistic Stand. error Confidence limits (95.00%) Mean 4.0120000000 0.0717216843 3.8405213413 4.1834786587 Median 3.9000000000 0.0898887869 3.6850857971 4.1149142029 Min 3.3000000000 Max 4.7000000000 Range 1.4000000000 Var. 0.1286000000 s 0.3586084215 V (%) 8.9383953525 1.3004130021 5.8292508942 12.0475398107 g_1 -0.0355051234 0.4636835008 -0.9445079015 0.8734976546 g_2 -0.8246635597 0.9017205463 -2.5923919351 0.9430648156 g1 = coeficiente de asimetría g2 = coeficiente de curtosis Kolmogorov-Smirnov statistic Test fit to normal distribution using estimated parameters.

Dmax = 0.14904

Dallal & Wilkinson (1986) approximation to Lilliefors test: P > 0.1 Khamis delta-corrected statistics: D_0 = 0.13520, D_1 = 0.16427 g_0 = 0.13520, g_1 = 0.12260, 0.05<P<=0.1. obtienen 0,05 < p < 0,10 El párrafo recuadrado contiene el resultado de la prueba. Dmax (desviación máxima) es el estadístico de la prueba, que se compara con un valor critico de la prueba de Lilliefors de una tabla ad hoc. La hipótesis nula considerada supone que la distribución es normal, por lo tanto en este caso al no rechazarse esta hipótesis (p>0.1) se da por comprobada la normalidad. Mas abajo, con el título Khamis delta-corrected statistics se da la probabilidad correspondiente a otra prueba para estudiar la normalidad, que también usa la tabla de Lilliefors y cuyo resultado es 0,05 < p < 0,10.

Page 124: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

124

Estudio de la asimetría y kurtosis Como se dijo mas arriba, la violación del supuesto de distribución normal no es muy grave, salvo en el caso de una distribución de los errores muy asimétrica. Por esta razón, es interesante evaluar la simetría mediante los coeficientes de asimetría (γ1, estimado por g1) y kurtosis (γ2 estimado por g2). En el caso de una distribucón normal, estos dos coeficientes son nulos. Una manera de estudiar estos coeficientes es analizando el intervalo de confianza del 95 % para ellos. En la salida del BIOMstat dada mas arriba se puede estudiar la significación de esta prueba (en negrita). Toma de decisiones en el proceso de prueba del supuesto de normalidad Hay que tener en cuenta que el resultado de estas pruebas se ve afectado por el tamaño de las muestras: cuanto mayor el tamaño de muestra, mayor la potencia de la prueba y por lo tanto mas probabilidad de rechazar la hipótesis nula (que es lo que determina que lleguemos a la conclusión de que el supuesto no se cumple). Por otro lado, cuando la muestra es pequeña, la baja potencia de la prueba hace que sea muy difícil rechazar la hipótesis nula, incluso en aquellos casos en que la distribución es claramente no-normal. La manera de encarar estas situaciones es la siguiente: a) Cuando los tamaños de las muestras son muy pequeños conviene trabajar con los desvíos ( ).iij yy − y probar el ajuste a una distribución normal de media cero, tomando todas las observaciones como una gran muestra. b) Cuando no se tenga evidencia para decir que la distribución es normal, es conviente analizar los coeficientes de asimetría y kurtosis. Máxime teniendo en cuenta que estas pruebas son paramétricas y por lo tanto de mayor potencia que las de bondad de ajuste. c) Cuando el tamaño de las muestras es grande, se supone que se esta bajo la validez del Teorema Central del Límite para la distribución de la media, siempre que no se presente, por ejemplo, una distribución polimodal y por lo tanto no es necesario poner a prueba la normalidad. Homogeneidad de varianzas También para la comprobación de este supuesto existen varias pruebas; algunas de ellas son la de Bartlett, la de Sheffé-Box y la de Levene.

Prueba de Bartlett Esta prueba indica hasta que punto se puede suponer que las varianzas de las subpoblaciones, σ²i, son iguales cuando las varianzas muestrales s²i son aparentemente diferentes. La varianza de las s²i es mucho mayor que la varianza de la varianza media. Esto es como considerar la variable aleatoria s² que toma valores s²i, con

media 2s , entonces Var 2

i

2i2 Vars

aVars

s <= , para un conjunto de a muestras.

Los valores aparentemente diferentes de las s²i pueden no ser significativamente diferentes si se consideran sus grandes varianzas muestrales. Bartlett ha desarrollado una prueba de χ² para la homogeneidad de

Page 125: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

125

varianzas basada en el cociente de máxima verosimilitud cuyo estadístico de prueba es

( )∑ −= 2i

2

i2

ssln1bX

( ) ∑ −−−=∑ −= sln)1b(sln)aN(ssln1bX 2

ii2

2i

2

i2

donde N es el tamaño total de la muestra, a es el número de muestras, bi en tamaño del grupo i, y s² es el CM del error, o sea el estimador conjunto de la varianza:

aNs)1b(

CMs2ii

error2

−∑ −

==

Si se tiene en cuenta esta expresión no es necesario realizar el Anova para obtener el valor del CMerror. El estadístico X² sigue aproximadamente una distribución Chi-Cuadrado con a - 1 grados de libertad y la hipótesis nula de homogeneidad de varianzas se rechaza si X² > χ²a -1, α. Debido a que el valor de Chi-cuadrado calculado para la prueba de Bartlett es ligeramente mayor que el verdadero, podría suceder que el valor del X² quede por encima del valor crítico; entonces se corrige el valor de X² corregido, que queda definido como: con La consecuencia de realizar esta corrección es que el valor del estadístico que se obtiene es menor, con lo cual existen meno probabilidades de rechazar la hipótesis nula. En estos casos se dice que la prueba es mas conservativa. Una de las características de la prueba de Bartlett es su sensibilidad a la falta de normalidad. Debido a esto, un valor de X² alto puede, en realidad, indicar más que heterogeneidad de varianzas falta de normalidad de la población estadística. Existen otras pruebas menos sensibles a la falta de normalidad. Pero la prueba de Barlett es la más potente de todas ellas. Por esto, sigue siendo conveniente su uso.

∑−

−⋅−

=aN

1b1

)1a(31c

ic1XX

22c +

=

Page 126: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

126

Ejemplo utilizando el programa estadístico Biom:

----- BIOMstat 3.2c: Date 16/05/2006, Time 13:37:30 -----

Data file: HOMOV.DTATitle: Hyopsodus data (Box 13.2)Total number of records in file: 8Samples defined by: SampleInput records are summary statisticsSample sizes: nVariances: Varalpha: 0.05000

Variances sorted from low to highSample Code n_i Variance

3 3 17 0.02371 1 18 0.07077 7 10 0.07914 4 16 0.08362 2 13 0.14476 6 11 0.17705 5 8 0.21898 8 10 0.2331

MS(Within) = 0.1125 with 95 degrees of freedom

Fmax testFmax = 9.8354 with parameters 8 and 9, 0.01<P<=0.05

Bartlett's test: X^2 = 21.6367, df = 7c = 1.034566X^2c = 20.9138, P = 0.0039

---------------

El párrafo recuadrado contiene el resultado de la prueba. Se da el valor del estadístico X2, el valor del factor de corrección C y el del estadístico corregido. La hipótesis nula considerada supone que las varianzas son iguales, por lo tanto en este caso al rechazarse esta hipótesis (p=0.0039) se concluye que no se cumple el supuesto de homocedacea.

Prueba de Levene Ver: Levene, H. “Robust Tests for Equality of Variances”. in Contributions to Probability y Statistics. OLKIN et al (eds). 1960: Essay in Honor of H. Hotelling. Palo Alto, California: Stanford university Press, 1960: p 278 - 292 Consiste en realizar un Anova de un factor con los valores absolutos de las desviaciones de las observaciones de cada grupo respecto de su media. Con esto se pone a prueba la hipótesis Ho: µ = 0 y σ² común a todos los grupos. Pero no se prueba que la variable sigue una distribución normal. Cuando la distribución se aleja de la normalidad los desvíos se realizan con respecto a la mediana y se trasforma en una prueba no paramétrica.

Page 127: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

127

Transformación de datos

(Ver: Sokal y Rohlf, cap 13; Zar, cap 14) Cuando algún supuesto del ANOVA no se cumple se indica la búsqueda de alguna transformación para la variable, que consiste en un cambio en la escala de medición y en última instancia, si no es posible cumplir con los supuestos del ANOVA, se puede utilizar la prueba no paramétrica equivalente, de ser posible Para un ANOVA de un factor cada observación es de la forma:

yij = µ + αi + εij

es decir se trata de un modelo donde las componentes son aditivas, sus efectos se suman. Para una situación en que los efectos fueran multiplicativos, cada observación tomaría de la forma:

yij = µ αi εij y en ese caso se estarían violando los supuestos de normalidad y de homogeneidad de varianzas. Esta situación puede ser corregida rápidamente utilizando una escala logarítmica en lugar de una lineal:

log yij = log µ + log αy + log εij con lo cual resulta un modelo aditivo y homocedástico. La transformación de la variable no debe ser interpretada como una modificación que fuerza los datos para poder cumplir los supuestos y así ser tratados utilizando un Anova, es sólo que la escala lineal no es la única escala de medida existente, y que no hay una preferencia marcada por usar un tipo de escala u otro. Si se buscan efectos aditivos y no se consiguen en escala lineal, porque con ella son multiplicativos, se debe buscar la escala de medida que más convenga; ésta puede ser la logarítmica u alguna otra. La raíz cuadrada de la superficie es, a menudo, una medida biológica más apropiada que la superficie misma, ya que sigue una distribución normal mientras que la distribución de áreas es asimétrica. Las mediciones de pH son logaritmos, las series de una dilución en los análisis volumétricos se expresan como la inversa de la observación registrada. Una ventaja de la transformación de datos es que algunas veces una sola de ellas subsana varias violaciones de los supuestos del Anova, por ejemplo: lograr homogeneidad de varianzas y normalidad con la misma transformación. Cuando se aplica una transformación, las pruebas de significación se realizan sobre los datos transformados. Para volver a los datos originales, los valores de las medias de los tratamientos y el error estándar deben ser calculados en los valores originales, mientras que los límites de los intervalos de confianza

Page 128: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

128

pueden ser obtenidos destransformando los límites del intervalo de confianza de los datos transformados. Estos intervalos serán no simétricos. Transformación logarítmica Es la más común de las transformaciones y consiste en definir x' = logx, x'= lnx, x'= log(x + 0.5), etc. Se aplica cuando la media está correlacionada positivamente con la varianza; o cuando la distribución es marcadamente asimétrica con la cola pesada a la derecha (g1 > 0). Transformación raíz cuadrada Cuando los datos son de conteo (discretos) frecuentemente se utiliza la transformación raíz cuadrada: ; generalmente se aplica a variables que siguen una distribución de Poisson, más que una distribución normal, donde la media es igual a la varianza. La raíz cuadrada hace que la media se independice de la varianza. Cuando algunos datos son nulos se puede considerar: Transformación arcoseno Llamada también transformación angular, se utiliza para datos de porcentaje o de proporciones. En una distribución de proporciones las medias y las varianzas no son independientes porque:

y La transformación angular elimina esta dependencia. Cuando p es una

proporción se utiliza y cuando es un porcentaje

El efecto de esta transformación es hacer “mas pesadas” las colas de la distribución de porcentajes o proporciones y comprimir el centro. Cuando los porcentajes se transforman en ángulos la distribución se aproxima a una normal con σ² = 180²/4π²n = 820,8/n, donde nes el número total de observaciones. Cuando los ángulos se miden en radianes la varianza es 1/4n. Cuando los porcentajes en los datos originales se extienden entre el 30 y el 70%, generalmente no es necesario aplicar la transformación angular. Transformación recíproca En el caso en que la varianza crece como la cuarta potencia de la media

conviene considerar , y valen los comentarios anteriores.

Transformación Box-Cox Da una metodología para seleccionar la mejor transformación a los fines de obtener normalidad y homogeneidad de varianzas. Se utiliza como transformaciones una familia de potencias. El proceso para estimar la potencia es iterativo, por lo tanto de necesita de un programa estadístico que lo tenga incorporado.

xx, =

5,0xx, +=

p=μnqμ

parcsenx, =100

parcsenx, =

x1

x, =

Page 129: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

129

Pata detalles consultar Sokal y Rohlf § 13.9, A veces se puede utilizar el valor de el coeficiente simetría como guía para ensayar transformaciones para conseguir la normalidad. La siguiente es una regla sencilla que puede dar buenos resultados: Valor de g1 Transformación recomendada > 0 (asimetría hacia la derecha) < 0 (asimetría hacia la izquierda) x², x3, .....

Introducción a los métodos de contrastes o comparaciones

Toothaker, (1993). Sokal y Rolh §9.6 y §9.7. Steel y Torrie, Cap. 8. Zar, cap 11. Kuehl, cap 3. Introducción Generalmente la hipótesis general de ANOVA debe ser complementada con hipótesis parciales, para producir una conclusión que permita determinar cual o cuales tratamientos son los que difieren de los demás. Hay dos situaciones que se pueden presentar: a) Una vez realizado un Anova y resulta significativo, interesaría conocer la

causa de tal significación. Es decir que tratamientos o conjuntos de tratamientos son los causantes del rechazo de la hipótesis general del ANOVA.

b) Responder a las mismas preguntas del punto a), independientemente de la significación del ANOVA, en este caso estas hipótesis fueron planeadas con la experiencia. Por ejemplo seleccionar el tratamiento óptimo en el caso de las tres drogas o contestar las preguntas que fueron planteadas.

En todos los casos se plantearían hipótesis nulas del tipo:

H0 : µ1 = µ2 ó H0 : [µ1 + µ2] = 2µ3, etc. Las hipótesis que son independientes del resultado del experimento y por lo tanto son planificadas e incluidas en el planteo general del problema se denominan "comparaciones a priori o planeadas"; por el contrario aquellas sugeridas por los resultados del experimento y por el ANOVA son las "comparaciones a posteriori o no planeadas". Las pruebas de significación apropiadas en cada caso son diferentes y la zona de rechazo para las hipótesis planeadas son mayores que para las no planeadas. En otras palabras, las pruebas no planeadas son mas conservativas que las planeadas. En general es posible tratar hipótesis que puedan expresarse por medio de funciones lineales de la forma:

f = ∑ ci μi con ci constantes

xlgx, =x1

x, =x

1x, = xx, = xlnx, =

Page 130: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

130

A partir de los datos obtenidos es siempre posible estimar el valor de f, por esta razón se las llama funciones estimables. Definición: Se define como contraste a una función lineal estimable de la forma

fi = ∑ ci μi , con los ci constantes y tales que ∑ ci = 0.

Las hipótesis nulas, correspondientes a los distintos contrastes son del tipo: Ho

i : fi = 0 Estas funciones se estiman con las medias muestrales : En el ejemplo de los pacientes con neuralgia supongamos que nos interesa poner a prueba las siguientes hipótesis: aspirina y placebo vs nueva droga placebo vs aspirina y los contrastes tienen la forma: Contrastes ortogonales Definición: Dos contrastes sean f y g, se dicen ortogonales sii:

f = ∑ ci μi g = ∑ dj μj con ∑ ci = ∑ dj = ∑ ci dj = 0 La última sumatoria se refiere al producto escalar de los dos vectores formados por los valores de las constantes de cada uno de los contrastes. El producto escalar nulo indica que los vectores que definen los contrastes son perpendiculares (ortogonales). Continuando con el ejemplo de los analgésicos, donde la cantidad de tratamientos es a=3, pueden realizarse 2 contrastes como máximo.

∑ ⋅= ycf ii

μ=μ+μ

321

o 2:H 0

2:H 3

21o =μ−

μ+μ

μ=μ 21o :H 0:H 21o =μ−μ

μ−μ+μ

= 321

1 2f 21

c1 =21

c2 = 1c3 −=

μ−μ= 212f 1c1 = 1c2 −= 0c3 =

02

:H 321

a ≠μ−μ+μ

0:H 21a ≠μ−μ

Page 131: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

131

En primer lugar debe probarse la ortogonalidad: C1 C2 C3 Como el producto escalar es nulo, entonces se dice que los contrastes son ortogonales. Comparación de dos medias Cuando se comparan dos medias, por medio de un método de contrastes, cada una de las comparaciones se denomina Contraste o comparación, pero a veces, para esclarecer los resultados de un experimento es necesario realizar mas de una comparación. En este caso se denominan contrastes o comparaciones múltiples y existen varios métodos para llevarlos a cabo. Comparaciones múltiples vs pruebas de t Una de las maneras erróneas mas frecuentes de abordar la resolución de comparaciones múltiples es hacerlo por medio de la realización de tantas pruebas de t para dos muestras independientes como pares de medias se quieran comparar. La razón por la cual este procedimiento es debido a que cuando se realizan comparaciones es importante mantener el error global o tasa de error experimental . Hay dos tipos básicos de control de la tasa de error experimental: controlarla para cada comparación o controlarla para un grupo de comparaciones. Notación: α = nivel de significación del Anova. αC = nivel de significación de cada contraste o comparación. α‘= tasa de error experimental.

α‘ : tasa de error experimental es la probabilidad de cometer al menos un error de Tipo I en el grupo total (o familia) de comparaciones en el experimento. Básicamente el control de la tasa de error experimental consiste en seleccionar el valor de αc que debe ser asignado a cada contraste o comparación de modo que α‘ no supere a α. Con esto se obtiene una prueba exacta en el caso de comparaciones independientes y conservativa cuando no lo son

21

21 1−

1−

0

00

⎟⎠⎞

⎜⎝⎛21

⎟⎠⎞

⎜⎝⎛−

21+ + 00 =

1

Page 132: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

132

Sin embargo, dependiendo del método que sea utilizado, puede resultar: α‘ = α, α‘ > α ó α‘ < α En el caso de querer comparar la efectividad de a tratamientos independientes, la pregunta clave es: ¿cuales serían las consecuencias de compararlos de a pares?. Para compararlos de a pares se podría, por ejemplo, utilizar una prueba de ‘t’ para dos muestras independientes para todos y cada uno de los pares posibles de muestras. Si por ejemplo a = 5; luego se pueden realizar 10 pruebas (son las combinaciones de 5 elementos tomados de a dos). Veamos con este ejemplo que si se realizan las 10 pruebas de `t` se aumenta considerablemente la probabilidad de cometer al menos un error de tipo I, o sea se aumenta el α.

0,05 = P(equivocarse en la H0i) = P(cometer error de tipo I en la H0

i) = = máx P(rechazar la H0

i / H0i es V)

Luego: 0,95 = P(no equivocarse en la H0

i) = P(no rechazar H0i / H0

i es V) = = 1 – P(rechazar H0

i / H0i es V)

Esto es para cada una de las 10 pruebas que suponemos independientes. Entonces para i = 1, 2, ..., 10: P(no rechazar H0

i ∀ i / H0i es V) = ∏i=1

10 P(no rechazar H0i / H0

i es V) = = 0,9510 = 0,5987 Entonces: 0,4013 = P(equivocarse en al menos una de las H0

i ) = = P(cometer al menos un Error de Tipo I) = α´. Por lo tanto la probabilidad de cometer al menos un error de tipo I es del 40% y no del 5%. Entonces tasa de error experimental sería del 40% y no del 5% como se pretendía. Claramente el proceso utilizado agrandó el α´. Notar que en el caso de los contrastes no planeados si, por ejemplo, se seleccionan la mayor y la menor de las medias de tratamientos obtenidas se está tomando en cuenta la información de todas las comparaciones posibles, por lo tanto no es válido utilizar el mismo estadístico de prueba que si la comparación a realizar se hubiera decidido sobre la base de información externa al experimento realizado. Las distintas técnicas de comparaciones y/o contrastes múltiples controlan el error global o tasa de error experimental y lo hacen de diferentes formas. La condición de planeado o no planeado de un contraste no puede determinarse por métodos estadísticos, corresponde al experimentador determinarlo. Se Verán algunos de los muchos métodos que existen

Page 133: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

133

Métodos para contrastes planeados

Contrastes ortogonales Restricciones: 1. El máximo número de contrastes ortogonales que se pueden realizar es igual al

número de grados de libertad entre. 2. Para poder atribuirle a cada contraste una suma de cuadrados y utilizarla para

construir un estadístico de prueba, es necesario que el diseño sea balanceado. Para estudiar la significación de los contrastes ortogonales se debe definir algún estadístico de prueba y su distribución en probabilidades. La idea es realizar una descomposición de la SCentre del Anova (que mide la variabilidad entre las medias de los tratamientos) en sumandos independientes y ortogonales; y cada uno de ellos con un grado de libertad. En el ejemplo propuesto la SCentre se descompondría en:

SCentre = SCentre 1,2,3 + SCentre 1, 2 = SC f1 + SC f2 Donde , para todo i = 1, 2, ..., a - 1 Entonces la tabla de Anova queda descompuesta como: Las hipótesis propuestas en el ejemplo de los pacientes con neuralgia son dos contrastes ortogonales: (1) nueva droga contra aspirina y placebo y (2) placebo contra aspirina. Las hipótesis son las planteadas en (***). Resolviendo resulta:

=

bc

fSCf 2

2

i

ii

N – a

Dentro (error)

SCf2

1

f2

SCf1 1 f1

(a – 1)Entre FCMSCGL F. de variación

=

bc

fSCf 2

2

1

11

=

bc

fSCf 2

2

2

22

CMSCf

error

1

CMSCf

error

2

( ) 54,02,3182,2215,2

21

f1 −=⋅−+⎟⎠⎞

⎜⎝⎛ ⋅+⎟

⎠⎞

⎜⎝⎛ ⋅=

( )94,1

121

21

1054,0SC

222

2

1 =

−+⎟⎠⎞

⎜⎝⎛+⎟

⎠⎞

⎜⎝⎛

⋅−=

Page 134: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

134

F. de variación GL SC CM F Valor p Entre drogas 2 2,456 1,2280 4 0,003

f1 1 1,944 1,9440 6,3322 0,0181 f2 1 0,5120 0,5120 1,6677 0,2075

Dentro (error) 27 0,3070 Conclusión: No se encuentran diferencias significativas entre el placebo y la aspirina (P > 0,05) pero si entre la nueva droga y el promedio de las otras dos (P< 0,05). No siempre los contrastes ortogonales contestan las preguntas de los investigadores. Algunas veces interesan las comparaciones de pares de medias o algún contraste en particular. Por otra parte se podría tratar de un diseño no balanceado. Método de Bonferroni (Planeado) Con el objeto de mantener el nivel de significación global (error experimental), este método define m = cantidad de contrastes a realizar y se toma como nivel de significación para cada contraste αc = α /m (para una cola y αc / 2m para dos colas). El estadístico de prueba tiene la forma: con

= error estándar del estimador del contraste, bi = tamaño del tratamiento i El valor crítico corresponde a un percentil de la distribución ‘t’ de Student y sus grados de libertad son los del error experimental:

VC = t αc / m, N – a para una cola VC = t αc/ 2m, N – a para dos colas

Este valor generalmente no se encuentra en tabla, pero se puede obtener con cualquier programa estadístico o planilla de cálculo(*), pero en el caso hipotético de disponer solamente de tablas estadísticas, se puede utilizar la aproximación normal: (*) Por ejemplo si se utilizan las funciones dadas por el programa Excel, entrando por distribución ‘t’ inversa, este da el valor crítico mayor para 2 colas. Si por ejemplo se quiere calcular el valor de t para α = 0,05 y m =2, se debe entrar por 0,025. tα , ν = zα + [zα

3 + zα ] / 4ν , donde ν = grados de libertad del error.

)f(ES

f=ε ∑⋅=

bc

CM)f(ESi

ierror

2

)f(ES

( ) ( ) ( ) 32,02,3082,215,21f2 −=⋅+⋅−+⋅=( )

51,0011

1032,0SC 222

2

2 =+−+

⋅−=

Page 135: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

135

Se debe tener en cuenta que, debido a la modificación del valor critico con la cantidad de contrastes, el método de Bonferroni es aconsejado cuando se realizan pocos contrastes, generalmente no mas de dos.

Ejemplo: Se quiere comparar la eficiencia de tres dietas, A, B y C, en ratones. Se dispones de 24 ejemplares, los que se asignan al azar a las dietas de modo de obtener un diseño balanceado. Se registra el aumento de peso, en gramos, al cabode cinco días de dieta, con los siguientes resultados:

16,7338,90promedioFAnova = 14, 69 17,3044C

14,9039,70BCMerror = 16,73 , GL = 211833A

VarianzaMediaDietas

Se plantean las hipótesis planteadas con la experiencia son: (1) el aumento de peso de los ratones alimentados con la dieta C no difiere de las otras dos y (2) los aumentos de peso producidos por las dietas A y B no dieren entre si.

m= 2, t 21, 0.05/4 = t 21, 0.9875 = 2,414ε1 = 3,239 > 2,414 ε2 = 0,8174 < 2,414

*El aumento de peso de los ratores alimentados con la dieta C es signigicativamentediferente al de los alimentados con las otras dos dietas

*El aumento de peso de los ratones alimentados con la dieta A no difiere del de los alimentados con la dieta B

Métodos para contrastes no planeados Método de Scheffé (de intervalos simultáneos) El estadístico de prueba tiene la misma forma que el de Bonferroni: con

Se compara con F En el ejemplo de las dietas mirando los datos se puede querer comparar las dietas A y C debido a que sus medias son las mas diferentes. Entonces: como < no se rechaza la Ho al 5% (p>0,05)

)f(ES

f=ε ∑⋅=

bc

CM)f(ESi

ierror

2

( ) VC aN,1a1a −−−=

34,1=ε 92,226,42VC =⋅=

Page 136: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

136

Método de comparaciones múltiples de Tukey: (no planeado) Este método sirve para comparar todos los pares posibles de medias. Tiene como restricción que el diseño debe ser balanceado, pero es el más potente de todos los métodos no planeados y de hecho su nivel de significación coincide con el del Anova. Es una prueba de dos colas y debido a que es muy utilizado forma parte de la mayoría de los paquetes estadísticos. Se basa en la distribución de los rangos estudientizados, o sea en la distribución de ymáximo - ymínimo. Se define: Esta distribución tiene su propia tabla que en general da las probabilidades para pruebas de una cola, como la que se usa en este curso. Para tomar una decisión acerca de la diferencia entre dos medias cualquiera, se compara esa diferencia con un estadístico denominado Mínima Diferencia Significativa (MDS): Donde: a = cantidad de tratamientos = desvío estándar de la media = error estándar b = tamaño común de los grupos qα(a, GLerror) = valor crítico (tabla de Tukey) MDS = mínima diferencia significativa Regla de decisión

Dos tratamientos A y B difieren significativamente al α % si > MDS

Una manera práctica de resolver este tipo de contrastes, es comparar en primer lugar la media mas grande vs la mas chica y, como la MDS es la misma para todos los contrastes, si esta diferencia resulta no significativa, se concluye que todas las demás también lo serán. Si, en cambio, esta diferencia resulta significativa, se continua con la diferencia que le sigue en orden decreciente a la primera y se reitera el procedimiento anterior. Si se usa otra vez el ejemplo de las dietas, se tiene: A = 3, CMerror = 16,75, GL = 21, q0,05 (3,21) ≈ 3,56. Entonces

Comparación Diferencia Significación A vs B 6,7 > 5,15 P < 0,05 A vs C 11 > 5,15 P < 0,05 B vs C 4,3 < 5,15 P > 0,05

( )ESyy

qy

mínimomáximo −=

( ) sqMDS yGL,a error ⋅= α

bCM

serror

y =

yy BA −

1512,5875,1656,3MDS =⋅=

Page 137: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

137

Una manera usada comúnmente para resumir a conclusión para comparaciones múltiples es, ordenando las medias de menor a mayor, unir con una línea aquellas medias que resultaron no significativas entre sí. En el ejemplo esto toma la siguiente forma:

Dieta A B C Significación −⎯−⎯

Lo que significa que las dietas B y C no difieren entre si, y la dieta A es diferente a B y C. Método de Dunnett (no planeado) Este método está diseñado para comparar cada tratamiento contra un control. Tiene su propia distribución y por lo tanto también su propia tabla de una y dos colas. Corresponde al caso en que interesa comparar los tratamientos contra un control y no los tratamientos entre si. Por lo tanto se trata de un conjunto dependiente de comparaciones. Si se tienen p grupos y un control, entonces se pueden realizar p comparaciones. El procedimiento se basa en ordenar las medias de los tratamientos de menor a mayor y se comparan con el control y un tratamiento cualquiera difiere del control sii: Con Reemplazando por la expresión del ES, se obtiene:

EStyy Dunnettpc >−=Δn

CM2n2sES error⋅

==

nCM2

tyyerror

aN,p,pc⋅

⋅>−=Δ −α

Page 138: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

138

ANALISIS DE VARIANZA DE DOS FACTORES Como se vio en el capítulo anterior, mediante un Anova de un factor se puede controlar solamente la variación correspondiente al factor en estudio. Esa fuente de variación está expresada por el CMentre, mientras que el CMdentro, o CMerror es una medida de la variabilidad no controlada por el experimentador, o sea todas las fuentes de variación que no se pueden asignar con certeza a una ausa determinada. Por eso se dice que esas fuentes de variación son no controladas por el experimentador. Cabe recordar que ese término es conocido como error experimental y es el denominador de la F del Anova. Por lo tanto, un error experimental alto llevaría al no rechazo de la hipótesis nula de los tratamientos, pero es posible que ese valor alto se deba a la existencia de fuentes de variación que no se han controlado y que aumentan el error experimental, pudiendo llegarse a conclusiones erróneas. El Anova es útil para controlar todas las fuentes de variación conocidas, que constituyen los factores. Cuando las fuentes de variación controladas son dos, se trata de un Anova de dos factores. La tabla de datos, para el caso general de un Anova de dos factores es la clásica tabla de doble entrada, donde en las filas (A) y las columnas (B) se encuentran los niveles correspondientes a ambos factores:

B1 Bj Bb A1 y11k ...... y1jk ....... y1bk ...... ...... ...... ........ .......

Ai yi1k yijk ....... yibk

...... ....... ........

...... .....

Aa ya1k yajk yabk Donde: Factor A : filas con niveles i = 1, 2, ...., a Factor B : columnas con niveles j = 1, 2, .... , b yijk: observación k-ésima (individuo k) con de la columna j y la fila i, con k =

1, 2, ....., Mij. Mij : número de unidades experimentales = número de observaciones en la

celda o tratamiento (i, j) A lo largo de este capítulo, se utilizará terminología que es oportuno definir aquí antes de continuar: Factor: es un conjunto de tratamientos de un único tipo (por ejemplo; drogas para diabetes, fertilizantes para avena, salinidad del agua, etc.) Nivel de un factor: es un tratamiento cualquiera del conjunto anterior Experimento factorial: es aquel en que los tratamientos resultan de los cruzamientos de dos o más factores

Page 139: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

139

Tratamiento experimental: es una combinación de un nivel de cada factor considerado en el experimento, con los niveles del otro. Es decir son las combinaciones representadas por cada celda. Efecto principal: son comparaciones entre los niveles de un factor, realizadas promediando sobre los factores restantes. Efecto simple. Es la comparación entre los niveles de un factor en cada uno de los niveles del otro factor Interacción: son comparaciones entre los niveles de un factor y niveles de un segundo factor, realizadas promediando sobre los niveles de todos los factores restantes. Se dice que los efectos son aditivos, cuando el efecto total es igual a la suma de los efectos tomados independientemente. En este caso se trata de un modelo sin interacción. La existencia de interacción indica que los efectos de los dos factores no son sólo aditivos, sino que alguna combinación dada de niveles contribuye en forma positiva o negativa a la variable que se está estudiando. En este sentido se puede estar ante efectos sinérgicos o antagónicos: Sinergia: un gran incremento positivo. La acción conjunta de ambos factores es mucho mayor que la suma de los efectos tomados independientemente. Por ejemplo, cuando dos drogas actúan sinérgicamente el resultado de la interacción de ambas puede resultar por encima y más allá de los efectos separados de cada una de ellas. Antagonismo o Interferencia: este es el caso cuando una combinación de niveles de los factores (tratamiento) inhibe mutuamente sus efectos individuales. El efecto total es menor que cualquiera de los efectos que la componen, si éstos actuaran independientemente. Mucha de la terminología ya definida para el caso de Anova de un factor, es válida para el caso de dos factores. Cuando se trata de un Diseño Completamente Aleatorizado (DCA) en el caso de Anova de dos factores, la definición es similar a la dada para Anova de un factor, pero teniendo en cuenta aquí el DCA se basa en que los axb tratamientos (combinación de fila y columna) son asignados al azar a las unidades experimentales, o las unidades experimentales son asignadas al azar a los tratamientos. El modelo estadístico es un Anova de dos factores y se trata de un experimento factorial (más de un factor y generalmente más de una observación por casilla).

Page 140: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

140

Llegados a este punto es oportuno tratar brevemente uno de los planteos mas frecuentes por parte de los investigadores que supone que es lo mismo realizar, en vez de un Anova de dos factores, dos Anovas de un factor: uno para el factor fila y otro para el factor columna. Pero para ello sería necesario un número mayor de unidades experimentales, porque se obtiene una sensible economía ya que la misma unidad experimental se utiliza en la estimación de más de un factor. Además de que seguramente no se trabajaría con el mismo nivel de error (el caso es análogo al del cálculo de varias pruebas t en lugar de contrastes) que tomando todo junto en un mismo experimento. Por otra parte no se podría estudiar el efecto de la interacción, que la mayoría de las veces enriquece la experimentación. El Anova de dos factores las características de los efectos, determinan el modelo en cuestión: Ambos factores fijos Modelo de efectos fijos Ambos factores aleatorios Modelo aleatorio Un factor fijo y el otro aleatorio Modelo mixto

Anova de dos factores fijos Cuando se tiene un DCA de dos factores con replicaciones, interesa estudiar los efectos principales (los factores individuales) y la interacción. Teniendo en mente la tabla 1, se tiene: Factor A : filas con niveles i = 1, 2, ...., a Factor B : columnas con niveles j = 1, 2, .... , b yijk: observación k-ésima (individuo k) con de la columna j y la fila i, con k =

1, 2, ....., Mij. Mij : número de unidades experimentales = número de observaciones en la

celda o tratamiento (i, j) Para Mij existen tres posibilidades: 1) Mij = 1 Anova de dos factores sin replicaciones 2) Mij = M Anova dos factores balanceado con replicaciones. DCA 3) Mij ≠ Anova de dos factores no balanceado. DCA En todos los casos es ∑Mij = N = cantidad total de unidades experimentales = cantidad de observaciones. Si el diseño es balanceado N = abM. En este curso se tratará con detalle el caso del Anova de dos factores balanceado.

Page 141: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

141

Si se resumen los resultados en una tabla de medias, se obtiene: Bj

Ai

media de la fila i media de la columna j

media de la celda ij

media general

Modelo lineal del el Anova de dos factores:

yijk = µ + αiA + βj

B + αβijAB + εijk

Donde : µ es la media general αi

A es el efecto fila : αiA = µi. − µ

βjB es el efecto columna: αj

B = µ.j − µ αβij

AB es el efecto de la interacción (fila x columna):αβijAB = (µij − µi.) – (µ.j −

µ) = (µij - µ.j ) – ( µi. − µ) εijk es el error

Al igual que en el caso de Anova de un factor se introducen las condiciones:

∑αiA = 0 ; ∑ βj

B = 0 ; ∑i αijAB = 0 ∀ j : ∑j αβij

AB = 0 ∀ i Hipótesis estadísticas que pueden ponerse a prueba Prueba del efecto principal fila (A)

H0A : αi

A = 0 ∀ i= 1,...., a vs HaA

: ∃ i / αiA ≠ 0

H0A : µi. = µ ∀ i= 1,...., a vs Ha

A : ∃ i / µi. ≠ µ Prueba del efecto principal columna (B)

H0B : βjB = 0 ∀ j= 1,...., b vs Ha

B : ∃ j / βjA ≠ 0

HoB : µ.j = µ ∀ j= 1,...., b vs Ha

B : ∃ j / µ.j ≠ µ Prueba de interacción

H0AB : αβij

AB = 0 ∀ ij , vs HaAB: ∃ ij / αβij

AB ≠ 0 H0

AB : µij = µi. + µ.j - µ ∀ ij , vs HaAB: ∃ ij / µij ≠ µi. + µj.- µ

J

yy j

.ij

..i

∑= I

yy i

.ij

.j.

∑=

k

yy k

ijk

.ij

∑=

IJK

yY ij

ijk

...

∑=

.ijy

.j.y

..iy

...Y

Page 142: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

142

El valor esperado en cada una de las celdas es: µij = µ + αi

A + βjB + αβij

AB + εijk La hipótesis nula de interacción implica que: µij = µ + αi

A + βijB

Esta última expresión significa que, bajo la hipótesis nula de no existencia de interacción, los efectos fila y columna en cada celda es la suma de ambos y se dice que los efectos son aditivos y que se trata de un modelo sin interacción. En un modelo sin interacción todas las observaciones de una fila o columna pueden utilizarse para estimar las medias de los distintos tratamientos. En forma análoga al ANOVA de un factor se tienen distintos estimadores de una misma varianza que se obtienen a través de la comparación entre sí de las medias de los tratamientos fila, columna o de cada celda respecto de la suma de las medias correspondientes de fila y columna (interacción). Si las distribuciones de las que se extraen las muestras aleatorias en cada celda siguen la distribución normal, se llega a estadísticos de prueba que siguen la distribución de Fisher para las filas, para las columnas y para la interacción. A continuación se estudiara el caso en que los factores A y B son determinados por el experimentador; o sea que se trata de un modelo de efectos fijos. Supuestos para el ANOVA de dos factores de efectos fijos Los a × b grupos (celdas o casillas) contienen unidades experimentales que

son muestras aleatorias de sus respectivas subpoblaciones definidas por las combinaciones de fila y columna.

Las a × b subpoblaciones son independientes Cada una de las a x b subpoblaciones (estadísticas) está normalmente

distribuida con media μ y varianza La varianzas de las subpoblaciones (estadísticas) son iguales (Homocedacea u homogeneidad de varianzas).

Los αiA . βj

B y αβijAB son constantes y están sujetos a las restricciones del

modelo Del conjunto de supuestos se deduce que los errores εIJK = yijk - μIJ siguen una distribución normal con media cero y varianza σ² y son independientes.

σ2ij

Page 143: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

143

Descomposición de la suma de cuadrados De la misma forma que en un ANOVA de un factor en suma de cuadrados entre y suma de cuadrados dentro, la suma de cuadrados total se puede descomponer de la siguiente manera:

donde a es la cantidad de filas, b el número de columnas y N la cantidad total de observaciones. Resumiendo esta información resulta la tabla de Anova de dos factores:

Fuente de Variación

Grados de Libertad

Suma de Cuadrados Cuadrados Medios

F

Entre celdas (ab – 1)

Entre filas (A) a– 1

Entre columas (B) b – 1

Interacción (AxB) (a – 1).(b –

1)

SCe. celdas – SCe. filas – SCe. columnas

Dentro (error) N – ab SCTotal – SCe. celdas

Total N -1

SCTotal SCdentro=

( )∑ −ijk

2Y...yijk ( )∑ −

ijk

2y .ijyijk= ( )∑ −i

2Y...y .ijk

SCentre celdas SCTotal SCdentro = +

+

+ SCentre filas + SCentre columnas + SCinteracción

N – 1 (N – ab) (a – 1) (b – 1) (a – 1)(b – 1)= + + +

GLinteracciónGLTotal GLdentro GLentre filas GLentre columnas= + + +

∑ −ij

2...

2.ij YNyk

∑ −i

2...

2..i YNyJk

∑ −j

2...

2.j. YNyIk

∑ −ijk

2...

2ijk YNy

GLSC

filas.e

filas.e

GLSC

columnas.e

columnas.e

GLSC

eracciónint

eracciónint

GLSC

)error(dentro

)error(dentro

CMCM

dentro

filas.e

CMCM

dentro

columnas.e

CMCM

dentro

eracciónint

Page 144: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

144

Si > se rechaza con

Regla de decisión

F

Si > se rechaza con CM

CMFdentro

columnas.e=

Prueba del efecto principal columna (B)H0B : βjB = 0 ∀ j = 1,...., bHaB : ∃ j / βjB ≠ 0

GLe.columnas,GLdentro, 1-α Ho αF

H0A : αiA = 0 ∀ i= 1,...., a

CMCMF

dentro

filas.e= GLe.filas GLdentro 1-α, , Ho α

Prueba del efecto principal fila (A)

HaA : ∃ i / αiA ≠ 0

Prueba de interacción

Si > se rechaza con CM

CMFdentro

eracciónint= GLinteracción,GLdentro, 1-α Ho αF

H0AB : αβijAB = 0 ∀ ijHaAB; ∃ ij / αβijAB ≠ 0

Ejemplo

Se quiere estudiar si existe preferencia en el consumo de tocino fresco y rancio en ratas R rattus de ambos sexos. Se considera la variable aleatoria X: cantidad de comida, en gramos, consumida durante 70 días, con los siguientes resultados:

539677505694Machos508657476699538679Hembras592709

RancioFresco

597,35426,33669,17Total

580,00517,33642,67Machos

615,50535,33695,67Hembras

TotalRancioFrescomedias

Hipótesis

H0A : αiA = 0 ∀ i= 1,...., a No existe efecto sexo HaA : ∃ i / αiA ≠ 0

H0B : βiB = 0 ∀ j = 1,...., b No existe efecto frescuraHaB : ∃ j / βiB ≠ 0

H0AB : αβijAB = 0 ∀ ij , No existe interacción entre sexo y frescuraHaAB; ∃ ij / αβijAB ≠ 0

Page 145: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

145

0,6300

41,9686

2,9252

F

1458,338Dentro (Error)

0,45025,32918,751Sexo x estado (AxB)

0,00025,3261204,081Frescura (B)

0,12565,323770,751Sexo (A)

Valor pCMGL.F. de variación F

400

500

600

700

800

fresco ranciofrescura

cant

idad

de

com

ida

gr

1; 8 ; 0,95 =5,32 F

Conclusión: Ambos sexos prefieren el tocino fresco (P < 0,05)

Gráfico de perfiles. Los puntos corresponden a las medias de cada tratamiento.

Hembras

Machos

Cuando la interacción es significativa no es posible poner a prueba las hipótesis referidas a los efectos principales ya que el resultado que se obtenga para, por ejemplo, las filas dependerá de los niveles particulares que se hayan elegido para los tratamientos columna. El problema se resuelve realizando pruebas de efectos simples

Page 146: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

146

Ejemplo donde la interacción es significativa.

Se estudia el efecto en el largo, en cm, de plántulas de arveja tratadas sometidas a tres temperaturas ambiente (15, 20 y 250C) y en dos intensidades de luz: baja y alta. Se seleccionan al azar 10 plantas para ser tratadas con cada combinación de temperatura e intensidad de luz .X: largo, cm, plántulas de arveja

21271918Total

19251220Int. alta

a =2; b= 3, k= 10, N= 6023292416Int. baja

Total25 0C20 0C15 0C

350059Total

28,5185154054Dentro (Error)

0,000111,223206402Luz x Temperatura

0,0000118,93554010802Temperatura

0,00548,412402401Luz

Valor pFCMSCGL.F. de variación

Gráfico de perfiles

Como la interacción luz x temperatura resulta significativa corresponde estudiarla en primer lugar mediante pruebas de efectos simples. Esto es así porque al ser la interacción significativa el efecto observado al someter a las plantas a una condición de luz depende de cuál sea la temperatura con que se combina.

05

101520253035

15 C 20 C 25 C

Temperatura C

larg

o d

e p

lán

tula

s c

m.

Int. baja

Int. alta

Page 147: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

147

Pruebas de efectos simples. Como se dijo mas arriba, estas pruebas corresponden cuando la interacción resulta significativa y consisten en realizar un Anova de un factor para comparar las filas en cada una de las columnas y viceversa, pero utilizando el cuadrado medio dentro del Anova de dos factores original. Entonces, si se está en el caso de una Anova de dos factores balanceado, la tabla de medias poblacionales se puede representar de la siguiente manera:

Bj Ai µij µi. µ.j µ

El modelo lineal del Anova de dos factores con interacción es:

yijk = µ + αi

A + βjB + αβij

AB + εijk con i= 1, ..., a j= 1, ..., b y k= 1, ..., M

Como se definió anteriormente, en este diseño se tiene: Efectos principales

Para A: Para B: Efectos simples Para A en Bj : Para B en Ai : Sea el caso de estudiar los efectos simples de A en Bj , entonces la SC es:

SC(A para Bj) = = SCentre de Anova de un factor Una vez calculada la SC(A en Bj), para estudiar su significación se construye el estadístico de prueba

FA en Bj = CMA en Bj / CMerror El CMerror en el denominador de la F es el del Anova general de dos factores y como se puede ver, la construcción de este estadístico de prueba es análoga a la de los estadísticos de prueba de un contraste.

yyˆ .....iAi.i

Ai −=α→μ−μ=α

yyˆ ....j.Bjj.

Bj −=β→μ−μ=β

yy)B(ˆ)B( .j..ijjAij.ijj

Ai −=α→μ−μ=α

yy)A(ˆ)A( ..i.ijiBj.iiji

Bj −=β→μ−μ=β

[ ] ( )∑ −=∑ αij

2

ijAi

2 y .j.y .ij)Bj(

Page 148: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

148

En el ejemplo: a) Temperaturas en condiciones de luz

251220Int. alta292416Int. baja

25 oC20 oC15 oC

28,518554Dentro

3,1515,08 4302Entre

FCMGLF de V

2; 60 ; 0,95 =3,15 F

F

251220Int. alta292416Int. baja

25 oC20 oC15 oC

28,518554Dentro

3,1518,93 5402Entre

FCMGLF de V

2; 60 ; 0,95 =3,15 F

F

Para baja intensidad de luz, el crecimiento de las plántulas varía con la temperaturaConclusión

Para alta intensidad de luz, el crecimiento de las plántulas varía con la temperaturaConclusión

A continuación el Anova de un factor considerando solamente los valores para Intensidad de luz baja (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la tabla de Anova:

Tabla de medias Tabla de Anova del efecto simple

A continuación el Anova de un factor considerando solamente los valores para Intensidad de luz alta (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la tabla de Anova:

Tabla de medias Tabla de Anova del efecto simple

28,518554Dentro

42,80 801Entre

FCMGLF de V

1; 60 ; 0,95 =4 F

F251220Int. alta

292416Int. baja

25 oC20 oC15 oC

Para 15 oC, el crecimiento de las plántulas no varía con la intensidad de luzConclusión

28,518554Dentro

425,25 7201Entre

FCMGLF de V

1; 60 ; 0,95 =4 F

F251220Int. alta

292416Int. baja

25 oC20 oC15 oC

Para 20 oC, el crecimiento de las plántulas varía con la intensidad de luzConclusión

b) Condiciones de luz en temperaturasA continuación el Anova de un factor considerando solamente los valores para la temperatura de 15o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la tabla de Anova: Tabla de medias Tabla de Anova del efecto simple

A continuación el Anova de un factor considerando solamente los valores para la temperatura de 20o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la tabla de Anova: Tabla de medias Tabla de Anova del efecto simple

Page 149: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

149

28,518554Dentro

41, 5 7201Entre

FCMGLF de V

1; 60 ; 0,95 =4 F

F251220Int. alta

292416Int. baja

25 oC20 oC15 oC

Para 25 oC, el crecimiento de las plántulas no varía con la intensidad de luzConclusión

A continuación el Anova de un factor considerando solamente los valores para la temperatura de 25o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la tabla de Anova:

Tabla de medias Tabla de Anova del efecto simple

Conclusión general:Cuando las plantas se ponen a 20oC crecen más rápidamente las que están en intensidad baja de luz (P< 0,05) mientras que para las otras dos temperaturas no se encuentran diferencias significativas en el crecimiento (P > 0,05). Además en intensidad baja de luz crecen más las que están a las dos temperaturas más altas (P< 0.05), mientras que en la intensidades alta de luz esto se da para las dos temperaturas extremas. Por otro lado la temperatura de 20oC es la que produce las diferencias.

ANOVA DE DOS FACTORES SIN REPLICACIONES

Es el caso en que existe una sola observación para cada combinación de fila y columna (celda). Debido a que hay una sola observación por celda es imposible estimar la varianza dentro de celda y por lo tanto no puede ser estudiada la hipótesis de interacción. Esto lleva a suponer que los efectos de fila y columna son aditivos (modelo aditivo). La comprobación de la aditividad del modelo (modelo sin interacción) se realiza con la prueba de Tukey de no aditividad, que se verá más adelante. El esquema general es: Bj Media de la fila i Media de la

columna j Media general

Ai

Donde A: (factor fila) con a niveles y B: (factor columna) con b niveles N= ab = cantidad total de observaciones = cantidad total de unidades

experimentales yij es cada observación con i = 1, ..., a y j = 1, ..., b.

J

yy j

ij

.i

∑=

I

yy i

ij

j.

∑=

IJ

yY ij

ij

..

∑=..iy

j.y

.iy

..Y

Page 150: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

150

Modelo estadístico Modelo lineal de efectos fijos : Supuestos: Los supuestos de este diseño son los del Anova más el supuesto de aditividad. Hipótesis y reglas de decisión

F

Si > se rechaza con CM

CMFdentro

columnas.e=

Prueba del efecto principal columna (B)H0B : βjB = 0 ∀ j = 1,...., bHaB : ∃ j / βjB ≠ 0

GLe.columnas,GLdentro, 1-α Ho αF

H0A : αiA = 0 ∀ i= 1,...., a

Si > se rechaza con CMCMF

dentro

filas.e= GLe.filas,GLdentro,1-α Ho α

Prueba del efecto principal fila (A)

HaA : ∃ i / αiA ≠ 0

CMSC

N -1Total

(a-1)(b-1)Dentro (Error)

b – 1Entre columnas (B)

a– 1Entre filas (A)

FG. de L.Fuente de variación

∑ −i

2..

2.i YNyJ

∑ −j

2..

2j. YNyI

GLSC

filas.e

filas.e

GLSC

columnas.e

columnas.e

GLSC

)error(dentro

)error(dentro

CMCM

dentro

filas.e

CMCM

dentro

columnas.e

∑ −ij

2..

2ij YNy

SCtotal - SCentre filas - SCentre columnas

Tabla de Anova de dos factores sin replicaciones

ε+β+α+μ= ijBj

Aiijy

Page 151: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

151

Prueba de Tukey de no aditividadHipótesis

H0: Modelo aditivo vs Ha: caso contrario

La idea es descomponer la suma de cuadrados del error en:

SCerror = SCno aditividad (SCNN) + SCresidual (SCres)

El estadístico de prueba es:

CMCMF

res

NNNN = ~ GLNN, GLres, 1-αF

Cálculo de la SCNN

Efecto columna

yijAi

Efecto filaBj

SCNN = [∑ij yij (αiA)∧ (βj

B)∧]2 / [∑i (αiA)∧2 ∑j (β j

B)∧2]

yyˆ ..j.Bj −=β

yyˆ ...iAi −=α

1GLNN = baNGLres −−=yCon

Page 152: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

152

Esta prueba se puede realizar utilizando algún programa estadístico. A continuación se muestra un ejemplo de salida del programa Tukey's test perteneciente al paquete BIOMstat, que esta a disposición de los alumnos de esta materia.

----- BIOMstat 3.2c: Date 23/05/2006, Time 13:10:16 -----

Test for non-additivity statistics

Data file: NONADD.DTATitle: O2 consumption in relation to salinity & species (Boxes 11.2 & 13.4)Total number of records in file: 48Factor A defined by: SalinityFactor B defined by: SpeciesInput records are individual observationsVariable: O2

Sample size: 48Number of levels for factor Salinity = 3Number of levels for factor Species = 2Number of replicates per cell = 8

Cell means: Salinity x Species

1 2--------------------

1 | 10.561 7.4292 | 7.890 7.3383 | 12.174 12.326

Test for nonadditivitySource df SS MS FS P

Salinity x Species 2 23.9262Nonadditivity 1 4.2399 4.2399 0.2154 0.7234

Residual 1 19.6863 19.6863

---------------Section 13.5 (pp. 407-409) discusses this test forone component of the interaction between two factors.Box 13.5 (pp. 410-411) shows how the computations are done.

En este ejemplo el resultado de la prueba estaría confirmando que el modelo en cuestion es aditivo (P=0,7234).

Aplicaciones del Anova dos factores sin replicaciones: 1.- Diseño en Bloques al Azar (DBA) Como se discutió en el caso general de Anova, la fuente de variación que no es controlada (no se conoce con certeza su causa, es aleatoria) tiene como consecuencia aumentar la magnitud del CMerror (también llamado error experimental). La implementación de diferentes diseños puede ser efectivo para el control de error experimental. Uno de estos diseños, es el diseño en bloques al azar (DBA). Para aplicar este diseño es necesario que las unidades experimentales puedan ser reunidos en grupos más o menos homogéneos y de tamaño igual al número de tratamientos que se quieren comparar. Estos grupos reciben el nombre de bloques. La aleatorización en este diseño consiste en que los tratamiento se asignan al azar a cada uno de los integrantes de cada grupo o bloque. Un bloque puede ser también una misma unidad particionada a la que

Page 153: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

153

se le asignan los tratamientos al azar. Este caso es bastante frecuente y la finalidad de la aplicación del diseño en este caso es controlar el error experimental cuando no se cuenta con unidades experimentales totalmente homogéneas para la realización de un experimento. Los ejemplo de bloques son muy comunes en biología. A continuación se dan algunos casos: a) El caso mas típico es cuando un bloque es un conjunto de unidades

experimentales homogéneas: el bloque esta formado por animales pertenecientes a una camada de animales, el bloque es una cepa, un bloque esta compuesto por animales del mismo peso, sexo, raza, etc.

b) Otro caso muy frecuente es aquel donde el material experimental proviene del mismo individuo: En plantas se aplican diferentes tratamientos a las hojas, entonces el bloque es la hoja. En el caso de animales cuando se aplican distintos tratamientos a un mismo individuo, entonces el bloque es cada animal, que además es la unidad experimental

c) Por ultimo, aquellos experimentos en los que no es posible mantener las condiciones experimentales a lo largo de toda la experiencia: en este caso se trata de mantener las condiciones lo más uniforme posible dentro de cada réplica, o sea dentro de cada bloque. Por ejemplo condiciones del medio ambiente (humedad, temperatura, etc) que no pueden mantenerse estables durante mucho tiempo de modo que hay que conformarse con mantenerlas lo más estables que se pueda hasta completar una réplica.

Otros ejemplos de bloques son: 1) Franjas de igual fertilidad en un campo experimental. 2) Cada uno de los días en que se prueba un grupo de tratamientos. 3) Cada uno de los laboratorios donde se procesan muestras de un

determinado tipo. 4) Un animal, cuando se realiza una misma medición en distintas partes del

cuerpo, por ejemplo se prueban dos insecticidas en vacas. El bloque sería una vaca y las divisiones cada uno de sus flancos en los que los insecticidas se aplican al azar.

5) Un grupo de individuos que son medidos en tiempos sucesivos . El DBA corresponde a un modelo aditivo, es decir sin interacción. Se trata en general de un modelo mixto de Anova pues se considera:

Factor A (tratamientos): fijo Factor B (bloques) ; aleatorio

Modelo lineal: Donde αi

A es el efecto de tratamiento, αjB el efecto de bloque y εij es el término

de error

ε+α+α+μ= ijBj

Aiijy

Page 154: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

154

Supuestos Son los de un Anova dos factores sin replicaciones. Si el modelo es mixto (bloques al azar) se debe agregar el supuesto αj

B es una variable aleatoria tal que αj

B ∼ N(0, σ2B) e independientes

Para un DBA con los bloques aleatorias la hipótesis son

*Los niveles del factor tratamiento no son independientes como en el Anova correspondiente a un DCA. Pero esa dependencia está contemplada en el DBA, ya que controla la diferencia individual mediante la utilización de bloques. *Pero el número de bloques puede ser cualquiera. La cantidad de bloques constituye el tamaño de muestra, cuando el factor bloque es aleatorio, pero hay que tener presente que el número de divisiones por bloque debe ser igual al número de tratamientos a comparar (caso contrario se trataría de un DBA incompleto).

CMSC

N -1Total

(a-1)(b-1)Dentro (Error)

b – 1Entre columnas (B)

a– 1Entre filas (A)

FG. de L.Fuente de variación

∑ −i

2..

2.i YNyJ

∑ −j

2..

2j. YNyI

GLSC

filas.e

filas.e

GLSC

)error(dentro

)error(dentro

CMCM

dentro

filas.e

∑ −ij

2..

2ij YNy

SCtotal - SCentre filas - SCentre columnas

Tabla de Anova del DBA

GLSC

Columnas.e

Columnas.e

CMCM

dentro

Columnas.e* *

Para los bloques (B)H0B : σ2

B = 0HaB : σ2

B ≠ 0

H0A : αiA = 0 ∀ i= 1,...., a

Para el tratamiento (A)

HaA : ∃ i / αiA ≠ 0

Page 155: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

155

(*) Las F´s en el DBA La hipótesis de interés que se plantea en este diseño está orientada a comparar las medias de tratamientos; pero en el caso en que interese la comparación de las medias de los bloques Ho: βj=0; se plantea el dilema: ¿Cómo comparar esas medias de bloques? ¿Es adecuado compararlas con la F=CMbloques/CMdentro? Desde el punto de vista del diseño la objeción fundamental para probar la hipótesis de bloques mediante una F es que la aleatorización fue realizada sólo para los tratamientos dentro de los bloques, y no para los bloques dentro de los tratamientos; es por eso que se dice que los bloques representan una restricción para la aleatorización. La pregunta que surge de inmediato es ¿Qué efecto tiene esto sobre el estadístico F = CMbloques/CMdentro? La mayoría de los autores argumentan que la restricción de aleatorización impide que la F sea útil para comparar las medias de los bloques. En resumen, no es adecuado tomar F = CMbloques/CMdentro como una prueba F exacta, sino usar la esperanza de los cuadrados medios de los bloques para darse una idea de la variabilidad de los bloques (este análisis no se verá en el presente curso), aunque se podría examinar la razón entre MSbloques y MSdentro para investigar de forma aproximada el efecto de la variable bloque. Un valor grande de esta razón, indica que el factor bloque tiene un efecto grande y que la reducción de ruido obtenida al analizar por bloques posiblemente fue útil al mejorar la precisión de las comparaciones entre las medias de tratamiento. Pero nunca con la prueba exacta (la F de fisher). Por esta razón a veces aparecen en un DBA los cuadrados medios de bloques, pero no la F. ¿Qué hacer en la práctica? Los autores que aceptan que en alguna circunstancia se pueda calcular la F de bloques para una comparación de las medias de bloques (si esta tuviera sentido desde el punto de vista de la conclusión biológica) requieren un supuesto adicional: la falta de interacción. Zar (páginas 254-259) trata el tema y dice que “una hipótesis nula de igualdad entre bloques usualmente no tiene interés, además es no aconsejable, porque hacerlo requeriría conocimiento acerca del efecto de interacción. Entonces generalmente no se testea”. A continuación dá un ejemplo donde no calcula ni el cuadrado medio para que no haya dudas. Sokal no difiere en cuanto a la teoría (en eso no hay duda). En la página 342 explica el asunto en términos de sumas de cuadrados: En un anova de dos factores, cuando a la SCtotal se le “sacan” la SCentre filas y la SCentre columnas, queda la de interacción que en un DBA recibe el nombre de SC de discrepancia (lo que nosotros llamamos SCerror en el DBA) y es el único termino de error en el anova. Por eso dice que la única manera de aceptar que se pueda poner a prueba la hipótesis de medias de bloques con la F (si tuviera sentido) es suponer que no existe interacción, pero si existe la interacción, en un modelo mixto (como es el DBA) solo el factor fijo puede ser testeado usando esa SC de discrepancia. Consideraciones similares se pueden encontrar en -STEEL, R. G. y J. H. TORRIE. 1986. Bioestadística: Principios y Procedimientos. -ANIEL, W. W. 2002. Bioestadística. 4TA ed. Ed. Limusa - Wiley, México.

Page 156: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

156

En resumen: -Desde el punto de vista teórico no es adecuado testear un factor aleatorio con una F y todos los autores coinciden en esto. -En el caso en que interesara explorar ese factor mediante la F (si tuviera sentido hacerlo o aportara alguna información útil), se tiene que tener en cuenta que esta es una forma aproximada para testear el efecto de la variable bloque. -En este curso no hay ningún problema en el que quede de manifiesto que interesa probar la diferencia entre las medias de bloques. Tampoco hay ninguna pregunta acerca de la significación del efecto de los bloques. Sin embargo se dan los valores de la prueba de no aditividad para estar dentro de los supuestos si uno quisiera poner usar la F de bloques y sacar conclusiones (que siempre serían aproximadas y en ningún momento en este curso tiene importancia experimental). -Una forma de medir la eficiencia del uso del diseño de bloques que usamos en la materia es el cálculo de la Eficiencia Relativa, pero no la F de los bloques. DCA vs DBA No es raro el caso en que, ante la necesidad de decidir que diseño utilizar, se tengan dudas acerca de las bondades de cada uno de los posibles diseños. En particular esta situación frecuentemente se plantea cuando es posible elegir entre un DCA y un DBA. A continuación se detalla un ejemplo. Ejemplo. Se quiere probar el efecto de la dosis de FSH sobre el tamaño del ovario en ratones. Se consideran tres tratamientos: dosis baja, dosis media y dosis alta. Un posible diseño podría resultar de dividir un lote de N ratones en tres grupos al azar y, también al azar, cada uno de estos grupos asignarlo para ser tratado con cada una de las dosis de FSH. Este esquema corresponde a un DCA de un factor. Recordar que para este diseño los ratones deben ser lo más homogéneos posible. Otra manera de diseñar el experimento es teniendo en cuenta la diferencia individual e incorporarla como una posible fuente de variación. En este caso se pueden seleccionar camadas de tres ratones cada una y se aleatoriza la dosis de hormona que le corresponderá a cada ejemplar de la camada. Este esquema corresponde a un DBA, donde los bloques están constituidos por las camadas que, en este caso, es un factor aleatorio. En situaciones como esta, cuando hay mas de un diseño posible para poner a prueba la hipótesis de interés (la diferencia entre tratamientos), es útil poder escoger, entre los diseños planteados, cual es el mejor para contestar la hipótesis planteada. Resolución del problema como DCA Si se tiene una muestra aleatoria de 18 ratones, que se asignan al azar a los tres tratamientos descritos mas arriba y se considera la variable aumento de peso, en mgr del ovario de ratón, a las 12 horas del tratamiento, con los siguientes resultados:

Page 157: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

157

Tratamiento Aumento de peso (gramos) media Des st Dosis baja 60 44 28 59 45 52 48,00 11,88 Dosis media 82 48 38 75 50 80 62,17 19,02 Dosis alta 94 67 45 70 50 82 68 18,60

Suponiendo que se cumplen los supuestos del modelo, se tiene la siguiente tabla de anova de un factor

Fuente de variación GL SC CM F Valor p Entre dosis 2 1240 620 2,04 0,16 Dentro (error) 15 4565 304

Se llega a la conclusión que no hay evidencias para suponer que las distintas dosis de la hormona producen efectos diferenciados sobre el crecimiento del ovario (P > 0,05). Si se observan las medias de los tratamientos, a simple vista puede parecer que los pesos medios son diferentes, pero cuando se observa el valor del CMerror. se encuentra una explicación a esto basada en la magnitud de dicho error, que genera un valor F pequeño. Resolución del problema como DBA A continuación se resuelve el mismo ejemplo, pero suponiendo que se tienen seis camadas de tres ratones cada una y que a cada ejemplar de la camada se le asigna una de las dosis al azar. En primer lugar se pone a prueba el supuesto de aditividad mediante la prueba de Tukey : FNN = 3,7654, GL = 1, 15, p = 0,084. Por lo tanto no se rechaza la hipótesis nula de aditividad. Tabla de datos: es la misma que la citada mas arriba, con la diferencia de que ahora cada columna corresponde a una camada (bloque): Camada medi

a Des st

1 2 3 4 5 6 Dosis baja 60 44 28 59 45 52 48,00 11,88

Tratamiento Dosis media 82 48 38 75 50 80 62,17 19,02 Dosis alta 94 67 45 70 50 82 68 18,60

Tabla de Anova del DBA

Fuente de variación GL SC CM F Valor p Entre dosis 2 1240 620 11,70 0,025 Camadas 5 4937 807 Dentro (error) 10 528 53

Como se puede observas, al controlar la variación producida por los animales, lo que provoca una disminución en la magnitud del CMerror, el valor de la F es mas grande que la del DCA y este efecto lleva a concluir que existe diferencia de crecimiento del ovario de ratón según la dosis aplicada (P < 0,05)

Page 158: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

158

Aclaración: En el curso de un experimento no es posible pasar de un diseño a otro porque ambos diseños corresponden a aleatorizaciones diferentes. Este ejemplo tiene por objeto poner de manifiesto que un CM error (error experimental) grande, como se observó en el DCA puede deberse a una fuente de variación no controlada. Para este ejemplo hay un solo diseño correcto, el DBA.

Eficiencia relativa Una manera de comparar la cantidad de información que suministran dos diseños aplicados a un mismo conjunto de datos es el cálculo de la eficiencia relativa. Por cantidad de información que suministra un diseño se entiende: Donde N es el número total de observaciones y = CMdentro Para comparar la cantidad de información de dos diseños se define la eficiencia relativa de la siguiente forma: Con Ni = grados de libertad del diseño i El diseño 1 será más eficiente que el diseño 2 si: ER(D1 / D2) > 1 Ejemplo: En el ejemplo de las dosis de hormona (suponiendo que la aleatorización hubiera sido la correcta para cada diseño) calculemos la eficiencia relativa de DBA con respecto al DCA D1 = DBA N1 = 10, s2

1 = 53 D2 =DCA N2 = 15, s2

2 = 304 Entonces el DBA es 4,46 veces más eficiente que el DCA. Si se expresa la eficiencia relativa en porcentaje se puede decir que el DBA es 446 veces mas eficiente que el DCA.

σ=

ˆNI

2

σ2

CMCM

)3GL()1GL()3GL()1GL(

ER1dentro

2dentro

12

212D

1D ⋅+⋅++⋅+

=

46,5531613

3041811ER 2D

1D =⋅⋅

⋅⋅=

Page 159: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

159

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN Al analizar datos, con frecuencia se observa que es conveniente conocer algo acerca de la relación entre dos variables. Algunas veces una variable puede tener efecto sobre la otra o puede servir para predecirla. Por ejemplo, es posible que la presión sanguínea y la edad estén relacionadas o que una de ellas tenga efecto sobre la otra, o que la prediga. Otros ejemplos podrían ser: 1) Respuesta a dosis diferentes de una droga. 2) Altura y peso en humanos. 3) Nivel de consumo de alguna de grasa y ganancia en peso en cerdos. 4) Cantidad de lluvia caída y rendimiento de una cosecha de trigo. 5) Intensidad de un estímulo y la reacción en cangrejos de laboratorio 6) Cantidad de anillos de crecimiento y edad de un árbol Sea la situación en que grupos de animales son inyectados con dosis crecientes de una droga y se quiere estudiar el efecto del aumento de la dosis en el plasma sanguíneo. Un Anova no respondería exactamente esta cuestión porque no tiene en cuenta la forma en que los tratamientos están relacionados entre sí. O sea que, en el análisis de resultados tendríamos que buscar alguna relación funcional entre la dosis y su efecto en el plasma sanguíneo. La naturaleza y la intensidad de las relaciones entre variables como éstas pueden ser examinadas por medio del Análisis de Regresión lineal y el de Correlación lineal, dos técnicas estadísticas que, aunque relacionadas, tienen objetivos y supuestos diferentes. Los métodos de regresión y correlación permiten tratar algunos de los problemas que surgen al estudiar simultáneamente más de una variable en cada unidad de muestreo. Aplican modelos diferentes para explicar las relaciones existentes entre las variables medidas. El Análisis de Regresión es útil para poner a prueba distintos modelos para la relación funcional existente entre dos o más variables, y cuando se lo emplea, el objetivo final es predecir o estimar el valor de una variable como función de la otra. Por otra parte, mediante los modelos de correlación se estudia la distribución conjunta de dos o más variables; que no implican una relación funcional determinada entre las variables en estudio sino una distribución conjunta de una forma particular, y mide la intensidad de la relación lineal. La idea de regresión fue introducida por primera vez por el científico inglés Sir Galton (1822-1911) en los informes de investigación sobre la herencia, primero en arvejas y posteriormente en la estatura humana. Describió una tendencia del hijo adulto, que tiene padres bajos o altos, a regresar a la estatura promedio de la población general. Primero usó la palabra ‘reversión ‘y después ‘regresión’ para referirse a este fenómeno. Frente a un problema de esta naturaleza lo primero que se hace es construir un diagrama de dispersión que dará una idea de la forma de la relación, si es que ésta existe. En un diagrama de dispersión se grafican los puntos (xi, yij ), donde

Page 160: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

160

xi son los valores de la variable X e yij son las observaciones de la variable Y correspondientes a cada valor de la variable X. Cada punto en el diagrama representa el valor asignado a cada una de la unidades experimentales utilizadas en el experimento. En este diagrama aparece una nube de puntos. Lo que se trata de buscar es una curva, lo más sencilla posible, que ajuste la nube de puntos y luego ver en que medida el ajuste es bueno. La situación general es la siguiente: Se busca una función y = f(x) donde f es una función desconocida y cuya expresión es generalmente complicada o difícil de construir, las xi’s son variables observables y controlables y la Y es la variable respuesta. La idea es aproximar la función f por otra, sea g, más sencilla, pero de modo que al reemplazar una por otra el error que se cometa sea pequeño cuando las xi recorren un determinado conjunto de valores. En la expresión de la función g intervienen constantes o parámetros a, b, ...,h; entonces será de la forma:

y = g(X, a, b, ....., h) + ε El ε es una variable aleatoria que representa el error que se comete al reemplazar f por g; esta ecuación recibe el nombre de ecuación de regresión de la población o “modelo de regresión a ajustar”. Cuando la función g es lineal en los parámetros se habla de una Modelo de Regresión Lineal Simple. El modelo de regresión sugiere una relación de causalidad.

Ejemplos La velocidad de un auto puede ponerse como función del número de

revoluciones por minuto de las ruedas. Parece razonable pensar la velocidad como causada por el giro de las ruedas (o al menos que el giro de las ruedas interviene en la cadena de causas del movimiento del auto). Pero también es posible estudiar el giro de las ruedas como función de la velocidad del auto; en este caso no tendría el mismo valor teórico para el estudio del problema.

En el dosaje de sustancias químicas suelen utilizarse métodos colorimétricos donde se establece una función que vincula la concentración de la droga (variable dependiente) con la absorción de luz en determinadas longitudes de onda (variable independiente). En este caso no puede decirse que sea el color el que causa la concentración de la droga sino a la inversa, pero el tratamiento estadístico que se utiliza es exactamente el mismo.

Page 161: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

161

Modelo de Regresión Mediante este método pretendemos contestar preguntas tales como: Dada una familia de funciones (funciones que tienen la misma forma y que

solo varían en los valores de uno o más parámetros) a la que se supone que pertenece la verdadera función: ¿cuáles son los valores de los parámetros que mejor se ajustan a los datos disponibles?.

Una determinada expresión para f(X) es plausible frente a los datos observados (o sea ajusta bien)?

Dado un valor x, cuál es el valor de y? Si la función f(X) es demasiado complicada para tratarla: ¿es posible

construir una función más simple que mantenga acotada la diferencia? En este curso nos limitaremos a tratar las tres primeras cuestiones en el caso particular en que f(X) pertenece a la familia de las funciones lineales en los parámetros (polinomios): Ejemplo de modelos lineales: a) y = a + bx + ε b) y = ax² + bx + c + ε c) y = a0+ a1x + a2x² + ..... + anxn + ε Ejemplos de modelos no lineales: Curvas de crecimiento

Regresión logística

e.B1Ay cx−+

=

Regresión exponencial

xay b⋅=

0

20

40

60

80

100

0 10 20 30 40 50 60x

y

Regresión lineal

bxay +=

Page 162: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

162

Para la curva de crecimiento potencial y = axb, el parámetro b es la proporción de crecimiento en Y por cambio de unidad en X. Si por ejemplo X es el tamaño de un órgano e Y el de otro, cuando b= 1 el crecimiento se dice isométrico, ambos órganos crecen de la misma forma. Cuando b ≠ 1 el crecimiento se dice alométrico: si b > 1 es alometría positivo y si b < 1 es alometría negativa. Algunas curvas no lineales pueden ser linealizadas mediante una transformación conveniente (por ejemplo tomando logaritmos), que en realidad no es otra cosa que un cambio de la escala de medición. Ejemplo son las curvas exponencial y potencial. Para la logística se utiliza un método iterativo pero también ajustando una lineal. De todas formas estas curvas no lineales tienen su propia teoría estadística . Para decidir que curva debe ser utilizada entre las no lineales es de gran ayuda obtener diagramas de dispersión de las variables transformadas. Por ejemplo si un diagrama de dispersión de ejes (X, logY) muestra una relación lineal, la ecuación de crecimiento exponencial es la que mejor ajusta, mientras que si esto ocurre para los ejes (logX , logY) entonces es mejor la potencial. Modelo de Regresión Lineal Simple Las observaciones de las que se dispone son determinaciones de valores de la variable dependiente o respuesta Y para distintos valores de la variable independiente X. Encontrar los parámetros del modelo sería nada más que una cuestión de resolver las ecuaciones correspondientes por métodos matemáticos usuales si no fuera porque las variables en juego son aleatorias: están afectadas por variabilidad natural. Cuando ambas variables son aleatorias se trata de un Modelo II de regresión y cuando solamente es aleatoria la variable dependiente se habla de un Modelo I. Se verá únicamente el Modelo I ya que el caso del Modelo II se escapa de este curso. Suposiciones del Modelo de Regresión Lineal Simple El modelo es entonces:

yij = a + b xi + εij, donde: 1 ≤ i ≤ m ; 1 ≤ j ≤ ni ; m es el número de valores de x ; ni es el número de valores de y observados para el i-ésimo valor de x. Notar que este modelo es idéntico al de ANOVA de un factor excepto que los efectos αi de los tratamientos son proporcionales al valor de la variable x. A partir de los datos observados obtendremos la recta estimada: O sea un valor de y estimado en función del valor de x y de los parámetros y , estimados a partir de los datos observados. Cuando ni > 1 podremos estimar

xbay ii +=

ba

Page 163: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

163

E(yi) en forma independiente de a y b mediante y-i, para lo que es necesario

que se cumpla con ciertos supuestos:

1) La variable independiente X se supone medida sin error. Es decir se supone fija; sus distintos valores están fijados por el investigador de antemano.

2) Los valores esperados de la variable aleatoria Y, para cada valor de la variable X, están alineados, es decir: E(Y) = a + bx.

3) Para cada valor de la variable X la subpoblación de la variable Y sigue una distribución normal; las subpoblaciones son independientes.

4) La varianzas de las subpoblaciones son iguales. Para la estimación puntual de los parámetros de la recta de regresión sólo son necesarios los supuestos (1) y (2), mientras que para estudiar la significación de estas estimaciones, construir intervalos de confianza y verificar la bondad del ajuste son necesarios además los supuestos (3) y (4). El parámetro b es la pendiente de la línea de regresión o sea el cambio en la variable respuesta Y, por unidad de cambio en la variable independiente X. Suele llamarse el coeficiente de regresión. El parámetro a es la ordenada al origen. El problema consiste en estimar los parámetros a y b de la recta de regresión poblacional. Para ello de cada subpoblación Yi se extrae una muestra de tamaño ni de la forma {yi1, yi2, ....., yini }, donde yij es la j - ésima observación correspondiente al nivel Xi de la variable X (1≤ i ≤ a, 1 ≤ j ≤ ni , n = ∑ ni = número total de observaciones). Con los datos de la muestra el primer paso consiste en graficar el diagrama de dispersión para ver si la variable respuesta Y depende o no, en cierto grado, de la variable independiente X y si la relación entre ellas puede ser razonablemente expresada por una ecuación lineal.

En un diagrama de dispersión cada punto es un par de valores (xi , yij). A partir de los valores observados se tratará de estimar los parámetros a y b del modelo de regresión mediante los estimadores y y por lo tanto se tendrá la ecuación estimada:

0

20

40

60

80

100

0 10 20 30 40 50 60x

y

ba

Page 164: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

164

Los parámetros a y b se estiman de tal manera que esa estimación tenga propiedades útiles; en general se busca alguna forma de minimizar los errores dados por la diferencia entre los valores observados y los esperados, o sea los residuos. Definimos: Una elección razonable para obtener los estimadores de los parámetros es minimizar SCresidual (o sea hallar los valores y que hagan mínima SC residual) Método de Mínimos Cuadrados El método de estimación más utilizado para la estimación de la recta de regresión es el de los mínimos cuadrados (por eso algunas veces se la conoce como la recta de mínimos cuadrados), que consiste en minimizar las distancias entre los valores observados y los esperados (que se encuentran sobre la recta estimada), o sea los residuos. 1) Caso de un sólo valor de Y para cada valor de X.

Estimación de la recta de regresión

El método de estimación más utilizado para la estimación de la recta de regresión es el de los mínimos cuadrados, que consiste en minimizar las distancias entre los valores observados y los esperados (que se encuentran sobre la recta estimada), llamados residuos

Estimación de a

xbya ⋅−=

SCSb

xx

xy=

∑ −= yxNyxS ijixy∑ −= xNxnSC 22iixx

Estimación de b

Evaluación de la recta de regresión Una vez que se ha obtenido la ecuación de regresión estimada, ésta debe ser evaluada para detectar si describe adecuadamente la relación funcional entre las variables y si puede ser utilizada de manera efectiva con fines de estimación y predicción.

xbay ii +=

∑ −= )yiyi( 2SCresidual

ba

Page 165: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

165

Una forma de evaluar la ecuación es comparar la dispersión de los puntos alrededor de la recta con la dispersión de los puntos alrededor de la media y- :

Evaluación de la recta de regresiónUna vez que se ha obtenido la ecuación de regresión estimada, ésta debe ser evaluada para detectar si describe adecuadamente la relación funcional entre las variables y si puede ser utilizada de manera efectiva con fines de estimación y predicción.

yyi − ( )yyi − ( )yy ii −+=

Desviación total desviación no explicadaDesviación explicada

( )∑ −i

2yyi ( )∑ −i

2yyi ( )∑ −i

2yiyi+=

SCtotal SCresidualSCregresión

n - 1 ( n - 2)1 +=GLtotal GLresidualGLregresión

SCtotal es una medida de la dispersión de los valores observados de Y

respecto de la media, es decir, este término es una medida de la variación total en los valores observados de Y. Además no es otra cosa que el numerador del estimador de la varianza total (SCyy).

SCregresión = SCexplicada es una medida de la variabilidad de los valores estimados de Y respecto de su media. O sea es una medida de la variabilidad de los valores observados de Y que resulta cuando se toma en consideración su regresión en X, respecto de la media de Y. Esta variabilidad es explicada por la regresión, por la ecuación construida.

SCresidual = SCno explicada es una medida de la dispersión de los valores de Y

observados respecto a la recta de regresión. Esta es la cantidad que se minimiza para la obtención de los estimadores de mínimos cuadrados de los parámetros a y b de la recta de regresión. Esta variabilidad es la que el modelo no puede explicar.

La descomposición de la suma de cuadrados total lleva a una tabla de Anova para medir la significación de la regresión mediante una prueba de hipótesis para la hipótesis nula de no relación lineal entre X e Y; también se puede realizar una prueba de hipótesis, o un intervalo de confianza para la pendiente

Page 166: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

166

0 ≤ R² ≤ 1

SCresidual = 0 SCregresión = SCtotal R² = 1

SCresidual = SCtotal SCregresión = 0 R² = 0

Coeficiente de DeterminaciónSC

SCR

total

regresión2 =

Caso de un y para cada x

CM F

N – 1Total

N – 2Residual

1Regresión

SCG de LFuente de variación

SCb xx2 ⋅

SCtotal - SCregresión CMCM

res

reg

H0 : b = 0 Ha : b ≠ 0

GLreg,GLres, 1-αF

Si > se rechaza con CMCMF

res

regr=

Regla de decisión

Ho αGLreg,GLres, 1-αF

( )∑ −i

2yyiSC yy

GLSC

reg

reg

GLSC

res

res

b de la recta de regresión. Las hipótesis que se plantean para poner la prueba la significación de la regresión son: Anova De esta manera se prueba la significación de la recta de regresión pero no el ajuste del modelo a los datos. Se podría dar el caso de que por ejemplo exista un término cuadrático en la ecuación. Intuitivamente es razonable especular, que si una ecuación de regresión funciona bien al describir la relación entre dos variables, la SCexplicada = SCregresión debe contribuir con una gran proporción a la SCtotal = SCyy . Entonces, sería interesante determinar la magnitud de esta proporción, calculando la razón de la suma de cuadrados explicada a la suma de cuadrados total. Esto es exactamente lo que se hace al evaluar una ecuación de regresión basada en datos de la muestra y el resultado se llama Coeficiente de Determinación y mide el porcentaje de la variación total explicada por la regresión de Y en X. En otras palabras mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de Y. Este coeficiente no posee una distribución muestral, por lo tanto no puede ser estudiada su significación estadística. Un valor grande de R² indica que la regresión ha tenido en consideración una gran proporción de la variabilidad total en los valores observados de Y, y por lo tanto la ecuación de regresión sería aceptable. Un R² pequeño, indica una falla de la regresión para explicar una proporción de la variación total en los valores observados de Y, y por ende arroja dudas sobre la utilidad de tal ecuación. Sin embargo no se pasa al juicio final sin antes realizar alguna prueba estadística.

Page 167: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

167

intervalo de confianza del (1 - α )% para la ordenada al origen a

SCN

xCM2N;ta

xx

i

2i

res2

∑⋅⋅−± α

Intervalo de confianza del (1 - α )% para la pendiente b

SCCM2N;tb

xx

res2

⋅−± α

a

t~

SCN

xCM

aa2-N

xx

i

2i

res ⋅

∑⋅

−=ε

Distribución de b

t~

SCCM

bb2-N

xx

res

−=ε

Distribución de

Sobre la base de las distribuciones anteriores la significación de la regresión se puede estudiar mediante un intervalo de confianza del (1 - α)% para b; la regresión resultará no significativa si el cero pertenece al intervalo de confianza. Las hipótesis son:

H0 : b = 0 contra Ha : b ≠ 0. Este método también puede ser utilizado para poner a prueba la hipótesis de un valor hipotético para la pendiente, o sea plantear:

H0 : b = b0 contra Ha : b ≠ b0

Page 168: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

168

Usos de la ecuación de regresión

*Para predecir un valor de la variable Y dado un valor de X, distinto de los Xi considerados para estimar la ecuación. Para esto puede construirse un intervalo de predicción.

*Para estimar el valor medio (esperado) de una subpoblación de Y, o sea para estimar E(Y), para un dado valor de X, y construir un intervalo de confianza para E(Y).

( )CMSCxx

xx2

2n;ty 1nn11residual21n

⎥⎥⎥

⎢⎢⎢

⎡+++α+

−−±

Intervalo de predicción

( )CMSCxx

xxo2

2n;t)y(En1residual2o

⎥⎥⎥

⎢⎢⎢

+α −−±

Intervalo de confianza para E(Y)

Banda de confianza Como se ve para cada valor de α fijo el intervalo de confianza para el valor esperado de Y se agranda si X0 se aleja de su media. Esto da una idea para la construcción de una banda de confianza de la recta de regresión poblacional, que se obtiene con los intervalos de confianza para la E(Y) para los valores distintos de X, pero con el mismo α. Luego se habla de la banda de confianza del (1 - α)% para la recta de regresión. Esta banda tiene la forma de una hipérbola. Comparación de las rectas de regresión Es bastante común el problema de querer comparar dos o más rectas de regresión, para estudiar su paralelismo. Las rectas son paralelas si sus pendientes son iguales; por lo tanto una prueba de hipótesis para esta situación es una prueba para la hipótesis nula de igualdad de pendientes. Por ejemplo puede interesar comparar las respuestas en machos y hembras a una determinada hormona de crecimiento. Si para cada sexo se obtiene una recta de regresión significativa, bastaría con poner a prueba una hipótesis respecto de sus pendientes.

Page 169: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

169

Comparación de dos rectas de regresión

Sean las rectas :

xbay 111 += xbay 222 +=

bb:H 21o = bb:H 21a ≠

Estadístico de prueba:( )

( ) ( )( ) ( )

s

SCxxSCxxSCxxSCxxb2b1F

2

21

21

2

⋅⋅+

−=

Si F > se rechaza con

Regla de decisión

Ho α1,qFq = n1 + n2 - 4 , con ni = cantidad de valores distintos de la X para la recta i.

qSCSC

s 2res1res2 +=con

y.. : media de todos los valores observados

yi : valor esperado para el i-ésimo valor de X

yi :valor medio observado para el i-ésimo valor de X

y j. :j – ésima observación correspondiente al i-ésimo valor de X

.......................

.......................

YX

xi

x1x2

y j.

y11 y12 y13 y j1 y1

yiy..

y21 y22 y23 y j2 y2⋅⋅⋅

.........................................................

caso de más de un valor de Y para cada valor de X

⋅⋅⋅

Page 170: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

170

Análisis de la significación de la regresión y bondad del ajuste

SC total = SC entre + SC error = [SC regresión + SC residual] + SC error

( )∑ −=i

i.i2

iresidual yynSC ( )∑ −=ij

iij2

error yySC ( )∑ −=i

2iregresión y..y .inSC

0bo :H =

0ba :H ≠

i todo parai)y(o xbaE:H i ⋅+=

N-1Total

N-aError

a-2Residual

*1Regresión

a-1Entre

FCMSCGLF de variación

yNyn 2..

i

2.ii −∑

GLSC

entre

entre

SCb xx2 ⋅

GLSC

reg

reg

SCSC regentre −GLSC

res

res

SCSC entretotal −GLSC

error

error

∑ −ij

2..

2ij yNy

CMCM

error

entre

CMCM

error

res

xbaE:H i)y(a i ⋅+≠

Construcción de las F

i todo parai)y(o xbaE:H i ⋅+=xbaE:H i)y(a i ⋅+≠*Prueba de ajuste al modelo

CMCM

error

resresF =Si > se rechaza con

Regla de decisión

Ho αGLres, GLerror, F 1-α

0bo :H =

0ba :H ≠*Prueba de significación de la regresión

*Se pone a prueba la significación de la al 75% Fres

*Si > Fres GLrres,GL, errorF 25,01 =α−CMCM

Fres

regreg =⇒

Regla de decisión

*Si < Fres GLres, GLerror, F 25,01 =α−

GLGLSCSC

CMF

errorres

errorres

regreg

++

=⇒Regla de decisión

Page 171: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

171

Ejemplo: (Sokal-Rohlf § 14.5, pag 476 )Se estudia la supervivencia del coleóptero Tribulium castaneum sembrado en cuatro densidades distintas en harina (medida como número de huevos por gramos). La supervivencia se considera desde el estado de huevo hasta el de adulto. Las variables son:

X: cantidad de huevos/ gramo de harina (Densidad)Y: porcentaje de sobrevida

50,9558,4864,8064,02Media

3345N

69,30

60,8461,68

49,8258,3763,4469,3049,8958,3766,2158,37

53,2358,6568,2161,68

100/gr50/gr20/gr5/gr

Densidades

N = ∑ni = 15

El objetivo en la experiencia es estudiar si la supervivencia varía significativamente con el aumento de la densidad de siembra

∑ ==i

ii 37xnN1x ∑ ==

iii 5207,60ynN

1y

∑ =−=i

22iixx 18690xNxnSC

3883,562yNySCSCij

2..

2ijtotalyy =∑ −= =

∑ −=−=i

iiiixy 6685,2747yxNyxS

14701,0b −=

9601,65a =

x15,09601,65y ⋅−=Recta estimada

45

50

55

60

65

70

75

0 10 20 30 40 50 60 70 80 90 100 110

# huevos/gr harina

% s

obre

vida

45

50

55

60

65

70

75

0 10 20 30 40 50 60 70 80 90 100 110

# huevos/gr harina

% s

obre

vida

Estimación recta de regresión para el

Page 172: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

172

0,78

11,2

F

562,3887N-1=14Total

12,6079138,6867N-a=11Error

0,4819,886819,7744a-2=2Residual

403,9281403,92811Regresión

0,001141,2339423,7016a-1=3Entre

PCMSCGLF de variación

i todo parai)y(o xbaE:H i ⋅+=xbaE:H i)y(a i ⋅+≠*Prueba de ajuste al modelo

0bo :H =

0ba :H ≠*Prueba de significación de la regresión

significación de la al 75% Fres

Como P=0,481 > 0,05 no se rechaza la Ho, por lo tanto hay buen ajuste al modelo lineal

0,02340,86

Como P=0,481 < 0,75 se rechaza la HoCMCM

Fres

regreg =⇒ 86,40

8868,99281,403 ==

Como P=0,023 < 0,05 se rechaza la Ho, por lo tanto b ≠0

El porcentaje de sobrevida disminuye significativamente con el aumento de la densidad.

Page 173: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

173

MODELO DE CORRELACIÓN LINEAL Es el caso bivariado, es decir cuando se tiene una muestra aleatoria de tamaño n de una variable aleatoria bidimensional (X, Y), o sea una muestra aleatoria de n pares (x, y), extraída de una población con distribución conjunta F(x,y).

Aquí se estudiará el caso en que F(x,y) es la distribución normal bivariada, o sea:

(x,y) ∼ N(μX , μy, σ²X, σ²y, σxy).

Donde σ²X denota la varianza de la variable X σ²y, la varianza de la variable Y σxy la covarianza entre X e Y

El objetivo de este modelo es estudiar una medida de la relación lineal entre las variables en estudio; y se dirá si las variables están o no linealmente correlacionadas. El parámetro que indica tal correlación es el coeficiente de correlación (ρ), que se define como: El coeficiente de correlación compara la variabilidad conjunta de las dos variables (covarianza) con la variabilidad independiente de cada una de ellas (el producto de las varianzas).Se estima por medio del estadístico r, que más adelante se definirá. El signo de ρ es el de la covarianza e indica si la correlación es directa o indirecta, es decir si al aumentar los valores de una variable aumentan o disminuyen los de la otra respectivamente. En el modelo de regresión se define el llamado coeficiente de determinación (R²) que de ninguna manera es un estimador del cuadrado del coeficiente de correlación ya que es sólo un número que no varía para el mismo conjunto de valores de la variable X, por lo tanto no es posible el estudio de su significación estadística; y además R² y r corresponden a modelos con supuestos y objetivos diferentes.

Var )y(Var )x(

COV2)y,x(

xy ⋅=ρ

Page 174: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

174

Estimación del coeficiente de correlación Un estimador puntual del coeficiente de correlación es el coeficiente de correlación muestral r, definido como la raíz cuadrada de :

Prueba de significación de la correlación

0:Ho =ρ0:Ha ≠ρ

*Se compara el r con el valor crítico de la tabla de valores críticos para el coeficiente de correlación

Regla de decisiónSi r > VC se rechaza con αHo

Regla de decisiónSi el intervalo de confianza no contiene al 0 se rechaza con αHo

*Se construye un intervalo de confianza para como y se verifica si el cero queda contenido en él.

ρ2N

r1r2

2,2Nt −−⋅± α−

Regla de decisiónSi > se rechaza con αHot

2,2N α−ε

*Se calcula y se lo compara con r12Nr2−

−=ε t

2,2N α−

11 ≤≤− ρSi X e Y no están correlacionadas 0=ρ

Si o X e Y están linealmente correlacionadas 1−=ρ1=ρ

SCSCSr

yyxx

2xy

⋅=

Page 175: Biometría - frrq.cvg.utn.edu.ar...3 Por Javier Calcagno BIOMETRÍA INTRODUCCIÓN Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación de la Estadística

175

Ejemplo de Sokal pp571

Se quiere estudiar la relación entre el peso de las branquias y el peso del cuerpo en el cangrejo Pachygrapsus crassipes.Se toma una muestra aleatoria de 12 de estos cangrejos y se obtiene la tabla:

9,52210

17,25320

15,39220

4,1980

15,81320

1,41100

14,9023022,70384

2,5045

11,3010015,20179

14,40159

Peso del cuerpo(g)

Peso de las branquias

(mg) r=0,86519

N=12 GL=N-2=10

Regla de decisiónSi r > VC se rechaza con αHo

ConclusiónComo 0,86519 > 0,708 se rechaza con α=0,01Ho

0:Ho =ρ0:Ha ≠ρ

El peso de las branquias y el del cuerpo de Pachygrapsuscrassipes están positivamente correlacionados. A mayor peso del cuerpo, mayor peso de las branquias.