Prácticas de Estadistica -doe.doc

105
Práctica 1. Estadística básica. Test de hipótesis Para utilizar las técnicas estadístico-matemáticas que se exponen en este texto es necesario la ayuda de herramientas computacionales. En particular, en el estudio y resolución de la mayoría de los problemas basados en datos reales la ayuda de un programa informático de Estadística es imprescindible porque el gran número de variables y datos que se manejan hacen inabordable el cálculo de los algoritmos propios de los modelos de diseño de experimentos y de regresión sin la ayuda del ordenador. Existen muchos programas estadísticos en el mercado, la mayoría de ellos tienen una gran capacidad estadística tanto analítica como gráfica. Por su sencillez de manejo y elevadas prestaciones estadísticas, en este texto, se ha optado por utilizar el Statgraphics en su versión para Windows. También se pueden utilizar otros programas estadísticos (buenas opciones son el SPSS, S-plus, Statistics,...etc.) para el desarrollo de las prácticas y resolución de los problemas propuestos. Pr áctica 1.1. Estadística descriptiva de una variable. Pr áctica 1.2. Modelos de probabilidad. Pr áctica 1.3. Test de hipótesis e intervalos de confianza de una y dos muestras. Pr áctica 1.4. Problemas de intervalos de confianza y test de hipótesis. Problemas propuestos. Práctica 1.1. Estadística descriptiva de una variable. Objetivo: “En este práctica se genera una muestra aleatoria con dos variables, la primera es la variable de interés que sigue una distribución normal y la segunda es una variable de clasificación. Se hace el estudio descriptivo (analítico y gráfico) de la variable de interés”. Desarrollo:

Transcript of Prácticas de Estadistica -doe.doc

Prctica 1

Prctica 1. Estadstica bsica. Test de hiptesisPara utilizar las tcnicas estadstico-matemticas que se exponen en este texto es necesario la ayuda de herramientas computacionales. En particular, en el estudio y resolucin de la mayora de los problemas basados en datos reales la ayuda de un programa informtico de Estadstica es imprescindible porque el gran nmero de variables y datos que se manejan hacen inabordable el clculo de los algoritmos propios de los modelos de diseo de experimentos y de regresin sin la ayuda del ordenador.

Existen muchos programas estadsticos en el mercado, la mayora de ellos tienen una gran capacidad estadstica tanto analtica como grfica. Por su sencillez de manejo y elevadas prestaciones estadsticas, en este texto, se ha optado por utilizar el Statgraphics en su versin para Windows. Tambin se pueden utilizar otros programas estadsticos (buenas opciones son el SPSS, S-plus, Statistics,...etc.) para el desarrollo de las prcticas y resolucin de los problemas propuestos.

Prctica 1.1. Estadstica descriptiva de una variable.Prctica 1.2. Modelos de probabilidad.Prctica 1.3. Test de hiptesis e intervalos de confianza de una y dos muestras.Prctica 1.4. Problemas de intervalos de confianza y test de hiptesis.Problemas propuestos.Prctica 1.1. Estadstica descriptiva de una variable.Objetivo: En este prctica se genera una muestra aleatoria con dos variables, la primera es la variable de inters que sigue una distribucin normal y la segunda es una variable de clasificacin. Se hace el estudio descriptivo (analtico y grfico) de la variable de inters.

Desarrollo:

1. Generar una muestra de 500 observaciones de una variable X que sigue una distribucin N2. Calcular los estadsticos bsicos. Utilizar el anlisis

describe >numeric data >one-variable analysis

3. Estudiar los estadsticos bsicos de esta muestra y comprobar si son adecuados al algoritmo de generacin de la misma.

4. Estudiar la tabla de frecuencias y el diagrama de representacin de tallo y hojas: (stem-and-leaf display).

5. Calcular e interpretar los siguientes grficos que permiten conocer la distribucin de la muestra: Grfico de puntos (scatterplot).

Grfico de cajas (box-and-whisker plot (notched)).

Histograma.

Grfico de quantiles.

Suavizado de la densidad (density trace).

Grfico de simetra.

Grfico de la serie en funcin del ndice, sto es, xt frente a t. Utilizar el anlisis

plot>scatterplots>univariate plots

6. Generar una variable de clasificacin C de forma que los 100 primeros valores formen la clase 1, los 100 siguientes la 2, los 100 siguientes la 3, los 100 siguientes la 4 y los 100 ltimos la 5. Utilizar el comando (rep: repeat). 7. Calcular los estadsticos bsicos de la muestra segn la clase C. Utilizar el anlisis

describe >numeric data >subset analysis

Fijarse en la tabla que compara las medias de la variable X segn la clase a la que pertenece.

8. Este anlisis tambin proporciona diferentes grficos que permiten comparar la variable X segn la clase C, y que nos permite comparar medidas de centralizacin (media y mediana) segn la clase, medidas de dispersin (desviacin tpica y rango) y la distribucin de X segn la clase C. Son los siguientes: Plot de puntos (scatterplot).

Grfico de medias.

Grfico de medianas.

Grfico de desviaciones tpicas.

Grfico de rangos.

Grfico de cajas mltiple.

Algunos de estos grficos y otros de menor inters se encuentran en el apartado:

exploratory plots.Repetir la prctica anterior con las siguientes variaciones: La muestra X proviene de una distribucin no normal, por ejemplo, una exponencial (comando rexponential) o de una distribucin gamma (rgamma).

Utilizando los datos del fichero coches (fichero de datos de coches que proporciona el paquete Statgraphics), estudiar la variable MPG (miles per galon, inversa del consumo) y/o la variable PRICE (precio de los coches), utilizando como variable de clasificacin ORIGIN (origen de los coches, que toma los valores Japan, U.S.A. y Europe).

Prctica 1.2. Modelos de probabilidad.Objetivo: Con la ayuda del paquete estadstico se revisan los principales modelos de distribucin, su funcin de probabilidad o de densidad y su funcin de distribucin, as como la generacin de muestras aleatorias.

Desarrollo:

En el apartado de Statgraphics

describe>distributions>probability distributionsse pueden estudiar las 24 funciones de distribucin ms utilizadas.

El apartado ofrece las siguientes posibilidades: Trabajar con cinco modelos de probabilidad del mismo tipo.

Calcular la funcin de distribucin de los modelos seleccionados.

Calcular la inversa de la funcin de distribucin de los modelos seleccionados. (Estos dos ltimos apartados constituyen las tablas estadsticas de funciones de distribucin).

Permite calcular muestras aleatorias de los modelos seleccionados sin necesidad de utilizar comandos.

Permite obtener las grficas de la funcin de densidad, funcin de distribucin y funcin razn de fallo, entre otras, de los modelos seleccionados.

En este texto se utilizarn bsicamente los siguientes modelos de probabilidad relacionados con las tcnicas clsicas de Inferencia Estadstica: Normal, chi-cuadrado, t de Student y F de Fisher. Es conveniente tener un conocimiento bsico de estas distribuciones.

Para ello, utilizando este apartado,

1. Dibujar en un mismo grfico las funciones de densidad de una N(0,12), N(0,1'52), N(0,0'82) y , N(2,12).

2. Dibujar en un mismo grfico las funciones de densidad de una chi-cuadrado: 1, 5,10, y 30.

3. Dibujar en un mismo grfico las funciones de densidad de una t: t1, t5, t10, y t30.

4. Dibujar en un mismo grfico las funciones de densidad de una F: F20,20, F50,50, F100,100, F80,4 y F4,80.

Qu conclusiones se deducen de estos grficos?

5. Para algunos de los modelo anteriores calcular F(-2), F(0) y F(1'5), siendo F la funcin de distribucin.

6. Para algunos de los modelo anteriores calcular F-1(0'05), F-1(0'90) y F-1(0'95), siendo F-1 la inversa de la funcin de distribucin.Prctica 1.3. Test de hiptesis e intervalos de confianza de una y dos muestras.Objetivo: A partir de una muestra de una poblacin calcular intervalos de confianza de la media y de la desviacin tpica de la poblacin, bajo la hiptesis de normalidad o no. A partir de dos muestras (pareadas o no) calcular intervalos de confianza de la diferencia de medias y del cociente de varianzas.

Desarrollo:

Considrese la variable PRICE del fichero de datos coches:

1. Calcular intervalos de confianza al 90% para la media y la desviacin tpica de esta variable. Utilizar el anlisis

describe >numeric data >one-variable analysis

En este anlisis se proporcionan dos tipos de intervalos de confianza: el primero bajo la hiptesis de normalidad de las observaciones y el segundo se basa en tcnicas de remuestreo (bootstrap).

2. Contrastar la hiptesis estadstica H0 : E(PRICE) = 4.500, frente a diferentes alternativas. Trabajar con un nivel de significacin = 0'10.

Se puede utilizar el anlisis anterior que proporciona tres contrastes: el primero acerca de la media de la poblacin bajo la hiptesis de normalidad y dos no paramtricos basados en los rangos acerca de la mediana. Los test basados en rangos son menos potentes pero son menos sensibles a la presencia de datos atpicos (outliers).

3. La curva de potencia del test sobre la media de una poblacin normal se puede estudiar en el siguiente anlisis de Statgraphics:

describe >hypothesis tests

En este mismo apartado tambin se puede estudiar la funcin de potencia de otros contrastes (sobre la desviacin tpica de una normal, la proporcin de una binomial o la razn de una de Poisson).

4. Se est interesado en comparar los precios de los coches de USA (origin=1) y japoneses (origin=3). En particular se desea: Calcular un intervalo de confianza al 90% para el cociente de varianzas.

Calcular un intervalo de confianza al 90% para la diferecia de medias.

Contrastar la hiptesis de que los precios medios de los coches de ambas poblaciones son iguales.

5. Estos estudios pueden hacerse en

6. compare>two samples>two-sample comparison

7. En este caso poner datos y cdigos en columnas, data=price, code=origin, select=origin2.

8. Analizar los diferentes resultados sobre la comparacin de dos muestras que proporciona este completo anlisis del programa.

9. La curva de potencia del test sobre la diferencia de medias de dos poblaciones puede estudiarse en

compare>two samples>hypothesis testsPrctica 1.4. Problemas de intervalos de confianza y test de hiptesis.Problema 1.1.

Se ha observado una muestra de 41 datos del tiempo de respuesta de un sistema informtico a las doce horas de un da laborable. Obtenindose los datos de la tabla adjunta,

22'5622'3324'5823'1419'0326'7618'33

23'1021'539'0616'7523'2922'1416'28

18'8927'4810'4426'8627'2718'7419'88

15'7630'7721'1624'2622'9027'1418'02

21'5324'9919'8111'8824'0122'1121'91

14'3511'149'9320'2217'7319'05

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a esta muestra, calcular:

1. Intervalos de confianza al 90% y 95% del tiempo medio de respuesta.

2. Es razonable mantener la hiptesis de que la varianza del tiempo de respuesta es 25 con un nivel de significacin del 5%?

3. Resolver el contraste H0: = 20 frente H1: > 20 en base al nivel crtico.Problema 1.2.

Una empresa de software est investigando la utilidad de dos lenguajes diferentes para mejorar la rapidez de programacin. A doce programadores, familiarizados con ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, y se anota el tiempo que tardan, produciendo los siguientes datos en minutos:

Lenguaje 1171621141824161421231318

Lenguaje 2181419112321101319241520

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos, calcular:

1. Un intervalo de confianza al 95% para la diferencia de medias en el tiempo de programacin.

2. Puede considerarse que uno de los dos lenguajes es preferible al otro?

3. Para responder a la pregunta anterior est bien diseado el experimento? Considerar alguna alternativa.Problema 1.3. Un profesor realiz el siguiente experimento, le pregunt a 44 alumnos que calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas:

Grupo1

8910101010101011

111111121213131314

141415151515151515

151616161717171718

1820222527353840

A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidi la respuesta en pies (3'28 pies = 1 metro). Ahora, las respuestas fueron:

Grupo2

242527303030303030

323233343434353536

363637374040404040

404040404141424242

424343444444454545

454545464647484850

505051545454555560

Datos del problema [ASCII] [spss-10] [sgplus-5]El ancho del aula era de 13'1 metros (43'0 pies). En base a estos datos,

1. Hacer un estudio descriptivo de estas dos muestras.

2. Calcular intervalos de confianza al 95% para la media y la varianza de la primera muestra.

3. Calcular intervalos de confianza al 95% para la diferencia de medias y el cociente de varianzas de las dos muestras.

4. Puede afirmarse que el error en la aproximacin es igual si se hace en metros que en pies?Problema 1.4.

Una empresa constructora est interesada en estudiar la tensin de ruptura de las barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona de forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de ruptura. Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de la tabla adjunta

2244214722402342195123452001

1800199520332208169920372087

2185179220332112200124902132

2070191720152150196020861824

1869227818461950202716991972

2073228218891897232219641809

2009241217462304201520351974

2191

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos,

1. Hacer un estudio descriptivo de la muestra.

2. Calcular intervalos de confianza al 95% y 99% para la media de la tensin de ruptura de las barras de acero.

3. Calcular intervalos de confianza al 95% y 99% para la varianza de la tensin de ruptura de las barras de acero.

4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 95% para la media de la tensin de ruptura de las barras de acero con una longitud inferior a 50 unidades? Y, si el intervalo de confianza fuese al 99%?Problemas propuestos.Problema 1.5. El gobierno francs est interesado en analizar los datos obtenidos en experimentos atmicos. En particular est interesado en el estudio de la potencia desarrollada por una determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas, realizadas entre Marzo de 1994 y Enero de 1996, son los siguientes (en kilotones): 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.

1. Calcular intervalos de confianza al 90, 95 y 99% para la media de la potencia.

2. Calcular tres intervalos de confianza distintos al 95% para la varianza de la potencia.

3. Contrastar la hiptesis de que la media de la potencia es 750.

4. Dibujar la curva de potencia de este contraste.

5. Qu hiptesis se han supuesto en el desarrollo de este problema.Datos d el problema [ASCII] [spss-10] [sgplus-5]Problema 1.6. El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es importante determinar los niveles que esperamos en los diferentes grupos de edad y sexo. Para comparar el nivel de colesterol en varones de entre 20 y 29 aos de edad frente a mujeres del mismo grupo de edad se realiz un estudio cuyos estadsticos bsicos son los de la tabla adjunta y los datos del experimento se encuentran en el fichero Problema-1-6.

Hombres Mujeres

nH = 96nM = 85

H = 170.81 mg/dlM = 181.08 mg/dl

H = 30.55 mg/dlM = 30.79 mg/dl

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos:

1. Hacer un estudio descriptivo de la muestra de hombres y de la muestra de mujeres. Conclusiones.

2. Calcular intervalos de confianza al 90, 95 y 99% para la diferencia de medias del nivel de colesterol entre hombres y mujeres.

3. Calcular un intervalo de confianza al 90% para el cociente de varianzas del nivel de colesterol entre hombres y mujeres.

4. Puede suponerse que el nivel de colesterol en los hombres es igual al de las mujeres?Problema 1.7.

A una empresa le ofrecen impartir un curso de capacitacin para aumentar el rendimiento de sus trabajadores. La empresa decide enviar a quince de sus trabajadores elegidos al azar de toda la plantilla. Para comprobar si el curso es beneficioso, se controla el tiempo que tardaban estos trabajadores en realizar un trabajo antes de realizar el curso y despus de realizar el curso. Los resultados se reflejan en la tabla adjunta.

Trabajador12345678

Antes235120210220191215221204

Despus174204200200184186186153

Trabajador9101112131415

Antes18216233210221230120

Despus165180163180163155180

Datos del problema [ASCII] [spss-10] [sgplus-5] Puede afirmarse que la realizacin del curso mejora el rendimiento del trabajo? Se ha diseado bien el experimento?

Problema 1.8. En cincuenta das lectivos consecutivos y a la misma hora se ha observado el nmero de terminales de una universidad conectados a internet. Los resultados son los de la tabla adjunta

1027102313699501436957634

8218829429049841067570

106313071212104510471178633

5015651039100012271118843

69682010929349681191996

108993656810561006749812

10961183140912001197985848

1281

Datos del problema [ASCII] [spss-10] [sgplus-5] En base a estos datos,1. Hacer un estudio descriptivo de la muestra.

2. Calcular intervalos de confianza al 90% y 95% para el nmero medio de terminales conectados a internet.

3. Calcular intervalos de confianza al 90% y 95% para la varianza del nmero de terminales conectados a internet.

4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 90% para el nmero medio de terminales conectados a internet tenga una longitud inferior a 30 unidades? Y, si el intervalo de confianza fuese al 95%?Problema 1.9.

Se ha realizado un estudio para investigar el efecto del ejercicio fsico en el nivel de colesterol en suero. Veinte individuos tomaron parte en el estudio, de los que se tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto. Despus los individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en realizar carreras y marchas. Al final del perodo de ejercicios, se tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos obtenidos son los de la tabla adjunta. Puede afirmarse que el ejercicio fsico disminuye el nivel de colesterol en suero?

Sujeto 11234567

Nivel previo (x), mg/dl 182232191200148249276

Nivel posterior (y), mg/dl198210194220138220249

Sujeto 891011121314

Nivel previo (x), mg/dl 213241480262242185205

Nivel posterior (y), mg/dl161210313270235164207

Sujeto 151617181920

Nivel previo (x), mg/dl 175217236243252375

Nivel posterior (y), mg/dl156200219201232335

Datos del problema [ASCII] [spss-10] [sgplus-5]Problema 1.10. Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga electiva. La operacin elegida es la histerectoma abdominal electiva. Y la variable de inters es X=el nmero de unidades sanguneas contrastadas transversalmente inmediatamente disponibles. El objetivo del estudio es comparar el nmero medio de unidades disponibles en 1.990 con el nmero medio de unidades disponibles en la actualidad. Los estadsticos bsicos de la muestra del estudio son los de la tabla adjunta y los datos muestrales se encuentran en el fichero Problema-1-10. En base a este estudio Hay evidencia de que se produzca un descenso del nmero medio de unidades disponibles desde 1.990 hasta la actualidad?

En 1.990 Actualidad

nP = 120nA = 137

P = 2.67 unid.A = 2.21 unid.

P = 0.69A = 0.87

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 1.11. Se pens que un programa de ejercicios regulares moderadamente activos podra beneficiar a los pacientes que haban sufrido un infarto de miocardio. Catorce individuos participaron en un estudio para comprobar este argumento. Antes de que empezar el programa, se determino la capacidad de trabajo de cada persona midiendo el tiempo que se tom para alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar. Despus de 25 semanas de ejercicio controlado, se repitieron las medidas en la rueda de andar y se registr la diferencia en tiempo para cada sujeto. Los datos obtenidos son los de la tabla adjunta. Sostienen estos datos los argumentos de los investigadores?

Sujeto 1234567

Antes (x), en sgs 7.69.98.69.58.49.26.4

Despus (y), en sgs.14.714.111.816.114.714.113.2

Sujeto 891011121314

Antes (x), en sgs 9.98.710.38.38.88.29.3

Despus (y), en sgs.12.713.512.113.411.515.211.9

Datos del problema [ASCII] [spss-10] [sgplus-5]Un estudio ms detallado de los conceptos y tcnicas estadsticas introducidos en este captulo puede verse en el texto de Cao, R. y otros (2001) u otro texto de Estadstica General Bsica.

Prctica 1.2. Modelos de probabilidad.Objetivo: Con la ayuda del paquete estadstico se revisan los principales modelos de distribucin, su funcin de probabilidad o de densidad y su funcin de distribucin, as como la generacin de muestras aleatorias.

Desarrollo:

En el apartado de Statgraphics

describe>distributions>probability distributionsse pueden estudiar las 24 funciones de distribucin ms utilizadas.

El apartado ofrece las siguientes posibilidades: Trabajar con cinco modelos de probabilidad del mismo tipo.

Calcular la funcin de distribucin de los modelos seleccionados.

Calcular la inversa de la funcin de distribucin de los modelos seleccionados. (Estos dos ltimos apartados constituyen las tablas estadsticas de funciones de distribucin).

Permite calcular muestras aleatorias de los modelos seleccionados sin necesidad de utilizar comandos.

Permite obtener las grficas de la funcin de densidad, funcin de distribucin y funcin razn de fallo, entre otras, de los modelos seleccionados.

En este texto se utilizarn bsicamente los siguientes modelos de probabilidad relacionados con las tcnicas clsicas de Inferencia Estadstica: Normal, chi-cuadrado, t de Student y F de Fisher. Es conveniente tener un conocimiento bsico de estas distribuciones.

Para ello, utilizando este apartado,

1. Dibujar en un mismo grfico las funciones de densidad de una N(0,12), N(0,1'52), N(0,0'82) y , N(2,12).

2. Dibujar en un mismo grfico las funciones de densidad de una chi-cuadrado: 1, 5,10, y 30.

3. Dibujar en un mismo grfico las funciones de densidad de una t: t1, t5, t10, y t30.

4. Dibujar en un mismo grfico las funciones de densidad de una F: F20,20, F50,50, F100,100, F80,4 y F4,80.

Qu conclusiones se deducen de estos grficos?

5. Para algunos de los modelo anteriores calcular F(-2), F(0) y F(1'5), siendo F la funcin de distribucin.

6. Para algunos de los modelo anteriores calcular F-1(0'05), F-1(0'90) y F-1(0'95), siendo F-1 la inversa de la funcin de distribucin.Prctica 1.3. Test de hiptesis e intervalos de confianza de una y dos muestras.Objetivo: A partir de una muestra de una poblacin calcular intervalos de confianza de la media y de la desviacin tpica de la poblacin, bajo la hiptesis de normalidad o no. A partir de dos muestras (pareadas o no) calcular intervalos de confianza de la diferencia de medias y del cociente de varianzas.

Desarrollo:

Considrese la variable PRICE del fichero de datos coches:

1. Calcular intervalos de confianza al 90% para la media y la desviacin tpica de esta variable. Utilizar el anlisis

describe >numeric data >one-variable analysis

En este anlisis se proporcionan dos tipos de intervalos de confianza: el primero bajo la hiptesis de normalidad de las observaciones y el segundo se basa en tcnicas de remuestreo (bootstrap).

2. Contrastar la hiptesis estadstica H0 : E(PRICE) = 4.500, frente a diferentes alternativas. Trabajar con un nivel de significacin = 0'10.

Se puede utilizar el anlisis anterior que proporciona tres contrastes: el primero acerca de la media de la poblacin bajo la hiptesis de normalidad y dos no paramtricos basados en los rangos acerca de la mediana. Los test basados en rangos son menos potentes pero son menos sensibles a la presencia de datos atpicos (outliers).

3. La curva de potencia del test sobre la media de una poblacin normal se puede estudiar en el siguiente anlisis de Statgraphics:

describe >hypothesis tests

En este mismo apartado tambin se puede estudiar la funcin de potencia de otros contrastes (sobre la desviacin tpica de una normal, la proporcin de una binomial o la razn de una de Poisson).

4. Se est interesado en comparar los precios de los coches de USA (origin=1) y japoneses (origin=3). En particular se desea: Calcular un intervalo de confianza al 90% para el cociente de varianzas.

Calcular un intervalo de confianza al 90% para la diferecia de medias.

Contrastar la hiptesis de que los precios medios de los coches de ambas poblaciones son iguales.

5. Estos estudios pueden hacerse en

6. compare>two samples>two-sample comparison

7. En este caso poner datos y cdigos en columnas, data=price, code=origin, select=origin2.

8. Analizar los diferentes resultados sobre la comparacin de dos muestras que proporciona este completo anlisis del programa.

9. La curva de potencia del test sobre la diferencia de medias de dos poblaciones puede estudiarse en

compare>two samples>hypothesis testsPrctica 1.4. Problemas de intervalos de confianza y test de hiptesis.Problema 1.1.

Se ha observado una muestra de 41 datos del tiempo de respuesta de un sistema informtico a las doce horas de un da laborable. Obtenindose los datos de la tabla adjunta,

22'5622'3324'5823'1419'0326'7618'33

23'1021'539'0616'7523'2922'1416'28

18'8927'4810'4426'8627'2718'7419'88

15'7630'7721'1624'2622'9027'1418'02

21'5324'9919'8111'8824'0122'1121'91

14'3511'149'9320'2217'7319'05

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a esta muestra, calcular:

1. Intervalos de confianza al 90% y 95% del tiempo medio de respuesta.

2. Es razonable mantener la hiptesis de que la varianza del tiempo de respuesta es 25 con un nivel de significacin del 5%?

3. Resolver el contraste H0: = 20 frente H1: > 20 en base al nivel crtico.Problema 1.2.

Una empresa de software est investigando la utilidad de dos lenguajes diferentes para mejorar la rapidez de programacin. A doce programadores, familiarizados con ambos lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, y se anota el tiempo que tardan, produciendo los siguientes datos en minutos:

Lenguaje 1171621141824161421231318

Lenguaje 2181419112321101319241520

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos, calcular:

1. Un intervalo de confianza al 95% para la diferencia de medias en el tiempo de programacin.

2. Puede considerarse que uno de los dos lenguajes es preferible al otro?

3. Para responder a la pregunta anterior est bien diseado el experimento? Considerar alguna alternativa.Problema 1.3. Un profesor realiz el siguiente experimento, le pregunt a 44 alumnos que calculasen de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas:

Grupo1

8910101010101011

111111121213131314

141415151515151515

151616161717171718

1820222527353840

A otro grupo de 69 alumnos les hizo la misma pregunta pero ahora les pidi la respuesta en pies (3'28 pies = 1 metro). Ahora, las respuestas fueron:

Grupo2

242527303030303030

323233343434353536

363637374040404040

404040404141424242

424343444444454545

454545464647484850

505051545454555560

Datos del problema [ASCII] [spss-10] [sgplus-5]El ancho del aula era de 13'1 metros (43'0 pies). En base a estos datos,

1. Hacer un estudio descriptivo de estas dos muestras.

2. Calcular intervalos de confianza al 95% para la media y la varianza de la primera muestra.

3. Calcular intervalos de confianza al 95% para la diferencia de medias y el cociente de varianzas de las dos muestras.

4. Puede afirmarse que el error en la aproximacin es igual si se hace en metros que en pies?Problema 1.4.

Una empresa constructora est interesada en estudiar la tensin de ruptura de las barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona de forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de ruptura. Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de la tabla adjunta

2244214722402342195123452001

1800199520332208169920372087

2185179220332112200124902132

2070191720152150196020861824

1869227818461950202716991972

2073228218891897232219641809

2009241217462304201520351974

2191

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos,

1. Hacer un estudio descriptivo de la muestra.

2. Calcular intervalos de confianza al 95% y 99% para la media de la tensin de ruptura de las barras de acero.

3. Calcular intervalos de confianza al 95% y 99% para la varianza de la tensin de ruptura de las barras de acero.

4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 95% para la media de la tensin de ruptura de las barras de acero con una longitud inferior a 50 unidades? Y, si el intervalo de confianza fuese al 99%?Problemas propuestos.Problema 1.5. El gobierno francs est interesado en analizar los datos obtenidos en experimentos atmicos. En particular est interesado en el estudio de la potencia desarrollada por una determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas, realizadas entre Marzo de 1994 y Enero de 1996, son los siguientes (en kilotones): 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.

1. Calcular intervalos de confianza al 90, 95 y 99% para la media de la potencia.

2. Calcular tres intervalos de confianza distintos al 95% para la varianza de la potencia.

3. Contrastar la hiptesis de que la media de la potencia es 750.

4. Dibujar la curva de potencia de este contraste.

5. Qu hiptesis se han supuesto en el desarrollo de este problema.Datos d el problema [ASCII] [spss-10] [sgplus-5]Problema 1.6. El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es importante determinar los niveles que esperamos en los diferentes grupos de edad y sexo. Para comparar el nivel de colesterol en varones de entre 20 y 29 aos de edad frente a mujeres del mismo grupo de edad se realiz un estudio cuyos estadsticos bsicos son los de la tabla adjunta y los datos del experimento se encuentran en el fichero Problema-1-6.

Hombres Mujeres

nH = 96nM = 85

H = 170.81 mg/dlM = 181.08 mg/dl

H = 30.55 mg/dlM = 30.79 mg/dl

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos:

1. Hacer un estudio descriptivo de la muestra de hombres y de la muestra de mujeres. Conclusiones.

2. Calcular intervalos de confianza al 90, 95 y 99% para la diferencia de medias del nivel de colesterol entre hombres y mujeres.

3. Calcular un intervalo de confianza al 90% para el cociente de varianzas del nivel de colesterol entre hombres y mujeres.

4. Puede suponerse que el nivel de colesterol en los hombres es igual al de las mujeres?Problema 1.7.

A una empresa le ofrecen impartir un curso de capacitacin para aumentar el rendimiento de sus trabajadores. La empresa decide enviar a quince de sus trabajadores elegidos al azar de toda la plantilla. Para comprobar si el curso es beneficioso, se controla el tiempo que tardaban estos trabajadores en realizar un trabajo antes de realizar el curso y despus de realizar el curso. Los resultados se reflejan en la tabla adjunta.

Trabajador1 2 3 4 5 6 7 8

Antes 23'512'021'022'019'121'522'120'4

Despus 17'420'420'020'018'418'618'615'3

Trabajador9 10 11 12 13 14 15

Antes 18'321'623'321'022'123'012'0

Despus 16'518'016'318'012'815'518'0

Datos del problema [ASCII] [spss-10] [sgplus-5] Puede afirmarse que la realizacin del curso mejora el rendimiento del trabajo? Se ha diseado bien el experimento?

Problema 1.8. En cincuenta das lectivos consecutivos y a la misma hora se ha observado el nmero de terminales de una universidad conectados a internet. Los resultados son los de la tabla adjunta

1027102313699501436957634

8218829429049841067570

106313071212104510471178633

5015651039100012271118843

69682010929349681191996

108993656810561006749812

10961183140912001197985848

1281

Datos del problema [ASCII] [spss-10] [sgplus-5] En base a estos datos,1. Hacer un estudio descriptivo de la muestra.

Sujeto 1234567

Nivel previo (x), mg/dl 182232191200148249276

Nivel posterior (y), mg/dl198210194220138220249

Sujeto 891011121314

Nivel previo (x), mg/dl 213241480262242185205

Nivel posterior (y), mg/dl161210313270235164207

Sujeto 151617181920

Nivel previo (x), mg/dl 175217236243252375

Nivel posterior (y), mg/dl156200219201232335

2. Calcular intervalos de confianza al 90% y 95% para el nmero medio de terminales conectados a internet.

3. Calcular intervalos de confianza al 90% y 95% para la varianza del nmero de terminales conectados a internet.

4. Qu tamao muestral es necesario para obtener el intervalo de confianza al 90% para el nmero medio de terminales conectados a internet tenga una longitud inferior a 30 unidades? Y, si el intervalo de confianza fuese al 95%?Problema 1.9.

Se ha realizado un estudio para investigar el efecto del ejercicio fsico en el nivel de colesterol en suero. Veinte individuos tomaron parte en el estudio, de los que se tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto. Despus los individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en realizar carreras y marchas. Al final del perodo de ejercicios, se tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos obtenidos son los de la tabla adjunta. Puede afirmarse que el ejercicio fsico disminuye el nivel de colesterol en suero?

Datos del problema [ASCII] [spss-10] [sgplus-5]Problema 1.10. Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga electiva. La operacin elegida es la histerectoma abdominal electiva. Y la variable de inters es X=el nmero de unidades sanguneas contrastadas transversalmente inmediatamente disponibles. El objetivo del estudio es comparar el nmero medio de unidades disponibles en 1.990 con el nmero medio de unidades disponibles en la actualidad. Los estadsticos bsicos de la muestra del estudio son los de la tabla adjunta y los datos muestrales se encuentran en el fichero Problema-1-10. En base a este estudio Hay evidencia de que se produzca un descenso del nmero medio de unidades disponibles desde 1.990 hasta la actualidad?

En 1.990 Actualidad

nP = 120nA = 137

P = 2.67 unid.A = 2.21 unid.

P = 0.69A = 0.87

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 1.11.

Sujeto 1234567

Antes (x), en sgs 7.69.98.69.58.49.26.4

Despus (y), en sgs.14.714.111.816.114.714.113.2

Sujeto 891011121314

Antes (x), en sgs 9.98.710.38.38.88.29.3

Despus (y), en sgs.12.713.512.113.411.515.211.9

Se pens que un programa de ejercicios regulares moderadamente activos podra beneficiar a los pacientes que haban sufrido un infarto de miocardio. Catorce individuos participaron en un estudio para comprobar este argumento. Antes de que empezar el programa, se determino la capacidad de trabajo de cada persona midiendo el tiempo que se tom para alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar. Despus de 25 semanas de ejercicio controlado, se repitieron las medidas en la rueda de andar y se registr la diferencia en tiempo para cada sujeto. Los datos obtenidos son los de la tabla adjunta. Sostienen estos datos los argumentos de los investigadores?

Datos del problema [ASCII] [spss-10] [sgplus-5]Un estudio ms detallado de los conceptos y tcnicas estadsticas introducidos en este captulo puede verse en el texto de Cao, R. y otros (2001) u otro texto de Estadstica General Bsica.

Prctica 2. Diseo de experimentos con un factor.Prctica 2.1. Problemas de diseo de experimentos con un factor.Prctica 2.2. Contrastes de hiptesis no paramtricas.Prctica 2.3. Problemas resueltos de diseo de experimentos con un factor.Prctica 2.4. Problemas propuestos de diseo de experimentos con un factor.Prctica 2.1. Problemas de diseo de experimentos con un factor.Problema 2.1. Una fbrica de herramientas desea comprobar si la resistencia de unas piezas mecnicas que le proporcionan cuatro suministradores diferentes depende del suministrador. Para ello recoge una muestra aleatoria de cada suministrador y somete a cada una de las piezas elegida a una prueba de resistencia consistente en observar el nmero de veces que cada pieza soporta una presin hasta estropearse. Los resultados del experimento son los de la tabla adjunta:

SuministradorSumin. ASumin. BSumin. CSumin. D

Resistencia 205242 242212 237242 212233

229225 253224 259234 244224

238209 226247 265235 229245

214204 219242 229250 272215

251220 218220 255240

262240

Desarrollo del Problema 2.1.

Se siguen los siguientes pasos, utilizando el Statgraphics.

1. Crear un fichero con los datos del problema. El fichero tendr cuatro variables con los datos de cada suministrador, una variable con todos los datos de la variable respuesta (resistencia) y la variable del factor (suministrador).

2. Hacer un estudio descriptivo analtico y grfico de la variable resistencia segn el factor resistencia. Utilizar el anlisis

describe >numeric data >subset analysis.

Obtener conclusiones de los estadsticos bsicos de cada grupo y de la tabla de medias. Observar con atencin los siguientes grficos: grfico de puntos de la variable respuesta frente al factor, grfico de medias de los grupos, grfico de las desviaciones tpicas de los grupos y el grfico de cajas mltiple.

3. Para estudiar la influencia del factor se construye la tabla ANOVA segn el anlisis

compare >analysis of variance >one-way anova

Este mdulo permite realizar un estudio completo del problema, ya que se pueden hacer los siguientes anlisis: Hacer un estudio descriptivo anlogo al del apartado anterior.

Construir la tabla ANOVA y contrastar la influencia del factor.

Calcular intervalos de confianza para las medias de grupos.

Hacer contrastes mltiples por diferentes mtodos.

Contrastar la hiptesis de homocedasticidad.

Hacer el contraste no paramtrico de Krustal-Wallis sobre la influencia del factor.

Hacer grficos descriptivos anlogos a los del apartado anterior.

Hacer diferentes grficos de residuos para contrastar las hiptesis bsicas.

4. Para continuar el estudio de este problema se guardan los residuos en una variable (tambin se pueden calcular los residuos estandarizados).

5. Hacer un anlisis detallado acerca del cumplimiento de las hiptesis bsicas:

Hiptesis de normalidad: el siguiente anlisis

describe >distribution >distribution fitting

proporciona diferentes contrastes de normalidad y grficos que ayudan a estudiar la hiptesis de normalidad (grfico de simetra, histograma, emprica y densidad terica, grfico Q-Q). El grfico de normalidad descrito en este captulo se obtiene en

plot >exploratory plot >normal probability plot.

6. Hiptesis de homocedasticidad: el one-way anova proporciona diferentes contrastes de homocedasticidad (Cochran, Bartlett, Hartley y Levene) y grficos, pero trabajando con la variable de residuos se puede hacer el contraste de Romero-Znica (tabla ANOVA con la variable residuos al cuadrado) y el grfico de cajas mltiple de los residuos frente al factor.

7. Detectar datos atpicos: en el siguiente comando

describe >numeric data >outlier identification

se presentan diferentes mtodos numricos y grficos para detectar datos atpicos entre los residuos.

8. Hiptesis de independencia: tratando la variable de residuos como una serie de tiempo se puede estudiar la independencia de la misma en el siguiente anlisis:

special >time-series analysis >descriptive methods

donde se obtiene la funcin de autocorrelacin, los contrastes de rachas y el contraste de Box-Pierce (Box-Ljung), tambin se presentan las grficas de residuos frente al ndice y el correlograma.

Si se considera que los residuos tienen mucha variabilidad se pueden suavizar por mltiples mtodos en

special >time-series analysis >smoothing.Problema 2.2. El fichero coches contiene datos de una muestra de 155 coches. En base a esta muestra, estudiar:

1. La influencia del origen de los coches (origin) en la variable de inters inversa del consumo (mpg: millas por galn).

2. La influencia del ao de fabricacin (year) en la variable de inters aceleracin de los coches (accel).

3. La influencia del ao de fabricacin (year) en el precio de los coches (price).Datos del problema [ASCII] [spss-10] [sgplus-5]Prctica 2.2. Contrastes de hiptesis no paramtricas.Problema 2.3. Durante la segunda guerra mundial se dividi el mapa de Londres en cuadrculas de 1/4 Km2 y se cont el nmero de bombas cadas en cada cuadrcula durante un bombardeo alemn. Los resultados obtenidos fueron los siguientes:

xi : impactos en la cuadrcula0 1 2 3 45

oi : frecuencia observada 229211933571

A partir de estos datos se puede deducir si el bomardeo se haca de una forma aleatoria o se persegua un determinado objetivo militar Solucin al Problema 2.3.

En la Figura 4.25 se presenta el histograma de los datos y se observa que el ajuste de una normal no parece adecuado.

Figura 4.25. Histograma y ajuste de una normal a los datos.Del contexto de los datos y del histograma parece razonable ajustar una distribucin de Poisson. Para ello se necesita estimar el parmetro = = =

= = 0'929

Se calculan las probabilidades tericas

Lo que permite calcular la siguiente tabla del contraste chi cuadrado

xipiEi = pi . 576Oi

00'395227'522290'01

10'3672112110'00

20'17098930'26

30'05330350'83

40'012770'00

50'0031'710'29

Q = 1'39

Bajo la hiptesis nula, Q sigue una distribucin con 6-1-1 grados de libertad, de donde

Se acepta la hiptesis de que la distribucin de la variable en estudio es de Poisson.

En la Figura 5.26. se representa la distribucin ajustada.

Figura 4.26. Histograma y distribucin de Poisson ajustado.Problema 2.4. Se ha observado el tiempo de funcionamiento de diez impresoras de un determinado modelo antes de tener la primera avera, los datos se han tomado con unidad cien horas de funcionamiento. Los resultados son los de la tabla adjunta, una vez ordenada la muestra de menor a mayor:

1'692'993'033'684'707'329'7215'8716'1618'39

En base a estos datos ajustar una distribucin utilizando el contraste de Kolmogorov-Smirnov. Solucin al Problema 2.4:

Por el contexto del problema se supone que las observaciones siguen una distribucin exponencial. La funcin de densidad es

y, la funcin de distribucin es

Se necesita estimar el parmetro = . De donde,

Se calcula la tabla del contraste K-S:

xiFFnFnD

1'690'1830'000'100'183

2'990'3010'100'200'201*

3'030'3040'200'300'104

3'680'3560'300'400'056

4'700'4300'400'500'070

7'320'5840'500'600'084

9'720'6880'600'700'088

15'870'8500'700'800'150

16'160'8550'800'900'055

18'390'8890'901'000'111

KS = 0'201

Consultando en la tabla KS se observa que a un valor KS = 0'201 le corresponde un p - valor = 0'81, y se acepta la hiptesis de que las observaciones siguen una distribucin exponencial. Problema 2.5. El ordenador DEC-20 era utilizado en las universidades americanas en la dcada de los ochenta. Los datos de la tabla adjunta indican el nmero de averas que tena uno de estos ordenadores en 128 semanas consecutivas de funcionamiento. Se puede ajustar a estos datos una distribucin de Poisson? En caso negativo proponer una distribucin alternativa.

4000320067

62111612112

02210128450

54108252112

891017234812

5122312021

633610114302

421533253

1364452104

569731302

1421302110

16225124786

304784454

12311

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 2.6. Los datos de la tabla adjunta indican los tiempos, en segundos, que tarda en realizar una operacin un cajero automtico de una entidad bancaria.

17'318'420'916'818'720'517'920'418'320'5

19'017'518'117'118'820'019'119'117'918'3

18'218'919'418'919'420'817'318'518'319'4

19'019'020'519'718'517'719'418'319'621'4

19'020'520'419'718'619'918'319'819'619'0

20'417'316'119'219'618'819'319'121'018'6

18'318'318'720'618'516'417'217'518'019'5

19'918'418'820'120'018'517'518'517'917'4

18'718'617'318'817'819'019'619'318'118'5

20'919'818'117'119'820'617'619'119'518'4

17'720'219'918'616'619'220'017'417'118'3

19'118'519'618'019'417'119'916'318'920'7

19'718'518'418'719'316'316'918'218'519'3

18'118'019'520'320'117'219'518'819'217'7

Datos del problema [ASCII] [spss-10] [sgplus-5] 1. Hacer un estudio descriptivo de estos datos.

2. Puede suponerse que estos datos siguen una distribucin normal?

3. Los datos de la muestra han sido recogidos de forma consecutiva durante un da, puede suponerse que son independientes? .Problema 2.7. En la tabla adjunta se presentan los datos del tiempo transcurrido, en das, entre dos terremotes ocurridos en algn lugar. Se consideran los terremotos con una magnitud superior a 7'5 grados en la escala Richter o en el que murieron ms de 1.000 personas. Los datos se recogan entre el 16 de Diciembre de 1902 y el 4 de Marzo de 1977. En base a estos datos, los terremotos ocurren de forma aleatoria?, el tiempo entre dos terremotos se puede ajustar por una distribucin exponencial?

84015714514433121150280434

7365848872631901695294562721

767104640219475931946040

13363351354454366674055699

30437556713978020343630384

1299209599838323282461617

638937735383659282220

Datos del problema [ASCII] [spss-10] [sgplus-5] Prctica 2.3. Problemas resueltos de diseo de experimentos con un factor.Problema 2.8. (Diseo de experimentos con un factor fijo)

Un campus universitario tiene cuatro facultades. Se quiere estudiar la variable tiempo que tarda un alumno en hacer una consulta en la base de datos de la biblioteca de su facultad. Para ello se ha recogido una muestra aleatoria cuyos resultados son los de la tabla adjunta. Analizar estos datos y estudiar la influencia del factor facultad en la variable de inters.

Arquitectura I. Informtica Derecho I. Caminos

48 37 24 18 37 43 19 13

31 29 16 6 40 40 26 21

31 24 22 24 51 35 31 26

36 38 10 30 49 33 13 24

39 41 25 24 36 39 12 12

11 15 24 55 16 21

35 40 30

26

Datos del problema [ASCII] [spss-10] [sgplus-5]

Solucin al Problema 2.8.

Se calcula la media y desviacin tpica de cada una de las facultades y del total:

Y = = 11'654 (cuasi-desviacin tpica muestral)

sY = = 11'537 (desviacin tpica muestral)

Por tanto, la suma de cuadrados global es:

Razonando igual en cada grupo, se obtiene

El contraste de inters es el siguiente:

A la vista de los resultados del cuadro anterior se puede intuir que se va a rechazar la hiptesis nula y que por tanto el factor facultad influye en la variable de inters.

Se calcula la tabla ANOVA. Para ello, se tiene en cuenta que las predicciones coinciden con las medias condicionadas:

Se calcula la suma de cuadrados explicada por el factor

scT(facultad)= i = 14 = i = 14ni2 =

= 102 + 122 +

+ 152 + 132 = 4101'33

Finalmente, se obtiene la suma de cuadrados residual

La tabla ANOVA es

Se rechaza la hiptesis nula para cualquier valor de > 0'0001 y se concluye que el factor facultad es significativo.

La scR se calcula a partir de los residuos

scR= ijeij2 = ij2 =

= 2 + ... + 2 + 2 + ... + 2 +

2 + ... + 2 + 2 + ... + 2

= 2553'47

Se calculan intervalos de confianza al 90% para los diferentes parmetros del modelo:

Intervalo de confianza para la varianza: 2

= 46

31'44 = 46 < < 46 = 62'83

40'64 = < 2 < = 81'22

Intervalo de confianza para

Intervalo de confianza para i

tn-I

INCLUDEPICTURE "http://www.udc.es/dep/mate/estadistica2/images/indice2075x.gif" \* MERGEFORMATINET = t46

- 1'68 = t 46 < < t46 = 1'68

1 35'4 2'36 . 1'68 = 35'4 3'96 = .

De forma anloga se obtienen intervalos de confianza para las otras medias, IC = IC = IC = .

Intervalo de confianza para la diferencia de medias. Se hace para 1 - 2

tn-I

INCLUDEPICTURE "http://www.udc.es/dep/mate/estadistica2/images/indice2091x.gif" \* MERGEFORMATINET =

= = t46

- 1'68 = t 46 < < t46 = 1'68

16'65 3'19 . 1'68 = 16'65 5'36 = .

Puede considerarse que existe una diferencia significativa entre la media de Arquitectura y la media de Informtica. Haciendo todos los intervalos de confianza para la diferencias de medias se obtienen dos grupos homogneos:

Grupo 1: Informtica y Caminos

Grupo 2: Arquitectura y Derecho.

En las siguientes figuras se representan grficas que ayudan a entender la influencia del factor y que los residuos verifican las hiptesis estructurales.

Figura 4.27. Grfico de cajas mltiple para los datos del problema 2.8.

Figura 4.28. Grfico de medias condicionadas para los datos del problema 2.8.

Figura 4.29. Grfico de residuos frente a predicciones.Problema 2.9. (Diseo de experimentos con un factor aleatorio).

En una empresa de montaje trabajan 135 operarios que realizan un determinado trabajo (T). La direccin de la empresa est interesada en conocer si influye el factor operario en la variable tiempo de realizacin del trabajo T. Para ello se eligen cinco operarios al azar y se les controla el tiempo en minutos que tardan en realizar el trabajo T en diez ocasiones.

Los resultados del experimento son los de la tabla adjunta. Qu conclusiones se deducen de este experimento?

Oper.1.Oper.2.Oper.3.Oper. 4.Oper.5.

7275786965

7570796560

7177846163

6973727568

6779837070

7177776864

7572806762

7378836364

6973717669

6569857262

Datos del problema [ASCII] [spss-10] [sgplus-5] Solucin al Problema 2.9.

En este caso el diseo de experimentos tiene un factor, pero el factor es aleatorio.

Se calculan las medias y cuasi-desviaciones tpicas en cada grupo (operador)

De donde

En este caso el modelo matemtico es

Siendo el objetivo la realizacin del contraste:

Teniendo en cuenta que las predicciones son las siguientes:

Se calcula la suma de cuadrados explicada por el factor

scT(operador)= i = 15 = i = 14ni2 =

= 10

= 1224'2.

Finalmente, se obtiene la

La tabla ANOVA es

Se rechaza la hiptesis nula para cualquier valor de > 0'0001 y se concluye que el factor operador es significativo, esto es, hay variabilidad entre los diferentes operadores.

Se estiman las varianzas del modelo: R2

Al igual que en el problema anterior las siguientes grficas ayudan a comprender e interpretar la resolucin del problema.

Figura 4.30. Grfico de cajas mltiple para los datos del problema 2.9.

Figura 4.31. Grfico de medias condicionadas.

Figura 4.32. Grfico de residuos frente a predicciones para los datos del problema 2.9.Prctica 2.4. Problemas propuestos de diseo de experimentos con un factor.Problema 2.10. Se ha estudiado el contenido en plata (tanto por ciento de plata) de monedas de Bizancio descubiertas en Chipre. Nueve de las monedas eran de la Epoca I, en el reinado del Rey Manuel I (1143-1180), siete monedas eran de la Epoca II, cuatro de la Epoca III y siete de la Epoca IV. En base a estos datos existen diferencias significativas del contenido de plata en las monedas segn las diferentes pocas?. En particular, hay una diferencia significativa del contenido en plata de las monedas del reinado del Rey Manuel I con las otras pocas?

Epoca I 5'96'86'47'06'67'77'26'96'2

Epoca II 6'99'06'68'19'39'28'6

Epoca III4'95'54'64'5

Epoca IV5'35'65'55'16'25'85'8

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 2.11. En la tabla adjunta se presentan los tiempos, en segundos, de coagulacin de la sangre extrada a 40 animales alimentados con cuatro dietas distintas (A, B, C, D). El muestreo se ha realizado de forma que las dietas se han asignado al azar y las muestras de sangre fueron extradas y analizadas en un orden aleatorio. Se pregunta hay evidencia suficiente que indique que existen diferencias reales entre los valores medios de los distintos tratamientos (dietas)?

Analizar cuidadosamente los residuos. En particular, se tienen dudas acerca de la hiptesis de normalidad y de la hiptesis de homocedasticidad

Dieta ADieta BDieta CDieta D

62'863'563'168768'068'556'263'7

60'361'267'362'966'270'262'459'9

63'971'069'871'865'360'358'0

59'264'864'567'164'561'562'2

60'865'568'763'860'2

64'166'568'664'463'3

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 2.12. Un departamento universitario desea contrastar si en los resultados de los alumnos en el aprendizaje de una determinada asignatura influye el profesor que la imparte. Para ello se eligen aleatoriamente muestras de alumnos de los cuatro profesores que imparten la asignatura: Juan, Luis, Pedro y Pablo, para que realizen un examen obteniendo los siguientes resultados, en una puntuacin de 0 a 80.

Juan 4026401436922404528

Luis 23526854315750376761

Pedro5745473048242417398

Pablo4824661453832273642

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 2.13. Se sabe que el dixido de carbono tiene un efecto crtico en el crecimiento biolgico. Cantidades pequeas de CO2 estimulan el crecimiento de muchos organismos, mientras que altas concentraciones inhiben el crecimiento de la mayor parte de ellos. Este ltimo efecto se utiliza comercialmente cuando se almacenan productos alimenticios perecederos. Se realiz un estudio para investigar el efecto de CO2 sobre la tasa de crecimiento del Pseudomonasfragi, un corruptor de alimentos. Se administr CO2 a cinco presiones atmosfricas diferentes. La respuesta anotada es el cambio porcentual en la masa celular despus de un tiempo de crecimiento de una hora. Se utilizaron diez cultivos en cada nivel, obtenindose los datos de la tabla adjunta. Qu conclusiones se deducen del estudio estadstico de estos datos?

Los resultados del experimento se presentan en la tabla adjunta.

Nivel del factor, presin en atmsferas de CO2

0'000 0'083 0'290 0'500 0'860

62'6 64'6 50'9 50'4 45'5 38'5 29'5 24'1 24'9 22'1

59'6 50'9 44'3 35'2 41'1 30'2 22'8 22'6 17'2 22'6

64'5 56'2 47'5 49'9 29'8 27'0 19'2 32'7 7'8 16'8

59'3 52'3 49'5 42'6 38'3 40'0 20'6 24'4 10'5 15'9

58'6 62'8 48'5 41'6 40'2 33'9 29'2 29'6 17'8 8'8

Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 2.14. Una empresa de enlatado decide comprar nuevas mquinas para lo que dispone de cuatro ofertas. Antes de elegir una decide realizar una prueba para saber si las cuatro mquinas ofertadas pueden producir la misma cantidad de unidades por hora. Para ello, observa la produccin de las cuatro mquinas y observa los resultados que se reflejan en la tabla adjunta. Qu conclusiones se deducen de este experimento?

maq. Amaq. Bmaq. Cmaq. D

89889794

84779279

81878785

87928984

79818088

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 2.15. Una cadena de supermercados desea determinar si los empleados de caja, que se supone tienen un mismo nivel de capacidad, tardan el mismo tiempo en atender a los clientes. Para ello, se han seleccionado cinco empleados al azar y se ha observado el tiempo que han tardado en atender a los clientes. Los resultados son los de la tabla adjunta,

Cajero.1.Cajero.2.Cajero.3.Cajero. 4.Cajero.5.

7'088'996'8811'877'088'889'609'558'285'90

7'888'089'568'736'075'2010'575'516'267'04

10'144'097'019'633'182'935'686'4612'669'82

11'155'5114'4112'406'356'135'466'739'3311'96

8'6711'139'5714'373'503'8610'328'968'047'76

12'7311'1211'907'0110'796'107'488'61

6'648'3512'475'50

5'084'14

Datos del problema [ASCII] [spss-10] [sgplus-5] En base a estos datos:

1. Escribir el modelo matemtico adecuado al problema. Cal es la hiptesis nula a contrastar?

2. Calcular la tabla ANOVA. Contrastes relacionados. Conclusiones.

3. Qu fraccin de la varianza en el tiempo se puede atribuir a diferencias entre los empleados?

4. Analizar los residuos del modelo.Problema 2.16. Los datos de la tabla adjunta indican la salinidad (partes por mil) de diferentes muestras tomadas en el lago Binimi (Bahamas) en tres zonas diferentes, elegidas de forma aleatoria entre toda la extensin del lago. En base a estos datos, podemos afirmar que la salinidad en el lago es constante?

Zona I Zona II Zona III

37'5437'3237'6340'1740'7939'0438'5338'51

37'0137'0136'7540'8040'4439'2138'7140'08

36'7137'0337'4539'7639'7939'0538'89

37'0337'7038'8539'7039'3838'2438'66

Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 2.17. Los datos de la tabla adjunta indican el peso de los depsitos de corcho de 28 rboles, en cada una de las cuatro direcciones: norte, sur, este y oeste. Se quiere contrastar la hiptesis de que las medias de los pesos son iguales en todas las direcciones.

1. Hacer un estudio descriptivo de cada una de las cuatro variables.

2. Calcular la tabla ANOVA. Conclusiones.

3. Anlisis de los residuos.

4. Calcular intervalos de confianza para las medias y para la diferencia de medias.

5. Se ha elegido la muestra de forma conveniente?. Proponer un muestreo alternativo.

6. Sera razonable utilizar un modelo de bloques? En caso afirmativo cmo se recogera la muestra? Con el nuevo modelo cambian las conclusiones?

Norte Este Sur Oeste Norte Este Sur Oeste

72 66 76 77 91 79 99 75

60 53 66 63 56 68 47 50

56 57 64 58 79 65 70 61

41 29 36 38 81 80 68 58

32 32 35 36 78 55 67 60

30 35 34 26 46 38 37 38

39 39 31 27 39 35 34 37

42 43 31 25 32 30 30 32

37 40 31 25 60 50 67 54

33 29 27 36 35 37 48 39

32 30 34 28 39 36 39 31

63 45 74 63 50 34 37 40

54 46 60 52 43 37 39 50

47 51 52 43 48 54 57 43

Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 2.18. Un ingeniero civil est interesado en determinar si cuatro mtodos diferentes para estimar la frecuencia de inundaciones producen estimaciones equivalentes del flujo mximo (medido en pies cbicos por segundo) cuando se aplican a una misma cuenca. Cada procedimiento se evalu seis veces en la misma cuenca y las observaciones son las de la tabla adjunta. Realizar el anlisis estadstico y comprobar la heterocedasticidad de los residuos. Qu transformacin es ms apropiada para conseguir varianza constante?.

Mtodo 10'340'121'230'701'750'12

Mtodo 20'912'942'142'362'864'55

Mtodo 36'318'379'756'099'827'24

Mtodo 417'1511'8210'9517'2014'3516'82

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 2.19. (Richard Davis de la Universidad de Ohio en 1987) Interesa determinar el efecto de cambiar el nmero de revoluciones por minuto (rpm) de una bomba rotatoria que impulsa un lquido por un circuito. Las rpm se controlan directamente mediante el tacmetro situado en la consola de la bomba. La tasa de corriente del fludo se mide en litros por minuto. Se seleccionan 5 niveles equiespaciados de rpm: 10, 75, 100, 125 y 150 rpm (codificados respectivamente del 1 al 5). Los datos estn en el fichero Problema-2-19.

Datos del problema [ASCII] [spss-10] [sgplus-5]

1. Realizar el anlisis de la varianza y testar la hiptesis el nmero de rpm no afecta a la tasa de corriente del lquido.

2. Conclusiones del estudio

3. Calcular un intervalo de confianza para la varianza al 90%.Problema 2.20.

En el archivo Problema-2-20 se presentan diferentes conjuntos de residuos obtenidos al ajustar un diseo de experimentos de un factor con cinco niveles (se tienen veinte observaciones en cada nivel). Analizar cada uno de estos conjuntos de residuos y estudiar si verifican las hiptesis estructurales del modelo ajustado.

Datos del problema [ASCII] [spss-10] [sgplus-5]

Prctica 3. Diseo de experimentos con dos o ms factores.Prctica 3.1. Problemas de diseo de experimentos con ms de un factor.Prctica 3.2. Problemas resueltos.Prctica 3.3. Problemas propuestos.Prctica 3.1. Problemas de diseo de experimentos con ms de un factor.Problema 3.1. Datos Apareados.

El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo en la reduccin del nmero de accidentes laborables y, por tanto, en la prdida de horas de trabajo debido a accidentes. Para ello, hace un seguimiento en 16 fbricas observando las horas de trabajo semanales prdidas a causa de accidentes, antes y despus de implantar el plan de seguridad. Los datos son los de la tabla adjunta.

Fbrica 12345678910111213141516

Antes 556390477590739211033447460874115

Despus52608549658767859535477055754518

Datos del problema [ASCII] [spss-10] [sgplus-5] Analizar estos datos y obtener conclusiones acerca del problema planteado.

Desarrollo del Problema 3.1.

Como se ha indicado en las secciones previas este problema puede resolverse de dos formas distintas pero equivalentes, este es, los dos mtodos llevan a las mismas conclusiones.

En primer lugar se supone que la variable bloque fbrica es influyente, entonces se considera la variable diferencia Y dif = Y antes -Y despus, y se contrasta la hiptesis de que la E = 0. Utilizando el Statgraphics se utiliza el siguiente anlisis

compare >two samples >paired sample comparisonEn este mdulo se introducen las variables Y antes e Y despus. El programa proporciona resultados analticos y grficos acerca de la variable diferencia Y dif . Utilizando el test de la t resuelve el contraste H0 : E = 0.

Utilizando los datos de la tabla podra resolverse este problema contrastando la hiptesis H0 : E = E, frente a la alternativa de que las medias son diferentes?

En el supuesto de que se quisiera resolver el problema de esta forma cmo se recogera la muestra?, los resultados obtenidos por ambos procedimientos son iguales?, cul de los dos procedimientos es mejor?

La resolucin de este problema tambin puede hacerse por medio de una tabla ANOVA. Para ello se siguen los siguientes pasos:

1. Con los datos del problema crear tres variables de 32 observaciones, una es la variable respuesta Y, otra el factor de inters con dos niveles (antes y despus), y la tercera es el factor bloque fbrica con 16 niveles.

2. Se utilizar el siguiente anlisis

describe >numeric data >multifactor anova,

sin interaccin (mximo orden de interaccin=1).

Este mdulo proporciona un amplio estudio analtico y grfico para responder al problema planteado.

Cmo son el p-valor del test de la t utilizado en la tcnica de datos apareados y el p-valor del test de la F utilizado en la tcnica de la tabla ANOVA?

Es influyente la variable bloque fbrica? En consecuencia es adecuada la recogida muestral para la resolucin del problema?

3. Finalmente se contrastan las hiptesis bsicas estructurales utilizando las tcnicas expuestas en el captulo anterior.Problema 3.2. (Diseo de experimentos en bloques completamente aleatorizados)

Se ha realizado un diseo de experimentos para estudiar la calidad de las soldaduras. El objetivo es determinar si existen diferencias entre las soldaduras segn el elemento de soldadura que se utilice de entre tres posibles: nquel, hierro o cobre. Como pueden existir muchas diferencias entre los elementos a soldar se ha utilizado un diseo de bloques completamente aleatorizados. Para ello, se han utilizado diez lingotes (bloques) y de cada uno de ellos se han soldado dos componentes utilizando los tres agentes de soldadura. Finalmente se mide la fuerza (expresada en 100 libras por pulgada cuadrada) necesaria para romper la soldadura. Los resultados obtenidos son los de la tabla adjunta. En base a estos datos estudiar la influencia de factor tipo de soldadura, cambian los resultados si no se tiene en cuenta el bloque lingote? .

B1 B2 B3 B4 B5 B6 B7 B8 B9 B10

Nquel76'066'368'974'773'072'780'083'661'262'6

Cobre 71'674'170'775'466'765'070'876'266'072'0

Hierro76'473'469'774'760'261'271'757'058'566'3

Datos del problema [ASCII] [spss-10] [sgplus-5] Desarrollo del Problema 3.2.

Se utiliza el siguiente anlisis

compare >two samples >multifactor anovaEn este mdulo al introducir como variable dependiente resistencia y los dos factores (el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completo anlisis de la varianza, que comprende: la tabla ANOVA que permite contrastar la influencia de los dos factores; la tabla de medias, que permite calcular la media de cada nivel de cada uno de los factores e intervalos de confianza para las mismas; el test de rangos mltiples, que permite obtener los grupos homogneos en ambos factores as como las diferencias significativas entre las medias de dos niveles de un factor, siendo posible utilizar diferentes mtodos (LSD, Scheff, Tuckey,.. ).

El estudio grfico que ofrece el paquete es bastante completo, el grfico de puntos y el de medias permiten contrastar graficmente las conclusiones obtenidas de la tabla ANOVA, los tres grficos de residuos permiten tener una idea acerca del cumplimiento de las hiptesis bsicas del modelo.

Indicando interacciones de orden 2 se obtienen grficos de interacciones que pueden dar una idea aproximada acerca de la posible existencia o no de interacciones, tambin se puede calcular el test de Tuckey sobre la no existencia de interaccin..

Es recomendable guardar los residuos y analizar con detalle si se verifican las hiptesis bsicas estructurales como se indico en el captulo anterior. El estudio de la heterocedasticidad debe hacerse en cada uno de los dos factores.

Qu ocurre si no se tiene en cuenta el factor-bloque?, para ello se debe repetir el estudio introduciendo solamente el factor tipo de soldadura, lo que puede hacerse en este mismo mdulo o en el

compare >two samples >one-way anovaProblema 3.3. (Diseo de experimentos de dos factores con interaccin).

Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores: la distribucin de los ficheros, que se estudia en tres variantes, codificadas como F1, F2 y F3. Y el nmero de buffers del sistema, que tambin se ha estudiado con tres niveles: 10, 20 o 30 buffers. Se ha hecho una prueba con cada una de las nueve combinaciones posibles. Cada una de las pruebas consisti en observar el sistema un da completo y calcular el tiempo de respuesta media al compilar un programa en lenguaje C en ese perodo de tiempo. Se ha replicado el experimento tres veces. Los resultados obtenidos se presentan en la tabla adjunta. En base a estos datos existe influencia de alguno de los dos factores en el tiempo de respuesta del sistema informtico?, existe interaccin entre ambos factores?

B10 B20 B30 B10 B20 B30 B10 B20 B30

F1 2.7 2.0 1.8 F2 2.9 2.7 2.2 F3 3.7 2.9 3.5

2.4 2.2 1.5 3.4 2.4 1.9 3.4 3.4 3.4

2.3 1.9 1.6 3.3 2.5 2.3 3.9 3.3 3.8

Datos del problema [ASCII] [spss-10] [sgplus-5]

Desarrollo del Problema 3.3.

El desarrollo de este problema es anlogo al anterior, se utiliza el anlisis

compare >two samples >multifactor anovaSe introduce como variable dependiente tiempo y los dos factores fichero y buffers. En un primer estudio conviene introducir el factor rplica que indica el orden en el que se repiti el experimento, y si ste se ha replicado correctamente la tabla ANOVA indicar que el factor rplica no influye. En este caso, se deshecha este factor y se repite el estudio considerando la posibilidad de interaccin entre los dos factores en estudio (interaccin de orden 2) y se obtienen conclusiones segn los resultados obtenidos. Se finaliza con el anlisis de residuos.

Problema 3.4. (Diseo de experimentos en cuadrado latino).

Se estudia la eficacia de cuatro frmacos diferentes (F1, F2, F3 y F4) en el tratamiento de una enfermedad, para ello, se observa el nmero de das que tardan en curar enfermos tratados con estos frmacos. Se considera que el factor edad y el factor peso pueden influir en el experimento, por ello, se controlan estos factores y se consideran cuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultados del experimento diseado segn la tcnica del cuadrado latino son los de la tabla adjunta. Qu conclusiones se deducen del experimento?

E1E2E3E4

P110 F19'5 F27 F411'5 F3

P28 F210 F18'5 F39 F4

P37 F36'5 F47 F18 F2

P46 F45 F36 F29 F1

Datos del problema [ASCII] [spss-10] [sgplus-5] Desarrollo del Problema 3.4.

Una dificultad del problema es la de introducir los datos de forma correcta en el fichero, una vez realizado sto, se utiliza el anlisis anterior, siendo la variable respuesta tiempo y los tres factores peso, edad y frmaco. Al calcular la tabla ANOVA si alguno de los factores no es significativo se elimina del modelo y se calcula la nueva tabla ANOVA.

Prctica 3.2. Problemas resueltos.Problema 3.5. (Diseo de experimentos con bloques completamente aleatorizado) Problema 3.6. (Diseo de experimentos con dos factores e interaccin) Problema 3.7. (Diseo de experimentos en cuadrado latino). Problema 3.5. (Diseo de experimentos con bloques completamente aleatorizado)

El servicio bibliotecario de una universidad est intresado en un programa para gestionar la localizacin de un libro en la base de datos. Le ofrecen cinco programas para tal fin: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de ordenadores y se desea saber si el tiempo de respuesta de los cinco programas ofertados es el mismo. Para ello se disea el siguiente experimento, se eligen diez libros al azar y se localizan utilizando los cinco programas y los cuatro tipos de ordenadores. Los tiempos medio de respuesta (en segundos) en cada caso son los de la tabla adjunta: .

Prog.1Prog.2Prog.3Prog.4Prog.5

Ord.11'31'60'51'21'1

Ord.22'22'40'42'01'8

Ord.31'81'70'61'51'3

Ord.43'94'42'04'13'4

Datos del problema [ASCII] [spss-10] [sgplus-5] Solucin al Problema 3.5.

Se calculan las medias condicionadas y se obtiene

Factor fila = Factor ordenador, i = 1,2,3,4.

Factor columna = Factor programa, j = 1,2,3,4,5.

Ahora se calculan las predicciones de cada casilla. Utilizando

se obtiene las predicciones

A partir de este cuadro se calculan los residuos eij = yij - ij

Observar que al sumar los residuos por filas o por columnas se obtiene cero en cada fila y en cada columna.

Se calculan las sumas de cuadrados:

scT= scT = 5 i = 14i2 =

= 5 = 18'044.

scT= scT = 4 j = 15 j2 =

4 = 6'693.

De donde

La variabilidad total es

scG= i = 14 j = 152 =

= 2 + 2 + ... + 2 + 2

= 25'688.

o bien

Si se resuelve este problema con calculadora, lo ms sencillo es calcular la scT y la scG. Finalmente, obtener la scR a partir de la diferencia de las dos anteriores.

La Tabla ANOVA que se obtiene

De esta tabla se deducen los siguientes contrastes:

Serechaza la hiptesis nula de no influencia del factor programa.

El segundo contraste es

Serechaza la hiptesis nula de no influencia del factor ordenador y, por tanto, ha sido conveniente bloquear.

Los coeficientes de determinacin de los factores son R2

Si no se tiene en cuenta el factor ordenador se obtiene la siguiente tabla ANOVA, que se deduce fcilmente de la anterior

El contraste

Seacepta la hiptesis nula de no influencia del factor programa, en contradiccin con lo obtenido anteriormente. Por ello, es fundamental controlar los factores influyentes en la variable respuesta.

Las siguientes grficas permiten examinar las hiptesis bsicas del modelo:

En la Figura 5.8. se observa el grfico de residuos frente a predicciones

Figura 5.8. Grfico de residuos.

Figura 5.9. Grfico de interaccin respecto a programa.

Figura 5. 10. Grfico de interaccin respecto a ordenador.En las figuras(5.9. y 5.10.) se presentan los grficos de interacciones y de ellos se deduce la no existencia de interaccin entre ambos factores.

Se calculan intervalos de confianza para los parmetros del modelo: Intervalo de confianza para la varianza, 2 :

utilizando nivel de confianza 0'90,

Intervalo de confianza para los efectos, por ejemplo, para 2

Al calcular grupos homogneos de los ordenadores se obtienen dos: O1 y O3 - O2 -O4. Esto se puede observar en el siguiente grfico de medias

Figura 5. 11. Grfico de medias de los ordenadores.

Intervalo de confianza para los efectos (programa), por ejemplo, para 3,

Al calcular grupos homogneos de los ordenadores se obtienen tres grupos: P3 - P4; P5 - P4 y P1 - P2. Esto se observa en el siguiente grfico de medias de los programas.

Figura 5. 12. Grfico de medias de los programas.

Problema 3.6. (Diseo de experimentos con dos factores e interaccin)

Una empresa dedicada a la fabricacin de bateras est interesada en disear una batera que sea relativamente insensible a la temperatura ambiente. Para ello decide probar con tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y la temperatura se disea el siguiente experimento: comprobar la duracin de las bateras en horas, fabricando bateras con los tres materiales y trabajando las bateras a tres niveles de temperatura: Baja, Media y Alta. El experimento se replicaba cuatro veces y los resultados obtenidos son los de la tabla adjunta:

Temperatura

MaterialBaja Media Alta

M1 13015574180

34408075

20708258

M2 150188159126

136122106115

25705845

M3 138110168160

174120150139

961048260

Datos del problema [ASCII] [spss-10] [sgplus-5] Analizar estos datos y estudiar la influencia de los factores material ytemperatura en elrendimiento de la batera. Conclusiones.

Solucin al Problema 3.6.

El modelo matemtico a ajustar es

donde i es el efecto del factor material, i = 1,2,3 I = 3

j es el efecto del factor temperatura, j = 1,2,3 J = 3

ij es el efecto de lainteraccin entre ambos factores.

Para estimar estos parmetros, se calcula en una primera tabla las medias de cada casilla y las medias de cada fila y cada columna

En base a estos resultados se calculan estimaciones de los parmetros

Ahora se obtienen las predicciones del modelo,

Los residuos son

Observar que la suma de residuos de cada casilla vale cero.

Se calculan las sumas de cuadrados y se obtiene

scT= scT + scT + scT

= 10.683'70 + 39.118'70 + 9.613'78 = 59.416'18.

scR= i = 13 j = 13 k = 14eijk = i = 13 j = 13 k = 142 =

= 18.230'7.

Los coeficientes de determinacin que se obtienen son

La Tabla ANOVA que se obtiene es

De esta tabla se deducen los siguientes contrastes:

Serechaza la hiptesis nula de no influencia del factor material. Hecho que se observa claramente en el grfico de medias del factormaterial,

Figura 5.13. Grfico de medias respecto a material.El segundo contraste es

Serechaza la hiptesis nula de no influencia del factor temperatura. Esto se observa en el grfico de medias del factortemperatura,

Figura 5.14. Grfico de medias respecto a la temperatura.El tercer contraste es

Serechaza la hiptesis nula de no influencia de la interaccin de los factores para niveles superiores a 002. Esto se puede observar en los grficos de interacciones.

Grfico de interacciones respecto al factor material

Figura 5.15. Grfico de interacciones respecto a material.Grfico de interacciones respecto al factor temperatura

Figura 5.16. Grfico de interacciones respecto a temperatura.Finalmente para analizar las hiptesis del modelo se presenta el grfico de residuos frente a predicciones

Figura 5.17. Grfico de residuos frente a predicciones.Problema 3.7. (Diseo de experimentos en cuadrado latino). Para estudiar el efecto de lailuminacin (A=natural, B=muy fuerte, C=escasa) en la velocidad de lectura se realiza un experimento que consiste en contar el nmero de palabras ledas en un minuto para distintos tipos de papel (b=blanco, c=en color, s=satinado) y diferente tipografa (g=letra grande, p=letra pequea, n=normal). Obtenindose los resultados expuestos en la siguiente tabla:

Tipo de papel

Letra satinadoblancocolor

grande 258 A 230 C240 B

normal 235 B 270 A240 C

pequea220 C 225 B260 A

Datos del problema [ASCII] [spss-10] [sgplus-5] Analizar estos datos y estudiar la posible influencia de los factoresiluminacin, tipos de papel y diferente tipografa en la variable de inters velocidad de lectura.

Solucin al Problema 3.7.

El modelo matemtico-estadstico a ajustar es

donde el factor fila representa al factor tipo de letra, el factor columna representa al factor tipo de papel y el factor letra (cuadrado latino) representa el factoriluminacin. Es un modelo con tres factores, cada uno de los cuales tiene tres niveles, se supone que no existen interacciones entre los factores y puede resolverse con solo 32 = 9 observaciones por medio del diseo fraccional de cuadrado latino.

Se calculan las medias,

Se calculan las predicciones

y los residuos

Se calculan las sumas de cuadrados

scT= scT + scT + scT

= 268'67 + 122'00 + 1.938'67 = 2.329'34.

scR= i = 13 j = 13eijk = i = 13 j = 132 =

= 8'67.

Los coeficientes de determinacin son

La Tabla ANOVA que se obtiene es

De esta tabla se deducen los siguientes contrastes:

Serechaza para niveles de > 0'031 (por ejemplo = 0'05) la hiptesis nula de no influencia del factor tipo de letra. Una interpretacin de sto puede observarse en el grfico de medias

Figura 5.18. Grfico de medias respecto al tipo de letra.Respecto al segundo factor, tipo de papel, se deduce el siguiente contraste

Seacepta para niveles de < 0'066 (por ejemplo = 0'05) la hiptesis nula de no influencia del factor tipo de papel. El grfico de medias del factor tipo de papel es

Figura 5.19. Grfico de medias respecto al tipo de papel.Respecto al tercer factor, tipo de iluminacin, se deduce el siguiente contraste

Serechaza para niveles de > 0'004 (por ejemplo = 0'05) la hiptesis nula de no influencia del factor tipo de iluminacin. Esto puede observarse en el grfico de medias del factor

Figura 5.20. Grfico de medias respecto al tipo de iluminacin.Prctica 3.3. Problemas propuestos.Problema 3.8. Los siguientes datos proporcionan la presin de la sangre sistlica y diastlica (en mm Hg) de 15 pacientes con hipertensin moderada, medidas antes y despus de probar un nuevo frmaco. En base a estos datos puede afirmarse que el nuevo frmaco es efectivo para bajar la tensin arterial?

. Sistlica Diastlica Sistlica Diastlica

Pac Antes Despus Antes Despus Pac Antes Despus Antes Despus

1 210 201 130 125 9 173 147 115 103

2 169 165 122 121 10 146 136 102 98

3 187 166 124 121 11 174 151 98 90

4 160 157 104 106 12 201 168 119 98

5 167 147 112 101 13 198 179 106 110

6 176 145 101 85 14 148 129 107 103

7 185 168 121 98 15 154 131 100 82

8 206 180 124 105

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 3.9. Una empresa desea contrastar si el lunes es el da de la semana en que se presentan ms bajas por enfermedad comn. Para ello, en base a los datos de cinco aos, se eligen al azar 10 lunes, 10 martes, 10 mircoles, 10 jueves y 10 viernes, anotando el nmero de bajas durante tales das. Los resultados obtenidos son los de la tabla adjunta

Muestreo 1

Da nmero de bajas por da

Lunes 26 37 22 55 23 38 46 25 25 23

Martes 35 20 28 12 17 17 57 42 25 63

Mircoles 25 40 63 18 62 30 38 23 37 26

Jueves 51 20 30 13 42 28 17 73 25 22

Viernes 30 62 40 15 26 37 52 12 16 25

Un segundo estudio se realiz en base a los mismos datos pero cambiando el esquema del muestreo, ahora se eligieron al azar diez semanas completas de los cinco aos y los resultados que se obtuvieron son los siguientes:

Muestreo 2

Semana (nmero de bajas por da)

Da S1 S2 S3 S4 S5 S6 S7 S8 S9 S10

Lunes 40 32 56 65 18 43 30 51 46 38

Martes32 51 34 35 23 22 45 35 32 58

Mircoles42 30 29 30 15 30 42 51 31 26

Jueves20 32 30 40 21 28 46 36 36 22

Viernes26 27 27 17 23 37 53 22 15 22

Datos del problema [ASCII] [spss-10] [sgplus-5]En base a estos datos:1. Indicar los modelos matemticos asociados a ambos tipos de muestreo.

2. Calcular en ambos casos la tabla ANOVA. Conclusiones.

3. Utilizando los dos tipos de muestreo existe un da o ms en que el nmero de bajas por enfermedad comn sea significativamente mayor?

4. En ambos casos se verifican las hiptesis del modelo? En caso negativo, transformar los datos y recalcular los modelos.

5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo de muestreo ms correcto.Problema 3.10. Se realiza un experimento para investigar el proceso de obtencin de la penicilina, siendo la variable de inters la produccin obtenida. El estudio se centra en observar los resultados de 4 variantes del proceso bsico denominadas tratamientos A, B, C y D. Pero se quiere controlar una materia prima importante, el licor de maz, para ello se utilizan cinco mezclas de licor de maz (bloques) con los que se realiza el experimento. Los resultados observados son los de la tabla adjunta. En base a estos datos influye la variante del proceso en la produccin obtenida? El resultado sera el mismo si no se tiene en cuenta el tipo de maz utilizado?.

Tratamientos

Bloque ABCD

Mezcla 189 88 97 94

Mezcla 284 77 92 79

Mezcla 381 87 87 85

Mezcla 487 92 89 84

Mezcla 579 81 80 88

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 3.11. Un experimento consiste en anotar las dcimas de segundo que se tarda en parar el cronmetro despus de ponerlo en marcha. Para ello, se inicializa el cronmetro en 0:00:00, se pone en marcha pulsando un botn para, despus, pararlo pulsando el mismo botn. Se anota el tiempo que se ha tardado en pararlo, sto es, el tiempo que aparece indicado en el cronmetro. Con este experimento se desea estudiar la influencia en la variable de inters (tiempo que se tarda en detener el cronmetro en dcimas de segundo) de dos factores: el tipo de reloj utilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada (derecha (D) o izquierda (I)). Todos los datos de este experimento han sido realizados por una sola persona que ha realizado cinco rplicas de cada tratamiento. Los datos obtenidos son los de la tabla adjunta. En base a ellos estudiar la influencia de los factores y analizar la existencia de interaccin entre los dos factores, verifican los residuos las hiptesis del modelo?.

Reloj

ManoR1R2R3R4

Derecha1111161211

1018201713 1816172015 1214151616

Izquierda1717111716

3022282220

2125222326

2116182118

Datos del problema [ASCII] [spss-10] [sgplus-5]

Problema 3.12. Se ha realizado un experimento para comprobar si existen diferencias significativas en el tiempo de ejecucin entre tres programas que calculan el factorial de un nmero. Tambin se desea investigar si influye en la variable de inters el intervalo al que pertenece el nmero del que se calcula el factorial.

Los programas utilizados son:

- Recfact, que calcula el factorial de forma recursiva.

- Tailfact, calcula el factorial de usando tail-recursion.

- Loopfact, calcula el factorial de la forma normal, usando un bucle en el que calcula en sucesivas iteraciones el producto final.

Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100], [101,200], [201,300], [301,400], [401,500].

Los datos del experimento son los de la tabla adjunta. La forma de obtenerlos fu la siguiente: se generaba para cada uno de los cinco intervalos diez nmeros aleatorios (diez rplicas) y para cada nmero se calculaba el tiempo de ejecucin de los tres programas que calculan el factorial. Por tanto, las variables en estudio son:

Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact)

Intervalo: intervalo del que se elega el nmero (1,2,3,4, 5).

Rplica: rplica del experimento (1,...,10)

Tiempo: tiempo de ejecucin en cada caso.

Intervalo

Programa I.1. I.2. I.3. I.4. I.5.

Recfact 1'6 7'9 7'8 11'8 8'5 4'5 5'7 2'8 8'2 4'6

17'3 13'3 14'7 23'4 19'0 22'2 19'3 14'8 24'8 15'0

28'8 35'2 31'9 29'2 32'0 31'0 29'9 31'1 34'5 26'5

39'9 44'9 40'9 44'8 36'9 39'5 46'4 43'1 37'5 39'2

51'5 51'7 52'6 50'1 55'1 50'6 49'0 56'6 49'1 55'9

Tailfact 3'2 11'7 10'9 17'0 1'7 7'9 5'9 11'2 6'1 11'9

21'5 28'4 36'6 27'9 25'5 21'6 22'0 32'8 34'5 34'5

46'3 51'6 52'6 43'7 43'0 39'5 47'6 44'8 46'4 47'8

58'9 68'0 55'9 65'2 59'6 55'1 60'2 67'5 70'2 61'9

85'6 74'1 76'6 84'7 78'2 79'6 83'5 75'8 77'6 74'1

Loopfact 10'7 1'7 11'0 3'2 7'8 11'7 6'0 11'6 5'9 16'7

33'7 21'5 27'8 21'0 24'9 21'1 35'8 27'3 18'9 32'0

42'5 46'4 46'7 41'8 50'3 43'5 38'4 45'1 45'2 51'3

53'4 54'5 58'7 66'1 68'3 63'4 57'4 57'8 65'8 60'4

72'4 76'3 74'6 77'4 82'6 75'8 72'2 83'5 74'0 81'3

En base a estos datos,1. Estudiar de la influencia de los tres factores.

2. Qu modelo estadstico se debe utilizar? Se ajusta bien el modelo propuesto a los datos? Existe interaccin entre los factores?, en caso afirmativo interpretar la interaccin.

3. Analizar las hiptesis bsicas del modelo.Problema 3.13.

Se disea un experimento para estudiar la influencia del tipo de cinta (dos niveles) y del tipo de impresora (dos niveles) en la variable duracin de la cinta en horas. Los datos se recogen en la tabla adjunta:

Impresora I1 Tipo de cinta Impresora I2 Tipo de cinta

Cinta A Cinta B Cinta A Cinta B

Duracin 17'1 16'5 14'9 15'2 16'7

194 189 201 17'2 207

Duracin 12'3 13'8 10'8 11'6 12'1

15'6 17'2 16'7 16'1 18'3

Datos del problema [ASCII] [spss-10] [sgplus-5]

En base a estos datos

1. Escribir el modelo matemtico asociado al problema y las hiptesis que se suponen.

2. Calcular la tabla ANOVA y obtener los contrastes que se deducen de la tabla ANOVA.

3. Si suponemos que la interaccin es nula cmo influye en la tabla ANOVA? Se modifican las conclusiones?

4. Calcular un intervalo de confianza al 90% para la duracin media de la cinta con la impresora I1.Problema 3.14.

Se realiza un experimento para ver el efecto del tipo de material y el tratamiento empleado en el desgaste de unas piezas mecnicas. Los datos obtenidos son los de la tabla adjunta. En base a estos datos analizar la influencia de los dos factores (diseo anadidado o jerarquizado).

Material ABCDE

Tratamientoa b a b a b a b a b

Rplica 1 23304245373941442024

Rplica 2 25314450383942492530

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 3.15.

Se realiza un experimento para comparar la energa que se requiere para llevar a cabo tres actividades fsicas: correr, pasear y montar en bicicleta. La variable de inters es Y =nmero de kilocaloras consumidas por kilmetro recorrido. Se cree que las diferencias metablicas entre los individuos puede afectar al nmero de kilocaloras requeridas para llevar a cabo una determinada actividad y se quiere controlar esta variable extraa. Para ello se seleccionan ocho individuos al azar y se les pide que hagan las tres actividades mencionadas. Se mide el nmero de kilocaloras consumidas por kilmetro obteniendo los datos de la tabla adjunta. Las actividades se realizan en orden aleatorio con tiempo de recupeacin entre una y otra. Puede pensarse que no influye la actividad realizada en el nmero de kilocaloras consumidas?.

B.1.B.2.B.3.B.4.B.5.B.6.B.7.B.8

Correr 1'4 1'5 1'8 1'7 1'6 1'5 1'7 2'0

Caminar1'1 1'2 1'3 1'3 0'7 1'2 1'1 1'3

Pedalear0'7 0'8 0'7 0'8 0'1 0'7 0'4 0'6

Datos del problema [ASCII] [spss-10] [sgplus-5] Problema 3.16. Se estn investigando los efectos que sobre la resistencia del papel producen el porcentaje de concentracin de fibra de madera (hardwood) en la pulpa, la presin del tanque y el tiempo de coccin de la pulpa. Se seleccionan tres niveles de concentracin de madera y de presin, y dos niveles de tiempo de coc