Sólo Problemas

46
An´ alisis de la Varianza 1. En una f´ abrica de autom´ oviles se utiliza una misma planta para el ensamblaje de tres modelos distintos (A, B y C ). Para determinar si los modelos reciben el mismo tratamiento, se ha realizado un control de calidad a una muestra tomada para cada modelo. El n´ umero de defectos encontrados para cinco veh´ ıculos del modelo A son 5, 4, 6, 6 y 7; para seis veh´ ıculos del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho veh´ ıculos del modelo C :9, 7, 8, 9, 10, 11, 10 y 10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos. 2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto qu´ ımico. Se sospecha que existen diferencias entre ellos aunque peque˜ nas. Para detectar estas diferen- cias se pretende realizar un experimento a gran escala con el mismo n´ umero de observaciones en cada grupo. Para determinar este tama˜ no muestral se ha realizado un experimento piloto con 6 observaciones de cada m´ etodo y los resultados (medias de cada grupo) han sido los siguientes: METODO 1 2 3 4 5 Media 425.6 423.2 418.8 430.2 422.2 y la varianza residual ˆ s 2 R = 198.5. (a) ¿ C´ ual debe ser el tama˜ no muestral del experimento a gran escala para que el contraste de an´alisis de la varianza sea significativo con α =0.01 si el coeficiente de determinaci´ on es igual al del experimento piloto?. (b) Dar un intervalo de confianza (α =0.05) para la previsi´on del rendimiento realizado mediante el m´ etodo D (Nota: Se pide un intervalo para una observaci´on, no para la media.). (c) El m´ etodo A es el procedimiento habitual y el m´ etodo D es el que se sospecha propor- ciona mejor rendimiento. Una hip´ otesis que se pretende contrastar es H 0 : μ D = μ A , frente a la hip´ otesis alternativa H 1 : μ D A . ¿ Qu´ e condici´ on debe cumplir la difer- encia entre las medias muestrales de los dos m´ etodos para rechazar H 0 con α =0.01? 3. Se ha realizado un experimento para estudiar el efecto de un ´ unico factor con I niveles en la variable respuesta y con un n´ umero diferente de observaciones en cada tratamiento: n 1 ,n 2 , ..., n I siendo el total n = n 1 + n 2 + ··· + n I . Llamando y ij a la observaci´on j del tratamiento i, i =1, ..., I, j =1, 2, ..., n i y ila media del tratamiento i. Se desea estimar la media general ¿cu´al de los dos estimadores siguientes y •• = I i=1 n i j =1 y ij n , ˜ y •• = I i=1 ¯ y iI tiene m´ ınima varianza? Realiza la comprobaci´ on para el caso I = 5, con n i =3, 2, 3, 5, 6 el umero de observaciones en cada tratamiento. Asumir que las observaciones son independi- entes y que se cumple la hip´ otesis de homocedasticidad. 1

Transcript of Sólo Problemas

Page 1: Sólo Problemas

Analisis de la Varianza

1. En una fabrica de automoviles se utiliza una misma planta para el ensamblaje de tres modelosdistintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se harealizado un control de calidad a una muestra tomada para cada modelo. El numero dedefectos encontrados para cinco vehıculos del modelo A son 5, 4, 6, 6 y 7; para seis vehıculosdel modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehıculos del modelo C: 9, 7, 8, 9, 10, 11, 10 y10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.

2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quımico.Se sospecha que existen diferencias entre ellos aunque pequenas. Para detectar estas diferen-cias se pretende realizar un experimento a gran escala con el mismo numero de observacionesen cada grupo. Para determinar este tamano muestral se ha realizado un experimento pilotocon 6 observaciones de cada metodo y los resultados (medias de cada grupo) han sido lossiguientes:

METODO 1 2 3 4 5Media 425.6 423.2 418.8 430.2 422.2

y la varianza residual s2R = 198.5.

(a) ¿ Cual debe ser el tamano muestral del experimento a gran escala para que el contrastede analisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinaciones igual al del experimento piloto?.

(b) Dar un intervalo de confianza (α = 0.05) para la prevision del rendimiento realizadomediante el metodo D (Nota: Se pide un intervalo para una observacion, no para lamedia.).

(c) El metodo A es el procedimiento habitual y el metodo D es el que se sospecha propor-ciona mejor rendimiento. Una hipotesis que se pretende contrastar es H0 : µD = µA,frente a la hipotesis alternativa H1 : µD > µA. ¿ Que condicion debe cumplir la difer-encia entre las medias muestrales de los dos metodos para rechazar H0 con α = 0.01?

3. Se ha realizado un experimento para estudiar el efecto de un unico factor con I nivelesen la variable respuesta y con un numero diferente de observaciones en cada tratamiento:n1, n2, ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observacion j deltratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e yi• la media del tratamiento i. Se desea estimarla media general ¿cual de los dos estimadores siguientes

y••

=

I∑i=1

ni∑j=1

yij

n, y•• =

I∑i=1

yi•

I

tiene mınima varianza? Realiza la comprobacion para el caso I = 5, con ni = 3, 2, 3, 5, 6 elnumero de observaciones en cada tratamiento. Asumir que las observaciones son independi-entes y que se cumple la hipotesis de homocedasticidad.

1

Page 2: Sólo Problemas

4. Considere la comparacion de dos tratamientos en poblaciones normales. Demuestre que elcontraste t para comparar dos medias es analogo al contraste de la F en Analisis de laVarianza (suponga n1 = n2).

5. Cinco tipos (A, B, C, D y E) de material sintetico se han sometido a un ensayo de desgaste.Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviaciontıpica corregida en cada caso es la siguiente:

A B C D Emedia xi 14.1 16.3 13.5 14.8 15.3

d. tıpica si 1.3 1.2 1.4 1.2 1.5

(a) Contrastar (α = 0.05) la hipotesis

H0 : µA = µB = µC = µD = µE

frente a la hipotesis alternativa,

H1 : Alguna media es distinta a las demas.

(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y que materialestienen desgaste medio, distinto.

(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.

6. Se desea comprobar el efecto de un tratamiento termico sobre la resistencia de un nuevomaterial. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1,T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:

T1 T2 T3

2.65 4.31 4.812.67 3.96 5.322.46 4.64 4.931.90 4.74 5.492.62 4.00 4.45

(a) Contrastar mediante el test de analisis de la varianza si existen diferencias significativasentre los tratamientos termicos (α = 0.01).

(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dostratamientos. Si la relacion entre la resistencia y la temperatura es lineal, es de esperarque la media del tratamiento 2 verifique : H0 : µ

2= 1

2(µ

1+ µ

3). Hacer el contraste

bilateral de esta hipotesis con α = 0.05. (Nota.- Usar la distribucion de y2−(y

1+y

3)/2,

donde yi es la media de los datos correspondientes al tratamiento Ti).

7. En el modelo de analisis de la varianza para contrastar la igualdad de medias de I grupos,con n1, n2, ..., nI observaciones en cada grupo; indicar, justificando la respuesta, si y••, yi• yeij son independientes. Calcular los coeficientes de correlacion.

2

Page 3: Sólo Problemas

8. Explicar detalladamente la descomposicion de la variabilidad en el modelo basico de analisisde la varianza para comparar I tratamientos. Obtener el estadıstico F de contraste, indi-cando en cada paso las hipotesis utilizadas.

9. Demostrar que en el modelo para la comparacion de las medias de K tratamientos con elmismo numero de observaciones, la varianza residual estimada (s2R) es igual a la media delas varianzas muestrales corregidas de cada tratamiento. Utilizando esta relacion, demostrarque el estimador s2R es insesgado y obtener su distribucion de probabilidad. Suponer quese cumplen las hipotesis de normalidad, independencia y homocedasticidad, y dar por de-mostrado que la varianza muestral corregida s2, en una muestra aleatoria simple de tamanon de una distribucion normal, es un estimador centrado de la varianza de la distribucion σ2,y que (n− 1)s2/σ2 se distribuye como una χ2 con n− 1 grados de libertad).

10. Explicar la descomposicion de la variabilidad en el modelo basico de comparacion de Ktratamientos (modelo con un factor ). Demostrar que si todos los tratamientos tienen lamisma media

V E

σ2 χ2

K−1.

Indicar en cada paso las hipotesis requeridas. Nota.- Tener en cuenta que si X1, X2, ..., Xn

son variables aleatorias independientes con distribucion normal de media µ y varianza σ2, yX =

∑Xi/n,

n∑

i=1

(Xi −X

σ

)2

χ2

n−1.

11. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difierensignificativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quımicohace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidoshan sido

Lote 1 Lote 2 Lote 3 Lote 4 Lote 523.46 23.59 23.51 23.28 23.2923.48 23.46 23.64 23.40 23.4623.56 23.42 23.46 23.37 23.3723.39 23.49 23.52 23.46 23.3223.40 23.50 23.49 23.29 23.38

La tabla de analisis de la varianza se proporciona a continuacion. Comparar mediante elmetodo de Bonferroni las medias de los cinco tratamientos con nivel de significacion totalαT = 0.10.

Analisis de la varianzaFuente Variabilidad g.l. Var. Media F Nivel crıticoLote 0.096976 4 0.024244 5.54 0.0036Residuos 0.08760 20 0.00438Total 0.184576 24

3

Page 4: Sólo Problemas

4

Page 5: Sólo Problemas

Diseno de experimentos

1. En una planta piloto se obtiene un nuevo producto mediante un proceso quımico. Con elfin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con trestemperaturas diferentes. Los resultados del experimento son

TemperaturaCatalizador 200 300 400

A 115 125 130 140 110 120B 115 105 135 145 100 110

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =0.05)

(b) ¿Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-tizar una probabilidad de error tipo I total, αT = 0.03?

2. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodon (10%, 20%y 30%) (2) Tipo de confeccion (A y B) en la resistencia al desgaste de ciertos tejidos de fibrasintetica. Se ha realizado el siguiente diseno con tres replicaciones

10% 20% 30%115 120 126

A 112 135 118133 139 142107 110 132

B 114 102 114108 117 125

(a) Construir la tabla de Analisis de la Varianza y contrastar la influencia de los dos factoresy la presencia de la interaccion.

(b) Hacer un contraste de diferencia de medias y decidir el tratamiento mas adecuado paraconseguir la mayor resistencia al desgaste.

3. Cierto Organismo Publico (O.P.) encargado de certificar la composicion de aleaciones demetales preciosos, debe seleccionar entre dos Laboratorios al mas capacitado para la realiza-cion de futuros analisis de gran precision. Para tomar la decision les somete a la siguienteprueba: Prepara tres aleaciones A, B y C que contienen proporciones distintas de oro.De cada una de ellas envıa cuatro muestras a cada uno de los dos laboratorios. Ası pues,cada laboratorio recibe un lote de 12 muestras (codificadas) ordenadas aleatoriamente sinconocer como han sido obtenidas. Los resultados recibidos por el O.P. son (entre parentesislas medias de las casillas):

1

Page 6: Sólo Problemas

Aleac. A Aleac. B Aleac. C10.96 11.03 10.95 11.00 11.07 11.01

Lab. I 11.08 11.01 11.04 10.97 10.97 11.03(11.02) (10.99) (11.02)

10.97 10.96 10.97 10.96 11.02 11.00Lab. II 10.94 10.95 10.97 10.98 11.01 11.01

(10.955) (10.97) (11.01)

(a) Determinar si existen diferencias entre los resultados de los laboratorios y si estos hanencontrado diferencias entre las aleaciones.

(b) Aceptando que los datos cumplen la hipotesis de normalidad, indicar si podemos aceptarque verifican el resto de las hipotesis del modelo y en caso negativo que medidas se debenadoptar para analizar los datos.

(c) Realizar un test de razon de varianzas para contrastar que las varianzas de los doslaboratorios son iguales, sabiendo que las tres aleaciones tienen composicion distinta.Interpretar el resultado.

(d) El O.P. conoce exactamente el porcentaje en oro de la aleacion A (11 %), de la B

(11.02 %) y de la C (11.04 %). Con esta informacion comparar los resultados de loslaboratorios.

4. Complete la tabla ADEVA siguiente y diga de que diseno se trata.

Suma de Cuad. G.L. VarianzasFactor 1 20 2Factor 2 5 1.25Factor 3 10Int. Segundo ordenInt. Tercer orden 0.25TOTAL 44 29

5. Se ha realizado un diseno factorial sin replicacion con tres factores A,B,C con 5, 5 y 4niveles respectivamente. Si la interaccion de tercer orden es nula, obtener la descomposicionde la variabilidad e indicar los grados de libertad de cada termino.

6. Para estudiar el efecto de tres factores (A,B,C) en el tiempo de fraguado del hormigon se harealizado un experimento factorial completo a dos niveles con tres replicaciones (24 datos entotal). Los resultados de la estimacion han sido:

Media A B AB C AC BC ABC92.5 2.4 3.3 8.5 15.0 -1.4 2.65 0.72

Teniendo en cuenta que la varianza residual obtenida es s2R = 18.8, indicar que efectos sonsignificativos para un nivel de significacion α = 0.05.

2

Page 7: Sólo Problemas

7. Una caracterıstica de la calidad de la gasolina es su ındice de octanos. Una refinerıa depetroleo tiene cinco formulas que pueden emplearse para la obtencion de gasolina con plomoo sin plomo.

(a) Para determinar que formula proporciona mayor ındice de octanos, con cada una deellas se ha repetido 10 veces en el laboratorio el proceso de fabricacion de gasolina conplomo. Si el coeficiente de determinacion del analisis de la varianza de los resultadoses igual a 0.20, contrastar con α = 0.05 si existen diferencias entre las cinco formulaspara este tipo de gasolina.

(b) Los valores medios (yi•) para cada formula son:

Formula 1 2 3 4 5Media 89.2 90.1 90.7 90.5 89.5

Contrastar con α = 0.05 que formulas proporcionan ındices de octanos significativa-mente distintos y cuales no.

(c) Debido a los problemas medio-ambientales gran parte de la produccion futura debeestar libre de plomo. Para determinar que formula de las anteriores produce mejoresresultados en cuanto al ındice de octanos , se realizo un diseno experimental similaral anterior (cinco formulas, 10 observaciones en cada formula) para la obtencion degasolina sin plomo. El coeficiente de determinacion en este caso es igual a 0.25 y elındice medio para cada formula es,

Formula 1 2 3 4 5Media 88.0 89.5 88.5 90.2 89.8

Contrastar (α = 0.05) si existe interaccion entre los factores tipo de gasolina (con y sinplomo) y formula.

8. Para estudiar la influencia de la temperatura y la presion sobre el rendimiento de un procesoquımico se ha realizado un experimento con 5 valores de presion y 4 valores de temperatura.Los resultados se muestran en la tabla siguiente.

Temperatura10 20 30 40 Medias

1 65,58 96,71 124,20 156,63 110,712 66,32 101,5 130,37 161,38 114,89

Presion 3 74,42 99,81 134,63 160,59 117,364 80,24 104,11 138,42 166,96 122,435 79,61 112,14 143,58 170,68 126,50

Medias 73,24 102,85 134,24 163,19 118,38

(a) Considere solamente el efecto de la presion y estudie si es significativo (α = 0, 05),sabiendo que las varianzas muestrales corregidas para los datos correspondientes a cadapresion son s21 = 149, 85; s22 = 164, 62; s23 = 143, 95; s24 = 145, 11; s25 = 154, 94.

3

Page 8: Sólo Problemas

(b) Incorpore el efecto de la temperatura en un modelo adecuado para los datos. Interpreteel resultado.

(c) Calcule un intervalo de confianza al 95% para la varianza del error experimental de losmodelos de los dos apartados anteriores. Interprete las diferencias.

9. Se desea estudiar la fuerza de percusion de una perforadora en funcion de la VELOCIDADde giro (baja y alta) y de un coeficiente mecanico que denominaremos RATIO (0.15, 0.30,0.45 y 0.60). Se ha experimentado en las ocho posibles combinaciones de ambos factores,replicando cada experimento dos veces. Los resultados se muestran en la tabla siguiente

0.15 0.30 0.45 0.60 Media

Vel. Baja270278

245249

260272

275286

266.875

Vel. Alta283286

285280

286287

294288

286.125

Media 279.25 264.75 276.25 285.75 276.5

Las variabilidades explicadas por el RATIO, la VELOCIDAD y la interaccion RAT x VELson respectivamente 925, 1482.25 y 418,75 y la Variabilidad Total es 3034.

(a) Completa la tabla de analisis de la varianza e indica que efectos son significativos paraα = 0.05.

(b) Interpreta el resultado, indicando como influye el RATIO y la VELOCIDAD en la fuerzade la perforadora. Dibuja el grafico que permite interpretar la interaccion. Proporcionael intervalo de confianza para la media de la combinacion RATIO 0.30, y VELOCIDADbaja.

(c) Cada tratamiento tiene dos observaciones, llamando Dij = |Yij1 − Yij2| , al valor abso-luto de la diferencia de estas observaciones, demuestra que

D2ij

2σ2→ χ2

1

y que S2D =

∑2

i=1

∑4

j=1D2

ij

16es un estimador centrado de la varianza del modelo factorial.

(d) Supon que la varianza de las observaciones a velocidad baja es σ21 y de las observaciones

a velocidad alta es σ22. Utilizando el resultado del apartado 3, realiza el siguiente

contraste con nivel de significacion 0.05,

H0 : σ2

1 = σ2

2

H1 : σ2

1 6= σ2

2

4

Page 9: Sólo Problemas

10. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecucion depende del compi-lador. Un ingeniero de software desea comparar tres compiladores (A, B y C), para ello haseleccionado 5 programas muy distintos, cada uno de los cuales ha sido compilado por lostres compiladores. Los tiempos de CPU se proporcionan a continuacion:

1 2 3 4 5 MediasA 122.9 147.4 189.6 200.9 307.3 193.6B 113.8 135.1 173.8 199.3 296.6 183.7C 131.2 152.8 192.7 219.8 318.9 203.1

Medias 122.7 145.1 185.3 206.7 307.6

La variabilidad total es 62899.2, y las variabilidades explicadas por el tipo de compilador ytipo de programa son 937.2 y 61868.9, respectivamente. Da un intervalo de confianza (95%)para la diferencia de las medias entre los dos compiladores mas rapidos.

11. Se ha realizado el analisis de la varianza de un diseno con un unico factor a 10 niveles con 6observaciones para cada nivel. El nivel crıtico que muestra la tabla ADEVA es p = 0.5832.Los niveles crıticos de los contrastes individuales de igualdad de medias son mayores de 0.05para todas las parejas excepto para la comparacion entre los niveles 3 y 7 que ha sido igual a0.0405. ¿Es posible este resultado? ¿Que se puede concluir del analisis? ¿Que procedimientosugiere para realizar los contrastes individuales?

12. Se ha realizado un diseno factorial sin replicacion con tres factores A,B,C con 5, 5 y 4niveles respectivamente. Si la interaccion de tercer orden es nula, obtener la descomposicionde la variabilidad e indicar los grados de libertad de cada termino.

13. Sea un diseno factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el numero de parametrostotales correspondientes a efectos principales e interacciones de orden 2, 3 y 4.

14. Un ingeniero ha estudiado el efecto que tienen 5 niveles de iluminacion en una operacionde ensamblado. El departamento en el que se ha experimentado tiene cuatro estaciones detrabajo, que representan una fuente potencial de variabilidad. Para cada estacion de trabajoy nivel de iluminacion se ejecuto la operacion de ensamblado, midiendo la holgura en micras.Los resultados fueron:

ESTAC. ILUMINACION1 2 3 4 5 yi•

1 131 116 88 75 104 102.82 92 96 97 70 75 86.03 128 129 99 94 105 111.04 121 107 84 89 86 97.4

y•j 118 112 92 82 92.5 y•• = 99.3

(a) Contrastar (α = 0.05) si la iluminacion o la estacion de trabajo influye en los resultadosdel ensamblado.

5

Page 10: Sólo Problemas

(b) Comparar los niveles de iluminacion y los niveles de las estaciones de trabajo. Indicaren cada caso cuales se pueden considerar distintos y cuales no.

(c) Calcular la varianza teorica del valor medio previsto para cada observacion.

(d) Explicar por que no se debe contrastar la hipotesis

H0 : µ1 = µ2 = ... = µm

del modelo basico de analisis de la varianza (un factor), mediante contrastes de la t de

Student a cada uno de los

(m

2

)pares de muestras.

15. Se realiza un experimento para estudiar la influencia de 2 factores en el rendimiento de unproceso, donde el factor que se encuentra a 3 niveles (Alto, medio y bajo) es la temperatura,el otro factor, catalizador, tiene dos niveles: catalizador I y II. Los datos del experimentose muestran en la siguiente tabla:

Alto Medio BajoCI 279 172 176 174 277 130 397 348 434

(215.6) (193.6) (393)CII 253 238 387 252 367 323 417 427 423

(292.6) (314) (422.3)

(Nota: Los numeros entre parentesis son las medias de las casillas)

(a) Contrastar con α = 0.05 que efectos son significativos. Interprete el resultado.

(b) Determinar el intervalo con el 99% de confianza para la varianza del error experimental.

(c) Dar un intervalo para una observacion realizada en condiciones optimas. Si se realizan10 experimentos en estas condiciones, determinar el intervalo que con probabilidadigual al 95% contiene a todas ellas. Utilice la aproximacion

tαg = zα(1−zα + 1

4g)−1

donde g son los grados de libertad de la t y zα el valor de la normal estandar, tal queP (Z ≥ zα) = α

16. Un laboratorio de Analisis Clınicos ha adquirido un nuevo equipo (B) para medir el coles-terol en la sangre de los enfermos. Para evaluar si el nuevo equipo esta ajustado se decideanalizar muestras de 5 enfermos que previamente han sido analizadas con otro equipo (A),dando como resultado

Enfermo 1 2 3 4 5 MediaEquipo A 215 305 247 221 286 254.8Equipo B 224 312 251 232 295 262.8

6

Page 11: Sólo Problemas

Contrastar con α = 0.05 existen diferencias entre los dos equipos.

17. Para estudiar el consumo de aceite de un motor se prueban 4 motores distintos con 3 tiposde aceites obteniendo 12 medidas de consumo. Se ha obtenido:

Variabilidad explicada por aceite = 100

Variabilidad explicada por motor = 80

Variabilidad Total = 220

Se pide escribir la tabla ADEVA correspondiente, y obtener conclusiones.

18. Para determinar el consumo de energıa electrica para usos domesticos se ha medido el con-sumo medio por persona en las distintas estaciones del ano en siete comunidades autonomaspara 1989, habiendose obtenido los siguientes resultados:

COMUNIDAD INVIERNO PRIMAVERA VERANO OTONO MEDIAS1 13.1 11.4 10.6 11.5 11.652 13.4 12.1 11.1 12.0 12.153 13.8 12.1 11.4 12.9 12.554 14.0 12.8 11.7 12.6 12.775 14.4 12.6 12.5 13.4 13.226 14.8 13.4 13.0 14.0 13.807 15.6 14.2 14.1 14.4 14.57

MEDIAS 14.16 12.66 12.06 12.97 12.96

(a) Analizar si el factor estacion del ano es influyente, sabiendo que s2y = 1.53.(No consid-erar el factor Comunidad).

(b) Razonar estadısticamente cual es la estacion de mayor consumo y la de menor, uti-lizando el analisis anterior. Calcular los intervalos de confianza para el consumo mediode cada estacion del ano.

(c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir unanueva tabla de la varianza, con dos factores, y decidir que factor es significativo.

(d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad demedias del efecto estacion y comparar los resultados con los del apartado 2, justificandolas diferencias encontradas.

( NOTA: Utilizar α = 0.05 en todos los contrastes )

19. Se realiza un experimento para estudiar si la presencia de fluorita reduce el coste de fabri-cacion de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo(en miles de pesetas por Tm) se muestran en la siguiente tabla:

7

Page 12: Sólo Problemas

FLUORITA MI MII MIII yi•0% 15.4 10.6 17.8 14.61% 10.3 5.5 10.9 8.92% 7.4 1.2 8.1 5.53% 10.7 6.5 9.6 8.94% 13.5 11.6 15.5 13.5y 11.4 7.1 12.4

5∑

i=1

3∑

j=1

e2ij = 10.2 y•• = 10.3

(a) Determinar si el tipo de mezcla y el nivel de fluorita anadido influyen significativamenteen el coste de fabricacion. Se supone que no existe interaccion entre los dos factores.

(b) Contrastar que porcentaje de fluorita produce el menor coste del clinker.

20. El analisis de la varianza de un diseno en bloques aleatorizados proporciona los siguientesresultados: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El numero deniveles del factor es 5 y el numero de bloques 8. Construir la tabla ADEVA. ¿ Cual serıael resultado del analisis si no se tiene en cuenta el efecto de los bloques ? Indicar en quecircunstancias es preferible cada uno de los modelos.

21. Se ha realizado un experimento con tres factores, (A, B y C), con 4, 3, y 5 niveles, sinreplicaciones. El modelo propuesto no incluye las interacciones de orden 3, por lo que lavariabilidad explicada por estas interacciones se pretende utilizar para estimar la varianzaresidual. Los resultados proporcionan para la variabilidad explicada por las interacciones deorden 3 un valor igual a 234.5; que es muy superior a lo esperado. Debido a esto se repitiopor completo el experimento, obteniendose para este segundo experimento un valor de 158.7(para la variabilidad explicada por la interacciones de orden 3). Proponer un procedimientopara contrastar si se ha producido un cambio significativo en esta variabilidad de uno a otroexperimento, indicando las hipotesis en las que se basa el contraste. (Dejar el resultado delcontraste indicado en funcion de los valores crıticos de la tabla correspondiente.)

22. En un modelo de analisis de la varianza se ha observado que la desviacion tıpica (si) y lamedia (yi) de las observaciones de cada tratamiento estan relacionadas linealmente, si = kyi,donde k es una constante. ¿ Cual de las siguientes transformaciones es la mas adecuada paracorregir la heterocedasticidad ? z = log y, z = y2 o z = ky

23. La oxidacion es una etapa de la fabricacion de chips y consiste en anadir una capa deoxido sobre la placa silicio (oblea). Se esta experimentando con 6 tratamientos (Ti) paraseleccionar el que proporciona un mayor espesor de oxido en un mismo tiempo de proceso.Una caracterıstica que influye en el espesor es el acabado superficial de la oblea, por lo quese tomaron 5 tipos distintos de acabado (Oj). De cada tipo (Oj) se tomaron 6 obleas y seasignaron aleatoriamente a los tratamientos. En la tabla se proporciona el espesor obtenidoen cada oblea y las medias por filas y columnas.

8

Page 13: Sólo Problemas

T1 T2 T3 T4 T5 T6

O1 85.60 90.90 93.00 80.50 85.20 88.90 87.35O2 89.30 91.50 93.60 83.20 87.80 91.00 89.40O3 84.70 87.50 90.90 81.00 83.20 86.30 85.60O4 87.60 90.50 95.60 84.60 87.60 91.10 89.50O5 87.30 93.10 94.90 82.70 86.70 88.70 88.90

86.90 90.70 93.60 82.40 86.10 89.20 88.15

VT = 465.1

(a) Contrastar si el tipo de oblea y el tratamiento influyen en el espesor del oxido. Elegir eltipo de oblea y tratamiento mas adecuado, indicando si son significativamente distintosdel resto.

(b) Para fijar los seis tratamientos, se seleccionaron dos temperaturas (t1, t2) y tres presiones(p1, p2, p3) y se combinaron de forma que T1 = (t1, p1), T2 = (t1, p2), T3 = (t1, p3)T4 = (t2, p1), T5 = (t2, p2) y T6 = (t2, p3). Calcular las variabilidades explicadas por latemperatura, la presion y su interaccion (t× p).

(c) Indicar si sus efectos son significativos, suponiendo nulas las interacciones de los factoresO × t, O × p y O × t× p.

24. Demostrar que en un modelo de bloques aleatorizados, µ, αi y βj son independientes.

25. Un centro ha realizado un experimento para mejorar la resistencia a la tension de ciertosmuelles de acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado.Se han estudiado tres factores, A (temperatura del acero antes de la inmersion, con tresniveles), B (temperatura del bano de aceite, dos niveles) y C (concentracion de carbono enel acero, dos niveles). El experimento se ha replicado tres veces. En la tabla se muestra lamedia y la varianza (corregida) para los tres datos de cada tratamiento.

A B C yi s2i1 1 1 40.2 0.251 1 2 61.1 2.681 2 1 35.9 2.431 2 2 57.1 4.442 1 1 49.0 3.492 1 2 70.3 7.772 2 1 46.7 5.082 2 2 67.6 1.033 1 1 41.9 4.273 1 2 62.7 11.413 2 1 37.1 1.333 2 2 60.3 6.13

(a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ2.

(b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero.

9

Page 14: Sólo Problemas

(c) Dado σ2, construir un intervalo que cumpla que la probabilidad de que s2i (la varianzamuestral corregida de un tratamiento) este contenido en el sea igual a 0.95. Sustituir σ2

por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipotesisde homocedasticidad de las observaciones.

26. Estimar por maxima verosimilitud los parametros µ, αi y βj del modelo de bloques aleator-izados. Obtener la distribucion de estos estimadores, indicando su media y varianza.

27. Explicar por que en un modelo de dos factores con interaccion es necesario poner las condi-ciones

I∑

i=1

αi = 0,J∑

j=1

βj = 0,I∑

i=1

(αβ)ij = 0 para todo j, yJ∑

j=1

(αβ)ij = 0 para todo i.

¿Se podrıan haber puesto otras condiciones distintas a las anteriores? Justificar la respuesta.

28. La calidad de un producto quımico despues de un largo periodo de almacenamiento dependedel conservante empleado y de las caracterısticas de almacenamiento. Se ha estudiado elefecto de cuatro conservantes distintos (columnas) y cinco almacenamientos (filas) sobre ladegradacion del producto:

1 2 3 4 Medias1 15.1 11.0 18.8 10.3 13.82 8.1 4.3 11.8 3.8 7.03 15.3 11.5 15.6 9.2 12.94 8.0 4.4 11.0 5.8 7.35 13.5 9.3 15.8 18.2 14.2

Medias 12.0 8.1 14.6 9.46 11.04

La tabla de analisis de la varianza para los datos anteriores es:

Suma deCuadrados

Grados deLibertad

S. CuadradosMedios

FNivelCrıtico

Almacen. 205.488 4 51.372 10.03 0.0008Conserv. 123.676 3 41.225 8.05 0.0033Residuos 61.484 12 5.123Total 390.648 19

(a) Elegir con α = 0.05 el conservante y el almacenamiento que producen menor degradacion.

(b) El analisis de los residuos muestra como atıpica la observacion y54 = 18.2. Un examenquımico confirma el resultado anomalo por lo que se recomienda eliminar la observacion.Segun el modelo de dos factores sin interaccion, la prediccion de la observacion yIJ(eliminada) es:

yIJ =SI∗

(J − 1)+

S∗J

(I − 1)−

S∗∗

(I − 1)(J − 1)

10

Page 15: Sólo Problemas

donde I = 5, J = 4, SI∗ es la suma de las observaciones de la fila I (sin incluir la elimi-nada), S∗J es la suma de las observaciones de la columna J (sin incluir la eliminada), yS∗∗ es la suma de las observaciones restantes no incluidas en la fila I ni en la columnaJ. Obtener la distribucion (media y varianza) del error de prediccion eIJ = yIJ − yIJ .

(c) Cuando, como en el caso anterior, falta una observacion se recomienda el siguiente pro-cedimiento: sustituir la observacion faltante por su prediccion y aplicar los contrasteshabituales teniendo en cuenta que los residuos tienen un grado de libertad menos. Lanueva descomposicion de la variabilidad es: VT=339.63, VE(Conservantes)=166.02,VE(Almacenamiento)=164.02 y VNE=9.59. Contestar al apartado 1 con esta modifi-cacion e interpretar las diferencias.

29. Una instalacion tıpica de almacenamiento de combustible en una Estacion de Servicio (gaso-linera) esta formada por un tanque enterrado de gran capacidad, al que se encuentranconectados distintos surtidores. La cantidad total de gasolina suministrada en un dıa sepuede determinar midiendo directamente la variacion que se ha producido en el tanque dealmacenamiento (Y1j) o por la suma de los suministros de los distintos surtidores (Y2j). Lacomparacion de ambas medidas permite determinar perdidas en la instalacion enterrada yotras anomalıas. En el proceso de comparacion es necesario tener en cuenta que las medidasestan afectadas por errores aleatorios. Durante 20 dıas se han tomado los valores anterioresen un gasolinera:

Dıa→ 1 2 3 4 5 6 7 8 9 10

Y1j 4116,2 5627,0 2820,4 2521,8 2973,5 2834,9 2335,7 2590,8 2182,7 2621,4

Y2j 4143,6 5632,0 2868,1 2477,7 2955,4 2851,9 2312,7 2630,6 2208,9 2635,9

Dıa→ 11 12 13 14 15 16 17 18 19 20

Y1j 4323,6 1880,7 2131,4 3349,6 2545,0 2247,3 1817,5 1461,3 1646,5 1955,4

Y2j 4305,4 1877,9 2159,2 3366,7 2566,1 2281,4 1854,6 1461,5 1607,3 1956,4

(a) Llamando Dj = Y1j − Y2j a la diferencia en las medidas de un mismo dıa, contrastarcon α = 0.05

H0 : µD = 0H1 : µD 6= 0

donde Dj tiene distribucion N(µD, σD). Calcular el nivel crıtico del contraste aproxi-mando la distribucion t de Student por la normal.

(b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizadostomando el tipo de medida (tanque, surtidores) como un factor y los dıas como bloques.Demostrar con caracter general que en el modelo de bloques aleatorizados si el factortiene dos niveles la varianza residual cumple:

s2R =1

2s2D

donde s2D es la estimacion de σ2D del apartado 1.

(c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor enel modelo de bloques aleatorizados es equivalente al contraste del apartado 1.

11

Page 16: Sólo Problemas

30. Una forma alternativa de la ecuacion del modelo para comparar I tratamientos es

yij = µ+ τ i + uij, i = 1, 2, ..., I; j = 1, 2, ..., m

donde

µ es la media global

τ 1, τ 2, ..., τ I son los parametros que determinan los efectos de cada tratamiento, cumplenque

∑I

i=1τ i = 0

uij son variables aleatorias independientes con identica distribucion normal de media cero yvarianza σ2.

(a) Obtener el estimador maximo verosımil de τ i, indicar su distribucion de probabilidad,media y varianza.

(b) Calcular la esperanza de la variabilidad explicada (V E = m∑I

i=1τ 2

i ) cuando losparametros τ i no son todos nulos.

(c) Calcular la correlacion entre τ i y un residuo eij cualquiera (del mismo o diferentetratamiento). Que implicacion tiene este resultado en el contraste de analisis de lavarianza.

31. Un ingeniero esta estudiando metodos para mejorar ciertas propiedades mecanicas de unaaleacion metalica. Los dos factores que considera mas importantes son la cantidad de Man-ganeso y la temperatura de templado. Se disena un experimento empleando tres nivelespara el factor manganeso y dos para la temperatura, en total 3×2 = 6 tratamientos. Sedispone de 6 hornos diferentes para realizar la fundicion. Cada horno requiere un operadory se disponen de seis operadores cada uno de los cuales es capaz de manejar los seis hornos.Disenar un experimento que con 36 observaciones permita estudiar las diferencias entre losseis tratamientos y que tenga en cuenta el tipo de horno y el operador como variables blo-ques. Construir la tabla de analisis de la varianza, indicando los grados de libertadad decada variabilidad, separando en ella el factor manganeso, el factor temperatura y su inter-accion. (Los bloques y los factores no interaccionan). (Nota: no es necesario indicar en latabla como se obtienen las distintas variabilidades).

32. Una asociacion de consumidores para comprobar la utilidad de ciertos compuestos que segunsus fabricantes reducen el consumo de gasolina de los automoviles realizo el siguiente exper-imento: eligio al azar 9 vehıculos nuevos de distintas marcas con cilindrada similar y concada uno de ellos recorrio tres veces un mismo trayecto con conductores distintos. Ademasen cada uno de estos tres trayectos empleo un tratamiento diferente para la gasolina:

Tratamiento

A : Gasolina con Cyber-GasB : Gasolina con ConsuminC : Gasolina sin aditivo

En la tabla siguiente se muestra el consumo en litros de gasolina en cada uno de los recorridosy el tipo de tratamiento (letra latina).

12

Page 17: Sólo Problemas

Numero Conductores Media

Vehıculo 1 2 3 fila

1 15,5 (A) 15,6 (B) 16,6 (C) 15,902 13,0 (B) 13,3 (A) 13,0 (C) 13,103 11,8 (B) 13,1 (C) 12,5 (A) 12,474 14,4 (A) 14,8 (C) 15,0 (B) 14,735 12,4 (B) 14,3 (A) 14,1 (C) 13,606 15,6 (C) 15,3 (A) 14,7 (B) 15,207 12,7 (C) 12,0 (B) 12,0 (A) 12,238 14,2 (C) 14,0 (B) 15,1 (A) 14,439 12,6 (A) 13,5 (C) 12,3 (B) 12,80

Media Media Total

Columna 13,58 13,99 13,92 13,83

Media deTratam.

A:13,89B:13,42C:14,18

El analisis de los datos se realiza con el siguiente modelo

yijk = µ+ αi + βj + γk + uijk

donde yijk representa el consumo en litros, µ la media global; αi, i = 1, 2, ..., 9 y βj, j =1, 2, 3 los efectos correspondientes a los vehıculos (filas) y los conductores (columnas). Laestimacion e interpretacion de estos parametros es similar al modelo de bloques aleatorizados.Ademas se incluye los parametros γk, k = 1, 2, 3 que miden el efecto de los tratamientos (tipode aditivo) y cumplen

∑3

k=1γk = 0. Por ultimo, uijk la componente aleatoria son variables

aleatorias independientes con distribucion normal de media cero y varianza σ2 para todaslas observaciones.

(a) Obtener razonadamente los estimadores maximo verosımiles de γk.

(b) La tabla del analisis de la varianza del modelo anterior es

Suma de Grados deCuadrados Libertad Varianza F p-Valor

Tratamiento 2,67 2 1,31 6,7 0,0091Vehıculo 40,2 8 5,02 25,7 0,0000Conductor 0,876 2 0,438 2,2 0,1428

Residual 2,73 14 0,195Total 46,4 26

¿Reducen los aditivos el consumo de gasolina? ¿ Existen diferencias significativas entreCyber-gas (A) y Consumin (B)? (Realizar los contrastes con nivel de significacion 0.05).

(c) Demostrar que el diseno anterior, independientemente de los valores numericos (yijk)obtenidos, es un diseno ortogonal, es decir que cumple:

VT = VE(Vehıculos) + VE(Conductores) + VE(Tratamientos) + VNE

(Nota.- Es suficiente con demostrar la ortogonalidad del vector correspondiente a lostratamientos con respecto a los otros tres).

13

Page 18: Sólo Problemas

33. Un informatico quiere comparar los tiempos de ejecucion de tres programas realizados enlenguajes diferentes que realizan el mismo proceso. Para hacer la comparacion utilizan 4ordenadores con microprocesadores distintos. Los tiempos requeridos por cada programa encada ordenador han sido:

ORDENADOR PROGRAMA↓ A B C yi•1 1,36 2,23 1,54 1,712 0,97 0,70 0,76 0,813 1,79 1,74 1,84 1,794 0,64 0,69 0,74 0,69y•j 1,19 1,34 1,22 1,25

¿Existen diferencias significativas en los tiempos requeridos por los 3 programas?

34. Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20%de la variabilidad total esta explicada por la interaccion de los dos factores y el 40% dela variabilidad total es debida a la variabilidad residual. Determinar el numero de replica-ciones necesarias en cada tratamiento para que la interaccion sea significativa con α = 0.01.(Explicar el procedimiento de calculo, dejando el resultado indicado en funcion de las tablas).

35. Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formacion (cien-cias, letras) en el dominio del ingles escrito en profesores universitarios. Para ello analiza elnumero de incorrecciones gramaticales en artıculos cientıficos enviados a publicacion. Paracada combinacion de niveles de los factores se han elegido al azar tres profesores. En la tablase proporciona el numero de fallos detectados en artıculos de 15 paginas

Letras CienciasHombre 8, 6, 13 22, 28, 33Mujer 5, 10, 6 12, 14, 9

Contrastar con nivel de significacion 0.05 si los efectos principales y la interaccion son sig-nificativos. Tener en cuenta que P (F1,8 ≤ 5.32) = 0.95, siendo F1,8 la distribucion F congrados de libertad 1 y 8. Interpretar los resultados.

36. Un alumno, como trabajo de la asignatura de estadıstica, ha comparado tres marcas distintas(A,B,C) de palomitas de maız precocinadas. Cada marca puede prepararse friendolas enuna sarten (metodo 1) o en el horno microondas (metodo 2). El alumno ha realizado undiseno factorial completo 3×2 con cinco replicaciones en cada uno de los seis tratamientos.La variable respuesta medida es el porcentaje de granos de maız que no se han infladoadecuadamente. Los resultados del experimento se muestran en la tabla, en cada tratamiento

14

Page 19: Sólo Problemas

se proporciona la media y entre parentesis la desviacion tıpica corregida para las cincoreplicaciones. Contrastar si la interaccion entre los dos factores es significativa.

A B C

Sarten5.5(1,4)

3.6(1,8)

7.5(2,5)

Horno3.8(1,3)

3.4(0,9)

4.3(1,3)

37. Se ha realizado un experimento con dos factores, A (temperatura con tres niveles), B (con-centracion con cuatro niveles). El experimento se ha replicado 5 veces. En la tabla semuestra la media y la varianza (corregida) para los 5 datos de cada tratamiento.

A B yi s2i1 1 240 1.21 2 261 1.61 3 235 1.41 4 257 2.42 1 249 1.42 2 270 5.72 3 246 5.82 4 267 1.73 1 241 4.23 2 262 9.43 3 237 1.33 4 260 6.1

Escribir la tabla de analisis de la varianza.

38. Se desea estudiar la influencia de 2 factores en el error de medida de un equipo de visionartificial. Un factor F es la distancia focal, para el que se han fijado 4 niveles y el otro factorL es el nivel de iluminacion con 2 niveles. Ademas se dispone de 2 equipos diferentes pararealizar las medidas. Se ha tomado un patron y se ha medido en las combinaciones indicadasen la tabla, donde yijk es el error obtenido al situar la distancia focal i, con iluminacion j yel equipo k.

F −→ 1 2 3 4 1 2 3 4L −→ 1 1 1 1 2 2 2 2

Equipo 1 y111 y211 y311 y411 y121 y221 y321 y421Equipo 2 y112 y212 y312 y412 y122 y222 y322 y422

Construir la tabla de analisis de la varianza, que incluya los efectos principales debidos a ladistancia focal (F ), la iluminacion (L) y el equipo, y ademas la interaccion F×L, suponiendoque son nulas el resto de interacciones.

39. Cierta industria de lentes para gafas desea comparar dos tipos de recubrimiento antireflec-tante A, B. Los dos tipos tienen identico aspecto y prestaciones, pero antes de decidirse por

15

Page 20: Sólo Problemas

uno u otro desean comprobar si el tipo de recubrimiento influye en el desgaste que sufre lalente. Para ello construyen gafas con una lente de cada tipo que distribuyen entre 10 per-sonas seleccionadas al azar que habitualmente utilizan gafas. Al cabo de seis meses midenel desgaste y se obtienen los valores que se indican en la tabla.

Persona Lente A Lente B1 6.7 6.92 5.0 5.83 3.6 4.14 6.2 7.05 5.9 7.06 4.0 4.67 5.2 5.58 4.5 5.09 4.4 4.310 4.1 4.8

¿Que tipo de recubrimiento recomendarıa a los fabricantes con el criterio de mınimo des-gaste?.

40. Demuestre que en un modelo en bloques aleatorizados, con I niveles para el factor y J nivelespara el bloque, con modelo

yij = µ+αi+βj+uij,el valor esperado de la variabilidad explicada por el factor es: E[V E(α)] =

(I − 1)σ2 + J∑J

i=1α2i ,siendo σ2 la varianza del error experimental.

41. Se desea comprobar si el orden en el que aparecen las preguntas de un examen test influyeen resultado obtenido por el alumno. Se han preparado dos examenes, el Test A tienelas preguntas en orden de dificultad creciente y el Test B a la inversa. Se ha elegido unamuestra aleatoria de 20 alumnos y se han emparejado segun su habilidad, de forma que losdos alumnos de cada pareja han demostrado durante el curso una habilidad similar. Decada pareja, un alumno se ha asignado aleatoriamente al Test A y el otro al Test B. Losresultados finales del ejercicio han sido (cada pareja es una columna)

Test A: 83 82 95 92 91 60 89 69 70 72Test B: 76 62 70 74 52 63 48 80 76 74

¿Es evidente que las puntuaciones del Test B son mas bajas que las del Test A?

42. El analisis de la varianza de un diseno en bloques aleatorizados proporciona los si-guientesresultados: V T = 129, V E(factor) = 38, 5 y V E(bloque) = 82, 5. El numero de niveles delfactor es 4 y el numero de bloques 4. Construir la tabla de analisis de la varianza y hacerlos contrastes correspondientes con nivel de significacion 0,05.

16

Page 21: Sólo Problemas

43. Se ha estudiado la influencia de la cantidad de cierto aditivo en la opacidad de un materialplastico que se puede fabricar por tres metodos de extrusion. El objetivo es conseguir eltratamiento con opacidad mınima. Cada tratamiento se ha replicado 5 veces, los valoresmedios y las desviaciones tıpicas corregidas para cada caso se proporcionan en la tabla 1.La tabla 2 corresponde al analisis de la varianza. Se ha comprobado que se verifican lascondiciones de normalidad y homocedasticidad.

Metodo Aditivo Medias Desv. Tıp.1 1 9.5 0.831 2 9.3 0.672 1 10.0 1.532 2 8.1 0.773 1 11.5 0.783 2 6.0 1.23

(TABLA 1)

Suma de

cuadrad. g.l. Var. F p-valor

Extrus. 2.210 2 1.105 1.072 0.358Aditivo 47.636 1 47.636 46.2 0.000Interac. 37.572 2 18.786 18.2 0.000Residual 24.728 24 1.030Total 112.146 29

(TABLA 2)

(a) A la vista de los resultados de las dos tablas indica que metodo de extrusion es acon-sejable para conseguir la opacidad mınima.

(b) Da un intervalo del 95% de confianza para la opacidad media en las condiciones optimas.

(c) Seadi = yi1 − yi2

la diferencia entre las medias observadas en los dos niveles del factor aditivos para elmetodo de extrusion i. Calcula el valor esperado y la varianza de di en terminos de losparametros del modelo factorial.

(d) Si E(di) = 0 para los tres metodos, obten la distribucion de probabilidad de

5

d21 + d22 + d23σ2

.

44. Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 oC y 320 oC)en la duracion de cierto componente. Para cada combinacion de horno y temperatura seha replicado el experimento 3 veces. En la tabla siguiente se proporcionan las medias ydesviaciones tıpicas de los datos de cada tratamiento.

17

Page 22: Sólo Problemas

Temperatura oC290 oC 320 oC

Media Desv. T. Media Desv. T.Horno 1 245.6 8.50 180.0 2.65Horno 2 191.0 15.39 144.0 2.65Horno 3 187.0 4.58 134.3 8.62

Suma GradosFuente Cuadrado Libertad Varianza F p-valorHorno 9646.3 2 4823.2 69.1 0.000Temp. 13667.6 1 13667.6 195.9 0.000H x T 274.8 2 137.4 1.97 0.182

Residual 837.3 12 69.8Total 24426 17

Seleccionar el horno y la temperatura que proporcionan maxima duracion, haciendo los con-trastes de igualdad de medias con nivel de significacion 0.01.

18

Page 23: Sólo Problemas

Modelos de regresion lineal

1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.

y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196

(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.

(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).

(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.

(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.

2. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).

3. Dada la recta de regresion y = 3 + 5(x − 2) con r = 0.8, sR = 1, construir un intervalo deconfianza del 95% para la pendiente si n = 100.

4. Dado el modelo estimado con n = 25 datos, y = 2 + 3(x− 4), sR = 5, con desviacion tıpicadel coeficiente de regresion S(β1) = 0.5, calcular la desviacion tıpica de la prediccion delvalor medio de y cuando x = 20.

5. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:

(a) Existıa una correlacion positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.

Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.

6. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:

1

Page 24: Sólo Problemas

Galaxia Distancia Velocidad(millones anos luz) (103Km/s)

Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14

Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.

(a) Estimar por regresion la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .

7. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la fuerza aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102

Tabla: Alargamiento yi (mm) producidos por la fuerza xi (Tm/cm2).

(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.

(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.

(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?

2

Page 25: Sólo Problemas

8. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1 = −1 frente a laalternativa H1 : β1 < −1.

9. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla

unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154

Se pide:

(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.

(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.

(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?

10. Se realiza una regresion multiple con tres regresores y se encuentra un coeficiente de cor-relacion de 0.5 entre los residuos de la regresion y uno de los regresores. Interpretar esteresultado.

11. La matriz de varianzas de tres variables estandarizadas es la siguiente

1 0.8 0.60.8 1 0.20.6 0.2 1

Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.

12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(

1 0.50.5 1

)

y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.

13. Se realiza la regresion entre la variable dependiente y y tres regresores x1, x2 y x3. Posterior-mente se decide realizar la regresion entre la variable y y los tres regresores estandarizados.Explicar cuales son las diferencias entre los resultados de una regresion y otra en cuanto alos coeficientes estimados βi, los residuos y el coeficiente de determinacion, justificando larespuesta.

3

Page 26: Sólo Problemas

14. La matriz de varianzas de las variables X1, X2 e Y es

25 27 1427 36 19.214 19.2 16

Siendo X1 = 30, X2 = 40, Y = 100 y el numero de datos n = 10.

Se pide:

(a) Realizar la regresion simple entre Y (variable dependiente) y X1, dando el intervalo deconfianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2.

(b) Realizar la regresion multiple entre Y (variable dependiente) y X1, X2, en desviacionesa la media.

(c) Indicar si los coeficientes de la regresion anterior son significativos.

(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar quemodelo eligirıa y por que.

15. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla

Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40

Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8

Se pide:

(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.

(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.

(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).

(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.

16. ¿Como disminuira la varianza teorica de los estimadores β en el modelo de regresion linealal replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de lavariable respuesta manteniendo las X fijas).

4

Page 27: Sólo Problemas

17. Se ha estimado un modelo de regresion para la estatura (y) de un grupo de adultos y susestaturas a los 7 (x1) y 14 (x2) anos. La desviacion tıpica residual obtenida es 5 cm y ladesviacion tıpica del coeficiente de x1 (estatura a los 7 anos) resulta 2.4, siendo este efectono significativo al 95%. Sin embargo, un segundo modelo de regresion que incluya solo aesta variable (x1) conduce a una desviacion tıpica residual de 7 cm y a un coeficiente deregresion de 2 con desviacion tıpica de 1. ¿Que podemos concluir con estos resultados de lacorrelacion entre x1 y x2?

18. Se dispone de una muestra de 100 automoviles con informacion respecto a su consumo(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyeccion, NI=no inyeccion) ynacionalidad (1=USA, 2=Alemania, 3=Japon, 4=Francia). Escribir la ecuacion del modelode regresion lineal del consumo respecto al resto de las variables e interpretar el significadode cada uno de los parametros del modelo.

19. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de diseno experi-mental puede escribirse como un modelo de regresion, determinar la matriz V = X(XTX)−1XT

de proyeccion y la varianza de un residuo eij para el modelo basico de analisis de la varianza

yij = µi + uij, i = 1, ..., I ; j = 1, ..., ni

Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundoy 3 en el tercero.

20. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2

yi = β0 + β1x1i.

Justificar en que condiciones el estimador β1 es centrado.

21. Se efectua una regresion con dos variables explicativas E[y] = β0 + β1x1 + β2x2. La matrizde varianzas de x1 y x2 es

[2 11 3

]

¿Cual de los dos estimadores β1 y β2 tendra menor varianza?

22. Se estudia la relacion entre los costes de fabricacion totales en miles de pesetas (Y ), de 25libros tecnicos, la tirada en miles de ejemplares producidos (T ) y el numero de paginas dellibro (N), encontrandose la relacion

Y = 1400 + 900T + 4N

(a) Sabiendo que las desviaciones tıpicas (sin corregir por grados de libertad) de T y Nson 1.5 miles de ejemplares y 200 paginas respectivamente, y sR = 600, calcular unintervalo de confianza del 90% para los efectos de T y N suponiendo que las variablesestan incorreladas. Interpretar el resultado.

5

Page 28: Sólo Problemas

(b) Si el coeficiente de correlacion entre las variables T y N es −0.5, ¿Puede admitirse lahipotesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?(α = 0.05).

(c) Sabiendo que la desviacion tıpica (sin corregir por grados de libertad) de los costes defabricacion es 2200 miles de pesetas, calcular el coeficiente de correlacion multiple y elestadıstico F para contrastar que ambas variables no influyen. Interpretar el resultado.

(d) Para estudiar cuanto encarecen los graficos el precio se introduce en el modelo unavariable ficticia Z que toma el valor 1 en libros con graficos y 0 en el resto, obteniendoseel nuevo modelo estimado siguiente (desviaciones tıpicas entre parentesis)

Y = 1080 + 520Z + 840T + 3.8N(100) (16) (0.97)

Interpretar el resultado.

23. Demostrar que el coeficiente de correlacion multiple en el modelo general de regresion esigual al coeficiente de correlacion lineal entre la variable observada y y la prevista y.

24. Para 11 provincias espanolas se conocen los siguientes datos:

Y = numero de mujeres conductoras dividido por el numero de hombres conductores.

X1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.

X2 = porcentaje de poblacion que trabaja en el sector agrıcola.

Si se denomina X = (1 X1 X2) a la matriz de regresores (1 es un vector de unos) se sabe que

(XTX)−1 =

5.1 −0.12 −0.05−0.12 30.8 0.08−0.05 0.08 0.001

(XTY ) =

−0.060.05−9.45

sR = 0.03;

n∑

i=1

(yi − y)2 = 0.0645

Se pide:

(a) Estimar el modelo de regresion y realizar los contrastes individuales (α = 0.05). Inter-pretar la regresion.

(b) Calcular el coeficiente de determinacion R2 y realizar el contraste de que las dos vari-ables no influyen mediante el test F (α = 0.05).

(c) Se introducen dos nuevas variables en la regresion: X3 que representa el porcentajede poblacion que trabaja en los servicios, y X4 el porcentaje de poblacion que trabajaen otras actividades distintas de agricultura y servicios. Explicar razonadamente comosera la regresion al introducir estas dos nuevas variables y los efectos de cada una deellas.

6

Page 29: Sólo Problemas

25. Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6

(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.

(b) Estimar el modeloyi = β0 + β1xi + β2x

2i + ui

y realizar el contraste H0 : β2 = 0.

(c) El resultado de la estimacion del modelo que incluye el termino x3 es,

yi = 2.81 + 0.80xi - 0.06x2i - 0.035x3

i

(0.05) (0.048) (0.019) (0.010)

con sR = 0.113 (entre parentesis las desviaciones tıpicas de los estimadores). Realizarel contraste general de regresion con α = 0.01. Seleccionar entre los tres el modelo masadecuado, justificando la respuesta.

26. En un modelo de regresion simple se ha obtenido un coeficiente de correlacion igual a −0.8.Si el numero de observaciones es n = 150, y = 22 y la variabilidad total es 320. Construirun intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuandox (regresor) es igual a x. (Aproximar la distribucion t de Student correspondiente por unadistribucion normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).

27. En una planta piloto se obtiene un nuevo producto mediante un proceso quımico. Con elfin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con trestemperaturas diferentes. Los resultados del experimento son

Temperatura

Catalizador 200 300 400

A 115 125 130 140 110 120B 115 105 135 145 100 110

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =0.05)

(b) ¿Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-tizar una probabilidad de error tipo I total, αT = 0.03?

(c) Estimar y contrastar el modelo de regresion simple entre el rendimiento y la tempera-tura. ¿Que conclusiones obtiene? Proponga un modelo de regresion que subsane lasdeficiencias encontradas.

7

Page 30: Sólo Problemas

28. El modelo de regresion multiple se puede escribir en notacion matricial

Y = Xβ + U

donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-pendencia y homocedasticidad. Deducir razonadamente la distribucion, media y matriz devarianzas del vector de residuos e = Y −Xβ.

29. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presioninterna (yi) en los botes de refresco de dos variables continuas (x1, x2) y del tipo de bebida(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes decada sabor, ha medido la presion interna. El tipo de bebida se representa por las variables z1,z2 y z3 que identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modeloestimado de regresion de y con respecto a x1, x2, z2 y z3 es:

y = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3; sR = 4.32

donde

(XTX)−1 =

0.1772 −0.6909 −0.5043 −0.0605 −0.0896−0.6909 5.8085 0.2541 0.1478 0.2444−0.5043 0.2541 5.0070 −0.0680 0.1216−0.0605 0.1478 −0.0680 0.1049 0.0546−0.0896 0.2444 0.1216 0.0546 0.1127

(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyensignificativamente en la presion. Interpretar el resultado explicando el significado decada parametro.

(b) Si se realiza una regresion entre la presion interna (yi) y las dos variables continuas x1

y x2 se obtiene el siguiente modelo de regresion

y = 23.86 + 65.1x1 − 56.3x2; sR = 4.78.

Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 =0 frente a H1 : α2 o α3 es distinto de cero).

(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMON yCOLA? (α = 0.01)

30. Estimar por maxima verosimilitud los parametros β1 y β2 del modelo

yi = β1x1i + β2x22i + ui ; ui N(0, σ).

¿En que condiciones los estimadores obtenidos por maxima verosimilitud son iguales que losobtenidos por mınimos cuadrados?

31. Obtener la relacion entre el coeficiente de determinacion R2 y el coeficiente de determinacion

corregido R2. ¿ Que ventajas presenta el segundo frente al primero ?

8

Page 31: Sólo Problemas

32. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos dedistintas caracterısticas. El ajuste por mınimos cuadrados de la ecuacion de regresion entreel tiempo de secado y una de las variables x1 es

y = 17.1 + 2.9x1, sR = 12.8, R2 = 0.37

(a) Obtener el intervalo de confianza al 95% para el parametro de la pendiente de la rectae indicar si su efecto es significativo.

(b) Incluir en el modelo de regresion otra variable independiente x2, sabiendo que su var-ianza muestral es s22 = 9.2, la covarianza entre las dos variables independientes ess12 = −3.35 y la covarianza entre el tiempo de secado y la nueva variable s2y = 9.55.Realizar los contrastes individuales para los parametros de x1 y x2.

(c) Un estudio teorico del problema indica que el efecto de las dos variables es igual y quepor tanto, la ecuacion de regresion deberıa ser

y = b0 + b1(x1 + x2).

Con la informacion de los apartados anteriores, obtener b1 y contrastar si la pendientede la recta es significativamente distinta de cero.

33. En el analisis de regresion simple entre dos variables, se considera como importante desdeel punto de vista practico, una correlacion entre las dos variables igual o superior a r = 0.1.Determinar el numero mınimo de observaciones con las que se debe estimar el modelo deregresion para que una correlacion igual a 0.1, implique que el regresor tiene un efectosignificativo sobre la variable dependiente. (Aproximar la distribucion t de Student corre-spondiente por una distribucion normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).

34. Interpretar geometricamente el problema de estimacion por mınimos cuadrados en regresionmultiple. Demostrar que los residuos del modelo se obtienen mediante la expresion e =PY , donde Y es el vector correspondiente a la variable dependiente y P es una matriz dedimension n × n. Determinar P en terminos de la matriz X de los regresores. A partir dela expresion anterior, obtener la distribucion de probabilidad de los residuos, la media y lamatriz de varianzas.

35. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.

9

Page 32: Sólo Problemas

X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43

Responder a las siguientes preguntas aplicando el modelo de regresion multiple, teniendo encuenta que XTX = 12I8, donde I8 es la matriz identidad de 8× 8.

(a) Estimar el modelo de regresion multiple

yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.

Obtener la descomposicion de la variabilidad del modelo y realizar el contraste

H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0

frente a la hipotesis alternativa H1: algun βj es distinto de cero.(NOTA.: XTY = (21.41, −0.03, 0.01, −0.23, 1.69, 2.35, −0.09, −0.19)T )

(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.

(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.

36. Una medida crıtica de calidad en la fundicion de llantas de aluminio por inyeccion es laporosidad. Se ha realizado un diseno experimental para analizar la porosidad (Y ) en funcionde la temperatura (T ) del aluminio lıquido y de la presion (P ) con que este se inyecta almolde. Se han realizado n=16 experimentos y el modelo obtenido ha sido

y = 2.84 + 0.59 T - 0.031 P(.048) (.048) (.048)

+ 0.26 T 2 + 0.30 P 2 - 0.22 TP(.048) (.048) (.068)

Entre parentesis se proporciona la desviacion tıpica estimada para cada uno de las estima-

ciones de los parametros del modelo. Ademas sR = 0.137 y R2= 0.9267. Las condiciones

experimentales se eligieron de forma que los cinco regresores utilizados en el modelo estanincorrelados.

10

Page 33: Sólo Problemas

(a) Realizar el contraste F general de regresion y los contrastes individuales de todos loscoeficientes del modelo, indicando cual es significativamente distinto de cero.

(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,las estimaciones de los restantes no varıan. Ademas, si se elimina el regresor j, conparametro estimado βj , la variabilidad no explicada del nuevo modelo V NE1 es igual

a V NE0 + ns2j β2

j , donde V NE0 es la variabilidad no explicada del modelo con todos

los regresores. Obtener sR y R2para el modelo que unicamente incluye los parametros

significativos.

(c) Determinar en que condiciones de presion y temperatura la porosidad es mınima segunel modelo anterior y dar un intervalo para prediccion de la porosidad media en estascondiciones. (Si t es la temperatura medida en grados centıgrados (0C) y p la presionen kg/cm2,T = (t − 650)/10 y P = (p − 975)/25. En estas unidades se cumple que

∑n

i=1 Ti = 0,∑n

i=1 Pi = 0,∑n

i=1 T2i = 8,

∑n

i=1 P2i = 8,

∑n

i=1 TiPi = 0)

37. Demostrar que cuando todos los regresores estan incorrelados, el coeficiente de determinacionde un modelo de regresion multiple cumple R2 =

∑k

j=1 r2j , donde k es el numero de regresores

y rj el coeficiente de correlacion entre el regresor j y la variable dependiente.

38. Explicar el concepto de multicolinealidad en regresion multiple, como se identifica y cualesson sus efectos sobre (a) los estimadores βi, (b) los residuos y (c) las predicciones.

39. Demostrar que en un modelo de regresion simple y y el estimador de la pendiente β1 sonindependientes. Utilizar esta propiedad para calcular la varianza de β0 = y − β1x.

40. La masa M de un cristal de hielo depositado en una camara a temperatura (-5oC) y humedadrelativa constante crece segun la ecuacion M = αT β, donde T es el tiempo y α y β sonparametros desconocidos. La relacion anterior se linealiza con la transformacion logarıtmica,estimandose el siguiente modelo

logM = logα + β log T + u

donde el termino anadido u son los errores experimentales, que se consideran aleatorios eindependientes con distribucion normal, N(0,σ2). Diez cristales del mismo tamano y forma seintrodujeron en una camara, extrayendose secuencialmente segun unos tiempos previamenteestablecidos. Para determinar la influencia del tipo de camara, se repitio exactamente elexperimento en una segunda camara. Los valores de sR para la camara 1 y 2 son 0.64 y0.50, respectivamente. Los modelos estimados para cada camara, XTX y (XTX)−1 son:

logM1 = −7.30 + 2.40 log TlogM2 = −5.74 + 2.03 log T

XTX =

(10.00 46.6646.66 218.9

)

(XTX)−1 =

(18.27 −3.89−3.89 0.835

)

11

Page 34: Sólo Problemas

(a) Contrastar con nivel de significacion 0.05 si los dos modelos tienen la misma pendiente.Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de losdos modelos es la misma y estimarla como el promedio de las dos varianzas residualescalculadas.)

(b) Un modelo de regresion multiple Y = Xβ + U , se replica, es decir se obtienen dosvectores de variables respuesta Y1, Y2, para los mismo regresores (matriz X). Demostrarque si β1 y β2 son los resultados de la estimacion de β utilizando por separado la variableY1 e Y2; entonces el estimador de β con todos los datos es (β1 + β2)/2.

(c) Estimar un unico modelo con los datos de las dos camaras. Sabiendo que Y TY = 306.8,donde Y = logM , dar un intervalo de confianza al 99% para los dos parametros.

41. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.

Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0

Media 34.3 31.6 27.5 28.2 30.4

(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).

(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.

(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.

42. Demostrar que en un modelo de regresion multiple estimado por maxima verosimilitud, losresiduos cumplen

n∑

j=1

ejxij= 0,

donde [xi1,xi2,..., xin,] es cualquier regresor del modelo. Obtener la distribucion conjuntadel vector de residuos. Si σ2 es la varianza teorica de la componente aleatoria del modelo,indicar en que circuntancias la varianza de un residuo es mayor que σ2.

12

Page 35: Sólo Problemas

43. Se dispone de una muestra de 86 vehıculos, de los cuales 31 son japoneses (J), 41 norteame-ricanos (N) y 14 europeos (E). La media y desviacion tıpica del consumo de gasolina (en litroscada 100 Km) para los coches japoneses es yJ = 9.1781, sJ = 1.42, para los norteamericanosyN = 9.7274, sN = 1.25 y para los europeos yE = 10.64, sE = 1.36.

(a) Suponiendo que los vehıculos escogidos son muestras aleatorias independientes y quepueden aplicarse las hipotesis de normalidad y homocedasticidad, contrastar la hipotesisde que el lugar de fabricacion no influye en el consumo de combustible. ¿Existe algungrupo con un consumo significativamente menor que los otros dos?

(b) Los coches tienen caracterısticas muy diferentes (peso, potencia,...) que deben sertenidas en cuenta para hacer la comparacion anterior. Con esa finalidad, se ha ajustadoel siguiente modelo de regresion:

y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE s2R = 0.506, R2 = 75.7%

donde (XTX)−1 es:

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2

−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

donde la variable dependiente es el consumo, Pot (potencia) esta expresada en unidadesde 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero enlos demas, y ZE toma el valor 1 para los coches europeos y cero en los demas. Realizarel contraste general de regresion para el modelo anterior e interpretar los coeficientesestimados.

(c) Con el modelo de regresion anterior realizar los tres contrastes siguientes:

(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.

(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.

(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.

Comparar los resultados con los obtenidos en el apartado 1, explicar a que se deben lasdiferencias y justificar cual es el modelo mas adecuado para hacer las comparaciones.

44. El modelo de regresion multiple con n observaciones y k + 1 variables independientes (in-cluyendo la constante β0) se puede escribir en notacion matricial como

Y = Xβ +U,

donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, inde-pendencia y homocedasticidad y la matriz de los regresores X es de dimension n× (k + 1).Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A escualquier matriz cuadrada de dimension (k + 1) × (k + 1) y rango maximo, entonces laregresion de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.Justificar geometricamente este resultado.

13

Page 36: Sólo Problemas

45. La resistencia a la traccion (y) de una aleacion metalica en funcion de la temperatura detemplado (x) se ha ajustado con una ecuacion de regresion para 30 observaciones resultando:

y = 276.1 + 1.9x, sR = 15.7, R2 = 0.43

Se puede concluir con una confianza del 95% que la temperatura de templado tiene efectosignificativo en la resistencia a la traccion.

46. En Cosby Creek, una ciudad al sur de las montanas Apalaches, se ha hecho un estudio paradeterminar como el pH y otras medidas de acidificacion del agua se ven afectadas durantelas tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentasmonitorizadas para un total de 19 variables, aunque en este analisis se analizaran solo 2, elpH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresion multipledel valor pH con respecto a la variable WA y para cada una de las tres tormentas. Lastormentas se representan con las variables ficticias z1, z2 y z3 que identifican respectivamentela tormenta 1, 2 y 3. El modelo estimado de regresion de y con respecto a WA, z1, z2 y z3es:

pH = 5.77− 0, 00008WA(0,000727)

+ 0, 998z1(0,4664)

+ 1, 65z2(0,4701)

− 0, 005z1WA(0,0014)

− 0, 008z2WA(0,0016)

, R2 = 0, 866

Entre parentesis las deviaciones tıpicas estimadas de los estimadores de los parametros cor-respondientes.

(a) Realice el contraste general de regresion y los contrastes individuales con α = 0, 05indicando las variables que influyen significativamente en el pH. Interprete el significadode cada parametro.

(b) Proporcione sendos intervalos de confianza al 95% para los parametros de las interac-ciones z1WA y z2WA. ¿Que conclusiones pueden extraerse? ¿Se puede simplificar elmodelo?

47. Dos becarios del Departamento de Ciencias Sociales estan interesados en el estudio de laTasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 paıses dicha magnitudası como la alfabetizacion (A), el PIB y la poblacion (Pob) en cada uno de ellos.

Las medias y desviaciones tıpicas corregidas de estas 4 variables son:

TMI A PIB Pob

Media 42.67 78.34 5831.4 48501DT corregida 38.3 22.88 6537.24 147.991

(a) Si el coeficiente de correlacion entre TMI y A vale -0.9005 estime el modelo de regresionsimple en el que TMI es la variable respuesta y A la variable explicativa y contraste sila pendiente estimada es significativa.

(b) Los becarios han estimado un modelo de regresion multiple en que la variable depen-diente es TMI y las variables independientes son A, PIB y Pob. Observando que ladiagnosis del modelo es inadecuada. Estime el modelo de regresion multiple entre TMI(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:

14

Page 37: Sólo Problemas

(X ′X)−1 = 10−3

0.0259 −0.0499 0.0001−0.0499 0.3186 0.00070.0001 0.0007 0.0004

(X ′Y ) = 104

−8.3651−1.70075.1293

siendo X la matriz de estos 3 ultimos regresores en desviaciones a la media e Y el vectorrespuesta en desviaciones a la media. ¿Son significativos los coeficientes estimados?

c. Para el modelo del apartado anterior realice el contraste general de regresion. ¿En-cuentra contradicciones entre el resultado de los contrastes individuales del apartado 2y el del apartado 3? Justifique la respuesta.

d. Los paıses objeto del estudio se pueden clasificar en desarrollados y no desarrollados.Para ello se introduce la variable cualitativa Z que toma valor 0 si el paıs es desarrolladoy 1 si no lo es. El modelo resultante se presenta a continuacion:

TMI = 138.2− 1.1A− 9.6 log(PIB) + 3.3Z con s2R = 196.3

Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elijade manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados

NOTA: Utilice α = 0.05 para todos los contrastes que sean necesarios.

48. Se ha realizado la regresion entre la anchura y la longitud del pie en centımetros con datosde chicos y chicas de cuarto curso de la ensenanza secundaria. En la tabla se proporciona elresultado de la regresion. En el modelo se ha incluido una variable cualitativa que toma elvalor 1 si la observacion corresponde a una chica y 0 si es a un chico. Interpreta el resultadodel analisis.

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Anch

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT 4,29977 1,12692 3,81551 0,0005

Long 0,21311 0,048554 4,38913 0,0001

Chica -0,272394 0,127844 -2,13067 0,0402

-----------------------------------------------------------------------------

Analysis of Variance

15

Page 38: Sólo Problemas

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 4,60164 2 2,30082 16,41 0,0000

Residual 4,90599 35 0,140171

-----------------------------------------------------------------------------

Total (Corr.) 9,50763 37

R-squared = 48,3994 percent

49. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica)y de la masa del gas para el argon.

Presion (psi) Masa (g)52 1, 02849 0, 95644 0, 8839 0, 79334 0, 72529 0, 64525 0, 59321 0, 52619 0, 519 0, 44211 0, 3730 0, 21

(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion

Pi = αmi + ui, con ui ∼ N(0, σ2).

Obtener el estimador de maxima verosimilitud del parametro α

(b) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.

(c) Para el modelo del apartado 1, obtener un intervalo de prediccion para la presion cuandola masa es igual a 1 gramo.

(d) Se considera tambien el modelo alternativo

Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).

16

Page 39: Sólo Problemas

Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presion Ph

para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del primerapartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?

50. Se ha estimado un modelo de regresion con dos variables independientes y 150 observacionesobteniendose la siguiente ecuacion:

yi = −1.17 + 0.025 logx1 + 0.59 log x2, s2R = 2.48

La matriz de varianzas estimada de b = [β1, β2]T para el modelo propuesto es

(XT X

)−1

s2R =

(.253 .201.201 .288

).

realiza el contraste general de regresion con α = 0.05:

H0 : β1 = β2 = 0

H1 : algun βi es distinto de cero

51. En el modelo de regresionyi = β0 + β1X1i + β2X2i + ui

con las hipotesis habituales, explicar como se contrasta

H0 : β1 = β2

H1 : β1 6= β2

52. Demostrar que en el modelo de regresion multiple con k regresores y constante, el estadısticoque contrasta H0 : β0 = β1 = β2 = · · · = βk = 0 frente a H1 : algun βi 6= 0, si H0 es ciertaes:

F =Y TV Y

Y T (I − V )Y

n− k − 1

k + 1 Fk+1,n−k−1

donde V = X(XTX)−1XT e I es la matriz identidad de dimension n× n.

53. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calorgenerado en el proceso de endurecimiento del 13 muestras de cemento en funcion de sucomposicion. Los regresores Xi corresponden al porcentaje de 4 componentes de la mezcla.

17

Page 40: Sólo Problemas

Fila Regresores Calor Modelo II

X1 X2 X3 X4 Y Residuo vii

1 7 26 6 60 78.5 -1.574 0.25

2 1 29 15 52 74.3 1.049 0.26

3 11 56 8 20 104.3 -1.515 0.12

4 11 31 8 47 87.6 -1.658 0.24

5 7 52 6 33 95.9 -1.393 0.08

6 11 55 9 22 109.2 4.048 0.11

7 3 71 17 6 102.7 -1.302 0.36

8 1 31 22 44 72.5 -2.075 0.24

9 2 54 18 22 93.1 1.825 0.18

10 21 47 4 26 115.9 1.362 0.55

11 1 40 23 34 83.8 3.264 0.18

12 11 66 9 12 113.3 0.863 0.20

13 10 68 8 12 109.4 -2.893 0.21

Modelo I Modelo IIDesv. Tıp.

Parametros Estimacion Estimadas t

Constante 62.4 70.1 0.89

X1 1.55 0.74 2.08

X2 0.51 0.72 0.70

X3 0.10 0.75 0.13

X4 -0.14 0.71 -0.20

Desv. Tıp.

Parametros Estimacion Estimadas t

Constante 52.6 2.28 23.0

X1 1.46 0.12 12.1

X2 0.66 0.045 14.4

Analisis de la Varianza

Varia- GradosFuentes bilidad Lib. Var. FExplic. 2667.9 4 667.0 111.5

Residual 47.8 8 5.98

Total 2715.7 12

Analisis de la Varianza

Varia- GradosFuentes bilidad Lib. Var. FExplic. 2657.8 2 1328.9 229.5

Residual 57.9 10 5.8

Total 2715.7 12

En las tablas se proporcionan dos modelos de regresion lineal, con las estimaciones de losparametros, las desviaciones tıpicas estimadas de estos y los estadısticos t de los contrastesindividuales. Debajo se incluyen las tablas de analisis de la varianza de cada modelo.

(a) Realizar los contrastes H0 : βi = 0 frente H1 : βi 6= 0 para los distintos parametros enlos dos modelos. Realizar el contraste conjunto H0 : β3 = β4 = 0 frente H1 : alguno delos dos es 6= 0. ¿Se puede concluir con estos datos que X4 no influye significativamenteen el calor Y ?

(b) Estimar el modelo de regresion simple del calor Y y la variable explicativa X4 ¿Influyesignificativamente X4 en el calor Y ? Analizar este resultado e interpretarlo teniendoen cuenta el resultado del apartado anterior.

(c) En la tabla superior se muestran los residuos del modelo II y los elementos de ladiagonal de la matriz V = X(XTX)−1XT . Indicar los residuos con mayor y menorvarianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos

18

Page 41: Sólo Problemas

condiciones, dar un intervalo para la prediccion de los nuevos valores de la variabledependiente (usar α = 0.05).

54. En un estudio de regresion simple con 35 observaciones ha resultado el siguiente modelo

y = 0.12 + 7.6 log(x), sR = 1.2, R2 = 0.37

Obtener el intervalo de confianza al 95% para el parametro de la pendiente e indicar si suefecto es significativo.(El percentil 0.975 de la distribucion t de Student con 33 grados delibertad es 2.03)

55. Los datos siguientes corresponden a la perdida (P) por abrasion en gr/h y su medida dedureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tension (A) yotras 15 gomas de caucho con resistencia a la tension baja (B):

A D 75 55 61 66 71 71 81 86A D 53 60 64 68 79 81 56A P 128 206 175 154 136 112 55 45A P 221 166 164 113 82 32 228

B D 45 68 83 88 59 71 80 82B D 89 51 59 65 74 81 86B P 372 196 97 64 249 219 186 155B P 114 341 340 283 267 215 148

Escribir el modelo estadıstico, indicar los parametros y explicar el procedimiento de esti-macion para estudiar con estos datos simultaneamente el efecto de la dureza y de la resisten-cia a la tension (alta o baja) en las perdidas por abrasion. Indicar como contrastar con elmodelo propuesto que “las gomas de caucho con baja resistencia a la traccion tienen por

termino medio mayor perdida que las gomas con resistencia a la traccion baja.” (Nota.- Nose pide ningun calculo numerico, los datos se presentan para ilustrar y describir el problemade forma precisa).

56. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo

yi = αx1ix22i + ui,

segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

19

Page 42: Sólo Problemas

Obs. x1i x2i x1ix22i yi Obs. x1i x2i x1ix

22i yi

1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,8212 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,2803 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,0344 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,6795 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,0736 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,0227 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,6308 22,9 0,269 1,66 0,722

(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.

(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza). La varianza residual del modelo es0,0058.

(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,

log yi = β0 + β1 log x1i + β2 log x2i + ui

El resultado de la estimacion es:

Parametro Estimacionβ0 -1,45β1 1,14β2 1,86

y Mβ=

0, 1250 0, 0212 −0, 03170, 0212 0, 0082 −0, 0051

−0, 0317 −0, 0051 0, 0042

siendo Mβ= s2R(X

TX)−1 (X es la matriz de los regresores transformados segun el

modelo) La transformacion logarıtmica del modelo inicial (αx1ix22i) implicarıa que β1 =

1 y β2 = 2. Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2 si la varianza residual es 0,0031.

57. La cantidad maxima yi de cierto compuesto disuelta en un litro de agua a temperatura xi

sigue el modelo de regresion simple,

yi = β0 + β1xi + ui,

donde ui cumple las hipotesis de normalidad, homocedasticidad (Var(ui) = σ2) e indepen-dencia. Una muestra de n disoluciones diferentes han proporcionado los valores (yi, xi).Ademas se han medido las cantidades disueltas y′1, y

2, ..., y′

m en otra muestra de m disolu-ciones que se encontraban a la misma temperatura x0. El valor x0 es desconocido. Estimarpor maxima verosimilitud los parametros β0, β1, σ

2 y x0 utilizando las n+m observaciones.

20

Page 43: Sólo Problemas

58. Explicar en que consiste el problema de la multicolinealidad en el modelo de regresion: comose detecta, como se puede corregir y cuales son sus efectos.

59. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,

Temperatura acero (T )

1450 oF1525 oF1600 oF

Temperatura aceite (t)

70 oF95 oF120 oF

y se han realizado los siguientes experimentos:

x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0

donde se ha utilizado la siguiente transformacion (para simplificar calculos)

x1i =Ti − 1525

75y x2i =

ti − 95

25.

Estimar el modelo de regresion

yi = β0 + β1x1i + β2x2i + β3x1ix2i + ui

e indicar que parametros son significativos para nivel de significacion 0.05, teniendo encuenta que la desviacion tıpica residual es sR = 9.6. Estimar y contrastar el modelo anteriorempleando las variables originales Ti y ti.

60. Se ha ajustado un modelo de regresion para estudiar el efecto de la velocidad de corte (x1)y el caudal de refrigerante (x2) en la duracion (y) de una herramienta de corte. Las tresvariables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:

log y = 18, 30 − 5, 050 log x1 − 3, 750 log x2

(1,65) (0,19) (0,34)

(entre parentesis se proporcionan las desviaciones tıpicas estimadas de los coeficientes estima-dos del modelo). El numero de observaciones es 32 y la desviacion tıpica residual sR = 0, 24.Obtener los intervalos de confianza (99%) para los tres parametros de la ecuacion de re-gresion. El coeficiente de determinacion es R2 = 0, 96, realizar el contraste conjunto de losparametros correspondientes a las dos variables explicativas.

61. Se ha ajustado el siguiente modelo de regresion multiple con una muestra de 86 vehıculos, delos cuales 31 son japoneses , 41 norteamericanos y 14 europeos, donde la variable dependientees el consumo, y los regresores: Pot (potencia) esta expresada en unidades de 100 Cv, el

21

Page 44: Sólo Problemas

Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero en los demas, y ZE tomael valor 1 para los coches europeos y cero en los demas.

y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE s2R = 0.506, R2 = 75.7%

(XTX)−1 =

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2

−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con unapotencia de 120 Cv y 1600 Kg de peso.

62. El modelo de regresion multiple que relaciona el calor generado en el proceso de endurec-imiento (variable dependiente) de 13 muestras de cemento en funcion de su composicionx1, x2, x3 y x4, es

yi = 62.4 + 1.55 x1i + 0.51 x2i + 0.10 x3i − 0.14 x4i

(70.1) (0.74) (0.72) (0.75) (0.71)

(entre parentesis la desviacion tıpica estimada de las estimaciones de los parametros). Abajose proporciona el coeficiente de determinacion R2 de los 15 modelos de regresion diferentesque se obtienen segun los regresores elegidos.

R2 Variables en el Modelo53.3948 x1

66.6268 x2

28.5873 x3

67.4542 x4

97.8678 x1, x2

54.8167 x1, x3

97.2471 x1, x4

84.7025 x2, x3

68.0060 x2, x4

93.5290 x3, x4

98.2285 x1, x2, x3

98.2335 x1, x2, x4

98.1281 x1, x3, x4

97.2820 x2, x3, x4

98.2376 x1, x2, x3, x4

¿Que variables influyen significativamente en el calor generado? Justificar la respuesta. ¿Quemodelo seleccionarıas para predecir el calor generado?

63. Se desea estudiar la relacion entre el sueldo de 100 personas, en funcion del numero deanos que llevan trabajando y el sector al que pertenecen, pudiendose dividir el sector en

22

Page 45: Sólo Problemas

S=servicios, I=industria, A=agricultura. Escribir el modelo de regresion entre el sueldo(variable respuesta) y el resto de las variables. Se estima este modelo de regresion obteniendouna varianza residual s2R = 0.25. Con el objetivo de contrastar si el sector influye en el sueldose estima otro modelo de regresion que no contiene ninguna variable de sector, para estemodelo se obtiene una varianza residual s

′ 2R = 0.4. Contrastar si el sector influye en el sueldo

que perciben los empleados (α = 0.05).

64. En un modelo de regresion multiple Y = Xβ+U se realiza la transformacion de los regresoresZ = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango maximo.Calcular la estimacion de los coeficientes del nuevo modelo Y = ZβN + U en funcion de losantiguos.

65. Se ha estimado el siguiente modelo de regresion entre la variable y y los regresores x1, x2 yx3,

y = 61.1 + 46.1 log x1 + 83.1 logx2 + 27.9 log x3, sR = 5.49

Teniendo en cuenta que el numero de observaciones es n = 60 y que

(XTX)−1 =

0.1939 −0.0892 −0.0887 −0.1534−0.0892 0.1924 −0.0125 0.0010−0.0887 −0.0125 0.2093 −0.0066−0.1534 0.0010 −0.0066 0.2613

Dar un intervalo de confianza para los 4 parametros de la ecuacion de regresion y para lavarianza del modelo (α = 0.05).

66. Se ha estimado un modelo de regresion multiple para explicar el consumo de combustiblede automoviles en funcion del peso, la potencia y el lugar de fabricacion. La muestra es de86 vehıculos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).

y = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE, s2R = 0.506, R2 = 75.7%

(XTX)−1 =

4.791e− 1 5.054e− 2 −3.794e− 1 −9.157e− 2 −4.682e− 25.054e− 2 1.595e− 1 −1.931e− 1 −3.443e− 3 −1.262e− 2

−3.794e− 1 −1.931e− 1 4.646e− 1 5.210e− 2 2.865e− 2−9.157e− 2 −3.443e− 3 5.210e− 2 6.667e− 2 2.744e− 2−4.682e− 2 −1.262e− 2 2.865e− 2 2.744e− 2 9.759e− 2

La variable dependiente, el consumo, esta medida en litros cada 100 km, Pot es la potenciay esta expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el cochees japones y cero en los demas, y ZE toma el valor 1 para los coches europeos y cero enlos demas. Realizar el contraste general de regresion y los contrastes individuales para elmodelo anterior. Interpretar el resultado.

67. En una muestra de 31 arboles se ha medido la altura (x1i), el diametro del arbol a un metrode altura sobre el suelo (x2i) y el volumen de madera del tronco (yi) y se ha estimado elsiguiente modelo de regresion

log(yi) = β0 + β1 log(x1i) + β2 log(x2i) + ui.

Los resultados se muestran en las tablas siguientes:

23

Page 46: Sólo Problemas

Analisis de regresion multiple

Variable dependiente: Log(Volumen)Regresor Estimacion Desviacion tıpica Estadıstico t Nivel crıticoOrdenada en el origen -6,63162 0,79979 -8,2917 0,0Log(Altura) 1,11712 0,20444 -5,4644 0,0Log(Diametro) 1,98265 0,07501 26,4316 0,0

Analisis de la varianza

Fuente Suma de cuadrados G. de L. Varianzas Cociente F Nivel crıticoModelo 8,12323 2 4,06161 613,19 0,0Residual 0,18546 28 0,00662Total 8,30869 30

Aproximando el volumen del arbol por el de un tronco conico, el volumen debe ser propor-cional a kx1ix

22i y tomando logaritmos

log(k) + log(x1i) + 2 log(x2i).

Realizar los siguientes contrastes de hipotesis con nivel de significacion 0,05:{H0 : β1 = 1H1 : β1 6= 1

{H ′

0 : β2 = 2H ′

1 : β2 6= 2.

68. En la tabla siguiente se presenta la estimacion de la regresion entre el resultado en la pruebadel salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de100 metros lisos, 110 metros valla, 400 metros y 1500 metros.

Coeficientes

βi Desv. T. t p-valorConstante 17.9 2.12 8.45 0.000X1 (100 m) -.462 .266 -1.73 0.093X2 (110 m) -.181 .124 -1.45 0.155X3 (400 m) -3.39E-02 .070 -.485 0.631X4 (1500 m) -4.47E-03 .004 -1.03 0.312

La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidadresidual 2.413. Realizar el contraste general de regresion, e interpretar el resultado delcontraste y los contrastes individuales de la tabla.

24