Diseño de Experimentos y Regresión
Transcript of Diseño de Experimentos y Regresión
Laboratorio de
Estadística
Diseño de Experimentos y
Regresión
ESCUELA TÉCNICA SUPERIOR DEINGENIEROS INDUSTRIALESUNIVERSIDAD POLITÉCNICA DE MADRID
Edición Curso 21/22
DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓNDepartamento de ingeniería de organización,
administración de empresas y estadística.
PROGRAMA
1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-sis de normalidad, independencia y homocedasticidad. Estimación. Contrastede igualdad de medias. Contraste de igualdad de varianzas. La distribuciónF: Comparación de varios tratamientos. Modelo básico. Descomposición de lavariabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdadde medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo deanálisis de la varianza. Grá�co probabilista normal. Contrastes de homocedas-ticidad. Aleatorización.
2. Diseño de experimentos. Modelo con dos factores. Concepto de in-teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modeloen bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-lidad. Tabla de análisis de la varianza.
3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros pormáxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.Contrastes individuales de los parámetros del modelo. Contraste general deregresión. El coe�ciente de determinación. Multicolinealidad: identi�cación ysus consecuencias. Predicción en regresión simple. Variables cualitativas comoregresores. Diagnosis del modelo.
1
Diseño de Experimentos y Modelos de Regresión
Curso 2021/22
1. Análisis de la Varianza
2Análisis de la Varianza
Comparación de dos tratamientos
A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,9
Se desea comparar dostratamientos parareducir el nivel decolesterol en la sangre.Se seleccionan 20individuos y se asignanal azar a dos tipos dedietas A y B. La tablamuestra la reducciónconseguida después dedos meses.
3Análisis de la Varianza
Método: 4 pasos
- Definición del modelo de distribución de probabilidad:
·Hipótesis·Parámetros
- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación
4Análisis de la Varianza
1 2
11
12
11
ny
yy
22
22
21
ny
yy
ModeloMODELO
DATOS
5Análisis de la Varianza
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Normalidad
yij N( i, 2)
Homocedasticidad
Var [yij] = 2
Independencia
Cov [yij, ykl] = 0
Parámetros
22
1
6Análisis de la Varianza
Modelo
),0(, 2Nuuy ijijiij
Las observaciones se descomponen en:-Parte predecible-Parte aleatoria
i
0
iju
7Análisis de la Varianza
Estimación medias:
2
12
22
1
11
11
2
1
:
:
n
y
y
n
y
y
n
jj
n
jj
A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,943,1 29,3
8Análisis de la Varianza
Estimación varianza (residuos)
A B8,2 0,3-3,7 17,7
-16,8 -3,4-4,1 -16,35,0 3,8-8,9 -7,226,7 4,8-11,8 -9,82,1 14,53,3 -4,40,0 0,0
Residuos
2ˆ:
:
),0(,
2
1 1
2
22
2
n
e
s
e
yye
yu
Nuuy
i
n
jij
R
ij
iijij
iijij
ijijiij
i
RESIDUO
95.130ˆ;0 21
Rn
jij sei
9Análisis de la Varianza
Varianza residual:
1)(
ˆ1
2112
1
1
12
11
1
nyy
s
y
yy
j
n
1)(
ˆ2
2222
2
2
22
21
2
nyy
s
y
yy
j
n
1 2
22
1 12 2 21 21 2
1 1ˆ ˆ ˆ2 2 2
in
iji j
R
en ns s s
n n n
2ˆRs
10Análisis de la Varianza
Diferencia de medias:
),(1
2
11
1
12
11
1
nNy
y
yy
n
),(2
2
22
2
22
21
2
nNy
y
yy
n
1 2
2
21
2121
21
21212
2
1
2
2121
11ˆ
)()()1,0(
11)()(
),(
n
R
t
nns
yyN
nn
yynn
Nyy
21 yy
11Análisis de la Varianza
Contraste de igualdad de medias
211
210
::
HH
/2
02/0
02/0
rechaza e
rechaza se No
HStt
Htt
t /2-t /2
/2
tn-2
R.R. R.R
R. Acept.
1-2
21
210 11ˆ
n
R
t
nns
yyt
12Análisis de la Varianza
211
210
::
HH
0 rechaza e10.269.2 HS
2.10-2.10
0.025
t18R.R. R.R
69.2
101
10144.11
3.291.430t
0.025
Ejemplo: = 0.05
13Análisis de la Varianza
Ejemplo: = 0.01
211
210
::
HH
/2
0 rechaza se No88.269.2 H
2.88-2.88
0.005
t18
R.R. R.R
0.9969.2
101
10144.11
3.291.430t
0.005
14Análisis de la Varianza
211
210
::
HH
69.2
101
10144.11
3.291.430t
Nivel crítico (bilateral)
2.69-2.69
0.00740.0074
t18
0147.0)69.2Pr( 18tvalorp• = 0.05 > p-valor Se rechaza H0
• = 0.01 < p-valor No se rechaza H0
15Análisis de la Varianza
Conclusiones (fijado )
Si |to| > t /2 se dice quela diferencia demedias essignificativa. Osimplemente que lostratamientos sondistintos (tienenmedias distintas).
Si |to| t /2 se dice quela diferencia demedias no essignificativa. No hayevidencia suficientepara afirmar que lasmedias de lostratamientos seandiferentes.
16Análisis de la Varianza
No rechazar Ho, no implica que Ho sea cierta
El resultado |to| t /2, (no se rechaza Ho)no debe interpretarse como que “se hademostrado que las dos medias soniguales”.
No rechazar la hipótesis nula implica quela diferencia entre las medias 1 - 2 no eslo suficientemente grande como para serdetectada con el tamaño muestral dado.
17Análisis de la Varianza
Intervalo de confianza para la diferencia de medias:
2
21
212111ˆ
)()(n
R
t
nns
yy
21
212/2121
2/
21
21212/
11ˆ)(
1}11ˆ
)()({Pr
nnstyy
t
nns
yyt
R
R
t /2-t /2
/2
tn-2
1- /2
18Análisis de la Varianza
Ejemplo: intervalo de confianza
2.10-2.10
0.025
t18
0.025
74.108.13101
10144.1110.2)3.291.43(
11ˆ)(
21
21
212/2121 nnstyy R
21
Dos tratamientos con R
19Análisis de la Varianza
Otra forma
20Análisis de la Varianza
21Análisis de la Varianza
Ejemplo: Comparación Altura
22Análisis de la Varianza
23Análisis de la Varianza
24Análisis de la Varianza
Ejemplo: Comparación Altura
25Análisis de la Varianza
Hipótesis de homocedasticidad
1)(
ˆ1
2112
1
1
12
11
1
nyy
s
y
yy
j
n
1)(
ˆ2
2222
2
2
22
21
2
nyy
s
y
yy
j
n
1
1 2
2
22
211
22
210
:
:
H
H
26Análisis de la varianza
Distribución F
212
1
211
1
2112
1
1
12
11
1
1
ˆ)1(
1)(
ˆ
n
j
n
sn
nyy
s
y
yy
212
2
222
2
2222
2
2
22
21
2
2
ˆ)1(
1)(
ˆ
n
j
n
sn
nyy
s
y
yy
1,1
22
22
21
21
2
21
1
21
21
2
1
ˆ
ˆ
)1(
)1(nn
n
n
Fs
s
n
nF
27Análisis de la varianza
Distribución F
F5,40
F10,40
F20,40
F40,40
F10,10
F10,20
F10,40
F10,80
La media es 1
28Análisis de la varianza
Contraste de igualdad de varianzas
F /2F1- /2
/2/2
RRRR1-
R.A. Ho
02/2/10
02/2/10
rechaza Se , Si rechaza se No , Si
HFFFHFFF
22
211
22
210
:
:
H
H
1,121
21
0
22
210
21ˆˆ
, cierto es Si
nnFssF
H
29Análisis de la varianza
Ejemplo: Contraste de igualdad de varianzas
0 rechaza se No 03.4,248.0.3441 H
22
211
22
210
:
:
H
H
344.17.11118.150
7.111ˆ18.150ˆ
0
22
21
F
ss4.030.248
0.0250.025
RRRR
1.34
30Análisis de la Varianza
Ejemplo: Contraste de igualdad de varianzas con R
31Análisis de la Varianza
32Análisis de la varianza
1.2 Análisis de la Varianza
33Análisis de la varianza
¿Existen diferencias entre las cuatro semillas?
Se desea comparar el rendimiento de cuatrosemillas A,B,C y D. Un terreno se divide en 24parcelas similares y se asigna al azar cada semillaa 6 parcelas.
A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9
34Análisis de la varianza
Método: 4 pasos
- Definición del modelo de distribución de probabilidad:
·Hipótesis·Parámetros
- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación
35Análisis de la varianza
Modelo
1 2 K
...
11
12
11
ny
yy
22
22
21
ny
yy
KKn
K
K
y
yy
2
1
...
36Análisis de la varianza
Hipótesis del modelo
Normalidadyij N( i, 2)
HomocedasticidadVar [yij] = 2
IndependenciaCov [yij, ykl] = 0
37Análisis de la varianza
Modelo: Hipótesis y Parámetros
Hipótesis básicas:Normalidad
yij N( i, 2)
Homocedasticidad
Var [yij] = 2
Independencia
Cov [yij, ykl] = 0
Parámetros
2
2
1
K
38Análisis de la varianza
Modelo: Forma alternativa
),0(, 2Nuuy ijijiij
Las observaciones se descomponen en:Parte predecibleParte aleatoria
i
0
iju
39Análisis de la varianza
Estimación medias: Máxima Verosimilitud
K
n
jKj
KK
n
jj
n
jj
n
yy
n
yy
n
yy
K
1
2
12
22
1
11
11
:
:
:
2
1
A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9
40Análisis de la varianza
Estimación varianza (residuos)
Kn
es
e
yye
yu
Nuuy
K
i
n
jij
R
ij
iijij
iijij
ijijiij
i
1 1
2
22
2
ˆ:
:
),0(,
RESIDUO
4.142ˆ2Rs
A B C D-13.8 14.8 -3.0 24.510.8 14.4 9.0 2.7-1.6 0.6 3.4 -15.911.8 -18.7 -2.3 4.8-5.7 5.7 -6.5 -15.9-1.6 -16.7 -0.4 -0.10.0 0.0 0.0 0.0
Residuos
41Análisis de la varianza
Comparación de medias
La comparación de tratamientos con este modelose reduce a comparar las medias 1, 2, ..., K ,en primer lugar con el contraste:
diferente es una menos Al::
1
210
HH K
42Análisis de la varianza
Descomposición de la variabilidad
K
i
n
jiij
K
iii
K
i
n
jij
K
i
n
jiij
K
i
n
ji
K
i
n
jij
K
i
n
jiiji
iijiij
ijiijiijijiij
ii
iii
i
yyyynyy
yyyyyy
yyyy
i,j
yyyyyyn
yyyyyyuy
1 1
2
1
2
1 1
2
1 1
2
1 1
2
1 1
2
1 1
)()()(
)()()(
)0))(( donde(
todopara sumandoy cuadrado al elevando
)()(
, restando:)(
43Análisis de la varianza
Variabilidades
n-KeyyVNE
K-yynVE
n-yyVT
K
i
n
jij
K
i
n
jiij
K
iii
K
i
n
jij
ii
i
1 1
2
1 1
2
1
2
1 1
2
)(
1)(
1)(
libertad de GradosadesVariabilid
)()1(1 KnKnVNEVEVT
44Análisis de la varianza
Descomposición: ejemplo
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9254.7 200.0 211.8 250.7 242.9 218.7 214.1 245.9 11.8 -18.7 -2.3 4.8237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1
-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.523.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.710.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.924.3 -30.4 -18.6 20.3 12.5 -11.7 -16.3 15.5 11.8 -18.7 -2.3 4.86.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.910.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1
= +
Datos Medias Residuos
= +
yyij yyi iij yy
4.230y
45Análisis de la varianza
Variabilidades: ejemplo
204.2847
311.4798)(
2315.7645)(
libertad de GradosadesVariabilid
1 1
2
1
2
1 1
2
n-KeVNE
K-yynVE
n-yyVT
K
i
n
jij
K
iii
K
i
n
jij
i
i
203234.28471.47985.7645
46Análisis de la varianza
Interpretación gráfica de la descomposición
iij yyyyi
1y
2y
3y
4y
y yyij
47Análisis de la varianza
Distribución de VE
21
22
2
22
1
1
222
2
22
1
1
221
22
///
///
),(
llamaremos que Si
),(),(
KK
K
KK
K
ii
K
iiiiij
nyy
nyy
nyy
ny
ny
ny
nNy
nNyNy
i
48Análisis de la varianza
Distribución de VNE
221
21
21
2
2
2
222
2
211
2
2
2222
211
1
2
1
222
1
211
1 1
2
2
212
21
2
22
21
ˆ)1(ˆ)1(ˆ)1(ˆ)(
ˆ)1(ˆ)1(ˆ)1(
)()()()(ˆ
ˆ)1(1
)(ˆ),(
21
Knnnn
KKR
KK
n
jKKj
n
jj
n
jj
K
i
n
jiij
R
nii
i
n
jiij
iiij
K
i
i
i
snsnsnsKn
Knsnsnsn
Kn
yyyyyy
Kn
yys
snn
yysNy
K
49Diseño Experimentos
Contraste de igualdad de medias
F
RRHo rechaza Se Si 0 FF
Ho rechaza se No Si 0 FF)1(;1 MIJKIF
diferente es una menos Al::
1
210
HH K
KnKF
RsK
K
iyiyin
F ,10 2ˆ)1(1
2)(
50Análisis de la varianza
Tabla de Análisis de la Varianza
1)(
)(
ˆ)1()(
)1/()(1)(
2
2
2
222
TotalResidual
osTratamient
FVarianzasLibertadCuadradosFuentesde Gradosde Suma
2ˆnyy
Knyy
sKyyn
KyynKyyn
ij
iij
R
iiiiii
Rs
51Análisis de la varianza
Tabla de Análisis de la Varianza
235.7645Total4.142204.2847Residual
2.113.159931.4798osTratamient
FVarianzasLibertadCuadradosFuentesde Gradosde Suma
Ejemplo 1: Centeno
52Análisis de la Varianza
ARCHIVO TEXTO: centeno.txt
Análisis de la Varianza con R
53Análisis de la Varianza
Residuos
54Análisis de la Varianza
55Análisis de la varianza
t /2-t /2
/2
tn-K
R.R. R.R
R. Acept. H0
1-/2
Intervalos de confianza para las medias
inRs
tiyi
Kn
i
R
ii
i
ii
iiiiij
t
ns
y
N
n
yn
NyNy
ˆ2/
ˆ
)1,0(
),(),(2
2
56Análisis de la Varianza
57Análisis de la varianza
Diferencia de medias:
),(1
2
11
1
12
11
1
nNy
y
yy
n
),(2
2
22
2
22
21
2
nNy
y
yy
n
1 2
Kn
R
t
nns
yyN
nn
yynn
Nyy
21
2121
21
21212
2
1
2
2121
11ˆ
)()()1,0(
11)()(
),(
21 yy
58Análisis de la varianza
t /2-t /2
/2
tn-K
R.R. R.R
R. Acept. H0
1-/2
Contraste multiples
ji
ji
H
H
:
:
1
0
02/0
02/0
rechaza e
rechaza se No
HStt
Htt
Kn
jiR
jiij t
nns
yyt
11ˆ
Comparaciones múltiples
59Análisis de la Varianza
Diagnosis del modelo
61Análisis de la varianza
1 2 K
...
Modelo
11
12
11
ny
yy
22
22
21
ny
yy
KKn
K
K
y
yy
2
1
...
62Análisis de la varianza
Hipótesis del modelo
Normalidadyij N( i, 2)
HomocedasticidadVar [yij] = 2
IndependenciaCov [yij, ykl] = 0
63Análisis de la varianza
Residuos: Normales y homocedásticos
),0( 2Nu
yu
uy
ij
iijij
ijiij
A B C D-13,8 14,8 -3,0 24,510,8 14,4 9,0 2,7-1,6 0,6 3,4 -15,911,8 -18,7 -2,3 4,8-5,7 5,7 -6,5 -15,9-1,6 -16,7 -0,4 -0,10,0 0,0 0,0 0,0
Residuos
0
iijij yye
64Análisis de la varianza
Comprobación de la normalidad
Los residuos deben de tener distribución normal. Las observaciones originales también, pero cada grupo con media diferente, por ello es preciso estimar el modelo para descontar a cada observación su media y obtener valores con la misma distribución.
Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)
65Análisis de la varianza
Gráfico probabilista normal
Es un gráfico X-Y de losresiduos frente a lospercentiles de ladistribución normal.
La idea básica es quecuando los residuostienen distribuciónnormal, los puntosdeben formaraproximadamenteuna línea recta.
Pasos:Ordenar los residuos de
menor a mayor.
Calcular los percentiles de la distribución normal
Representar nis
niY Ri ,...,2,1,ˆ)5.0(1
)()2()1( neee
ii Ye ,)(
66Análisis de la varianza
Gráfico prob. Normal (ejemplo)
Q-Q plot
-30,0
-20,0
-10,0
0,0
10,0
20,0
30,0
-30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
Residuos ordenados
Perc
entil
es
Orden Resid. Probab. Percen. Percen.i eij (i-0.5)/n N(0,1) N(0, )1 -18,7 0,021 -2,04 -24,302 -16,7 0,063 -1,53 -18,303 -15,9 0,104 -1,26 -15,014 -15,9 0,146 -1,05 -12,585 -13,8 0,188 -0,89 -10,586 -6,5 0,229 -0,74 -8,857 -5,7 0,271 -0,61 -7,288 -3,0 0,313 -0,49 -5,839 -2,3 0,354 -0,37 -4,4610 -1,6 0,396 -0,26 -3,1511 -1,6 0,438 -0,16 -1,8812 -0,4 0,479 -0,05 -0,6213 -0,1 0,521 0,05 0,6214 0,6 0,563 0,16 1,8815 2,7 0,604 0,26 3,1516 3,4 0,646 0,37 4,4617 4,8 0,688 0,49 5,8318 5,7 0,729 0,61 7,2819 9,0 0,771 0,74 8,8520 10,8 0,813 0,89 10,5821 11,8 0,854 1,05 12,5822 14,4 0,896 1,26 15,0123 14,8 0,938 1,53 18,3024 24,5 0,979 2,04 24,30
67Análisis de la varianza
Ejemplos
-3 -1 1 3 50,1
15
2050809599
99,9
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,40,1
15
2050809599
99,9
0 3 6 9 12 150,1
15
2050809599
99,9
0 0,4 0,8 1,2 1,6 20,1
15
2050809599
99,9
Normal No normal
No normal No normal
68Análisis de la varianza
Comprobación de la homocedasticidad
En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la misma varianza.
Herramientas:- Gráficos de residuos:
·Frente a valores previstos·Frente a tratamientos (o factor,etc.)
- Contrastes formales:Bartlett, Cochran, Hartley, Levene
69Análisis de la varianza
Residuos - Valores previstos
En este modelo los valoresprevistos corresponden ala media del tratamiento.
Los puntos deben aparecerdispuestos al azar en unabanda horizontal alrededordel eje horizontal.
Heterocedasticidad: a vecesla dispersión aumentaconforme la media crece.re
siduo
s
Valores previstos
-30
-20
-10
0
10
20
30
0 5 10 15
resid
uos
valores previstos
-30
-20
-10
0
10
20
30
210 220 230 240 250
70Análisis de la varianza
Residuos por tratamientos
A B C D-25
-15
-5
5
15
25
Resid
uos
SemillaEn cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
máx
.
mín
.
3mínmáx
Diagnosis con R
71Análisis de la Varianza
72Análisis de la Varianza
73Análisis de la varianza
Independencia
Es la hipótesis fundamental y con diferencia la másimportante de las tres, además es la más difícil decomprobar.
La falta de independencia suele ir ligada a factores nocontrolados por el experimentador y que influyen enlos resultados introduciendo errores sistemáticos.
La forma más recomendable de evitar erroressistemáticos consiste en aleatorizar.
74Análisis de la varianza
Aleatorización
La aleatorización evita que se produzcanerrores que sistemáticamente aumenten odisminuyan un conjunto de medidas porcausas no reconocibles: al aleatorizar sereparten estos errores por igual entre losdiferentes tratamientos y se convierten enerrores aleatorios, previstos en el modelo.
75Análisis de la varianza
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar alos distintos tratamientos.
Aleatorizar el orden de ejecución de losexperimentos.
Aleatorizar respecto a cualquier otra variableque implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsionesque pueden ocurrir o no ocurrir, y que pudieran serserias o no si llegaran a ocurrir”
Funciones de R utilizadas
76Análisis de la Varianza
Analisis de la Varianza, comparacion de 2 tratamientos
1. Se estudian dos tipos de neumaticos con los resultados siguientes:
Tipo ni xi(Km) si(Km)A 121 27465 2500B 121 27572 3000
Calcular, con α = 0.01:
a) Un intervalo de confianza paraσ21
σ22.
b) Un intervalo de confianza para µ1 − µ2.
2. Se dispone de rendimientos de dos maquinas. Los resultados de la maquina A son 137.5;14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las maquinas iguales? (Suponer que los rendimientosde ambas maquinas siguen distribuciones normales).
3. Un fabricante de automoviles debe elegir entre un determinado tipo de piezas de acerosuministradas por un proveedor A y otras suministradas por otro proveedor B. Para procedera la eleccion se ha analizado la resistencia a la traccion de las piezas suministradas por ambosproveedores, tomando una muestra de tamano 10 de las piezas del primero, y otra de tamano12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de lamuestra de B es de 49000 unidades, siendo las desviaciones tıpicas muestrales corregidassA = 2100 y sB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyennormalmente. Las piezas del proveedor B son mas baratas que las del proveedor A, por loque estas ultimas solo son rentables si tienen una resistencia media al menos 2000 unidadesmayor que las de B, y la misma variabilidad.
a) ¿A que proveedor habrıa que comprar las piezas a la vista de los resultados muestrales?
b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistenciade las piezas de los proveedores A y B.
Analisis de la Varianza, comparacion de k tratamientos
1. En una fabrica de automoviles se utiliza una misma planta para el ensamblaje de tres modelosdistintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se harealizado un control de calidad a una muestra tomada para cada modelo. El numero dedefectos encontrados para cinco vehıculos del modelo A son 5, 4, 6, 6 y 7; para seis vehıculosdel modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehıculos del modelo C: 9, 7, 8, 9, 10, 11, 10 y10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quımico.Se sospecha que existen diferencias entre ellos aunque pequenas. Para detectar estas diferen-cias se pretende realizar un experimento a gran escala con el mismo numero de observacionesen cada grupo. Para determinar este tamano muestral se ha realizado un experimento pilotocon 6 observaciones de cada metodo y los resultados (medias de cada grupo) han sido lossiguientes:
METODO 1 2 3 4 5Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual s2R = 198.5.
(a) ¿ Cual debe ser el tamano muestral del experimento a gran escala para que el contrastede analisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinaciones igual al del experimento piloto?.
(b) El metodo A es el procedimiento habitual y el metodo D es el que se sospecha propor-ciona mejor rendimiento. Una hipotesis que se pretende contrastar es H0 : µD = µA,frente a la hipotesis alternativa H1 : µD > µA. ¿ Que condicion debe cumplir la difer-encia entre las medias muestrales de los dos metodos para rechazar H0 con α = 0.01?
3. Se ha realizado un experimento para estudiar el efecto de un unico factor con I nivelesen la variable respuesta y con un numero diferente de observaciones en cada tratamiento:n1, n2, ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observacion j deltratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e yi• la media del tratamiento i. Se desea estimarla media general ¿cual de los dos estimadores siguientes
y•• =
I∑i=1
ni∑j=1
yij
n, y•• =
I∑i=1
yi•
I
tiene mınima varianza? Realiza la comprobacion para el caso I = 5, con ni = 3, 2, 3, 5, 6 elnumero de observaciones en cada tratamiento. Asumir que las observaciones son independi-entes y que se cumple la hipotesis de homocedasticidad.
4. Considere la comparacion de dos tratamientos en poblaciones normales. Demuestre que elcontraste t para comparar dos medias es analogo al contraste de la F en Analisis de laVarianza (suponga n1 = n2).
5. Cinco tipos (A, B, C, D y E) de material sintetico se han sometido a un ensayo de desgaste.Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviaciontıpica corregida en cada caso es la siguiente:
A B C D Emedia xi 14.1 16.3 13.5 14.8 15.3d. tıpica si 1.3 1.2 1.4 1.2 1.5
2
(a) Contrastar (α = 0.05) la hipotesis
H0 : µA = µB = µC = µD = µE
frente a la hipotesis alternativa,
H1 : alguna media es distinta de las demas.
(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y que materialestienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
6. Se desea comprobar el efecto de un tratamiento termico sobre la resistencia de un nuevomaterial. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1,T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.812.67 3.96 5.322.46 4.64 4.931.90 4.74 5.492.62 4.00 4.45
(a) Contrastar mediante el test de analisis de la varianza si existen diferencias significativasentre los tratamientos termicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dostratamientos. Si la relacion entre la resistencia y la temperatura es lineal, es de esperarque la media del tratamiento 2 verifique : H0 : µ2 = 1
2(µ1 + µ3). Hacer el contraste
bilateral de esta hipotesis con α = 0.05. (Nota.- Usar la distribucion de y2−(y1+y3)/2,donde yi es la media de los datos correspondientes al tratamiento Ti).
7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difierensignificativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quımicohace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidoshan sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 523.46 23.59 23.51 23.28 23.2923.48 23.46 23.64 23.40 23.4623.56 23.42 23.46 23.37 23.3723.39 23.49 23.52 23.46 23.3223.40 23.50 23.49 23.29 23.38
La tabla de analisis de la varianza se proporciona a continuacion. Comparar las medias delos cinco tratamientos con nivel de significacion total αT = 0.10.
3
Analisis de la varianzaFuente Variabilidad g.l. Var. Media F Nivel crıticoLote 0.096976 4 0.024244 5.54 0.0036Residuos 0.08760 20 0.00438Total 0.184576 24
4
5
Diseño de experimentos:
� Diseños Factoriales� Bloques Aleatorizados
2.1 Diseños factoriales(dos factores)
3Diseño Experimentos
Ejemplo
A B C D0.31 0.82 0.43 0.450.45 1.10 0.45 0.71
V 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62N 0.36 0.92 0.44 0.56E 0.29 0.61 0.35 1.02N 0.40 0.49 0.31 0.71O 0.23 1.24 0.40 0.38S 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33
ANTÍDOTO
I
II
III
Se analiza el efecto de tres venenos y cuatro antídotos en el tiempo de supervivencia de unas ratas.
Comandos en R
4Diseño Experimentos
ARCHIVO TEXTO: venenos.txt
…48 filas
5Diseño Experimentos
Modelo
ijkijjiijk uy
IJm
IJ
IJ
Jm
J
J
Jm
J
J
mI
I
I
mm
mI
I
I
mm
y
yy
y
yy
y
yy
J
y
yy
y
yy
y
yy
y
yy
y
yy
y
yy
I
2
1
2
22
12
1
21
11
2
22
21
22
222
221
12
122
121
1
12
11
21
212
211
11
112
111
2
1
21Factor 1
Fact
or 2
•Normalidad•Independencia•Homocedasticidad
I J tratamientos
m replicaciones
n = m I J
...1111 2112 11 II
...1221 2222 22 II
...JJ 11 JJ 22 IJJI
Factor 11 2 I
1
2
J
...
Fact
or 2
7Diseño Experimentos
Modelo
: Media globali : Efecto del Factor 1 i, i=1,...,Ij : Efecto del Factor 2 j, j=1,...,J
ij: Interacción de niveles ijuijk : Componente aleatoria N(0, 2), k=1,…m
Ii i1 0 J
j j1 0
ijkijjiijk uyjI
i ij ,01
iJj ij ,01
8Diseño Experimentos
Estimación del modelo
1:)1)(1(:
1:1:
1:
2
j
i
JIJI
ij
n
yy
mI
yy
mJ
yy
m
yy
I
i
J
j
m
kijk
I
i
m
kijk
j
J
j
m
kijk
i
m
kijk
ij1 1 11 11 11
)1(ˆˆ
ˆˆˆ
222
mIJe
s
yyyy
yyyy
y
ijkR
jiijij
jj
ii
Estimación del modelo
9Diseño Experimentos
ijkijjiijk uy
ijkijjiijk ey ˆˆˆ
ijijkijjiijkijk yyye )ˆˆˆ(
g.l.=IJm-IJ=IJ(m-1)
10Diseño Experimentos
Estimación
A B C D0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62 0.41 0.88 0.56 0.61N 0.36 0.92 0.44 0.56 0.29 0.61 0.35 1.02E 0.40 0.49 0.31 0.71 0.23 1.24 0.40 0.38N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30O 0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33
ANTÍDOTO
I
II
III
11Diseño Experimentos
EstimaciónA B C D Medias
0,31 0,82 0,43 0,45 0,45 1,10 0,45 0,71V 0,46 0,88 0,63 0,66 0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61 -0,038 0,067 0,032 -0,061N 0,36 0,92 0,44 0,56 0,29 0,61 0,35 1,02E 0,40 0,49 0,31 0,71 0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67 -0,060 0,073 -0,080 0,068O 0,22 0,30 0,23 0,30 0,21 0,37 0,25 0,36S 0,18 0,38 0,24 0,31
0,23 0,29 0,22 0,33Medias 0,21 0,34 0,24 0,33
0,098 -0,139 0,048 -0,007
0,314 0,677 0,389 0,534
-0,164 0,198 -0,089 0,056
II 0,544 0,066
III 0,276 -0,202
ANTÍDOTO
I 0,615 0,136
0,479Medias
iˆ
jˆ
ij
ij
ij
12Diseño Experimentos
Residuos
A B C D-0.103 -0.060 -0.128 -0.160
V 0.038 0.220 -0.108 0.100 0.048 0.000 0.073 0.050E 0.018 -0.160 0.163 0.010 0.00 0.00 0.00 0.00N 0.040 0.105 0.065 -0.108 -0.030 -0.205 -0.025 0.353E 0.080 -0.325 -0.065 0.043 -0.090 0.425 0.025 -0.288N 0.00 0.00 0.00 0.00
0.010 -0.035 -0.005 -0.025O 0.000 0.035 0.015 0.035
-0.030 0.045 0.005 -0.015S 0.020 -0.045 -0.015 0.005
0.00 0.00 0.00 0.00
III
RESIDUOS
ANTÍDOTO
I
II
022,0)1(
ˆˆ2
22
mIJe
s ijkR
kijk
ijijkijk
e
yye
0
Estimación con R
13Diseño Experimentos
Estimación con R
14Diseño Experimentos
Otras instrucciones
15Diseño Experimentos
Residuos
16Diseño Experimentos
17Diseño Experimentos
Análisis de la varianza
I
i
J
j
m
kijk
I
i
J
j
m
kjiij
I
i
J
j
m
kj
I
i
J
j
I
i
J
j
m
ki
m
kijk
ijkjiijjiijk
ijijkjiijjiijk
ijkijjiijkijkijjiijk
eyyyy
yyyyyy
eyyyyyyyyyy
yyyyyyyyyyyy
eyuy
1 1 1
2
1 1 1
2
1 1 1
2
1 1 1 1 1
2
1
2
)(
)()()(
)()()(
)()()()(
ˆˆˆ
I
i
J
j
m
kijk
I
i
J
jjiij
J
jj
I
i
J
j
I
ii
m
kijk
eyyyym
yymIyymJyy
1 1 1
2
1 1
2
1
2
1 1 1
2
1
2
)(
)()()(
18Diseño Experimentos
Variabilidades
I
i
J
j
m
k
I
i
J
j
m
kijkijijk
I
i
J
jij
J
j
I
iij
I
i
I
iii
I
i
J
j
m
kijk
eyyVNE
mBAVE
mIyymIBVE
mJyymJAVE
yyVT
1 1 1 1 1 1
22
1 1
2
1 1
22
1 1
22
1 1 1
2
)()(
)()(
)ˆ()()(
)ˆ()()(
)(
19Diseño Experimentos
Descomposición de la variabilidad
)1()1)(1()1()1()1()()()(
mIJJIJInVNEBAVEBVEAVEVT
DATOS MODELO
20Diseño Experimentos
Contraste de Hipótesis
� Si el Veneno no influye, los I niveles son iguales a efectos de tiempo de supervivencia, entonces
0 de distinto es Algún :0:
i1
210
HH I
I21Ii i1 0
21Diseño Experimentos
Contraste efecto principal de factor A
0 de distinto es Algún :0:
i1
210
HH I
222 ]ˆ[)1(
ˆ RR sEmIJ
VNEs
222 ]ˆ[1
)(ˆ AA sE
IAVEs cierto, es Ho Si
)1(;121
2
2
2
ˆ
1)(
ˆˆ
mIJIR
I
ii
R
AA F
s
IyymJ
ssF
Ho rechaza Se Si FFA
22Diseño Experimentos
Contraste efecto principal de factor B
0 de distinto es Algún :0:
j1
210
HH J
222 ]ˆ[1)(
ˆ BB sEJ
BVEs cierto, es Ho Si
)1(;121
2
2
2
ˆ
1)(
ˆˆ
mIJJR
J
jj
R
BB F
s
JyymI
ssF
Ho rechaza Se Si FFB
23Diseño Experimentos
Contraste interacción AxB
0 de distinto es Algún ij:0:
1
12110
HH IJ
222 ]ˆ[)1)(1(
)(ˆ ABAB sE
JIBAVEs cierto, es Ho Si
)1();1)(1(2
2
ˆˆ
mIJJIR
ABAB F
ssF
naninteraccio BA y Ho rechaza Se Si FFAB
24Diseño Experimentos
Tabla de análisis de la varianza
1)(Total
ˆ)1(Residual
ˆˆ
ˆ)1)(1()(BA
ˆˆ
ˆ1)(B
ˆˆ
ˆ1)(A
valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes
2
22
2
2
22
2
2
22
2
2
22
nyy
smIJe
pss
sJIyyyym
pss
sJyymI
pss
sIyymJ
ijk
Rijk
ABR
AB
ABjiij
BR
B
Bj
AR
A
Ai
Análisis de la varianza con R
25Diseño Experimentos
Interpretación
La interacción no es significativa
Se interpreta cada factor por separado
26Diseño Experimentos
27Diseño Experimentos
Intervalos de confianza (interacción nula)
mJsty R
iiˆ
2/
mIsty R
jiˆ
2/
28Diseño Experimentos 28282828DiDiDiDiseeeeeeeeeeeeeeeeeeeeeeeeeseseseñññoññoñoññññññññññññññññññññoñoñññoññññoñooooooñoooñññooooooñññoñoño EEEEEEEEEEEEExpxpxxpxpxxxxppppxpxpxxpxpxxpppxpxpeeeeereeerererimmmmmmmmmmmmmmmmmmmmmmmmimimimeneneneneneeenneeennennnnneeennneeneennnnnnnenenentotttotttttttttotttttottttttttttttttttttttttttttototossssssssssssssssssssssssssss
29Diseño Experimentos 29DDiseseseseseseseseseseseseseeesesesssseseeeesesesesesesesesesessesseseeessseseseeesssessesesesssseseeeeeeeeeeesssssseseseesessssseseesesesesseeeeeseeessssseeseesseseeeñooñoooooñññññññññooññññññññooñññññññññññññoooooooñññññññoo Expxxxxxxxxppxxxpxppxpxxxxpxxxxxxxxxxxxx errrrrrrrrrrerrrrrrrrrrrrrerrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrimmmmmmimmimimimmmmmmmmmmmmmmmmmmmmmmmimmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmeneennennnneneneneenenenenneneeeeeneeeneeeneeneneneeeeeneeeeeeeeeeeeeeeeenneneennneeeeeeeneenneeeneeeenneeeentotottotototttttotototttotottotottttototttotttttttttottttttotttoototottooooootoooooootoooooottoooooootoooottooott ssssssssssssssssssssssssssssssssssssssssssssssssssss
30Diseño Experimentos
Contrastes múltiples: Factor A
ji
ji
H
H
:
:
1
0
)1(2ˆ
mIJ
R
ji t
mJs
yy
t /2-t /2
/2
tIJ(m-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
mJmJN
yyyyyy
jiji
jijijj
ii
Ho
mJstyy
LSD
Rji
rechaza Se
2ˆ2/
31Diseño Experimentos 31Diseño Experimentos
32Diseño Experimentos
Contrastes múltiples: Factor B
ji
ji
HH
::
1
0
)1(2ˆ
mIJ
R
ji t
mIs
yy
t /2-t /2
/2
tIJ(m-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
mImIN
yyyyyy
jiji
jijijj
ii
Ho
mIstyy
LSD
Rji
rechaza Se
2ˆ2/
33Diseño Experimentos 333333333333333333DiDiDiDiDiDDiDDiDiDDiDiiDiDDDiiDiDDDiseseseseseseseseseeseseseseseseseeseseseseseeeeseñoñoñoñoññoññoñññoñoñoñoñoñoññooooñoñoññooooo EEEEEEEEEEEEEEEEEEEEEEEEEEEEEExpxpxpxpxpxpxpxxxpxxxxpxpxpxxpxpppxpxxxxxpxpppxperererereeereerereererereeeeeerrrer mimimiimimmimimimmimmimimmmmmimimmmmmmmeneneneeneneeneneeeneeneneenentottottotototootototototooooototoooossssssssssssssssssssssssss
� En este ejemplo NO se debe interpretar porque no es significativa.
� ¿Cómo se haría?
34Diseño Experimentos
Interacción
p q g��� ¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóómmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo sssseeee hhhhaaaarrrrííííaaaa????
Diagnosis: Sobre residuos
� Normalidad� Homocedasticidad� Independencia
35Diseño Experimentos
Diagnosis
36Diseño Experimentos
Conclusión
37Diseño Experimentos
• Se detecta falta de homocedasticidad. Los tratamientos que tienen media más alta, también tienen más variabilidad
• Además de aprecia falta de normalidad• En este caso, la solución es transformar la
variable respuesta (tiempo). Las transformaciones más usuales: = log= 1=
38Análisis de la varianza
Transformaciones z=h(y) para estabilizar la varianza
En la práctica, en la mayoría de los casos, alguna de las transformaciones siguientes corrige la heterocedasticidad:
· 1/x· log(x)· x2 (u otras transformaciones xp)· x
39Análisis de la varianza
Transformaciones Box-Cox
-1,5
-1
-0,5
0
0,5
1
1,5
0log
1
psiyzp
yz
ijij
pij
ij
1ijy
ijzp = 1
p < 1
p > 1
40Análisis de la varianza
Búsqueda de la transformación adecuada
La dispersión aumenta al aumentar la media
p < 1
La dispersión disminuye al aumentar la media
p > 1
resid
uos
Valores previstos
-0,43
-0,23
-0,03
0,17
0,37
0,57
0 0,3 0,6 0,9 1,2
resid
uos
valores previstos
-1,4
-0,9
-0,4
0,1
0,6
1,1
1,6
0 4 8 12 16
41Análisis de la varianza
Elección de la transformación
Empezar con p=1 (datos sin transformar) y decidir a partir de los gráficos si p>1 o p<1.
Parar cuando los gráficos estén ok.
pijij yz
211
12/1
log02/1
1
ijij
ijij
ijij
ijij
yzp
yzp
yzpyzp
p
Ejemplo: tiempo de supervivencia ratas
42Diseño Experimentos
• Se ha probado = 1/2, = 0 (log ), =1/2, = 1 y se observa que esta última es una buena opción:
= 1• La nueva variable es la inversa del tiempo. Se
puede interpretar como una medida de “efectividad” de actuación del veneno ( número de animales muertos en intervalos de 10 horas).
43Diseño Experimentos
44Diseño Experimentos
Tabla Análisis de Varianza 1/y
45Diseño Experimentos
- Los efectos principales del factor veneno y del factorantídoto son muy significativos (p-valor=0.000).- La interacción no es significativa (p-valor = 0.3867).
46Diseño Experimentos
Diagnosis: homocedasticidad datos transformados z=1/y
46Diseño Experimentottttttttttttttttttttttttttttttttttt s
datos transformados z=1/yyNormalidad y Homocedasticidad ok
47Diseño Experimentos
Comparaciones múltiples intervalos de confianza
48Diseño Experimentos
49Diseño Experimentos
Conclusiones
� Ha sido necesario transformar los datos para conseguir que se cumplan las condiciones de normalidad y homocedasticidad.
� La transformación utilizada es z = 1/y (inversa del tiempo). Se puede interpretar como tasa de muertes por hora.
� El análisis de la varianza indica que los efectos principales de los dos factores (Veneno y Antídoto) son muy significativos y que la interacción no es significativa (p-valor =0.38)
� La comparación de medias de los venenos indican que existen diferencias significativas entre los tres. El más perjudicial es el III, después el II y finalmente el I.
50Diseño Experimentos
Conclusiones (cont.)
� La comparación de medias de los antídotos indican los más que reducen de manera más efectiva el efecto del veneno es el B y el D. Entre ellos no existen diferencias como se comprueba en el contraste múltiple de medias. Los antídotos A y C son claramente peores. Son también diferentes entre sí (el menos recomendable es A).
� No hay interacción, lo que implica que el efecto del Antídoto no depende del veneno. Para cualquier veneno, el mejor antídoto es B (o D).
51Diseño Experimentos
52Diseño Experimentos
Ejercicio con Interacción Significativa
� Un investigador quiere estudiar el efecto del sexo (H, M) y tipo de formación (ciencias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello se analiza el nº de incorrecciones gramaticales en artículos científicos enviados a publicación. Para combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el nº de fallos detectados en artículos de 15 páginas. ¿Qué conclusiones pueden extraerse?.
Letras Ciencias
Hombre 8, 6, 13 22, 28,33
Mujer 5,10,6 12,14,9
Comandos en R
53Diseño Experimentos
Análisis de la varianza
54Diseño Experimentos
Con = 0.05 son significativos el sexo, la formación y lainteracción. La diferencia en el número medio de erroresentre Hombres y Mujeres, depende del nivel del otro factor(si son de ciencias o letras.)
� En este ejemplo es significativa.
55Diseño Experimentos
Interacción:
- El numero medio de errores es similar para Hombres (9) y Mujeres(7) si son de Letras.
- El número medio de errores de Hombres(27.7) es muy superior al de Mujeres (11.7) si son de Ciencias
Diagnosis
56Diseño Experimentos
Bloques Aleatorizados
58Diseño Experimentos
Ejemplo de introducción
Se desea estudiar el efecto de la Fluorita en la reducción del coste energético en la fabricación de cemento. Se emplean 6 mezclas distintas de materias primas.
0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23e 2 8.42 10.15 8.54 6.98 8.93z 3 18.31 16.84 15.86 14.64 15.96c 4 10.49 10.52 8.04 10.50 10.34l 5 9.78 9.59 6.96 8.15 9.24a 6 9.28 8.84 7.04 6.66 9.46
Fluorita
59Diseño Experimentos
Modelo
ijjiij uy
: Media globali : Efecto del tratamiento i, i=1,...,Ij : Efecto del bloque j, j=1,2,...,J
uij : Componente aleatoria N(0, 2)
IJJJ
I
I
yyyJ
yyyyyyI
21
22212
12111
21
21Tratamientos
Bloq
ues •Normalidad
•Independencia•Homocedasticidad
Ii i1 0Jj j1 0
...11 12 1I
...21 22 2I
...J1 J2 JI
Tratamientos1 2 I
1
2
J
...
Bloq
ues
61Diseño Experimentos
Estimación del modelo
1:1:1:
1:
:Parámetros
2j
i
JI
n
yy
I
yy
J
yy
I
i
J
jij
I
iij
j
J
jij
i1 111
)1)(1(ˆˆ
ˆˆ
ˆ
:sEstimadore2
22JIe
s
yyyy
y
ijR
jj
ii
ijjiij
ijjiij
ey
uyˆˆˆ yyyy
ye
jiij
jiijij ˆˆˆ
62Diseño Experimentos
Estimación
yyyyyyyyyy
yyyyyyJ
yyyyyyyyyyyy
I
Ii
I
JJIJJJ
I
I
j
21
21
21
2222212
1112111
ˆ
21
ˆ21
63Diseño Experimentos
Estimación (ejemplo)
0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.731.15 0.57 -1.34 -0.84 0.46
Fluorita
i
j
64Diseño Experimentos
Residuos: Varianza residual
0% 1% 2% 3% 4%M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74
Fluorita
yyyyye jiijjiijij ˆˆˆ
88.020
51.17)1)(1(
ˆ2
2JIe
s ijR
65Diseño Experimentos
Análisis de la varianza
I
i
J
j
I
i
J
jijj
I
i
J
j
I
i
J
jiij
jiijjiij
jiijjiij
ijjiijijjiij
eyyyyyy
yyyyyyyyyy
yyyyyyyyyy
eyuy
1 1 1 1
22
1 1 1 1
22 )()()(
)()()(
)()()(
ˆˆˆ
J
j
I
i
J
jijj
I
i
J
j
I
iiij eyyIyyJyy
1 1 1
22
1 1 1
22 )()()(
66Diseño Experimentos
Variabilidades
VNEVEVEVT
eVNE
yyIBVE
yyJTVE
yyVT
I
i
J
jij
J
jj
I
ii
I
i
J
jij
B)(T)()()(
)()(
)(
1 1
2
1
2
1
2
1 1
2
)1)(1()1()1()1( JIJIn
67Diseño Experimentos
Contraste de Hipótesis
� Si la Fluorita no influye, los I tratamientos son iguales a efectos de coste, entonces
0 de distinto es Algún :0:
i1
210
HH I
I21Ii i1 0
68Diseño Experimentos
Contraste sobre tratamientos
0 de distinto es Algún :0:
i1
210
HH I
222 ]ˆ[)1)(1(
ˆ RR sEJI
VNEs
222 ]ˆ[1
)osTratamient(ˆ cierto, es Ho Si TT sE
IVEs
)1)(1(;121
2
2
2
ˆ
1)(
ˆˆ
JIIR
I
ii
R
TT F
s
IyyJ
ssF
Ho rechaza Se Si FFT
69Diseño Experimentos
Explicación del contraste
),(,...,,
][,
),(0 cierto es Ho Si
2
21
121
2
JNyyy
JJ
yEJ
yyyy
Ny
I
Jj j
iiJii
i
jiji
21
2
1
2
22111
ˆ
I
)y -y(JE
I
)y -y(Js
Iyyy
y
I
ii
I
ii
TI
.ˆ quemayor será ˆ falso, es Ho Cuando
parecidas.serán ˆy ˆ cierto, es Ho Cuando22
22
RT
RT
ss
ss
70Diseño Experimentos
Contraste de bloques
0 de distinto es Algún :0:
j1
210
HH J
222 ]ˆ[1
)Bloques(ˆ cierto, es Ho Si BB sE
JVEs
)1)(1(;121
2
2
2
ˆ
1)(
ˆˆ
JIJR
J
jj
R
BB F
s
JyyI
ssF
Ho rechaza Se Si FFB
71Diseño Experimentos
Tabla de análisis de la varianza
1-nTotal
Residual
Bloque
oTratamient
valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes
2
22
2
2
22
2
2
22
)(
ˆ)1)(1(
ˆˆ
ˆ1)(
ˆˆ
ˆ1)(
yy
sJIe
pss
sJyyI
pss
sIyyJ
ij
Rij
BR
B
Bj
TR
T
Ti
72Diseño Experimentos
73Diseño Experimentos
74Diseño Experimentos
75Diseño Experimentos
Tanto la Fluorita como la Mezcla presentan efectos significativos (pvalor entre 0 y 0.001).
76Diseño Experimentos
Jsty R
iiˆ
2/
77Diseño Experimentos
Isty R
jiˆ
2/
78Diseño Experimentos
Contraste multiples: tratamientos
ji
ji
H
H
:
:
1
0
)1)(1(2ˆ
JI
R
ji t
Js
yy
t /2-t /2
/2
t(I-1)(J-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
JJN
yyyyyy
jiji
jijijj
ii
02/2
ˆ HS
LSDJ
styy Rji rechaza e
79Diseño Experimentos
Comparación múltiples: FluoritaFluorita
13.16293.0085.2
2ˆ2/ JstLSD R
0% 1% 2% 3% 4%0% 0 0,58 2,49 1,99 0,691% 0 1,90 1,40 0,112% 0 -0,50 -1,803% 0 -1,304% 0
LSD = 1.13
80Diseño Experimentos
81Diseño Experimentos
Contraste multiples: bloques
ji
ji
H
H
:
:
1
0
02/ rechaza e2ˆ HS
LSDI
styy Rji)1)(1(2ˆ
JI
R
ji t
Is
yy
t /2-t /2
/2
t(I-1)(J-1)
R.R. R.R
R. Acept. H0
1-/2
),(ˆˆ
ˆˆˆˆ
22
IIN
yyyyyy
jiji
jijijj
ii
82Diseño Experimentos
Comparación Múltiple: Mezcla
Mezcla
24.15293.0085.2
2ˆ2/ IstLSD R
1 2 3 4 5 61 0,00 3,90 -3,82 2,52 3,76 4,242 0 6,60 -1,37 -0,14 -0,353 0 6,34 7,58 8,074 0 1,23 1,725 0 0,496 0
LSD=1.24
83Diseño Experimentos 838383DiDiDDiDiDiDDDDDiDDDDDiDiDiDDDiiiiiDDDiiiiiDiDDDDDiiiiiiDDiiiiDDiiiiDDDiiiiiDDDiiiiDiDDDiiiiDDDDDiiiiiiDDDDiDDiiDiiiDDDDiDiDiDiDDDDiiiiiDDDDDiiiiiDiDDDiiDDDDDDiDDDDDDiiDDDDDDDiiiDDiDiiDDiDDDDiDDDiiDDDDDDiiDDDDiisesesesesessssesssssssssssssssssssssssssesssssssssssssssssssssssssssssssssssssssssssssssssssssesssssssessssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss ñoñoñoñoñoññññoññoñoñoñoñoñoñoññoñoññoñoññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññoññññññññññññññoññññññññññññññññññññoñññññññññññññññññoñññoññññññññññññññññññññññññññññññññoññññññññoooooooññññoñññññññoooooññññññooñoooññññoooñññññoooñññoo EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEExpxpxpxpxpxxpxpxpxpxpxpppxxpxxpxxpxpxpxpxpxpxppppxxxpxpxpxppppxpxxxxxxxxxxpxxxpxpxppxppxppxppxxxxxpxxpxpxpxxxxxpxxxppxpppppxpxpxxxxxxxxppxpppxxxpxpxxpxxxxpxpppxppxpxxxxxxxppppxxxxxxpxpxpppxppxpxpxxxxxpxxxxxxpppxpxxxxpxxxxxxxppppxpxxxxxpxpxppppxxpxpxxxxpppppxxpxxxxxxxxppppppxpxpxxxxxxxpppppxxxxxxpppppppxxxxxxxxpxpppppxxxxxxpppppxxxxxpppppppxpxxxpxxxxxppppppxxxxpxxxxxxppxppppppxxxxxxxxppppppxxxxpppppx ererererererererrererererererererreerrrreeeererrrrrrerreeerrrreeeerrrrreeererrrrrreeeererrrrrrrreeerrrreerrrrreeeerrrrerrerrreeerrrrerrreeerrrreeerrrrreerrrrrerrreerrrreerrreerrrrrrrimimimiimmmimimimimimimimimimmmiiiiimimiiimiiimimiiiimmmiiiiimimimimimimimmimimmimmmmmmimmimmmimmmmmmmimimmmmmmimmmmimiimiimmmmmmmmmiiiimmmmmmmmmmiiimmmmmmmiiiimmmmmmmiiiimmmmmmmimmmeeneenenenenenennneneneneneneeneeenenenennneneneenenneeneneenenennennnneeneneneneneennnennnnnneeeennnnenennneeneeenennneneeeeneeeeenneneneneeeeeneneeennnnneeennnnnnneeeeeeeennnnnnnneeneeeeeeenennnnneneeeeeeeennnnnneeeennnnnneneeeeennnneeennnnnennnnnneeennnnnneeeennnneneneneeeeennenneeeeeeenennnnnneeeennnnnneeneeeennnneeeeeeennntototototototototottotototototototototooootototottttotttottotottoototootototottootottooooooooooootttoooooooooootttooootooooootttoooooottooooooooototooooootooooooooooooottoooooooooooootttooooooootoooooooooooooootooooooooooooototttooootttooooootttttttttooooooootttooooooootootoooooooosssssssssssssss
84Diseño Experimentos
Diagnosis:Homocedasticidad
Fluorita0 1 2 3 4
-2-1.5
-1-0.5
00.5
11.5
2
Mezcla0 1 2 3 4 5 6
-2-1.5
-1-0.5
00.5
11.5
2
resid
uos
Valores previstos
-1.6-1.2-0.8-0.4
00.40.81.21.6
5 10 15 20
Gráfico de residuos
86Diseño Experimentos
Diagnosis: normalidad
residuos
prob
abili
dad
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.60.1
15
2050809599
99.9
87Diseño Experimentos
Interpretación� El factor Fluorita influye significativamente (p-valor
=0.00077) en el coste.
� Las comparaciones de medias indica que el % deFluorita que proporciona coste menor es 2% y 3%,entre ellos no hay diferencias significativas.
� El bloque (Mezcla) influye muy significativamente enel coste (p-valor=0.00). Las mezclas queproporcionan un coste menor son 2, 5 y 6. Entreellas no hay diferencias significativas.
� La diagnosis del modelo indica que la hipótesis denormalidad y homocedasticidad son aceptables.
88Diseño Experimentos
Capítulo 2. Diseño de experimentos
2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de �bra sintética. Seha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)
10% 20% 30%115 120 126
A 112 135 118133 139 142107 110 132
B 114 102 114108 117 125
1. Construir la tabla de Análisis de la Varianza y contrastar la in�uencia de los dos factores y lapresencia de la interacción.
2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguirla mayor resistencia al desgaste.
2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el �n demejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturasdiferentes. Los resultados del experimento son (archivo rendimiento:txt)
TemperaturaCatalizador 200 300 400
A 115 125 130 140 110 120B 115 105 135 145 100 110
1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi�cativos. (� = 0:05)
2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar unaprobabilidad de error tipo I total, �T = 0:03?
2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número deincorrecciones gramaticales en artículos cientí�cos enviados a publicación. Para cada combinaciónde niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el númerode fallos detectados en artículos de 15 páginas (archivo error:txt)
Letras CienciasHombre 8, 6, 13 22, 28, 33Mujer 5, 10, 6 12, 14, 9
1
Contrastar con nivel de signi�cación 0.05 si los efectos principales y la interacción son signi�cativos.Tener en cuenta que P (F1;8 � 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad1 y 8: Interpretar los resultados.
2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3�2con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es elporcentaje de granos de maíz que no se han in�ado adecuadamente. Los resultados del experimentose muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviacióntípica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores essigni�cativa.
A B C
Sartén5.5(1,4)
3.6(1,8)
7.5(2,5)
Horno3.8(1,3)
3.4(0,9)
4.3(1,3)
2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignadoal azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)
TratamientoA B C D
VenenoI 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.710.46 0.88 0.63 0.660.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.560.29 0.61 0.35 1.020.40 0.49 0.31 0.710.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.300.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33
1. ¿Son los venenos y tratamientos signi�cativos? ¿Existe interacción entre el veneno y el tratamiento?
2. Analice los residuos del modelo anterior. ¿Se veri�can las hipótesis básicas del modelo? ¿Quétransformación de los datos hace que se veri�quen las hipótesis?
3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformaciónrealizada algún efecto sobre los efectos principales y la interacción?
2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En elestudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico encada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias enla tabla 2:
Tabla 1: Cantidad Absorbida (mg)
Tiempo de TemperaturaExposición T1 T2 T3
35.5 91.2 70.1E1 29.7 100.7 64.1
31.5 82.4 70.1
52.5 71.0 79.4E2 53.3 77.0 77.7
55.0 75.6 75.1
85.9 87.0 83.0E3 85.2 86.1 87.0
80.2 88.1 78.5
Tabla 2: Medias de Cantidad Absorbida (mg)
Tiempo de TemperaturaExposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92E2 53.60 74.53 77.40 68.51E3 83.76 87.06 82.83 84.56
Medias 56.53 84.34 76.11 72.33
La tabla 3 corresponde al análisis de la varianza del experimento.
Tabla 3: Tabla de análisis de la varianzaFuente Suma de Grados deVariabilidad Cuadrados Libertad Varianzas F p-valorTemperatura 3673.61 2 1836.80 110.58 0.0000T. Exposición 2112.65 2 1056.32 63.59 0.0000Interacción 2704.44 4 676.11 40.70 0.0000Residual 299.00 18 16.61Total 8789.7 26
1. (a) Interpreta los resultados del análisis de la varianza.
2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-cionan una absorción mayor (95%).
3. Comprueba grá�camente la hipótesis de homocedasticidad e interpreta los resultados.
2.7. Se ha realizado un diseño experimental para determinar la in�uencia de dos factores combinaciónde hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Seestudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido dehidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan losresultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de loscuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestrala tabla de análisis de la varianza del experimento.
3
Tabla 1. Datos y medias entre paréntesisA B C D Medias Etapa
10.3 10.5 7.2 13.0 111.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 22.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 125.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 227.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 131.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 226.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -Suma Grados
Fuentes Cuadrados Libertad Var. F p-valorHidrocarburos 242.5 3 80.85 5.55 .0031Hidrógeno 2234 2 1117 76.7 .0000Interacción 119.3 6 19.88 1.36 .2546Residual 523.7 36 14.55Total 3120 47
1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factorHidrógeno. Indica si existen diferencias signi�cativas con nivel de signi�cación 0.05.
2. Elige el tratamiento que proporciona el rendimiento óptimo, justi�cando la respuesta. Da un inter-valo de con�anza para el valor medio en dichas condiciones con nivel de con�anza del 95%.
3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observacionesque se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisisde la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
Tabla 3. ANOVA - Etapa 1Suma Grados
Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 115.9 3 38.63 6.07 .0093Hidrógeno 1175.0 2 587.7 92.4 .0000Interacción 218.4 6 36.39 5.72 .0051Residual 76.3 12 6.358Total 1586.0 23
4
Tabla 4. ANOVA - Etapa 2Suma Grados
Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 162.9 3 54.31 3.35 .0555Hidrógeno 1076 2 537.9 33.19 .0000Interacción 94.94 6 15.82 0.976 .9762Residual 194.5 12 16.21Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realizael contraste con � = 0:05)
2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 oC y 320 oC) en laduración de cierto componente. Para cada combinación de horno y temperatura se ha replicadoel experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas(corregidas) de los datos de cada tratamiento.
Temperatura oC290 oC 320 oC
Media Desv. T. Media Desv. T.Horno 1 24.56 0.850 18.00 0.265Horno 2 19.10 1.539 14.40 0.265Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura (� = 0:05):
2.9. Cierto Organismo Público (O.P.) encargado de certi�car la composición de aleaciones de metalespreciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futurosanálisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tresaleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12muestras (codi�cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):
Aleac. A Aleac. B Aleac. C10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)
1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontradodiferencias entre las aleaciones.
2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar queveri�can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar paraanalizar los datos.
5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios soniguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y dela C (11.04 %). Con esta información comparar los resultados de los laboratorios.
2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en lasangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestrasde 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo 1 2 3 4 5 MediaEquipo A 215 305 247 221 286 254.8Equipo B 224 312 251 232 295 262.8
Contrastar con � = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El número de niveles del factores 5 y el número de bloques 8. Construir la tabla ADEVA. ¿Cuál sería el resultado del análisis sino se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada unode los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de �uorita reduce el coste de fabricaciónde clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles depesetas por Tm) se muestran en la siguiente tabla (archivo fluorita2:txt):
FLUORITA MI MII MIII yi�0% 15.4 10.6 17.8 14.61% 10.3 5.5 10.9 8.92% 7.4 1.2 8.1 5.53% 10.7 6.5 9.6 8.94% 13.5 11.6 15.5 13.5y 11.4 7.1 12.4
5Xi=1
3Xj=1
e2ij = 10:2 �y�� = 10:3
1. (a) Determinar si el tipo de mezcla y el nivel de �uorita añadido in�uyen signi�cativamente en elcoste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de �uorita produce el menor coste del clinker.
2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de lavariabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidadtotal es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cadatratamiento para que la interacción sea signi�cativa con � = 0:01: (Explicar el procedimiento decálculo, dejando el resultado indicado en función de las tablas).
6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totalescorrespondientes a efectos principales e interacciones de orden 2, 3 y 4.
2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles deacero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiadotres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura delbaño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimentose ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tresdatos de cada tratamiento.
A B C yi s2i1 1 1 40.2 0.251 1 2 61.1 2.681 2 1 35.9 2.431 2 2 57.1 4.442 1 1 49.0 3.492 1 2 70.3 7.772 2 1 46.7 5.082 2 2 67.6 1.033 1 1 41.9 4.273 1 2 62.7 11.413 2 1 37.1 1.333 2 2 60.3 6.13
1. (a) Dar un intervalo del 95 % de con�anza para la varianza del error experimental, �2.
2. Indicar si los efectos principales de A, B y C son signi�cativamente distintos de cero.
3. Dado �2, construir un intervalo que cumpla que la probabilidad de que s2i (la varianza muestralcorregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir �2 por su estimador ycon ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de lasobservaciones.
2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas acuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinaciónincluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentranen la misma proporción en cada animal? Realiza el contraste con nivel de signi�cación 0.05. (Lavariabilidad total es 41.90). (archivo ultrasonidos:txt)
1.a b c Medias
1 11.0 11.4 12.7 11:72 9.8 10.8 13.7 11:433 7.5 10.6 11.5 9:874 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38
7
OTROS EJEMPLOS
2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar lostensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis gruposde tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar elexperimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:
I II IIIH M H M H M147 122 156 131 127 110
1 124 142 127 133 122 115113 136 155 146 153 105140 108 100 141 114 103
2 130 151 140 125 139 135112 138 105 139 126 114
Conteste a las siguientes preguntas:
� ¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?
� ¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?
� ¿Hay diferencia entre hombres y mujeres?
� Comprobar si hay interacción entre descanso y sexo.
� Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.
En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:
� ¿Existen diferencias entre los fertilizantes?
� ¿Existen diferentes entre las semillas?
� Estudiar si la interacción entre las semillas y fertilizantes es signi�cativa.
� Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.
En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.
8
A B C1 14.3 18.1 17.6
14.5 17.6 18.211.5 17.1 18.913.6 17.6 18.2
2 12.6 10.5 15.711.2 12.8 17.511.0 8.3 16.712.1 9.1 16.6
2.19. Se ha realizado un experimento para estudiar la in�uencia de dos factores en el rendimientode un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), yel catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan losresultados que se muestran en la siguiente tabla.
Temperatura
Alta Media Baja
Catalizador 1 279 174 397172 277 348176 130 434
Catalizador 2 253 252 417238 367 427387 323 423
� ¿De qué modelo se trata?
� ¿Qué efectos son signi�cativos?
� ¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?
2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a lacompresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes(mezcladores) durante un tiempo �jo. Después, la resistencia de las probetas generadas ha sido medidapor otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se handividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgadacuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.
9
Medidor 1 Medidor 2 Medidor 3
Mezclador 1 5280 4340 41605520 4400 51804760 5020 53205800 6200 4600
Mezclador 2 4420 5340 41805280 4880 48005580 4960 46004900 6200 4480
Mezclador 3 5360 5720 44606160 4760 49305680 5620 46805500 5560 5600
� ¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetasgeneradas por cada mezclador?
� ¿Es signi�cativa, con nivel de signi�cación del 5%, la interacción entre medidores y mezcladores?
� ¿Se cumplen las hipótesis del modelo?
2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variablesmás importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Losresultados del experimento son los siguientes:
PresiónTemperatura 200 215 230
Baja 90.4 90.7 90.2Baja 90.2 90.6 90.4Media 90.1 90.5 89.9Media 90.3 90.6 90.1Alta 90.5 90.8 90.4Alta 90.7 90.9 90.1
Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:
� ¿Qué conclusiones se pueden sacar de los datos?
� ¿Bajo qué condiciones podría operar este proceso?
� ¿Existe interacción entre temperatura y presión?
� Compruebe las hipótesis del modelo.
10
2.22. Se realiza un experimento para estudiar la in�uencia de la temperatura de operación y de trestipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentranlos resultados obtenidos que se presentan a continuación:
TemperaturaCristal 100 125 150
580 1090 13921 568 1087 1380
570 1085 1386550 1070 1328
2 530 1035 1312579 1000 1299546 1045 867
3 575 1053 904599 1066 889
� ¿Hay diferencia entre las temperaturas?
� ¿Hay diferencia en el cristal? ¿Cúal es el mejor?
� Estudie si existe interacción entre la temperatura y el cristal.
2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseñoun experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintasvariedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.Los resultados obtenidos en gramos fueron los siguientes:
I II III IV V1 296 357 340 331 3482 402 390 431 340 3203 437 334 426 320 2964 303 319 310 260 2425 469 405 442 487 3946 345 342 358 300 3087 324 339 357 352 2208 488 374 401 338 320
Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientespreguntas:
� ¿Existen diferencias entre las variedades?
� ¿Cúal es la mejor y la peor?
� La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir¿cuál elegiría?
� Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad eindependencia.
11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto delterreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendola variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestrasde licor de maíz. A continuación se presenta la tabla de los datos.
A B C D1 89 88 97 942 84 77 92 793 81 87 87 854 87 92 89 845 79 81 80 88
� ¿Cómo afectan los procedimientos y la materia prima?
� ¿Cuál es el mejor procedimiento y materia prima?
� Realice la diagnosis del modelo
En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloquemezcla.
2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar elcomportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de sucompilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada parala ejecución (dado en �s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. Eltiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés([-�,�],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Seproporcionan también los nombres de las funciones escalares consideradas.
Función Sistema IBM4331 4361 4341
EDUM 9,90 3,07 4,88ACOS CIRC [��; �] 179,62 33,28 33,23SEN LINEAL [��; �] 105,72 24,13 27,08EXP LINEAL [�16; 16] 254,82 39,14 37,46D2DUM 13,47 4,63 5,72
� El interés principal del experimento era el estudio de la e�cacia de los tres sistemas ¿ha resultadoadecuada la estrategia?
� Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.
2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estadode corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaronmuestras de agua corriente haciendo variar los factores Campus, Tipo de edi�cio y antigüedad del edi�cio.
12
Se midió la concentración de hierro en el agua corriente (mg=dm3) y para cada posible combinación defactores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que sepresentan en la siguiente tabla.
Factor Concentración de FeAntigüedad Tipo CampusViejo Académico Medford 0,23 0,28Nuevo Académico Medford 0,36 0,29Viejo Residencial Medford 0,03 0,06Nuevo Residencial Medford 0,05 0,02Viejo Académico Somerville 0,08 0,05Nuevo Académico Somerville 0,03 0,08Viejo Residencial Somerville 0,04 0,07Nuevo Residencial Somerville 0,02 0,06
� Identi�que el modelo de que se trata, estime sus parámetros y realice la diagnosis.
� Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.
� Estudie las interacciones e interprete las que resulten signi�cativas.
13
3. Regresión
1: Regresión simple I (Estimación y Contrastes)2: Regresión simple II (Diagnosis y transformaciones)3: Regresión Múltiple I (Estimación y Contrastes)4: Regresión Múltiple II (Variables cualitativas y
predicción)
CURSO 2021/2022
2Regresión Lineal
Regresión simple consumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
),0(, 210 Nuuxy iiii
3Regresión Lineal
ix
iyx10
Modelo
),0(, 210 Nuuxy iiii
ix10 osdesconocid parámetros:,, 2
10
4Regresión Lineal
Hipótesis del modelo
� Linealidad� E[yi ]= 0+ 1xi
� Normalidad� yi|xi N ( 0+ 1xi, 2)
� Homocedasticidad� Var [yi|xi] = 2
� Independencia� Cov [yi, yk] = 0
21
0
Parámetros
5Regresión Lineal
Estimación
xyx
yx
n
xx
n
xxyy
nxxnyx
xy
xxyxxxyddM
xnyxyddM
xyM
i
ii
n
ii
n
iii
i
n
iii
iiii
n
iiii
ii
n
iii
n
iii
101
1
2
11
210
1
10
210
110
0
101
100
1
21010
ˆˆ;)var(
),cov(ˆ
)(ˆ
))((
ˆˆ
ˆˆ
ˆˆ0)ˆˆ(
ˆˆ0)ˆˆ(
)(),(
6Regresión Lineal
Estimación
ni i
ni ii
i
ii
xxyyxx
xyx
xy
12
11
10
)())((
)var(),cov(ˆ
ˆˆ
n
iii xy
1
210 )(Mín
Mínimos cuadrados
n
iiinn xyMax
1
21022/ )(
21
21
exp
Máxima verosimilitud
7Regresión Lineal
xy 10ˆˆˆ
Recta de regresión
x
y
xy 10ˆˆ
Pendiente
1ˆ
)var(),cov(
1i
ii
xyx
8Regresión Lineal
Estimaciónconsumo y peso de automóviles
Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
071.07.10170117.087.11ˆˆ
0117.06.104446
2.1225)var(
),cov(ˆ
10
1
xy
xyx
i
ii
9Regresión Lineal 9Regresión Lineal
10Regresión Lineal
11Regresión Lineal 11Regresión Lineal
12Regresión Lineal
ResiduoPrevistoValor
ˆˆ
observadoValor 10 iii exy
ix
iy
ii xy 10ˆˆˆ
ie
Residuos iii
n
ii
R yyen
es ˆ;
2ˆ 1
2
2
13Regresión Lineal
= 2= 1.54 /
14Regresión Lineal
= 2= 1.543 /
15Regresión Lineal
Distribución de 1ˆ
2
22
1
2
222
221
21
22111
110
102211
22111
22111
210
)(
)][(][][][][]ˆ[
)()()][(][][][
][]ˆ[
normales de lineal Comb.ˆ),(
x
n
ii
inn
nn
iii
iinn
nn
nn
ii
nsw
yVarywyVarwyVarwywywywVarVar
xwwxyEyEwyEwyEw
ywywywEE
ywywyw
xNy
2
2
11 ,ˆxns
N
Parámetro y estimador
16Simple Linear Regression
1ˆ
087.02.330
54.1ˆ)ˆ( 1X
R
snsSE
kg 100km/100 cada litros 1.17100km/kg cada litros 0117.01
33.101.116.017.1
08.005.217.1
ˆˆ
1
1
1
2/11x
R
snst
1
t /2-t /2
/2
tn-2
.
1-
t28
2.05-2.05
Desviación típica de
17Simple Linear Regression
1ˆ
X
R
snsSE ˆ)ˆ( 1
La precisión en la estimación de la pendientemejora si:1. La Desv. Típica residual es pequeña2. La muestra n es grande3. Los valores de x tienen mucha dispersión
18Regresión Lineal
R2
222
2
21
2ˆ)2(
nR
n
ii sn
e
00
),0(
ˆˆ
222
12
221
2
21010
iii
n
ni i
nni i
i
iiiiii
xeeeu
Nuexyuxy
19Regresión Lineal
Contraste principal de regresión: ¿depende y de x?
0:0:
11
10
HH
ix
iy
ix
iy
iii uxy 10 ii uy 0
H0 es falso
x e y están relacionadosH0 es cierto
x e y no están relacionados
20Regresión Lineal
ii xy 10ˆˆˆ
0:0:
11
10
HH
Contraste sobre la pendiente
t /2-t /2
/2
tn-2
R.R. R.R
R. Acept.
1-
),(ˆ11
xsnN
21111
ˆˆ
)1,0(ˆ
n
x
R
x
t
snsN
sn
Ho rechaza Se
;ˆˆ
2/;21
11
n
x
R
tt
snst
21
0 rechaza e05.24.13 HS
2.05-2.05
0.025
t28R.R. R.R
4.13)2.32330/(54.1
017.00t
0.025
Ejemplo: = 0.05
0:0:
11
10
HH 54.1ˆ;0117.0071.0ˆ Rii sxy
…
El peso influye significativamente en el consumo
Con =0.05 “x” influyesignificativamente en “y”
Area Azul = p-valor
0 05 “ ”P- P-valor >
= 0.05
0:0:
11
10
HH
Con =0.05 “x” NO influyesignificativamente en “y”
0: 11H 0: 10H
P-valor
23Regresión Lineal
ii xy 10ˆˆˆ
0:0:
01
00
HH
Ho rechaza Se
;1ˆ
ˆ
))1(,(ˆ
2/;20
2
20
0
2
22
00
n
x
R
x
tt
sx
ns
t
sx
nN
Contraste: ordenada en el origen
24Regresión Lineal
25Regresión Lineal
Descomposición de la variabilidad en regresión
VNEVEVTiyiyyiyyy
iyiyyiyyy
yiyiyiyyiyiy
e
iyxy
uxy
n
i
n
i
n
ii
i
i
iii
iii
1
2
1
2
1
2
10
10
)ˆ()ˆ()(
sumando)y cuadrado al elevando()ˆ()ˆ()(
) restando()ˆ(ˆ
ˆˆ
ˆˆ
26Regresión Lineal
Coeficiente de determinación R2
221
1
2211 ˆ)(ˆ:)(ˆˆ x
n
iiii nsxxVExxyy
VNEVEVT
VTVER2
regresor elpor explicado estáque VT de porcentaje el Mide
10 2Rn
ii
n
iii
n
ii
yyVT
yyVNE
yyVE
1
2
1
2
1
2
)(
)ˆ(
)ˆ(
27Regresión Lineal
Coef. determinación
12R 80.02R
50.02R 02R
28Regresión Lineal
ii xy 10ˆˆˆ0:
0:
11
10
HH
Contraste F
1ˆ
ntesindependieson ,
ˆ)2(
cierto) es H (Si
22
222
2
21
2
2
o212
VNEVE
sneVNE
VE
nR
ni i
212ˆ2 n,R
Fs
VE)VNE/(n-
VEF
0H rechaza Se FF
29Regresión Lineal
ii xy 10ˆˆˆ
0:0:
11
10
HH
Contraste F
2,12
22o
2
ˆ
]ˆ[
cierto) es H (Si][
nR
R
FsVEF
sE
VEE
0H rechaza Se FF
= 0.05F
Rechazo H0Acep. H0F1,n-2
= 0.05
4.2
30Regresión Lineal
ii xy 10ˆˆˆ
0:0:
11
10
HH
Contraste F
1.17538.2
8.416ˆ
38.2ˆ
8.416)ˆ(
2
21
R
R
n
iii
sVEF
s
yyVE
0H rechaza Se 2.41.175
F1,28
31Análisis de la varianza
Tabla de Análisis de la Varianza
1)((VT) Total
2ˆ2)ˆ((VNE)Residual
ˆ)ˆ(
)ˆ(1)ˆ((VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
2
2
2
222
nyyRsnyy
syy
yyyy
i
ii
R
iii
2
22
)()ˆ(
yyyy
VTVER
i
i
32Análisis de la varianza
Tabla de Análisis de la Varianza
294.483(VT) Total38.22864.66(VNE)Residual
1.1758.41618.416(VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
862.02R
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
33Regresión Lineal
Ejemplo: R2Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
;0117.0071.0ˆ ii xy
38.2ˆ2Rs
%2.864.4838.416
4.483
64.66)ˆ(
8.416)ˆ(
2
1
1
R
VNEVEVT
yyVNE
yyVE
n
iii
n
ii
34Regresión Lineal
Ejemplo 2: Pearson-Lee Data
35Simple Linear Regression
Datos interesantes
36Simple Linear Regression
37Regresión Lineal
38Regresión Lineal
La recta de regresión (línea roja) tiene pendiente menor que 1 (línea negra) , lo que significaque las madres altas en general tienen hijas que son más altas que la media (pues lapendiente es positiva) pero más bajas que ellas (porque la pendiente es menor que uno). Deforma similar, las madres bajas tienen hijas más bajas , pero más altas que sus madres.Este resultado es el origen del término “regresión”, que indica que los valores extremos deuna generación tienden a regresa o revertir hacia la media en la siguiente.
39Simple Linear Regression
Conclusiones Principales1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
2. La relación es positiva: “A madre alta hija alta.”
3. La desviación típica de la pendiente (standard error) es
4. La estatura de la madre solo explica el 24% de la estaturade la hija (R-squared = 0.24)
5. Dada la estatura de la madre se puede predecir la estaturade la hija con un error medio de 2.266 pulgadas (sR).
54.01
590.049.00254.096.154.00259.0)ˆ(
1
11SE
Regresión2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo
La estimación está basada en las siguientes hipótesis:
� Linealidad� Normalidad� Homocedasticidad� Independencia
Observaciones Atípicas (muy perjudiciales)
41Regresión Lineal
ix
iyx10
ix
iyx10
Las hipótesis se comprueban con los RESIDUOS
42Regresión Lineal
Análisis de los ResiduosNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
-0,23-2,280,59-1,61-0,86-0,352,052,220,89-0,49-3,350,091,56-1,48-0,060,842,970,281,450,860,00-1,33-0,061,66-0,44-1,00-0,07-3,18
-0,441,77 iii yye ˆ
43Regresión Lineal
Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
0
5
10
15
20
25
500 700 900 1100 1300 1500 1700
Peso (Kg)
Cons
umo
(litro
s/10
0 Km
)
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
44Regresión Lineal
Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18
;0117.0071.0ˆ ii xy 38.2ˆ2Rs
648
;7x ˆ 222222222222222222222222222222222222222222222222222222222Rs
No linealidad
45Regresión Lineal
No homocedasticidad
46Regresión Lineal
No homocedasticidad, ni linealidad
47Regresión Lineal
Observaciones atípicas
48Regresión Lineal
Residuos Aceptables
49Regresión Lineal
50Regresión Lineal
Normalidad de los Residuos
Herramientas de comprobación:� Histograma de residuos� Gráfico de probabilidad normal (Q-Q plot)� Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
Residuos-9 -6 -3 0 3 6 9
0
20
40
60
80
100
120
-6 -4 -2 0 2 4 6Residuos
0,115
2050809599
99,9
prob
abili
dad
51Regresión Lineal
Comprobación de la linealidad y homocedasticidad � Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los residuos� Frente a valores previstos� Frente al regresor.
� En muchas ocasiones se corrige la falta de linealidad y la heterocedasticidadmediante transformación de las variables.
iii
iii
uxyuxy
110
110
logloglog
52Regresión Lineal
Residuos – Regresor o Val.Previstos
0
ix
ie
0
ix
ie
0
ix
ieLineal y homocedástico No lineal y homocedástico
Lineal y no homocedástico
0
ix
ie
No lineal y no homocedástico
Coches (ejemplo 1): Consumo ~ Peso
53Regresión Lineal
Normalidad ok Linealidad ok y Homocedasticidad ok
Cars (Ejemplo 2): mpg ~ weight
54Regresión Lineal
DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con información del siete variables: consumo (mpg), cc (engine), potencia (horse), peso (weight), tiempo de aceleración (accel), origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de cilindros (cylinders)
OBJETIVO: Estimar el modelo de regresión simple entre el consumo (mpg) y el peso (weight)
Cars: mpg ~ weight
55Regresión Lineal
mpg = 49.20 0.0076 weight(0.802) (0.00025)= 0.69 = 4.34
No hay linealidad ni homocedasticidad
Figura 2.1 Figura 2.2
Cars: cons ~ weight
56Regresión Lineal
TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”
cons = 235.1/mpg
Y X
…
Cars: cons ~ weight
57Regresión Lineal
cons = 0.7689 + 0.0040 weight(0.3298) (0.00011)= 0.79 = 1.78
TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”
cons = 235.1/mpg
Cars: Cambio Variable
58Regresión Lineal
Figura 2.3 Figura 2.4
Mejora la linealidad y homocedasticidad
Cars: Normalidad
59Regresión Lineal
Figura 2.5 Figura 2.6
Normalidad no es problemática
Cars: Instrucciones con R
60Regresión Lineal
> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT
> mod_cars<-lm(mpg ~ weight, data = cars) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)> summary(mod_cars) % MUESTRA Resumen del modelo de regresión
> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)
> plot(cars$weight,cars$mpg,pch=19,col="blue") % DIBUJA Figura 2.1> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1
> plot(cars$weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2> abline(c(0,0),col="red",lty=2,lwd=2)
61Regresión Lineal
Tabla 2.1
Cars: Instrucciones con R
62Regresión Lineal
> cars$cons <- 235.1/cars$mpg % cambio variable> m2 <- lm(cons ~ weight, data = cars) % nuevo modelo
> plot(cars$weight,cars$cons,pch=19,col="blue") % Figuras 2.3 y 2.4 > abline(m2,col="red",lwd=2)> plot(cars$weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))> abline(c(0,0),col="red",lwd=2,lty=2)> abline(c(5,0),col="red",lwd=2,lty=2)> abline(c(-5,0),col="red",lwd=2,lty=2)
> hist(residuals(m2), xlab="residuos", col="red", nclas=20) % figuras 2.5 y 2.6> qqnorm(residuals(m2), col="blue", pch=19) > qqline(residuals(m2), col="red", lwd=2, lty=2)
> summary(m2) % resumen del modelo m2 (tabla 2.2)
Cars: Instrucciones con R
Forbes (Ejemplo 3)
63Simple Linear Regression
Ejemplo “Forbes”En un artículo de 1857 un físico escocés llamadoJames D. Forbes presentó una serie de experimentosrealizados para estudiar la relación entre presiónatmosférica y punto de ebullición del agua. Forbessabía que la altitud podía ser determinada a partir dela presión atmosférica medida con un barómetro, conmenores presiones a medida que aumenta la altitud. Amediados del siglo XIX los barómetros eraninstrumentos muy frágiles y Forbes pensó que sepodía sustituir la medidas de la presión con medidasde la temperatura de ebullición del agua. Recogiódatos de 17 emplazamientos en los Alpes y losmontes de Escocia. En cada lugar se midió con unbarómetro la presión en pulgadas de mercurio (Pres)y la temperatura de ebullición del agua en gradosFahrenheit (Temp) empleando un termómetro. Losdatos se encuentran en el archivo “forbes.txt”
“forbes.txt”
Temp Pres1 194.5 20.792 194.3 20.79 3 197.9 22.404 198.4 22.675 199.4 23.156 199.9 23.357 200.9 23.898 201.1 23.99 9 201.4 24.02 10 201.3 24.0111 203.6 25.1412 204.6 26.5713 209.5 28.4914 208.6 27.76 15 210.7 29.0416 211.9 29.8817 212.2 30.06
Weisberg, S. (2005). Applied Linear Regression, 3rdedition. New York: Wiley.
Forbes: Modelo Inicial
64Regresión Lineal
Temp Pres Pred Resid1 194.5 20.79 20.639 0.15115522 194.3 20.79 20.534 0.25573373 197.9 22.40 22.417 -0.01667904 198.4 22.67 22.678 -0.00812525 199.4 23.15 23.201 -0.05101766 199.9 23.35 23.462 -0.11246387 200.9 23.89 23.985 -0.09535628 201.1 23.99 24.090 -0.09993479 201.4 24.02 24.247 -0.226802410 201.3 24.01 24.195 -0.184513111 203.6 25.14 25.397 -0.257165712 204.6 26.57 25.920 0.649941913 209.5 28.49 28.482 0.007769214 208.6 27.76 28.012 -0.251627715 210.7 29.04 29.110 -0.069701716 211.9 29.88 29.737 0.142827417 212.2 30.06 29.894 0.1659597
Pres = 81.06 + 0.523 Temp(2.05) (0.010)= 0.994 = 0.233 Tabla 3.1
Forbes: Conclusiones Modelo Inicial
65Regresión Lineal
• Según la figura y el valor R-cuadrado (0.994) el ajuste es muy bueno.
• Comparando los valores Previstos con los Observados (Pred) observamos que las diferencias (residuos) son pequeñas ( = 0.233)
• Los dos parámetros del modelo son muy significativos (entre paréntesis se proporcionan las desv. típicas. estimadas de los parámetros estimados)
Figura 3.1 Figura 3.2
Forbes: Diagnosis
66Regresión Lineal
En el gráfico de residuos frente al regresor se observa:
• La mayoría de las observaciones muestran no-linealidad• Existe una observación atípica
Forbes: Instrucciones R
67Regresión Lineal
> forbes <- read.table(“forbes.txt”,header=TRUE)> m <- lm(Pres ~ Temp, data = forbes)> summary(m)
68Regresión Lineal
> forbes$Pred <- predict(m)> forbes$Resid <- residuals(m)> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1
Figuras 3.1 y 3.2 > par(mfrow=c(1,2)) > plot(forbes$Temp,forbes$Pres,pch=19,col="blue",
xlab="Temperatura",ylab="Presión")
abline(m,col="red",lwd=2)
> plot(forbes$Temp,residuals(m), pch=19, col="blue", ylab="Residuos",xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")
Forbes: Instrucciones R (cont)
Forbes: Modelo 1
69Regresión Lineal
Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 132.03 -0.24802252 194.3 20.79 131.79 131.85 -0.06889903 197.9 22.40 135.02 135.08 -0.05377004 198.4 22.67 135.55 135.53 0.01877135 199.4 23.15 136.46 136.42 0.03310106 199.9 23.35 136.83 136.87 -0.04111897 200.9 23.89 137.82 137.77 0.05618988 201.1 23.99 138.00 137.94 0.05847619 201.4 24.02 138.06 138.21 -0.155933710 201.3 24.01 138.04 138.12 -0.084456311 203.6 25.14 140.04 140.18 -0.147065812 204.6 26.57 142.44 141.08 11.359944513 209.5 28.49 145.47 145.47 0.001507014 208.6 27.76 144.34 144.66 -0.319735815 210.7 29.04 146.30 146.54 -0.242818116 211.9 29.88 147.54 147.62 -0.079161317 212.2 30.06 147.80 147.89 -0.0870083Lpres = 42.16 + 0.8956 Temp(3.34) (0.016)= 0.995 = 0.379 Tabla 4.1
= 100 × log
Forbes : modelo 1
70Regresión Lineal
En el gráfico de residuos frente al regresor se observa:• Existe una observación claramente atípica • Se ha corregido la falta de linealidad en el resto de las
observaciones.
Figura 4.1 Figura 4.2
Forbes: Modelo 1
71Regresión Lineal
• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad (da igual utilizarlogaritmos neperianos o decimales, se ha multiplicado por100 para evitar números muy pequeños en lasestimaciones, no tiene efecto en el análisis)
• La observación atípica tiene mucha influencia en laestimación del modelo, se aprecia como los residuos delresto de las observaciones no tienen media cero.
• Por lo demás el ajuste es muy bueno como se ve en lagráfica y en la tabla 4.1, los valores previstos se parecenmucho a los observados (los residuos son pequeños)
• Conviene eliminar la observación atípica y recalcular.
Forbes: Instrucciones R
72Regresión Lineal
> forbes <- read.table(“forbes.txt”,header=TRUE)> m1 <- lm(100*log10(Pres) ~ Temp, data = forbes)> summary(m1)
73Regresión Lineal
> forbes$Lpres <- 100*log10(Pres)> forbes$Pred <- predict(m1)> forbes$Resid <- residuals(m1)> print(forbes,digits=4,print.gap=3) % proporciona tabla 4.1
Figuras 4.1 y 4.2
> par(mfrow=c(1,2))
> plot(forbes$Temp,100*log10(forbes$Pres),pch=19,col="blue",xlab="Temperatura“)
abline(m1,col="red",lwd=2)
> plot(forbes$Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")
Forbes: Instrucciones R (cont)
Forbes: Modelo 2
74Regresión Lineal
Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 131.99 -0.20066992 194.3 20.79 131.79 131.81 -0.02244803 197.9 22.40 135.02 135.02 0.00891074 198.4 22.67 135.55 135.46 0.08370615 199.4 23.15 136.46 136.35 0.10254416 199.9 23.35 136.83 136.80 0.03057837 200.9 23.89 137.82 137.69 0.13239538 201.1 23.99 138.00 137.87 0.13558329 201.4 24.02 138.06 138.13 -0.077474210 201.3 24.01 138.04 138.05 -0.006447511 203.6 25.14 140.04 140.10 -0.058688112* 204.6 26.57 142.44 140.99 1.452732413 209.5 28.49 145.47 145.35 0.116483314 208.6 27.76 144.34 144.55 -0.208816815 210.7 29.04 146.30 146.42 -0.122431816 211.9 29.88 147.54 147.49 0.046634917 212.2 30.06 147.80 147.76 0.0401403Lpres = 41.33 + 0.8911 Temp(1.003) (0.0049)= 0.9996 = 0.1136
Tabla 5.1
= 100 × log(ELIMINANDO OBSERVACIÓN Nº 12)
La obs. 12 no se ha utilizado en la estimación del modelo
Forbes : modelo 2
75Regresión Lineal
En el gráfico de residuos frente al regresor se observa:• No existen observaciones atípicas (las líneas rojas se
encuentran a ±2 )• No se observa ninguna anomalía grave en el qqplot..
Figura 5.1 Figura 5.2
Forbes: Modelo 2
76Regresión Lineal
• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad y se ha eliminado laobservación 12 (el propio Forbes indica en su artículo quese trataba de un error de medida)
• Comparando el modelo 1 y 2, no se aprecian grandescambios en los parámetros estimados , .
• La desviación típica residual se ha reducidoconsiderablemente de uno a otro, pasando de 0.379 a0.113, y como consecuencia las desviaciones típicas de losparámetros.
• El análisis de los residuos no indican ninguna desviaciónimportante de las hipótesis del modelo
Forbes: Instrucciones R
77Regresión Lineal
> # Modelo m2 de Forbes> out <- abs(residuals(m1)) > 3*0.3792> m2 <- lm(100*log10(Pres) ~ Temp, data = forbes[!out,])> summary(m2)
78Regresión Lineal
> # Tabla 5.1> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]> forbes$Pred2 <- P_Lpres> forbes$Resid2 <- 100*log10(Pres)-P_Lpres> print(forbes,digits=5,print.gap=3)
> # Figuras 5.1 y 5.2> par(mfrow=c(1,2)) > plot(forbes$Temp[!out],residuals(m2),
pch=19,col="blue",ylab="Residuos", xlab="Temperatura",ylim=c(-.5,.5))
> abline(c(0,0),lty=2,lwd=2,col="red") > abline(c(-.22,0),lty=2,lwd=2,col="red") > abline(c(+.22,0),lty=2,lwd=2,col="red")> > qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue") > qqline(residuals(m2),col="red",lty=2,lwd=2)
Forbes 2: Instrucciones R (cont)
FEV (Ejemplo 4)
79Regresión Lineal
Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)
age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...
Tabla 6.1
FEV: Modelo Inicial
80Regresión Lineal
• Tanto en el gráfico de dispersión de FEV y altura (ht) como en el de los residuos del modelo de regresión simple se observa la relación no-lineal entre las dos variables y la heterocedasticidad.
Figura 6.1 Figura 6.2
FEV: modelo 1
81Regresión Lineal
Figura 6.3 Figura 6.4
log(fev) = 2.27 + 0.052 ht(0.063) (0.0010)= 0.7956 = 0.1508
FEV: modelo 1
82Regresión Lineal
Figura 6.5 Figura 6.6
FEV: Modelo 1
83Regresión Lineal
• Se ha realizado la transformación logarítmica de la variablerespuesta (fev) y se ha corregido la falta de linealidad y laheterocedasticidad como se ve en las figuras 6.3 y 6.4
• El histograma y el qqplot (figura 6.5 y 6.6) no muestrangrandes desviaciones de la normalidad.
• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.
• Existe una relación muy significativa entre log(fev) y ht(altura). Un incremento de un pulgada en la estatura suponeun aumento de la capacidad pulmonar del 5% (esteresultado cambiará al considerar otras variables)
• La altura explica un 79% (R2) de la variabilidad del log(fev).
log(fev) = 2.27 + 0.052 ht(0.063) (0.0010)= 0.7956 = 0.1508log(fev)g( ) = 2.27 + 0.05250525 ht(0.063))(( )) (((0.0010))= 00..79567956 = 00..15081
FEV: Modelo m1 con R
84Regresión Lineal
Tabla 6.2
FEV : Instrucciones de R
85Regresión Lineal
> # FEV (ejemplo 4)> dat <- read.table("fev.dat",header=TRUE)> head(dat) #tabla 6.1> m <- lm(fev~ht, data = dat) # modelo m inicial> par(mfrow=c(1,2))> plot(dat$ht, dat$fev,col="blue") # figura 6.1> abline(m,col="red",lwd=2)> plot(dat$ht,residuals(m),col="blue") # figura 6.2> abline(c(0,0),col="red",lwd=2,lty=2)
> m1 <- lm(log(fev) ~ ht, data = dat)> summary(m1) # modelo estimado tabla 6.2> plot(dat$ht,log(dat$fev),col="blue") # figura 6.3> abline(m1,col="red",lwd=2) # figura 6.3> plot(dat$ht,residuals(m1),col="blue") # figura 6.4> abline(c(0,0),col="red",lty=2,lwd=2)> par(mfrow=c(1,2)) # figura 6.5 y 6.6> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")> qqnorm(residuals(m1),col="blue")> qqline(residuals(m1),col="red",lty=2,lwd=2)
Brains (ejemplo 5)
86Regresión Lineal
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos62 observaciones, 2 variables
Descripción:Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos ydel cerebro en gramos
Variables:brain: Peso del cerebro (gramos)body: Peso del Cuerpo (kilogramos)
FuentesAllison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutionalcorrelates. Science, 194, 732-734.Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley
Tabla 7.1OBJETIVO: Estudiar la relación entre peso del cerebro y peso del cuerpo.
87Regresión Lineal
88Regresión Lineal
Brains: Transformación
89Regresión Lineal
• En la escala original (figura 7.1) no tiene sentido el modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos variables (figura 7.2) se aprecia una clara relación lineal
Figura 6.1 Figura 6.2
Brains: Modelo m1 con R
90Regresión Lineal
Tabla 7.2TaTaTaTaTaTaTaTaTaTTTaTaTaaTTaTaTTTTTTTTTaaaaTaTaaaaaTaTTTTTTTTaaaTaaaaaaTTTTTTTTaTaTaaaTaaaaaaTTaTTTTTTTTTaTaTaaaaaaaaaaTaTTTTTaTTTTaTaTaaaTTTTTTTTTaTaaaTaaaTaTTTTTaTaTaaaaTaTTTTTTaTaTaaaaTTTTTaTaaaTTTTaTaTaaaaTaTTTTTaTaTaaaaTTTTTTTaTaaaaTTTTTTTaTaaaaaaablblblblbblblblblblblblblbblbblbbbbbbbbbbbbbbbbbbbb aaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 7.7777777777.7.7777777777777777777777777.7.77777777777777777777..7777777.7777...77777.7.2222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222
Brains: modelo 1
91Regresión Lineal
Figura 7.3 Figura 7.4
log(brain) = 2.13 + 0.752 log(body)(0.096) (0.028)= 0.9208 = 0.6943
Brains
92Regresión Lineal
• La relación entre el logaritmo de peso del cuerpo y ellogaritmo del peso del cerebro es lineal como se ve en lasfiguras 7.3 y 7.4
• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.
• El log del peso del cuerpo explica el 92% (R2) de lavariabilidad del log del peso del cerebro.
log(brain) = 2.13 + 0.752 log(body)(0.096) (0.028)= 0.9208 = 0.6943
Funciones R para Regresión Simple
93Regresión Lineal
• m <- lm(y~x) Estima el modelo y (variable dependiente) y x (regresor). El modelo lo guarda en m
• summary(m) Modelo estimado• plot(m) Diagnosis• coef(m) Da los coeficientes• residuals(m) Residuos del modelo• fitted(m) Da los valores predichos• deviance(m) Suma de residuos al cuadrado• predict(m) Hace predicciones• anova(m) Tabla ANOVA
Regresión3: Regresión Múltiple I
95Regresión Lineal
Ejemplo regresión múltiple
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Y X1 X2 X3 X4Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos
15 4982 150 1144 1216 6391 190 1283 924 5031 200 1458 159 1491 70 651 2111 2294 72 802 1917 5752 153 1384 14... ... ... ... ...
Var. Independienteso regresores
Var. dependienteso respuesta
96Regresión Lineal
Modelo regresión múltiple
osdesconocid parámetros:,,,,, 2210 k
),0(
,2
22110
Nu
uxxxy
i
ikikiii
� LinealidadE[yi] = 0+ 1x1i+ + kxki
� Normalidadyi| x1 ,...,xk Normal
� HomocedasticidadVar [yi|x1 ,...,xk] = 2
� IndependenciaCov [yi, yk] = 0
Estimación
97Regresión Lineal
),0(, 222110 Nuuxxxy iikikiii
1ˆˆ
ˆˆˆˆ
ˆˆˆ
1
2
2
110
110
kn
esyye
xxy
exxy
n
ii
Riii
kikii
ikikii
== =
g.l. = n-k-1
kikii xxy ˆˆˆˆ 110
98Regresión Lineal
Notación matricial
nkknnn
k
k
n u
uu
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
1
11
),( 2I0U
UXY
N
99Regresión Lineal
Estimación mínimo-cuadrática
eXY ˆdonde el vector e cumple
mínimo esn
iie
1
22e
nkknnn
k
k
n e
ee
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
ˆ
ˆˆ
1
11
100Regresión Lineal
Para que ||e||2 sea mínimo, e tiene que serperpendicular al espacio vectorial generado lascolumnas de X
nkii
nii
ni
nknnn
k
k
xe
xee
e
ee
xxx
xxxxxx
1
1 1
1
2
1
21
22212
12111
0
00
,1
11
0eX
eX
T
101Regresión Lineal
Mínimos cuadrados
YXXXXXYXeXXXYX
0eX
TTTT
TTT
T
1)(ˆˆˆ
x1
Y
XY ˆˆ
YYe ˆ
x2
x2
x1
Y Solución MC
102Regresión Lineal
Matriz de proyección V
1
x1
VYY
V)Y(IeY
VYYYXX)X(XY
XYT1T
ˆˆ
ˆˆPrevistos Val.
V)Y(IVYYXYe ˆ
Residuos TT XXX(XV 1)
Simétrica V=VT
Idempotente VV=V
103Regresión Lineal
Distribución de probabilidad de ˆ
1T
1TT1T
T1TT1T
T
T1T
T1TT1T
X)(X
X)X(XXX)(X
XX)(XIXX)(X
CYCCY
XXX)(XCXYC
XX)(XCCYYXX)(X
IXY
2
2
2
2
))()((
][][]ˆ[
][]ˆ[
ˆ) siendo(ˆ
),(
TVarVarVar
EE
Normal
N
104Regresión Lineal
Distribución de probabilidad de ˆ
kkkk
k
k
T
kkqqq
qqqqqq
10
11110
00100
11
0
1
0
)(
ˆ
ˆˆ
ˆ XXQ
),(ˆ),(ˆ
2
2
iiii qN
N 1TX)(X
)1()1()dim( kkQ
105Regresión Lineal
Residuos
)ˆˆˆ( 110 kikiii xxye
nkknnn
k
k
n e
ee
xxx
xxxxxx
y
yy
2
1
1
0
21
22212
12111
2
1
ˆ
ˆˆ
1
11
ResiduosPrevistosObservados
ˆ eXY
106Regresión Lineal
Varianza Residual
212
21
2
212
12
2
]1
[
1][
kne
E
kne
E
e
ni i
ni i
kn
ni ieeT
212
2
12
2
ˆ)1(
1ˆ
knR
ni i
R
skn
kne
s
107Regresión Lineal
0:0:
1
0
i
iHH
Ho rechaza Se2/;1
111
2
;ˆ
ˆˆ
ˆ)1,0(
ˆ),(ˆ
kniiiR
ii
kniiRii
ii
iiii
ttqs
t
tqs
Nq
qN
Contraste individual i
ikikii uxxy 110
108Regresión Lineal
0:0:
1
0
i
i
HH
Contrastes individuales
t /2-t /2
/2
tn-k-1
R.R. R.R
R. Acept.
1-
1)ˆ(
ˆkn
i
iii t
SEt
Ho rechaza Se
;)ˆ(
ˆ
2/;11
1
11
knttSE
t
/2
kikii xxy ˆˆˆˆ 110
, ( )
Con =0.05 “x” influyesignificativamente en “y”
Area Azul = p-valor
0 05 “ ”P- P-valor >
= 0.05
0:0:
1
0
i
i
HH
Con =0.05 “x” NO influyesignificativamente en “y”
0:1 iH 0:0 iH
P-valor
n-k-1
110Regresión Lineal
Estimate Stand Error t value Pr(>|t|)Intercept SE( ) = SE( )
SE( ) = SE( )SE( ) = SE( )
… … … … …
SE( ) = SE( )
Dependiente (y) ~ Independientes (x1, x2,..,xk)Modelo estimado y contrastes
111Regresión Lineal
log(fev) = 1.97 + 0.04399 ht + 0.0198 age(0.078) (0.0016)= 0.1476 (0.0031)
112Regresión Lineal
Descomposición de la variabilidad en regresión
VNEVEVT
eyyyy
eyyyyyeyy
exxy
ni i
ni i
ni i
iii
iii
ikikii
12
12
12
110
)ˆ()(
)ˆ()()(ˆ
ˆˆˆ
Restando
113Regresión Lineal
Coeficiente de determinación R2
regresores los por explicado estáque VTde porcentaje el Mide
10 2R
8071.0526.72536.582
VTVER
526.72990.13536.58
990.13)ˆ(
536.58)ˆ(
1
2
1
2
VT
yyVNE
yyVE
n
iii
n
ii
log(fev) = 1.97 + 0.0439 ht + 0.0198 age(0.078) (0.0016) (0.0031)
114Regresión Lineal
Coef. determinación corregido
2
22
ˆ)1(ˆ)1(11
y
R
snskn
VTVNE
VTVNEVT
VTVER
1
)(ˆ 1
2
2n
yys
n
ii
y
11)1(1
111
ˆˆ
1
2
2
22
knnR
knn
VTVNE
ssR
y
R
2R
= 1 (1 0.8071) × =0.8065
115Regresión Lineal
0:0:
1210
de distinto es algunoHH k
Contraste general de regresión.
0H rechaza Se FF
ikikii uxxy 110
1,2
2
22
o22
ˆˆ
ˆ
cierto) es H (Siˆ
knkR
E
R
E
FssF
sk
VEs
= 0.05
F
Rechazo H0Acep. H0
F1,n-2
= 0.05
3.01
116Regresión Lineal
Contraste F
0H rechaza Se 01.31362
F2,651
0algún :0:
1
210
iHH
1362021.0268.29
ˆˆ
021.0ˆ
268.292436.58ˆ
2
2
2
2
R
E
R
E
ssF
sk
VEs
P-valor = 0.00000…
log(fev) = 1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)
117Análisis de la varianza
Tabla de Análisis de la Varianza
1)((VT) Total
2ˆ1)ˆ((VNE)Residual
ˆˆ
ˆ)ˆ((VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
2
2
2
222
nyysknyy
ss
skyy
i
Rii
R
EEi
2
22
)()ˆ(
yyyy
VTVER
i
i
118Análisis de la varianza
Tabla de Análisis de la Varianza
653526.72(VT) Total0215.0651990.13(VNE)Residual
1362268.292536.58(VE)Explicada
FVarianzasLibertadCuadradosFUENTES de Gradosde Suma
8071.0526.72536.582R
log(fev) = 1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)
Ejemplo 1: Cars
119Regresión Lineal
…
Y X1 X2 X3 X4
RegresoresDepend
= 1.05 + 0.0058 engine + 0.0369 horse ++ 0.0020 weight + 0.0813 accel
Valores Previstos y Residuos
120Regresión Lineal
= 1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accelY X1 X2 X3 X4
Datos Resultados
9.5762)(
9.1037)ˆ(
0.4725)ˆ(
1
2
1
2
1
2
n
ii
n
iii
n
ii
yyVT
yyVNE
yyVE
= 1 = 1037.9386= 2.7= = 47255762.9 = 81.992
121Regresión Lineal
122Regresión Lineal
Linealidad Homocedasticidad
ok
Normalidad ok
Diagnosis
123Regresión Lineal
DIAGNOSIS: residuos ~ regresores
124Regresión Lineal
Resumen del modelo
Conclusiones modelo final
125Regresión Lineal
1. No se aprecian desviaciones importantes de las hipótesis básicas delmodelo: linealidad, homocedasticidad y normalidad.
2. Se observa relación lineal significativa entre el consumo de los coches y supeso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-valores son menores que 0.05 en elmodelos). Los coeficientes estimadosson positivos, lo que significa que el aumento de cualquiera de las variablesindependientes incrementa el consumo del vehículo. Con las cuatrovariables se explica el 81.99 % de la variabilidad del consumo.
= 1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel= 1.64 = 81.99
Conclusiones modelo final (cont)
126Regresión Lineal
3. En el modelo de cuatro regresores el parámetro asociado a aceleración no essignificativo. La inclusión de la variable “aceleración” no mejorasignificativamente el modelo. Eso no implica que no exista relación lineal entreaceleración y consumo (la regresión simple entre estas variables indican relaciónsignificativa con coeficiente negativo).
4. El coeficiente asociado al peso es 0.0020, es muy significativo. Parainterpretarlo es necesario tener en cuenta las unidades: un aumento de una libraen el peso del coche manteniendo constante el resto de las variables produce unaumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor sepuede cambiar manteniendo el resto constante, lo que sólo es posible en losestudios experimentales.) El resto de los coeficientes se interpreta similarmente.
127Regresión Lineal
1 2 3 4Modelo engine horse weight accel
0,0320,0009
0,0850,0026
0,0040,0001
-0,6630,062
0,0202 0,0360,0019 0,00530,01313 0,002510,0023 0,00028720,03215 0,00480,00108 0,041
0,0351 0,00260,00432 0,000190,1027 0,3360,0035 0,048
0,00379 -0,16890,0001147 0,0351
0,0052 0,0299 0,002250,0025 0,005 0,00020,01765 0,0539 0,22820,0019 0,0063 0,04590,01006 0,0027 -0,09860,0026 0,000298 0,039
0,04113 0,0025 0,06390,0063 0,00022 0,0489
0,00587 0,03695 0,002018 0,08130,0026 0,0065 0,00031 0,049
1,648 81,75 81,61
1,640 81,99 81,80
1,723 80,05 79,89
1,704 80,50 80,35
1,734 79,75 79,65
1,643 81,86 81,72
1,650 81,67 81,58
1,892 75,90 75,78
1,715 80,18 80,08
1,877 76,28 76,16
78,55 78,49
3,380 22,70 22,50
1,775 78,78 78,67
1,874 76,28 76,22
2,002 72,94 72,87
1,780
134
234
1234
14
23
24
34
123
124
1
2
3
4
12
13
CARS: Todos los modelos
Conclusiones Generales
128Regresión Lineal
1. El que la relación lineal entre dos variables sea significativa no implica que existarelación de CAUSALIDAD entre las variables. Se debe interpretar como asociaciónentre las variables: los coches con más pesos presentan mayor consumo que loscoches con menos peso.
2. Cuando se añaden o eliminan variables de un modelo los coeficientes del restocambian. Eso es debido a la correlación entre los regresores. Cuando estascorrelaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre elcosnumo depende del resto de las variables en el modelo. La alta correlaciónentre los regresores hace muy difícil interpretar el significado de loscoeficientes, a este problema se le denomina MULTICOLINEALIDAD.
Conclusiones (cont.)
129Regresión Lineal
7. La selección del modelo depende del objetivo. Siempre el modelo con másregresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelosmuy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos elmodelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluyeademás los cc del motor (engine) como regresor con un aumento en R2despreciable (ahora 81.86%). En este modelo los tres coeficientes sonsignificativos. Si añadimos la variable accel, llegamos al modelo completo conR2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y conello la variabilidad no explicada. La desviación típica residual también sueledisminuir (hay que tener en cuenta que el denominador de la varianza residualtambién disminuye). Los modelos 23, 123 y 1234 tienen una desviación típicaresidual muy parecida y próxima a 1.64 litros/100km. La interpretación(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datosdel peso (weight), potencia (horse), cc (engine) y aceleración (accel) del cochela distribución de su consumo tiene media la proporcionada por el modelo ydesviación típica 1.64 litros/100km.
130Regresión Lineal
Ejemplo 2: Cerezos Negros
Se desea construir un modelo de regresión para obtener el volumen de madera de una “cerezo negro” en función de la altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos.
131Regresión Lineal
Cerezos negros: Datos
Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen1 8,3 70 10,30 17 12,9 85 33,802 8,6 65 10,30 18 13,3 86 27,403 8,8 63 10,20 19 13,7 71 25,704 10,5 72 16,40 20 13,8 64 24,905 10,7 81 18,80 21 14,0 78 34,506 10,8 83 19,70 22 14,2 80 31,707 11,0 66 15,60 23 14,5 74 36,308 11,0 75 18,20 24 16,0 72 38,309 11,1 80 22,60 25 16,3 77 42,6010 11,2 75 19,90 26 17,3 81 55,4011 11,3 79 24,20 27 17,5 82 55,7012 11,4 76 21,00 28 17,9 80 58,3013 11,4 76 21,40 29 18,0 80 51,5014 11,7 69 21,30 30 18,0 80 51,0015 12,0 75 19,10 31 20,6 87 77,0016 12,9 74 22,20
Cerezos
132Regresión Lineal
133Regresión Lineal
Gráficos x-y
1. Se aprecia relación entre las dos variables y el volumen2. El gráfico del volumen versus diámetro presenta ligera curvatura3. El gráfico del volumen versus altura presenta clara heterocedasticidad
134Regresión Lineal
Primer modelo:cerezos negros ErrorDiametroAlturaVolumen 210
135Regresión Lineal 135Regresión Lineal
Falta de linealidadFalta de lin
136Regresión Lineal
Transformación
errordiámetro)altura)vol)diámetroalturakvol
20
2
log(log(log( 1
137Regresión Lineal
Diagnosis (modelo transformado)
ok
138Regresión Lineal
Interpretación
� Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de linealidad y homocedasticidad.
� El volumen está muy relacionada con la altura y el diámetro del árbol (R2= 97.77%)
� El modelo estimadolog(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuación vol=k Alt Diam2
� La desviación típica residual es sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%.
139Regresión Lineal
Multicolinealidad
� Cuando la correlación entre los regresores es alta.
� Presenta graves inconvenientes:� Empeora las estimaciones de los efectos de
cada variable i: aumenta la varianza de las estimaciones y la dependencia de los estimadores)
� Dificulta la interpretación de los parámetros del modelo estimado.
140Regresión Lineal
Multicolinealidad: efecto en la varianza de los estimadores
)1(1
)1(
)1()1(1
)1(||
~~~~ˆˆ
var
22110
212
22
21221
12
21221
122
122112
1222
21
222112
211221
2212
122121
2
1
rsrssr
rssr
rsrss
sssrssrs
ssssn
iuixixy
XXXX
XXXXTT
i
SS
SSXXXX
)1()1(
)1()1(ˆˆ
var
212
22
2
21221
212
21221
212
212
21
2
2
1
rnsrsnsr
rsnsr
rns
Ejemplo 3: Tabaco
141Regresión Lineal
Ejemplo “Tabaco” Monóxido de Carbono (CO)25 observaciones, 3 variables
Descripción: Se proporciona la producción de monóxido decarbono (co) y el contenido de nicotina (nico) y alquitrán(alq) en 25 marcas diferentes de cigarrillos americanos.
Fuente: Mendenhall, William, and Sincich, Terry (1992),Statistics for Engineering and the Sciences (3rd ed.), NewYork: (Original source: Federal Trade Commission, USA)
Variablesalq contenido en alquitrán mgnico contenido en nicotina mgco monóxido de carbono CO mg
Objetivo: Estudiar la relación entre CO con alquitrán y nicotina
CO ~ nico CO ~ alq
142Regresión Lineal
= 1.828= 85.74 = 1.397= 91.68
= 1.413= 91.86
� El coeficiente de la variable “nico” cambia de 12.39 a -2.36.
� En el modelo con dos regresores, el coeficiente de la variable “nico” no es significativo.
� Los standard errors de los coeficientes en el modelo de dos regresores han aumentado considerablemente respecto a los de regresión simple. El de “nico” pasa de 1.05 a 3.78. El cambio para “alq” es mayor.
� Los estadísticos t se han reducido (debido al aumento de los standards errors)
� La desviación típica residual del modelo con dos regresores es mayor que en el modelo de regresión simple “CO ~ alq”
143Regresión Lineal
�
�
�= 0.9537
Efecto de la multicolinealidad(alta correlación entre nico y alq)
Efecto de la MulticolinealidadEstudio del efecto de “aceleración” en el consumo de gasolina
Regresión SIMPLE
145Regresión Lineal 145Regresión Lineal
146Regresión Lineal
Regresión Múltiple
147Regresión Lineal
Consecuencias de la multicolinealidad� El efecto (coeficiente) de aceleración
es distinto en el modelo de regresión simple y en el de regresión múltiple.
� Los contrastes y p-valores cambian de un modelo a otro
Regresión4. Regresión Múltiple: Variables
Cualitativas y Predicción
149Regresión Lineal
Consumo Cilindrada Potencia Peso Aceleración Origenl/100Km cc CV kg segundos
15 4982 150 1144 12 Europa16 6391 190 1283 9 Japón24 5031 200 1458 15 USA9 1491 70 651 21 Europa11 2294 72 802 19 Japón17 5752 153 1384 14 USA12 2294 90 802 20 Europa17 6555 175 1461 12 USA18 6555 190 1474 13 USA12 1147 97 776 14 Japón16 5735 145 1360 13 USA12 1868 91 860 14 Europa9 2294 75 847 17 USA... ... ... ... ... ...
Variables cualitativas como regresores
150Regresión Lineal
Variables cualitativas como regresores
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
USAJapónEuropa
Origen
EUROPA siEUROPA si
USA siUSA si
JAPON siJAPON si
ii
iZ
ii
iZ
ii
iZ
EUR
USA
JAP
10
10
10
151Regresión Lineal
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEURl/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 116 6391 190 1283 9 1 0 024 5031 200 1458 15 0 1 09 1491 70 651 21 0 0 111 2294 72 802 19 1 0 017 5752 153 1384 14 0 1 012 2294 90 802 20 0 0 117 6555 175 1461 12 0 1 018 6555 190 1474 13 0 1 012 1147 97 776 14 1 0 016 5735 145 1360 13 0 1 012 1868 91 860 14 0 0 19 2294 75 847 17 0 1 0... ... ... ... ... ... ... ...
Variables cualitativas
Consumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
152Regresión Lineal
Interpretación var. cualitativaConsumo = 0 + 1 CC + 2 Pot + 3 Peso +
+ 4 Acel + JAP ZJAP + USA ZUSA + Error
• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA
Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
• Coches japoneses: ZJAP =1 y ZUSA = 0
• Coches americanos: ZJAP =0 y ZUSA = 1
Consumo = 0 + JAP + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
Consumo = 0 + USA + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error
153Regresión Lineal
Interpretación del modelo
0 + JAP
0
0 + USA
Europeos
Japoneses
Americanos
xi
yRef.
154Regresión Lineal 1515151515544444RReRRRRRRRRRReReReReReReReReReRRRRReRRReReeRReRRRRReReReeRRRReRRReRRRReRRRRReeRRRRRRRRReRReRRRRRRRReeRRRRRReeeeeRRRReeeeReReeeeeRRReeeeeeeeRRRRReeeeeeeeeRReRRRReeeeeeeeeeRRRReeeeeeeRRRRRRReRRR ggrgrgrgrgrggrggrgrggrgrggrgrgrgrrgrrrrgggrrrrrrrggrrrrrrrrrrrrrrrrrrrrrrrrgrrrrrrrrrrrrrreseeeseseesesesesesesesesseseseseeeeeeeeeeeessssssseseeeeeeseeeeeesssssesessssssesseeeeeeseeeesesssssssssseeeeeeeeeeeesesssssssssssseeeeeeeesssssssssssssseeeeeseeseeesssssssssssseeeesesssssssseseese ióiióióióóóóóóióióióióóóóóóóóióióióiiióióóóóóóiiiióóóóóóóióiióóóóóóóóóóóóóiióóóóóóóóiióóóóóiióóóóóióóióiióóiióóóóóóóóóóióiióóóóóóióiiióóóóóóióóóóóiiióóóóóóóóóiiiiióóóóóóóóóóóióiióóóóóóóónnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn LLLLLLLLLLLLLLLLLiLiLiiLLiLiLiLLLLLLLiLiLiiLiLiLiLLLLLLLiLiLiLLLLiLLLLLLLLLLLLLLLLiiLLLLiLLLLiLiLLLLLiiLLLLLLLLLLiLLLLLiLLLLLLLLiLLLLLLiLinnnenenenenneneenenenenenennnnenenneeeeeeenenennnnnnnnnneeeeeeeeeeenennnnnnnnneeeeeeeeeeennnnennnnnnneeeeeeeeeennnnnennnneeeeeeeeeeennnneeeeeeeenneeeeeeeen aaaaalalaaalaaalalaaaaalaaaaaaaaaaaaaalalaa
155Regresión Lineal
Interpretación� Se introduce en el modelo la variable cualitativa
origin del vehículo (USA=1, EUR=2,JAP=3). En el modelo se utiliza USA como referencia.
� El p-valor del coeficiente asociado a originJAP es 0.1467 >.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Americanos (manteniendo constante el peso, cc, pot y acel.)
� La misma interpretación para originEUR: no existe diferencia en el consumo de coches EUR y USA.
� Comparando R2 =0.8212 de este modelo con el anterior R2=0.8199, se confirma que el modelo con las variables origin no suponen una mejora sensible.
156Regresión Lineal
Modelo de regresión con variables cualitativas� En general, para considerar una variable
cualitativa con r niveles, se introducen en la ecuación r-1 variables ficticias
Y el nivel r no utilizado es el que actúa de referencia
1110,,21
20,1110
121 ririzi
iziiz irii nivel
nivelnivelnivel
nivelnivel
iirrii
kikiiuzzz
xxy
acualitativ variable,112211
110
Ejemplo: BodyNombre: Body (Cuerpo Humano) Exploring Relationships in Body
Dimensions507 Observaciones, 25 Variables
Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, ademásde la edad, peso, altura y género (mujeres = 0, hombres =1) de 507 individuos de los que 247 son hombres y 260 mujeres. Los datos fueronrecogidos entre personas que acudía frecuentemente al gimnasio en USA, la mayoría de ellos entre 20 y 40 años.
Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J. Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics Education Volume 11, Number 2 (2003), www.amstat.org/publications/jse/v11n2/datasets.heinz.html
OBJETIVO: Relación entre el peso y altura diferenciando entre hombres y mujeres.
157Regresión Lineal
Body
158Regresión Lineal
Estatura Peso
Hombres 177.7cm 78.1 kg
Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg
Weight = 0 + 1 Height + HOM ZHOM + Error
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Interpretación
159Regresión Lineal
8.36 kg
A igualdad de ESTATURA, la diferencia de
PESO entre un hombre y una
mujer es8.36 kgFigura 2.1.
Body: Instrucciones con R
160Regresión Lineal
# body : modelo de regresión
> body <- read.table("body.txt",header=TRUE)> m.body<-lm(Weight~Height+Gender, data = body)> summary(m.body)
# figura 2.1
> plot(body$Height,body$Weight,col=Gender+2) # Gender +2 asigna el color # rojo (2) a mujeres y el verde (3) a los hombres> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres
FEV (Ejemplo 3)
161Regresión Lineal
Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)
age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...
Tabla 6.1
Modelo de regresión
162Regresión Lineal
Log(fev) = 0 + 1 ht + 2 age + HOM ZHOM + FUM ZFUM + Error
Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error
Interpretación
163Regresión Lineal
1. Todos los coeficientes son significativamente distintos de cero.2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.
IMPORTANTE: El objetivo del estudio era cuantificar el efecto de fumar en la capacidad pulmonar de los jóvenes, el restos de lasvariables del modelo son necesarias (imprescindibles) paradetectar el efecto, aunque juegan un papel secundario.
fev: Instrucciones con R
164Regresión Lineal
# ejemplo 3: fev> pulmon <- read.table("fev.dat",header=TRUE)> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke, data = pulmon)> summary(m.pulmon)
# sex es una variable que toma valores 0,1# 0 mujeres# 1 hombres# # smoke es una variable 0,1, también 0 no fumador,# y 1 fumador## Cuando son variables 0,1 no es necesario convertirlas# en variables CUALITATIVAS o FACTOR utilizando la # instrucción # genero=factor(sex,labels=c(“Mujer”,”Hombre”))
165Regresión Lineal
Predicción
hx
hy
Media mh|xh Nueva Observ. yh|xh
hx
hm
hm
hy
hx
166Regresión Lineal
Predicción de la media mh(Regresión simple)
hx
hm
hx
hy
hhR vsthyhm ˆˆ 2/
))(1(12
2
x
hhh
sxx
nv
hx
hy
167Regresión Lineal
Predicción de la media mh(Regresión multiple)
hx
hm
hx
hy
hhR vsthyhm ˆˆ 2/
hx
hy
))()(1(1 1 xxSxx hxT
hhh nv
168Regresión Lineal
Intervalos de predicción para una nueva observación yh
hhR vsthyhy 1ˆˆ 2/
hx
hy
169Regresión Lineal
kk xxy ˆˆˆˆ 110
Límites de predicción
x
y hhR vsthyhy 1ˆˆ 2/
hhR vsthyhm ˆˆ 2/
Predicción
170Regresión Lineal
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Peso predicho para el PESO MEDIO de hombre de 175cm
Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg
Peso predicho para la media de la distribución del peso de las mujeres de 170cm de estatura
Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg
Intervalos
171Regresión Lineal
Int. Confianza Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 75.04 77.33Height=170,Sexo = 0 64.25 63.03 65.47
Int. Predicción Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 58.85 93.51Height=170,Sexo = 0 64.25 49.92 81.59
95% confianza
Predicción: Instrucciones R
172Regresión Lineal
# ejemplo 3: fev> newbody <- data.frame(Height=170,Gender=0)> predict(m.body, newdata = newbody,interval="confidence")
fit lwr upr1 64.2563 63.03951 65.4731
> newbody <- data.frame(Height=170,Gender=0)> predict(m.body, newdata = newbody,interval="prediction")
fit lwr upr1 64.2563 46.92133 81.59128
> newbody <- data.frame(Height=175,Gender=1)> predict(m.body,newdata = newbody,interval="confidence")
fit lwr upr1 76.18717 75.04465 77.32969
> newbody <- data.frame(Height=175,Gender=1)> predict(m.body, newdata = newbody,interval="prediction")
fit lwr upr1 76.18717 58.85725 93.5171
Otros ejemplos con R
173Regresión Lineal
> newcar <- data.frame(horse=130,engine=180,accel=12,origin="USA", weight=3000)> predict(m, newdata = newcar, interval="confidence")
fit lwr upr1 11.84055 11.47096 12.21014
> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)> predict(m.pulmon, newdata= newboy, interval="confidence")
fit lwr upr1 5.33023 5.041005 5.619455> newcars <- data.frame(horse=c(130,140,150)+ ,engine=c(180, 185, 190)+ ,accel=c(10,11,12)+ ,origin=c("USA","JAP","EUR")+ ,weight=c(3000,2000,2500))> pred.w.clim <- predict(m, newdata = newcars, interval="confidence")> pred.w.clim
fit lwr upr1 11.67788 11.197035 12.158722 10.13996 9.440399 10.839523 11.62928 11.027327 12.23123
174Regresión Lineal
Modelos de regresion lineal
REGRESION SIMPLE
1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.
(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.
2. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica,1 atm = 14.7 psi) y de la masa del gas para el argon.
Presion (psi) Masa (g)52 1.02849 0.95644 0.88039 0.79334 0.72529 0.64525 0.59321 0.52619 0.50019 0.44211 0.3730 0.210
(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion
Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).
Estimar los parametros del modelo y contrastar si el termino independiente es signi-ficativo.
1
(b) Se considera el modelo alternativo
Pi = αmi + ui, con ui ∼ N(0, σ2).
Obtener el estimador de maxima verosimilitud del parametro α, ası como su varianza.
(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.
(d) Para el segundo modelo, obtener un intervalo de prediccion para la presion cuando lamasa es igual a 1 gramo.
(e) Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presionPh para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el delprimer apartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?
3. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:
(a) Existıa una correlacion positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.
4. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:
Galaxia Distancia Velocidad(millones anos luz) (103Km/s)
Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
2
Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresion la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .
5. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la tension aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tension xi (Tm/cm2).
(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.
(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?
6. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
7. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1
= −1 frente a laalternativa H1 : β1 < −1.
8. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154
Se pide:
3
(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.
(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?
REGRESION MULTIPLE
9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-ciones de una gestora de inversiones, ademas se proporciona el numero de nuevos prestamosdel mes (x1) y el numero de prestamos pendientes (x2).
n x1 x2 y1 80 8 22562 93 9 23403 100 10 24264 82 12 22935 90 11 23306 99 8 23687 81 8 22508 96 10 24099 94 12 236410 93 11 237911 97 13 244012 95 11 236413 100 8 240414 85 12 231715 86 9 230916 87 12 2328
(a) Estima la ecuacion de regresion
yi = β0+ β
1x1i + β
2x2i + ui con ui ∼ N(0, σ2)
incluyendo la varianza del modelo.
(b) Realizar los contrastes individuales e interpretar los coeficientes.
(c) Realiza el contraste general de regresion o contraste de la F. Proporciona el p-valor.
(d) Proporciona la tabla con valores previstos y residuos.
(e) Comprueba las hipotesis del modelo.
4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interes en la fiabilidad deestos componentes. La medida basica de fiabilidad se denomina rating life, y consiste en elnumero de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a estose denota por L10. Los modelos teoricos indica que este valor esta relacionado con la carga(P) a la que se somete el rodamiento, el diametro (D) del rodamiento y el numero de bolas(Z) del mismo, mediante la ecuacion:
L10 =
(
kZaDb
P
)3
.
Se desea comprobar experimentalmente esta ecuacion, para lo cual se realizo un experimentocon rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La informacion que contienees la siguiente:
Com: Codigo de empresa 1, 2, and 3
N: Numero de ensayo (en cada empresa)
Year: Ano del ensayo NA = No disponible
NB : Numero de Rodamiento
P: Carga
Z: Numero de bolas
D: Diametro
L10: Percentil 10
L50: Percentil 50
Slope: Parametro de la distribucion Weibull
Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demas casos.
Com N Year NB P Z D L10 L50 Slope Btype1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 01 2 1937 20 4240 8 .68750 26.200 74.20 1.81 01 3 1937 14 4240 8 .68750 11.100 68.10 1.04 01 4 1937 19 4240 8 .68750 11.800 66.80 1.09 01 5 1937 18 4240 8 .68750 13.500 79.40 1.06 01 6 1938 21 2530 9 .50000 5.800 25.70 1.27 01 7 1938 28 4240 8 .68750 18.300 44.70 2.10 01 8 1938 27 4240 8 .68750 5.620 73.20 0.73 01 9 1940 20 4240 8 .68750 15.800 82.70 1.14 01 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·
5
(a) Estima el modelo
log(L10i) = β0 + β1 log(Zi) + β2 log(Di) + β3 log(Pi) + ui con ui ∼ N(0, σ2),
y realiza los contrastes individuales y el contraste general.
(b) Segun el modelo, β3= −3. Realiza el contraste
H0 : β3= −3
H1 : β3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parametros a y b del modelo teorico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 delsegundo fabricante (informacion en la variable Btype). Estima e interpreta el siguientemodelo de regresion:
log(L10i) = β0+ β
1log(Zi) + β
2log(Di) + β
3log(Pi) +
α2T2i + γ2T2i × log(Zi) + δ2T2i × log(Di) +
α3T3i + γ3T3i × log(Zi) + δ3T3i × log(Di) + ui
(e) Compara el modelo del apartado 1 con el modelo del apartado 4.
11. La matriz de varianzas de tres variables estandarizadas es la siguiente
1 0.8 0.60.8 1 0.20.6 0.2 1
Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(
1 0.50.5 1
)
y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.
13. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla
Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
6
Se pide:
(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.
14. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2
yi = β0+ β
1x1i.
Justificar en que condiciones el estimador β1 es centrado.
15. Se efectua una regresion con dos variables explicativas E[y] = β0+ β
1x1 + β
2x2. La matriz
de varianzas de x1 y x2 es
[
2 11 3
]
¿Cual de los dos estimadores β1 y β2 tendra menor varianza?
16. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modeloyi = β0 + β1xi + β2x
2
i + ui
y realizar el contraste H0 : β2 = 0.
(c) Estimar el modeloyi = β
0+ β
1xi + β
2x2
i + β3x3
i + ui
Realizar el contraste general de regresion con α = 0.01. Seleccionar entre los tres elmodelo mas adecuado, justificando la respuesta.
7
17. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.
X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresion multiple: matrizidentidad de 8× 8.
(a) Estimar el modelo de regresion multiple
yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.
Obtener la descomposicion de la variabilidad del modelo y realizar el contraste
H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0
frente a la hipotesis alternativa H1: algun βj es distinto de cero.
(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
18. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.
8
Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.
19. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo
yi = αx1ix2
2i + ui,
segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
Obs. x1i x2i yi1 10,1 0,117 0,0622 11,3 0,130 0,0853 20,4 0,142 0,2044 14,9 0,193 0,2275 23,8 0,218 0,4706 19,5 0,236 0,4847 21,6 0,257 0,6238 22,9 0,269 0,7229 19,8 0,297 0,82110 26,8 0,328 1,28011 21,0 0,351 1,03412 27,4 0,376 1,67913 29,0 0,389 2,07314 27,4 0,427 2,02215 31,7 0,594 4,630
9
(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza).
(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,
log yi = β0+ β
1log x1i + β
2log x2i + ui
Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2.
20. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,
Temperatura acero (T )
1450 oF1525 oF1600 oF
Temperatura aceite (t)
70 oF95 oF120 oF
y se han realizado los siguientes experimentos:
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
donde se ha utilizado la siguiente transformacion (para simplificar calculos)
x1i =Ti − 1525
75y x2i =
ti − 95
25.
Estimar el modelo de regresion
yi = β0+ β
1x1i + β
2x2i + β
3x1ix2i + ui
e indicar que parametros son significativos para nivel de significacion 0.05. Estimar y con-trastar el modelo anterior empleando las variables originales Ti y ti.
10
FORMULARIO DE LA ASIGNATURA
DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN
Cátedra de Estadística ETSII – UPM
Versión 2022.02
Tema 1. Análisis de la varianza
1) Comparación de dos tratamientos:
1.a) Modelo: ��� = �� + ���, ∀ ∈ �1, ��, � ∈ �1, ��� ��� → �(0, �) I : número de tratamientos ��: número de observaciones del tratamiento i-ésimo
1.b) Comparación de medias:
(��•���•)�(�����) "# �$�% �$�
→ &'�( donde )*( = '��+'�%'��( )+( + '��+'�%'��( )((
1.c) Comparación de varianzas:
)+(�+()((�((, → -'��+,'��+
2) Comparación de ‘k’ tratamientos:
2.a) Modelo: ��� = �� + ���, ��� → �(0, �) 2.b) Descomposición de variabilidad:
./ = ∑ ∑ (��� − �••)('2�3+4�3+
.5 = ∑ ��(��• − �••)(4�3+
.�5 = ∑ ∑ (��� − ��•)('2�3+4�3+ = ∑ ∑ 6��('2�3+4�3+
2.c) Tabla Análisis de Varianza:
Suma de Grados deFuentes Cuadrados Libertad Varianzas F
Tratamientos ∑��(��• − �••)( 8 − 1 .5/(8 − 1) ∑ ��(��• − �••)((8 − 1))*(
Residual ∑∑(��� − ��•)( � − 8 )*( = .�5/(� − 8)Total ∑∑(��� − �••)( � − 1
2.d) Intervalos de confianza para medias:
�� ∈ ��• ± &;/( )*<�� 2.e) Contraste dos a dos para la diferencia de medias:
&�� = ��• − ��• − =�� − ��>)*? 1�� + 1��
→ &'�4
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 2 de 14
Tema 2. Diseño de experimentos
1) Dos factores con interacción ���@ = � + A� + B� + AB�� + ���@ ∀ ∈ �1, ��, � ∈ �1, C�, D ∈ �1, E� ���@ → �(0, �) ; ∑ A� = 0G�3+ ; ∑ B� = 0H�3+ ; ∑ AB�� = 0G�3+ , ∀� ; ∑ AB�� = 0H�3+ , ∀ I : número de niveles factor A J : número de niveles factor B m : número de replicaciones
1.a) Descomposición de variabilidad: ./ = ∑ ∑ ∑ (���@ − �•••)(I@3+H�3+G�3+ .�5 = ∑ ∑ ∑ 6��@(I@3+H�3+G�3+ 6��@ = ���@ − ���• .5(J) = EC ∑ (��•• − �•••)( = EC ∑ (AK�)(G�3+G�3+ .5(L) = E� ∑ (�•�• − �•••)( = E� ∑ (BM�)(G�3+H�3+ .5(J × L) = E ∑ ∑ (AB��)(H�3+G�3+
1.b) Tabla de Análisis de Varianza: Fuentes Suma de Grados deVariabilidad Cuadrados Libertad. Varianza - c − valorJ EC∑(��•• − �•••)( � − 1 )e( = .5(J)/(� − 1) )e( )*(, ceL E�∑(�•�• − �•••)( C − 1 )f( = .5(J)/(C − 1) )f( )*(, cf
J × L E∑∑(���• − ��•• − �•�• + �•••)( (� − 1)(C − 1) )ef( = .5(JL)/(� − 1)(C − 1) )ef( )*(, cefResidual ∑∑∑6��@( �C(E − 1) )*( = .�5/(�C(E − 1))Total ∑∑∑(���@ − �•••)( � − 1
1.c) Comparaciones múltiples (interacción nula): factor A ijk•• − jl•• − =mk − ml>n oKp<q/rst → uvs(r�w) 1.d) Intervalos de confianza (interacción nula): factor A � + A� ∈ ��•• ± &;( · )* / <EC 1.e) Intervalos de confianza (interacción significativa): � + A� + B� + ( AB)�� ∈ ���• ± &;/( · )* / √E
2) Bloques aleatorizados ��� = � + A� + B� + ��� ∀ ∈ �1, ��, � ∈ �1, C� ; ���@ → �(0, �) ; ∑ A� = 0G�3+ ∑ B� = 0H�3+
I : número de niveles Factor J : número de niveles Bloque
2.a) Descomposición de variabilidad:
./ = ∑ ∑ (��� − �••)(H�3+G�3+ .�5 = ∑ ∑ 6��(H�3+G�3+
.5(/) = C ∑ (��• − �••)(G�3+ .5(L) = � ∑ (�•� − �••)(H�3+ 6�� = ��� − ��• − �•� + �••
2.b) Tabla de Análisis de Varianza:
Fuentes Suma de Grados deVariabilidad Cuadrados Libertad. Varianza - c − valorFactor C∑(��• − �••)( � − 1 ){( = .5(/)/(� − 1) ){( )*(, c{Bloque �∑(�•� − �••)( C − 1 )f( = .5(L)/(C − 1) )f( )*(, cfResidual ∑∑6��( (� − 1)(C − 1) )*( = .�5/(� − 1)(C − 1)Total ∑∑(��� − �••)( n-1
2.c) Intervalo de confianza (para los tratamientos): � + A� ∈ ��• ± &;/( )* /<C 2.d) Contraste dos a dos (para los tratamientos): i��• − ��• − =A� − A�>n )*<2/Ct → &(G�+)(H�+)
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 3 de 14
Tema 3. Modelos de Regresión
1) Regresión lineal simple (RLS)
1.a) Estimación:
BM+ = cov( ��, ��) / var( ��) BM� = � − BM+� )*( = ∑ �2�$2��'�(
1.b) Distribución de estimadores:
BM+ → �(B+, �( (�)�()⁄ ) BM� → � �B�, ��' i1 + ��
��n� ('�() "��� → �'�((
1.c) Contrastes:
=BM+ − B+> i "√' �nt → &'�( =BM� − B�> � "√' #1 + �� ���t → &'�( 1.d) Descomposición de la variabilidad: .5 = BM+( � )�( .�5 = )*( · (� − 2) ./ = )�( · (� − 1)
2) Regresión lineal múltiple (RLM)
2.a) Estimación:
�� = (�{�)�+�{� )*( = ∑ 6�('�3+� − D − 1 2.b) Distribución de estimadores:
�� → �(�, �((�{�)�+) (� − D − 1))*(�( → �'�@�+(
2.c) Varianza estimadores para k = 2:
var ��BM+BM(�� =⎝⎜⎛
�(�)+((1 − �+(( ) −�+(�(
�)+)((1 − �+(( )−�+(�(�)+)((1 − �+(( ) �(
�)(((1 − �+(( ) ⎠⎟⎞
2.d) Contrastes individuales y contraste general:
C. Individuales: BM� − B�)*<��� → &'�@�+ C. General: .5/D)*( → -@,'�@�+ 2.e) Modelo en diferencias a la media: �� = (��{��)�+��{�� = (���)�+(���) �� → �(�, �(=��{��)�+> = �(�, �((��� · �)�+)
2.f) Coeficiente de determinación ( () y coeficiente de determinación corregido ( ¡ ():
( = .5./ = ∑(�K� − �)(∑(�� − �)( ¡ ( = 1 − )*()�( = 1 − .�5./ · � − 1� − D − 1 = 1 − (1 − () · � − 1� − D − 1
2.g) Cálculo de predicción e intervalo de confianza:
- IC para la media: E¢ ∈ �K¢ ± &£� )*<¤¢¢ - IC para una nueva observación: �¢ ∈ �K¢ ± &;/()*<1 + ¤¢¢
donde ¤¢¢ se calcula: - RLS: ¤¢¢ = +' i1 + (�¥��)�
�� n - RLM (alternativa 1): ¤¢¢ = +' §1 + i(¨¢ − ¨){����+(¨¢ − ¨)n© donde ¨¢ = ª�+,¢ �(,¢ ··· �@,¢«{
- RLM (alternativa 2): ¤¢¢ = ¨¢{(�{�)�+¨¢ donde ¨¢ = ª1 �+,¢ �(,¢ ··· �@,¢«{
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 4 de 14
4. Instrucciones Esenciales R
0) Previo
maquinas = read.table( 'maquinas.txt', header=T ) # lectura del archivo de texto 'maquinas.txt' head(maquinas) # Muestra las 6 primeras filas del 'data frame' maquinas
View(maquinas) # Abre una ventana nueva y muestra los datos
names(maquinas) # Proporciona los nombres de las variables del 'data.frame' maquinas
maquinas$maq = factor(maquinas$maq) # Transforma una variable numérica a un *factor*
?head # Con ? delante de una función nos proporciona información de la función
#---------------------------------------------------------------------------------------------------------
# Cálculo de probabilidades
dnorm(x, 0, 1) # Función densidad de una distribución normal N(0,1)
pnorm(q, 0, 1) # Función distribución de una distribución normal N(0,1)
qnorm(p, 0, 1) # Función distribución inversa de una distribución normal N(0,1)
F. distr. Inv. F. distrib. F. Densidad Números aleatorios Binomial pbinom qbinom dbinom rbinom
Chi-Cuadrado pchisq qchisq dchisq rchisq
Exponencial pexp qexp dexp rexp
F pf qf df rf
Geométrica pgeom qgeom dgeom rgeom Normal pnorm qnorm dnorm rnorm
Poisson ppois qpois dpois rpois
T-Student pt qt dt rt
#---------------------------------------------------------------------------------------------------------
Instalación del paquete DisRegETSII:
1. Instalar el paquete “devtools” y cargarlo:
install.packages("devtools")
library(devtools)
2. Instalar el paquete utilizando la funcion install_github de devtools install_github("javiercara/DisRegETSII")
1) Comparación de dos tratamientos t.test(rend ~ maq, data = maquinas,
var.equal=T, conf.level = 0.95) # comparación e intervalo de confianza de dos medias t.test(maquinas$rend ~ maquinas$maq,
var.equal=T, conf.level = 0.95) # alternativa a la inst. anterior (válido tmb para var.test, aov)
var.test(rend ~ maq, data = maquinas) # comparación e intervalo de confianza para dos varianzas
2) Comparación de K tratamientos (modelo con factor) centeno = read.table("centeno.txt",header=TRUE) # Lee el archivo
m = aov(rend ~ sem , data = centeno) # Análisis de la varianza (aov) de *rend* en función del factor *sem*
anova(m) # Muestra la tabla de análisis de la varianza del modelo *m*
model.tables(m,"means") # Proporciona las medias de los distintos tratamientos tapply(centeno$rend,centeno$sem,mean) # Otra forma pra proporcionar las medias de los distintos tratam.
tapply(centeno$rend,centeno$sem,sd) # *tapply* es muy útil, puede calcular *sd*, *var*, *length*, etc
residuals(m) # los residuos del modelo (sirve para cualquier modelo)
predict(m) # los valores predichos para cada obs. (sirve para cualquier modelo)
ICplot(m,'sem',alpha = 0.05) # Gráfico de los IC para las medias de cada tratamiento pairwise.t.test(centeno$rend, centeno$sem,
p.adjust.method = 'none') # Comparación de medias dos - a – dos
3) Modelo con dos factores e interacción venenos = read.table("venenos.txt",header=TRUE) # Lee el archivo m1 = aov(tiempo ~ ant*ven ,
data = venenos) # Realiza el aov de *tiempo* en función de dos factores con interacción
m2 = aov(tiempo ~ ant+ven ,
data = venenos) # Realiza el aov de *tiempo* en función de dos factores sin interacción
anova(m1) # Tabla de análisis de la varianza del modelo *m1* model.tables(m1,"means") # Proporciona las medias por filas, columnas, tratamientos y la media global
model.tables(m1,"effects") # Proporciona las estimaciones de los parámetros del modelo
tapply(venenos$tiempo,venenos$ant,mean) # medias para cada antídoto (*ant*)
tapply(venenos$tiempo,list(venenos$ant,
venenos$ven),mean) # Medias de las combinaciones *ant* y *ven* (tratamientos) tapply(venenos$tiempo,list(venenos$ant,
venenos$ven),var) # Se puede utilizar cualquier función, por ejemplo varianza
ICplot(m1, 'ant', alpha = 0.05) # Gráfico de los IC para las medias de los cuatro *ant*
ICplot(m1, 'ven', alpha = 0.05) # Gráfico de los IC para las medias de los tres *ven*
source("interIC.R") # Carga en memoria interIC.R (debe estar en la carpeta) interIC(m1, 'ant','ven', alpha = 0.05) # Gráfico de interacción (IC para las medias de cada tratamiento)
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 5 de 14
4) Diagnosis del modelo plot(m1) # Realiza los gráficos importantes para la diagnosis
plot(as.numeric(venenos$ven),
residuals(m1)) # Gráfico de residuos para cada veneno
plot(predict(m1),residuals(m1)) # Gráfico de residuos frente a medias de tratamientos qqnorm(residuals(m1)) # QQ plot de los residuos para comprobar normalidad
qqline(residuals(m1)) # añade linea al QQ plot de los residuos
5) Regresión simple
cars1 = read.table("cars.txt"), header = T) # carga los datos (el archivo debe estar en la carpeta)
m0 = lm (mpg ~ horse, data = cars1) # estima el modelo de regresión: mpg = b0 + b1 horse + u
summary(m0) # proporciona los resultados del modelo m0
plot(cars1$horse,cars1$mpg) # gráfico de dispersión entre horse (x) y mpg (y)
abline (m0,col="red",wd=2) # dibuja la recta de reg. estimada en m0 (color rojo y grosor=2)
6) Regresión múltiple
m1 = lm (mpg ~ horse + weight +
accel, data = cars1) # estima el modelo de regresión múltiple
m1a = lm (mpg ~ horse +
I(horse^2) + weight +
accel, data = cars1) # incluye el término horse al cuadrado
m1b = lm (mpg ~ horse + weight +
I(horse*weight) +
accel, data = cars1) # incluye el término horse*weight
m1c = lm (log(mpg) ~ horse + weight +
accel, data = cars1) # utiliza el log de mpg como variable respuesta
7) Regresión múltiple con variables cualitativas
cars1$origin = factor( cars1$origin,
labels = c("USA","EUR","JAP")) # Convierte "origin" a tipo "factor" y se asignan etiquetas
m2 = lm (mpg ~ horse + weight + accel + origin,
data = cars1) # modelo con variable cualitativa (utiliza la 1ª como referencia)
cars1$origin = relevel(cars1$origin,
ref = "EUR") # Cambia el nivel de referencia (por defecto el primero)
m2a = lm (mpg ~ horse + weight + accel + origin,
data = cars1) # modelo con variable cualitativa con EUR como referencia
m2b = lm (mpg ~ weight + accel + origin + horse*origin,
data = cars1) # modelo con parámetros asociados a horse distintos para cada origen
m3 = lm (mpg ~ ., data = cars1) # utiliza todas las variables en cars1 como regresores
anova(m3) # análisis de la varianza del modelo m3
8) Diagnosis del modelo de regresión
plot(m0) # diagnosis del modelo m0
resi = residuals(m0) # residuos para las observaciones en cars1
pred = predict(m0) # valores predichos (ajustados) para las observaciones en cars1
plot(pred,resi) # Diagnosis: comprueba linealidad y homocedasticidad
qqnorm(resi) # Diagnosis: comprueba normalidad
qqline(resi) # añade recta al qqplot para comprobar normalidad
9) Predicción
xnueva = data.frame(engine=180,
horse =100,weight=3000, accel =10,
origin = "JAP", cylinders=4) # coche nuevo para hacer predicción del consumo
predict(m3,xnueva,interval = "confidence") # predicción e intervalo para la media
predict(m3,xnueva,interval = "prediction") # predicción e intervalo para una nueva observación
10) Otras instrucciones para regresión
m4 = step(m3) # a partir de m3 selecciona el modelo utilizando STEPWISE coefficients(m4) # coeficientes del modelo
confint(m4, level=0.95) # intervalo de confianza para los coef. vcov(m4) # matriz de varianza de los parámetros estimados out = influence(m4) # diagnosis sobre datos atípicos
5. Tablas
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 6 de 14
1) Distribución Normal Estándar
La tabla muestra los valores ¬ tales que (® ≤ ¬).
z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586 0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535 0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409 0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173 0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793 0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240 0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490 0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524 0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327 0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891 1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214 1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298 1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147 1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774 1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189 1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408 1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449 1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327 1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062 1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670 2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169 2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574 2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899 2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158 2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361 2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520 2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643 2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736 2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807 2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861 3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900 3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929 3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950 3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965 3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976 3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983 3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989 3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992 3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995 3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997 4.0 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998 4.1 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99999 0.99999
Ejemplo: (® ≤ 1,96) = 0,97500
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 7 de 14
2) Distribución ·q
La tabla muestra los valores � tales que (�'2 ≥ �) = A
A
n 0.995 0.99 0.975 0.95 0.5 0.05 0.025 0.01 0.005 1 0.00004 0.0002 0.001 0.004 0.455 3.841 5.024 6.635 7.879 2 0.010 0.020 0.051 0.103 1.386 5.991 7.378 9.210 10.597 3 0.072 0.115 0.216 0.352 2.366 7.815 9.348 11.345 12.838 4 0.207 0.297 0.484 0.711 3.357 9.488 11.143 13.277 14.860 5 0.412 0.554 0.831 1.145 4.351 11.070 12.833 15.086 16.750 6 0.676 0.872 1.237 1.635 5.348 12.592 14.449 16.812 18.548 7 0.989 1.239 1.690 2.167 6.346 14.067 16.013 18.475 20.278 8 1.344 1.646 2.180 2.733 7.344 15.507 17.535 20.090 21.955 9 1.735 2.088 2.700 3.325 8.343 16.919 19.023 21.666 23.589 10 2.156 2.558 3.247 3.940 9.342 18.307 20.483 23.209 25.188 11 2.603 3.053 3.816 4.575 10.341 19.675 21.920 24.725 26.757 12 3.074 3.571 4.404 5.226 11.340 21.026 23.337 26.217 28.300 13 3.565 4.107 5.009 5.892 12.340 22.362 24.736 27.688 29.819 14 4.075 4.660 5.629 6.571 13.339 23.685 26.119 29.141 31.319 15 4.601 5.229 6.262 7.261 14.339 24.996 27.488 30.578 32.801 16 5.142 5.812 6.908 7.962 15.338 26.296 28.845 32.000 34.267 17 5.697 6.408 7.564 8.672 16.338 27.587 30.191 33.409 35.718 18 6.265 7.015 8.231 9.390 17.338 28.869 31.526 34.805 37.156 19 6.844 7.633 8.907 10.117 18.338 30.144 32.852 36.191 38.582 20 7.434 8.260 9.591 10.851 19.337 31.410 34.170 37.566 39.997 21 8.034 8.897 10.283 11.591 20.337 32.671 35.479 38.932 41.401 22 8.643 9.542 10.982 12.338 21.337 33.924 36.781 40.289 42.796 23 9.260 10.196 11.689 13.091 22.337 35.172 38.076 41.638 44.181 24 9.886 10.856 12.401 13.848 23.337 36.415 39.364 42.980 45.559 25 10.520 11.524 13.120 14.611 24.337 37.652 40.646 44.314 46.928 26 11.160 12.198 13.844 15.379 25.336 38.885 41.923 45.642 48.290 27 11.808 12.879 14.573 16.151 26.336 40.113 43.195 46.963 49.645 28 12.461 13.565 15.308 16.928 27.336 41.337 44.461 48.278 50.993 29 13.121 14.256 16.047 17.708 28.336 42.557 45.722 49.588 52.336 30 13.787 14.953 16.791 18.493 29.336 43.773 46.979 50.892 53.672 40 20.707 22.164 24.433 26.509 39.335 55.758 59.342 63.691 66.766 50 27.991 29.707 32.357 34.764 49.335 67.505 71.420 76.154 79.490 60 35.534 37.485 40.482 43.188 59.335 79.082 83.298 88.379 91.952 70 43.275 45.442 48.758 51.739 69.334 90.531 95.023 100.425 104.215 80 51.172 53.540 57.153 60.391 79.334 101.879 106.629 112.329 116.321 90 59.196 61.754 65.647 69.126 89.334 113.145 118.136 124.116 128.299 100 67.328 70.065 74.222 77.929 99.334 124.342 129.561 135.807 140.169 110 75.550 78.458 82.867 86.792 109.334 135.480 140.917 147.414 151.948 120 83.852 86.923 91.573 95.705 119.334 146.567 152.211 158.950 163.648
Ejemplo: (χ9( ≥ 19,02) = 0,025
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 8 de 14
3) Distribución t-Student
La tabla muestra los valores � tales que (&� ≥ �) = A.
A
n 0.2 0.15 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599 3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924 4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610 5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869 6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959 7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408 8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041 9 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781 10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587 11 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437 12 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318 13 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221 14 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140 15 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073 16 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015 17 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965 18 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922 19 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883 20 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850 21 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819 22 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792 23 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.768 24 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745 25 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725 26 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707 27 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690 28 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674 29 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659 30 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646 40 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551 50 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496 60 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460 70 0.847 1.044 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435 80 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416 90 0.846 1.042 1.291 1.662 1.987 2.368 2.632 2.878 3.183 3.402 100 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390 Inf 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291
Ejemplo: (&9 ≥ 2,262) = 0,025
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 9 de 14
4) Distribución º(m = », »¼)
La tabla muestra los valores � tales que (-E, � ≥ �) = 0,05. E
n 1 2 3 4 5 6 7 8 9 10 1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 240.543 241.882 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378 20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348 21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321 22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297 23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275 24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255 25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236 26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220 27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204 28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190 29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177 30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165 40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077 50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026 60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993 70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969 80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951 90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938 100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927 Inf 3.841 2.996 2.605 2.372 2.214 2.099 2.010 1.938 1.880 1.831
5�E: (-7,8 ≥ 3,50) = 0,05
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 10 de 14
Distribución º(m = », »¼) (continuación)
La tabla muestra los valores � tales que (-E, � ≥ �) = 0,05. E
n 12 15 20 24 30 40 60 100 120 Inf 1 243.906 245.950 248.013 249.052 250.095 251.143 252.196 253.041 253.253 254.314 2 19.413 19.429 19.446 19.454 19.462 19.471 19.479 19.486 19.487 19.496 3 8.745 8.703 8.660 8.639 8.617 8.594 8.572 8.554 8.549 8.526 4 5.912 5.858 5.803 5.774 5.746 5.717 5.688 5.664 5.658 5.628 5 4.678 4.619 4.558 4.527 4.496 4.464 4.431 4.405 4.398 4.365 6 4.000 3.938 3.874 3.841 3.808 3.774 3.740 3.712 3.705 3.669 7 3.575 3.511 3.445 3.410 3.376 3.340 3.304 3.275 3.267 3.230 8 3.284 3.218 3.150 3.115 3.079 3.043 3.005 2.975 2.967 2.928 9 3.073 3.006 2.936 2.900 2.864 2.826 2.787 2.756 2.748 2.707 10 2.913 2.845 2.774 2.737 2.700 2.661 2.621 2.588 2.580 2.538 11 2.788 2.719 2.646 2.609 2.570 2.531 2.490 2.457 2.448 2.404 12 2.687 2.617 2.544 2.505 2.466 2.426 2.384 2.350 2.341 2.296 13 2.604 2.533 2.459 2.420 2.380 2.339 2.297 2.261 2.252 2.206 14 2.534 2.463 2.388 2.349 2.308 2.266 2.223 2.187 2.178 2.131 15 2.475 2.403 2.328 2.288 2.247 2.204 2.160 2.123 2.114 2.066 16 2.425 2.352 2.276 2.235 2.194 2.151 2.106 2.068 2.059 2.010 17 2.381 2.308 2.230 2.190 2.148 2.104 2.058 2.020 2.011 1.960 18 2.342 2.269 2.191 2.150 2.107 2.063 2.017 1.978 1.968 1.917 19 2.308 2.234 2.155 2.114 2.071 2.026 1.980 1.940 1.930 1.878 20 2.278 2.203 2.124 2.082 2.039 1.994 1.946 1.907 1.896 1.843 21 2.250 2.176 2.096 2.054 2.010 1.965 1.916 1.876 1.866 1.812 22 2.226 2.151 2.071 2.028 1.984 1.938 1.889 1.849 1.838 1.783 23 2.204 2.128 2.048 2.005 1.961 1.914 1.865 1.823 1.813 1.757 24 2.183 2.108 2.027 1.984 1.939 1.892 1.842 1.800 1.790 1.733 25 2.165 2.089 2.007 1.964 1.919 1.872 1.822 1.779 1.768 1.711 26 2.148 2.072 1.990 1.946 1.901 1.853 1.803 1.760 1.749 1.691 27 2.132 2.056 1.974 1.930 1.884 1.836 1.785 1.742 1.731 1.672 28 2.118 2.041 1.959 1.915 1.869 1.820 1.769 1.725 1.714 1.654 29 2.104 2.027 1.945 1.901 1.854 1.806 1.754 1.710 1.698 1.638 30 2.092 2.015 1.932 1.887 1.841 1.792 1.740 1.695 1.683 1.622 40 2.003 1.924 1.839 1.793 1.744 1.693 1.637 1.589 1.577 1.509 50 1.952 1.871 1.784 1.737 1.687 1.634 1.576 1.525 1.511 1.438 60 1.917 1.836 1.748 1.700 1.649 1.594 1.534 1.481 1.467 1.389 70 1.893 1.812 1.722 1.674 1.622 1.566 1.505 1.450 1.435 1.353 80 1.875 1.793 1.703 1.654 1.602 1.545 1.482 1.426 1.411 1.325 90 1.861 1.779 1.688 1.639 1.586 1.528 1.465 1.407 1.391 1.302 100 1.850 1.768 1.676 1.627 1.573 1.515 1.450 1.392 1.376 1.283 Inf 1.752 1.666 1.571 1.517 1.459 1.394 1.318 1.243 1.221 1.000
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 11 de 14
5) Distribución º(m = », »q¼)
La tabla muestra los valores � tales que (-E, � ≥ �) = 0,025. E
n 1 2 3 4 5 6 7 8 9 10 1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656 963.285 968.627 2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 39.387 39.398 3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 14.473 14.419 4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980 8.905 8.844 5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619 6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461 7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761 8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295 9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964 10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717 11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526 12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374 13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250 14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147 15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060 16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986 17 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922 18 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866 19 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817 20 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774 21 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735 22 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700 23 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668 24 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640 25 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613 26 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590 27 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568 28 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547 29 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529 30 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511 40 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388 50 5.340 3.975 3.390 3.054 2.833 2.674 2.553 2.458 2.381 2.317 60 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270 70 5.247 3.890 3.309 2.975 2.754 2.595 2.474 2.379 2.302 2.237 80 5.218 3.864 3.284 2.950 2.730 2.571 2.450 2.355 2.277 2.213 90 5.196 3.844 3.265 2.932 2.711 2.552 2.432 2.336 2.259 2.194 100 5.179 3.828 3.250 2.917 2.696 2.537 2.417 2.321 2.244 2.179 Inf 5.024 3.689 3.116 2.786 2.567 2.408 2.288 2.192 2.114 2.048
5�E: (-7,8 ≥ 4,53) = 0,025
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 12 de 14
Distribución F(α = 0,025) (continuación)
La tabla muestra los valores � tales que (-E, � ≥ �) = 0,025
E
n 12 15 20 24 30 40 60 100 120 Inf 1 976.708 984.867 993.103 997.249 1001.414 1005.598 1009.800 1013.175 1014.020 1018.258 2 39.415 39.431 39.448 39.456 39.465 39.473 39.481 39.488 39.490 39.498 3 14.337 14.253 14.167 14.124 14.081 14.037 13.992 13.956 13.947 13.902 4 8.751 8.657 8.560 8.511 8.461 8.411 8.360 8.319 8.309 8.257 5 6.525 6.428 6.329 6.278 6.227 6.175 6.123 6.080 6.069 6.015 6 5.366 5.269 5.168 5.117 5.065 5.012 4.959 4.915 4.904 4.849 7 4.666 4.568 4.467 4.415 4.362 4.309 4.254 4.210 4.199 4.142 8 4.200 4.101 3.999 3.947 3.894 3.840 3.784 3.739 3.728 3.670 9 3.868 3.769 3.667 3.614 3.560 3.505 3.449 3.403 3.392 3.333 10 3.621 3.522 3.419 3.365 3.311 3.255 3.198 3.152 3.140 3.080 11 3.430 3.330 3.226 3.173 3.118 3.061 3.004 2.956 2.944 2.883 12 3.277 3.177 3.073 3.019 2.963 2.906 2.848 2.800 2.787 2.725 13 3.153 3.053 2.948 2.893 2.837 2.780 2.720 2.671 2.659 2.595 14 3.050 2.949 2.844 2.789 2.732 2.674 2.614 2.565 2.552 2.487 15 2.963 2.862 2.756 2.701 2.644 2.585 2.524 2.474 2.461 2.395 16 2.889 2.788 2.681 2.625 2.568 2.509 2.447 2.396 2.383 2.316 17 2.825 2.723 2.616 2.560 2.502 2.442 2.380 2.329 2.315 2.247 18 2.769 2.667 2.559 2.503 2.445 2.384 2.321 2.269 2.256 2.187 19 2.720 2.617 2.509 2.452 2.394 2.333 2.270 2.217 2.203 2.133 20 2.676 2.573 2.464 2.408 2.349 2.287 2.223 2.170 2.156 2.085 21 2.637 2.534 2.425 2.368 2.308 2.246 2.182 2.128 2.114 2.042 22 2.602 2.498 2.389 2.331 2.272 2.210 2.145 2.090 2.076 2.003 23 2.570 2.466 2.357 2.299 2.239 2.176 2.111 2.056 2.041 1.968 24 2.541 2.437 2.327 2.269 2.209 2.146 2.080 2.024 2.010 1.935 25 2.515 2.411 2.300 2.242 2.182 2.118 2.052 1.996 1.981 1.906 26 2.491 2.387 2.276 2.217 2.157 2.093 2.026 1.969 1.954 1.878 27 2.469 2.364 2.253 2.195 2.133 2.069 2.002 1.945 1.930 1.853 28 2.448 2.344 2.232 2.174 2.112 2.048 1.980 1.922 1.907 1.829 29 2.430 2.325 2.213 2.154 2.092 2.028 1.959 1.901 1.886 1.807 30 2.412 2.307 2.195 2.136 2.074 2.009 1.940 1.882 1.866 1.787 40 2.288 2.182 2.068 2.007 1.943 1.875 1.803 1.741 1.724 1.637 50 2.216 2.109 1.993 1.931 1.866 1.796 1.721 1.656 1.639 1.545 60 2.169 2.061 1.944 1.882 1.815 1.744 1.667 1.599 1.581 1.482 70 2.136 2.028 1.910 1.847 1.779 1.707 1.628 1.558 1.539 1.436 80 2.111 2.003 1.884 1.820 1.752 1.679 1.599 1.527 1.508 1.400 90 2.092 1.983 1.864 1.800 1.731 1.657 1.576 1.503 1.483 1.371 100 2.077 1.968 1.849 1.784 1.715 1.640 1.558 1.483 1.463 1.347 Inf 1.945 1.833 1.708 1.640 1.566 1.484 1.388 1.296 1.268 1.000
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 13 de 14
6) Distribución º(m = », »w) La tabla muestra los valores � tales que (-E, � ≥ �) = 0,01
E
n 1 2 3 4 5 6 7 8 9 10 1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 6022.473 6055.847 2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399 3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229 4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546 5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051 6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 50 7.171 5.057 4.199 3.720 3.408 3.186 3.020 2.890 2.785 2.698 60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 70 7.011 4.922 4.074 3.600 3.291 3.071 2.906 2.777 2.672 2.585 80 6.963 4.881 4.036 3.563 3.255 3.036 2.871 2.742 2.637 2.551 90 6.925 4.849 4.007 3.535 3.228 3.009 2.845 2.715 2.611 2.524 100 6.895 4.824 3.984 3.513 3.206 2.988 2.823 2.694 2.590 2.503 Inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321
Ejemplo: (-7,8 ≥ 6,18) = 0,01
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Página 14 de 14
Distribución F(α = 0,01) (continuación)
La tabla muestra los valores x tales que (-E, � ≥ �) = 0,01
m
n 12 15 20 24 30 40 60 100 120 Inf 1 6106.321 6157.285 6208.730 6234.631 6260.649 6286.782 6313.030 6334.110 6339.391 6365.864 2 99.416 99.433 99.449 99.458 99.466 99.474 99.482 99.489 99.491 99.499 3 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.240 26.221 26.125 4 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.577 13.558 13.463 5 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.130 9.112 9.020 6 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.987 6.969 6.880 7 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.755 5.737 5.650 8 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.963 4.946 4.859 9 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.415 4.398 4.311 10 4.706 4.558 4.405 4.327 4.247 4.165 4.082 4.014 3.996 3.909 11 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.708 3.690 3.602 12 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.467 3.449 3.361 13 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.272 3.255 3.165 14 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.112 3.094 3.004 15 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.977 2.959 2.868 16 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.863 2.845 2.753 17 3.455 3.312 3.162 3.084 3.003 2.920 2.835 2.764 2.746 2.653 18 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.678 2.660 2.566 19 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.602 2.584 2.489 20 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.535 2.517 2.421 21 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.475 2.457 2.360 22 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.422 2.403 2.305 23 3.074 2.931 2.781 2.702 2.620 2.535 2.447 2.373 2.354 2.256 24 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.329 2.310 2.211 25 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.289 2.270 2.169 26 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.252 2.233 2.131 27 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.218 2.198 2.097 28 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.187 2.167 2.064 29 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.158 2.138 2.034 30 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.131 2.111 2.006 40 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.938 1.917 1.805 50 2.562 2.419 2.265 2.183 2.098 2.007 1.909 1.825 1.803 1.683 60 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.749 1.726 1.601 70 2.450 2.306 2.150 2.067 1.980 1.886 1.785 1.695 1.672 1.540 80 2.415 2.271 2.115 2.032 1.944 1.849 1.746 1.655 1.630 1.494 90 2.389 2.244 2.088 2.004 1.916 1.820 1.716 1.623 1.598 1.457 100 2.368 2.223 2.067 1.983 1.893 1.797 1.692 1.598 1.572 1.427 Inf 2.185 2.039 1.878 1.791 1.696 1.592 1.473 1.358 1.325 1.000