Diseño de Experimentos y Regresión

Laboratorio de

Estadística

Diseño de Experimentos y

Regresión

ESCUELA TÉCNICA SUPERIOR DEINGENIEROS INDUSTRIALESUNIVERSIDAD POLITÉCNICA DE MADRID

Edición Curso 21/22

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓNDepartamento de ingeniería de organización,

administración de empresas y estadística.

PROGRAMA

1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-sis de normalidad, independencia y homocedasticidad. Estimación. Contrastede igualdad de medias. Contraste de igualdad de varianzas. La distribuciónF: Comparación de varios tratamientos. Modelo básico. Descomposición de lavariabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdadde medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo deanálisis de la varianza. Grá�co probabilista normal. Contrastes de homocedas-ticidad. Aleatorización.

2. Diseño de experimentos. Modelo con dos factores. Concepto de in-teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modeloen bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-lidad. Tabla de análisis de la varianza.

3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros pormáxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.Contrastes individuales de los parámetros del modelo. Contraste general deregresión. El coe�ciente de determinación. Multicolinealidad: identi�cación ysus consecuencias. Predicción en regresión simple. Variables cualitativas comoregresores. Diagnosis del modelo.

1

Diseño de Experimentos y Modelos de Regresión

Curso 2021/22

1. Análisis de la Varianza

2Análisis de la Varianza

Comparación de dos tratamientos

A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,9

Se desea comparar dostratamientos parareducir el nivel decolesterol en la sangre.Se seleccionan 20individuos y se asignanal azar a dos tipos dedietas A y B. La tablamuestra la reducciónconseguida después dedos meses.


Método: 4 pasos

- Definición del modelo de distribución de probabilidad:

·Hipótesis·Parámetros

- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación


1 2

11

12

11

ny

yy

22

22

21

ny

yy

ModeloMODELO

DATOS


Modelo: Hipótesis y Parámetros

Hipótesis básicas: Normalidad

yij N( i, 2)

Homocedasticidad

Var [yij] = 2

Independencia

Cov [yij, ykl] = 0

Parámetros

22

1


Modelo

),0(, 2Nuuy ijijiij

Las observaciones se descomponen en:-Parte predecible-Parte aleatoria

i

0

iju


Estimación medias:

2

12

22

1

11

11

2

1

:

:

n

y

y

n

y

y

n

jj

n

jj

A B51,3 29,639,4 47,026,3 25,939,0 13,048,1 33,134,2 22,169,8 34,131,3 19,545,2 43,846,4 24,943,1 29,3


Estimación varianza (residuos)

A B8,2 0,3-3,7 17,7

-16,8 -3,4-4,1 -16,35,0 3,8-8,9 -7,226,7 4,8-11,8 -9,82,1 14,53,3 -4,40,0 0,0

Residuos

2ˆ:

:

),0(,

2

1 1

2

22

2

n

e

s

e

yye

yu

Nuuy

i

n

jij

R

ij

iijij

iijij

ijijiij

i

RESIDUO

95.130ˆ;0 21

Rn

jij sei


Varianza residual:

1)(

ˆ1

2112

1

1

12

11

1

nyy

s

y

yy

j

n

1)(

ˆ2

2222

2

2

22

21

2

nyy

s

y

yy

j

n

1 2

22

1 12 2 21 21 2

1 1ˆ ˆ ˆ2 2 2

in

iji j

R

en ns s s

n n n

2ˆRs


Diferencia de medias:

),(1

2

11

1

12

11

1

nNy

y

yy

n

),(2

2

22

2

22

21

2

nNy

y

yy

n

1 2

2

21

2121

21

21212

2

1

2

2121

11ˆ

)()()1,0(

11)()(

),(

n

R

t

nns

yyN

nn

yynn

Nyy

21 yy


Contraste de igualdad de medias

211

210

::

HH

/2

02/0

02/0

rechaza e

rechaza se No

HStt

Htt

t /2-t /2

/2

tn-2

R.R. R.R

R. Acept.

1-2

21

210 11ˆ

n

R

t

nns

yyt


211

210

::

HH

0 rechaza e10.269.2 HS

2.10-2.10

0.025

t18R.R. R.R

69.2

101

10144.11

3.291.430t

0.025

Ejemplo: = 0.05


Ejemplo: = 0.01

211

210

::

HH

/2

0 rechaza se No88.269.2 H

2.88-2.88

0.005

t18

R.R. R.R

0.9969.2

101

10144.11

3.291.430t

0.005


211

210

::

HH

69.2

101

10144.11

3.291.430t

Nivel crítico (bilateral)

2.69-2.69

0.00740.0074

t18

0147.0)69.2Pr( 18tvalorp• = 0.05 > p-valor Se rechaza H0

• = 0.01 < p-valor No se rechaza H0


Conclusiones (fijado )

Si |to| > t /2 se dice quela diferencia demedias essignificativa. Osimplemente que lostratamientos sondistintos (tienenmedias distintas).

Si |to| t /2 se dice quela diferencia demedias no essignificativa. No hayevidencia suficientepara afirmar que lasmedias de lostratamientos seandiferentes.


No rechazar Ho, no implica que Ho sea cierta

El resultado |to| t /2, (no se rechaza Ho)no debe interpretarse como que “se hademostrado que las dos medias soniguales”.

No rechazar la hipótesis nula implica quela diferencia entre las medias 1 - 2 no eslo suficientemente grande como para serdetectada con el tamaño muestral dado.


Intervalo de confianza para la diferencia de medias:

2

21

212111ˆ

)()(n

R

t

nns

yy

21

212/2121

2/

21

21212/

11ˆ)(

1}11ˆ

)()({Pr

nnstyy

t

nns

yyt

R

R

t /2-t /2

/2

tn-2

1- /2


Ejemplo: intervalo de confianza

2.10-2.10

0.025

t18

0.025

74.108.13101

10144.1110.2)3.291.43(

11ˆ)(

21

21

212/2121 nnstyy R

21

Dos tratamientos con R


Otra forma



Ejemplo: Comparación Altura



Hipótesis de homocedasticidad

1)(

ˆ1

2112

1

1

12

11

1

nyy

s

y

yy

j

n

1)(

ˆ2

2222

2

2

22

21

2

nyy

s

y

yy

j

n

1

1 2

2

22

211

22

210

:

:

H

H

26Análisis de la varianza

Distribución F

212

1

211

1

2112

1

1

12

11

1

1

ˆ)1(

1)(

ˆ

n

j

n

sn

nyy

s

y

yy

212

2

222

2

2222

2

2

22

21

2

2

ˆ)1(

1)(

ˆ

n

j

n

sn

nyy

s

y

yy

1,1

22

22

21

21

2

21

1

21

21

2

1

ˆ

ˆ

)1(

)1(nn

n

n

Fs

s

n

nF


Distribución F

F5,40

F10,40

F20,40

F40,40

F10,10

F10,20

F10,40

F10,80

La media es 1


Contraste de igualdad de varianzas

F /2F1- /2

/2/2

RRRR1-

R.A. Ho

02/2/10

02/2/10

rechaza Se , Si rechaza se No , Si

HFFFHFFF

22

211

22

210

:

:

H

H

1,121

21

0

22

210

21ˆˆ

, cierto es Si

nnFssF

H


Ejemplo: Contraste de igualdad de varianzas

0 rechaza se No 03.4,248.0.3441 H

22

211

22

210

:

:

H

H

344.17.11118.150

7.111ˆ18.150ˆ

0

22

21

F

ss4.030.248

0.0250.025

RRRR

1.34


Ejemplo: Contraste de igualdad de varianzas con R



1.2 Análisis de la Varianza


¿Existen diferencias entre las cuatro semillas?

Se desea comparar el rendimiento de cuatrosemillas A,B,C y D. Un terreno se divide en 24parcelas similares y se asigna al azar cada semillaa 6 parcelas.

A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9


Método: 4 pasos

- Definición del modelo de distribución de probabilidad:

·Hipótesis·Parámetros

- Estimación de los parámetros- Diagnosis de las hipótesis- Aplicación


Modelo

1 2 K

...

11

12

11

ny

yy

22

22

21

ny

yy

KKn

K

K

y

yy

2

1

...


Hipótesis del modelo

Normalidadyij N( i, 2)

HomocedasticidadVar [yij] = 2

IndependenciaCov [yij, ykl] = 0


Modelo: Hipótesis y Parámetros

Hipótesis básicas:Normalidad

yij N( i, 2)

Homocedasticidad

Var [yij] = 2

Independencia

Cov [yij, ykl] = 0

Parámetros

2

2

1

K


Modelo: Forma alternativa

),0(, 2Nuuy ijijiij

Las observaciones se descomponen en:Parte predecibleParte aleatoria

i

0

iju


Estimación medias: Máxima Verosimilitud

K

n

jKj

KK

n

jj

n

jj

n

yy

n

yy

n

yy

K

1

2

12

22

1

11

11

:

:

:

2

1

A B C D229.1 233.4 211.1 270.4253.7 233.0 223.1 248.6241.3 219.2 217.5 230.0254.7 200.0 211.8 250.7237.2 224.3 207.6 230.0241.3 202.0 213.7 245.8242.9 218.7 214.1 245.9


Estimación varianza (residuos)

Kn

es

e

yye

yu

Nuuy

K

i

n

jij

R

ij

iijij

iijij

ijijiij

i

1 1

2

22

2

ˆ:

:

),0(,

RESIDUO

4.142ˆ2Rs

A B C D-13.8 14.8 -3.0 24.510.8 14.4 9.0 2.7-1.6 0.6 3.4 -15.911.8 -18.7 -2.3 4.8-5.7 5.7 -6.5 -15.9-1.6 -16.7 -0.4 -0.10.0 0.0 0.0 0.0

Residuos


Comparación de medias

La comparación de tratamientos con este modelose reduce a comparar las medias 1, 2, ..., K ,en primer lugar con el contraste:

diferente es una menos Al::

1

210

HH K


Descomposición de la variabilidad

K

i

n

jiij

K

iii

K

i

n

jij

K

i

n

jiij

K

i

n

ji

K

i

n

jij

K

i

n

jiiji

iijiij

ijiijiijijiij

ii

iii

i

yyyynyy

yyyyyy

yyyy

i,j

yyyyyyn

yyyyyyuy

1 1

2

1

2

1 1

2

1 1

2

1 1

2

1 1

2

1 1

)()()(

)()()(

)0))(( donde(

todopara sumandoy cuadrado al elevando

)()(

, restando:)(


Variabilidades

n-KeyyVNE

K-yynVE

n-yyVT

K

i

n

jij

K

i

n

jiij

K

iii

K

i

n

jij

ii

i

1 1

2

1 1

2

1

2

1 1

2

)(

1)(

1)(

libertad de GradosadesVariabilid

)()1(1 KnKnVNEVEVT


Descomposición: ejemplo

229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9254.7 200.0 211.8 250.7 242.9 218.7 214.1 245.9 11.8 -18.7 -2.3 4.8237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1

-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.523.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.710.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.924.3 -30.4 -18.6 20.3 12.5 -11.7 -16.3 15.5 11.8 -18.7 -2.3 4.86.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.910.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1

= +

Datos Medias Residuos

= +

yyij yyi iij yy

4.230y


Variabilidades: ejemplo

204.2847

311.4798)(

2315.7645)(

libertad de GradosadesVariabilid

1 1

2

1

2

1 1

2

n-KeVNE

K-yynVE

n-yyVT

K

i

n

jij

K

iii

K

i

n

jij

i

i

203234.28471.47985.7645


Interpretación gráfica de la descomposición

iij yyyyi

1y

2y

3y

4y

y yyij


Distribución de VE

21

22

2

22

1

1

222

2

22

1

1

221

22

///

///

),(

llamaremos que Si

),(),(

KK

K

KK

K

ii

K

iiiiij

nyy

nyy

nyy

ny

ny

ny

nNy

nNyNy

i


Distribución de VNE

221

21

21

2

2

2

222

2

211

2

2

2222

211

1

2

1

222

1

211

1 1

2

2

212

21

2

22

21

ˆ)1(ˆ)1(ˆ)1(ˆ)(

ˆ)1(ˆ)1(ˆ)1(

)()()()(ˆ

ˆ)1(1

)(ˆ),(

21

Knnnn

KKR

KK

n

jKKj

n

jj

n

jj

K

i

n

jiij

R

nii

i

n

jiij

iiij

K

i

i

i

snsnsnsKn

Knsnsnsn

Kn

yyyyyy

Kn

yys

snn

yysNy

K

49Diseño Experimentos

Contraste de igualdad de medias

F

RRHo rechaza Se Si 0 FF

Ho rechaza se No Si 0 FF)1(;1 MIJKIF

diferente es una menos Al::

1

210

HH K

KnKF

RsK

K

iyiyin

F ,10 2ˆ)1(1

2)(


Tabla de Análisis de la Varianza

1)(

)(

ˆ)1()(

)1/()(1)(

2

2

2

222

TotalResidual

osTratamient

FVarianzasLibertadCuadradosFuentesde Gradosde Suma

2ˆnyy

Knyy

sKyyn

KyynKyyn

ij

iij

R

iiiiii

Rs



235.7645Total4.142204.2847Residual

2.113.159931.4798osTratamient

FVarianzasLibertadCuadradosFuentesde Gradosde Suma

Ejemplo 1: Centeno


ARCHIVO TEXTO: centeno.txt

Análisis de la Varianza con R


Residuos



t /2-t /2

/2

tn-K

R.R. R.R

R. Acept. H0

1-/2

Intervalos de confianza para las medias

inRs

tiyi

Kn

i

R

ii

i

ii

iiiiij

t

ns

y

N

n

yn

NyNy

ˆ2/

ˆ

)1,0(

),(),(2

2



Diferencia de medias:

),(1

2

11

1

12

11

1

nNy

y

yy

n

),(2

2

22

2

22

21

2

nNy

y

yy

n

1 2

Kn

R

t

nns

yyN

nn

yynn

Nyy

21

2121

21

21212

2

1

2

2121

11ˆ

)()()1,0(

11)()(

),(

21 yy


t /2-t /2

/2

tn-K

R.R. R.R

R. Acept. H0

1-/2

Contraste multiples

ji

ji

H

H

:

:

1

0

02/0

02/0

rechaza e

rechaza se No

HStt

Htt

Kn

jiR

jiij t

nns

yyt

11ˆ

Comparaciones múltiples


Diagnosis del modelo


1 2 K

...

Modelo

11

12

11

ny

yy

22

22

21

ny

yy

KKn

K

K

y

yy

2

1

...



Normalidadyij N( i, 2)

HomocedasticidadVar [yij] = 2

IndependenciaCov [yij, ykl] = 0


Residuos: Normales y homocedásticos

),0( 2Nu

yu

uy

ij

iijij

ijiij

A B C D-13,8 14,8 -3,0 24,510,8 14,4 9,0 2,7-1,6 0,6 3,4 -15,911,8 -18,7 -2,3 4,8-5,7 5,7 -6,5 -15,9-1,6 -16,7 -0,4 -0,10,0 0,0 0,0 0,0

Residuos

0

iijij yye


Comprobación de la normalidad

Los residuos deben de tener distribución normal. Las observaciones originales también, pero cada grupo con media diferente, por ello es preciso estimar el modelo para descontar a cada observación su media y obtener valores con la misma distribución.

Herramientas de comprobación:Histograma de residuosGráfico de probabilidad normal (Q-Q plot)Contrastes formales (Kolmogorov-Smirnov)


Gráfico probabilista normal

Es un gráfico X-Y de losresiduos frente a lospercentiles de ladistribución normal.

La idea básica es quecuando los residuostienen distribuciónnormal, los puntosdeben formaraproximadamenteuna línea recta.

Pasos:Ordenar los residuos de

menor a mayor.

Calcular los percentiles de la distribución normal

Representar nis

niY Ri ,...,2,1,ˆ)5.0(1

)()2()1( neee

ii Ye ,)(


Gráfico prob. Normal (ejemplo)

Q-Q plot

-30,0

-20,0

-10,0

0,0

10,0

20,0

30,0

-30,0 -20,0 -10,0 0,0 10,0 20,0 30,0

Residuos ordenados

Perc

entil

es

Orden Resid. Probab. Percen. Percen.i eij (i-0.5)/n N(0,1) N(0, )1 -18,7 0,021 -2,04 -24,302 -16,7 0,063 -1,53 -18,303 -15,9 0,104 -1,26 -15,014 -15,9 0,146 -1,05 -12,585 -13,8 0,188 -0,89 -10,586 -6,5 0,229 -0,74 -8,857 -5,7 0,271 -0,61 -7,288 -3,0 0,313 -0,49 -5,839 -2,3 0,354 -0,37 -4,4610 -1,6 0,396 -0,26 -3,1511 -1,6 0,438 -0,16 -1,8812 -0,4 0,479 -0,05 -0,6213 -0,1 0,521 0,05 0,6214 0,6 0,563 0,16 1,8815 2,7 0,604 0,26 3,1516 3,4 0,646 0,37 4,4617 4,8 0,688 0,49 5,8318 5,7 0,729 0,61 7,2819 9,0 0,771 0,74 8,8520 10,8 0,813 0,89 10,5821 11,8 0,854 1,05 12,5822 14,4 0,896 1,26 15,0123 14,8 0,938 1,53 18,3024 24,5 0,979 2,04 24,30


Ejemplos

-3 -1 1 3 50,1

15

2050809599

99,9

-2,6 -1,6 -0,6 0,4 1,4 2,4 3,40,1

15

2050809599

99,9

0 3 6 9 12 150,1

15

2050809599

99,9

0 0,4 0,8 1,2 1,6 20,1

15

2050809599

99,9

Normal No normal

No normal No normal


Comprobación de la homocedasticidad

En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la misma varianza.

Herramientas:- Gráficos de residuos:

·Frente a valores previstos·Frente a tratamientos (o factor,etc.)

- Contrastes formales:Bartlett, Cochran, Hartley, Levene


Residuos - Valores previstos

En este modelo los valoresprevistos corresponden ala media del tratamiento.

Los puntos deben aparecerdispuestos al azar en unabanda horizontal alrededordel eje horizontal.

Heterocedasticidad: a vecesla dispersión aumentaconforme la media crece.re

siduo

s

Valores previstos

-30

-20

-10

0

10

20

30

0 5 10 15

resid

uos

valores previstos

-30

-20

-10

0

10

20

30

210 220 230 240 250


Residuos por tratamientos

A B C D-25

-15

-5

5

15

25

Resid

uos

SemillaEn cada grupo los residuos aparecen esparcidos

con dispersión similar y media cero.

máx

.

mín

.

3mínmáx

Diagnosis con R




Independencia

Es la hipótesis fundamental y con diferencia la másimportante de las tres, además es la más difícil decomprobar.

La falta de independencia suele ir ligada a factores nocontrolados por el experimentador y que influyen enlos resultados introduciendo errores sistemáticos.

La forma más recomendable de evitar erroressistemáticos consiste en aleatorizar.


Aleatorización

La aleatorización evita que se produzcanerrores que sistemáticamente aumenten odisminuyan un conjunto de medidas porcausas no reconocibles: al aleatorizar sereparten estos errores por igual entre losdiferentes tratamientos y se convierten enerrores aleatorios, previstos en el modelo.


¿Cómo aleatorizar?

Asignar las unidades experimentales al azar alos distintos tratamientos.

Aleatorizar el orden de ejecución de losexperimentos.

Aleatorizar respecto a cualquier otra variableque implique diferenciar a los tratamientos.

“La aleatorización es una precaución contra distorsionesque pueden ocurrir o no ocurrir, y que pudieran serserias o no si llegaran a ocurrir”

Funciones de R utilizadas


Analisis de la Varianza, comparacion de 2 tratamientos

1. Se estudian dos tipos de neumaticos con los resultados siguientes:

Tipo ni xi(Km) si(Km)A 121 27465 2500B 121 27572 3000

Calcular, con α = 0.01:

a) Un intervalo de confianza paraσ21

σ22.

b) Un intervalo de confianza para µ1 − µ2.

2. Se dispone de rendimientos de dos maquinas. Los resultados de la maquina A son 137.5;14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las maquinas iguales? (Suponer que los rendimientosde ambas maquinas siguen distribuciones normales).

3. Un fabricante de automoviles debe elegir entre un determinado tipo de piezas de acerosuministradas por un proveedor A y otras suministradas por otro proveedor B. Para procedera la eleccion se ha analizado la resistencia a la traccion de las piezas suministradas por ambosproveedores, tomando una muestra de tamano 10 de las piezas del primero, y otra de tamano12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de lamuestra de B es de 49000 unidades, siendo las desviaciones tıpicas muestrales corregidassA = 2100 y sB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyennormalmente. Las piezas del proveedor B son mas baratas que las del proveedor A, por loque estas ultimas solo son rentables si tienen una resistencia media al menos 2000 unidadesmayor que las de B, y la misma variabilidad.

a) ¿A que proveedor habrıa que comprar las piezas a la vista de los resultados muestrales?

b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistenciade las piezas de los proveedores A y B.

Analisis de la Varianza, comparacion de k tratamientos

1. En una fabrica de automoviles se utiliza una misma planta para el ensamblaje de tres modelosdistintos (A,B y C). Para determinar si los modelos reciben el mismo tratamiento, se harealizado un control de calidad a una muestra tomada para cada modelo. El numero dedefectos encontrados para cinco vehıculos del modelo A son 5, 4, 6, 6 y 7; para seis vehıculosdel modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehıculos del modelo C: 9, 7, 8, 9, 10, 11, 10 y10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.

1

2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quımico.Se sospecha que existen diferencias entre ellos aunque pequenas. Para detectar estas diferen-cias se pretende realizar un experimento a gran escala con el mismo numero de observacionesen cada grupo. Para determinar este tamano muestral se ha realizado un experimento pilotocon 6 observaciones de cada metodo y los resultados (medias de cada grupo) han sido lossiguientes:

METODO 1 2 3 4 5Media 425.6 423.2 418.8 430.2 422.2

y la varianza residual s2R = 198.5.

(a) ¿ Cual debe ser el tamano muestral del experimento a gran escala para que el contrastede analisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinaciones igual al del experimento piloto?.

(b) El metodo A es el procedimiento habitual y el metodo D es el que se sospecha propor-ciona mejor rendimiento. Una hipotesis que se pretende contrastar es H0 : µD = µA,frente a la hipotesis alternativa H1 : µD > µA. ¿ Que condicion debe cumplir la difer-encia entre las medias muestrales de los dos metodos para rechazar H0 con α = 0.01?

3. Se ha realizado un experimento para estudiar el efecto de un unico factor con I nivelesen la variable respuesta y con un numero diferente de observaciones en cada tratamiento:n1, n2, ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observacion j deltratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e yi• la media del tratamiento i. Se desea estimarla media general ¿cual de los dos estimadores siguientes

y•• =

I∑i=1

ni∑j=1

yij

n, y•• =

I∑i=1

yi•

I

tiene mınima varianza? Realiza la comprobacion para el caso I = 5, con ni = 3, 2, 3, 5, 6 elnumero de observaciones en cada tratamiento. Asumir que las observaciones son independi-entes y que se cumple la hipotesis de homocedasticidad.

4. Considere la comparacion de dos tratamientos en poblaciones normales. Demuestre que elcontraste t para comparar dos medias es analogo al contraste de la F en Analisis de laVarianza (suponga n1 = n2).

5. Cinco tipos (A, B, C, D y E) de material sintetico se han sometido a un ensayo de desgaste.Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviaciontıpica corregida en cada caso es la siguiente:

A B C D Emedia xi 14.1 16.3 13.5 14.8 15.3d. tıpica si 1.3 1.2 1.4 1.2 1.5

2

(a) Contrastar (α = 0.05) la hipotesis

H0 : µA = µB = µC = µD = µE

frente a la hipotesis alternativa,

H1 : alguna media es distinta de las demas.

(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y que materialestienen desgaste medio, distinto.

(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.

6. Se desea comprobar el efecto de un tratamiento termico sobre la resistencia de un nuevomaterial. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1,T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:

T1 T2 T3

2.65 4.31 4.812.67 3.96 5.322.46 4.64 4.931.90 4.74 5.492.62 4.00 4.45

(a) Contrastar mediante el test de analisis de la varianza si existen diferencias significativasentre los tratamientos termicos (α = 0.01).

(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dostratamientos. Si la relacion entre la resistencia y la temperatura es lineal, es de esperarque la media del tratamiento 2 verifique : H0 : µ2 = 1

2(µ1 + µ3). Hacer el contraste

bilateral de esta hipotesis con α = 0.05. (Nota.- Usar la distribucion de y2−(y1+y3)/2,donde yi es la media de los datos correspondientes al tratamiento Ti).

7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difierensignificativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quımicohace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidoshan sido

Lote 1 Lote 2 Lote 3 Lote 4 Lote 523.46 23.59 23.51 23.28 23.2923.48 23.46 23.64 23.40 23.4623.56 23.42 23.46 23.37 23.3723.39 23.49 23.52 23.46 23.3223.40 23.50 23.49 23.29 23.38

La tabla de analisis de la varianza se proporciona a continuacion. Comparar las medias delos cinco tratamientos con nivel de significacion total αT = 0.10.

3

Analisis de la varianzaFuente Variabilidad g.l. Var. Media F Nivel crıticoLote 0.096976 4 0.024244 5.54 0.0036Residuos 0.08760 20 0.00438Total 0.184576 24

4

Diseño de experimentos:

� Diseños Factoriales� Bloques Aleatorizados

2.1 Diseños factoriales(dos factores)


Ejemplo

A B C D0.31 0.82 0.43 0.450.45 1.10 0.45 0.71

V 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62N 0.36 0.92 0.44 0.56E 0.29 0.61 0.35 1.02N 0.40 0.49 0.31 0.71O 0.23 1.24 0.40 0.38S 0.22 0.30 0.23 0.30

0.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33

ANTÍDOTO

I

II

III

Se analiza el efecto de tres venenos y cuatro antídotos en el tiempo de supervivencia de unas ratas.

Comandos en R


ARCHIVO TEXTO: venenos.txt

…48 filas


Modelo

ijkijjiijk uy

IJm

IJ

IJ

Jm

J

J

Jm

J

J

mI

I

I

mm

mI

I

I

mm

y

yy

y

yy

y

yy

J

y

yy

y

yy

y

yy

y

yy

y

yy

y

yy

I

2

1

2

22

12

1

21

11

2

22

21

22

222

221

12

122

121

1

12

11

21

212

211

11

112

111

2

1

21Factor 1

Fact

or 2

•Normalidad•Independencia•Homocedasticidad

I J tratamientos

m replicaciones

n = m I J

...1111 2112 11 II

...1221 2222 22 II

...JJ 11 JJ 22 IJJI

Factor 11 2 I

1

2

J

...

Fact

or 2


Modelo

: Media globali : Efecto del Factor 1 i, i=1,...,Ij : Efecto del Factor 2 j, j=1,...,J

ij: Interacción de niveles ijuijk : Componente aleatoria N(0, 2), k=1,…m

Ii i1 0 J

j j1 0

ijkijjiijk uyjI

i ij ,01

iJj ij ,01


Estimación del modelo

1:)1)(1(:

1:1:

1:

2

j

i

JIJI

ij

n

yy

mI

yy

mJ

yy

m

yy

I

i

J

j

m

kijk

I

i

m

kijk

j

J

j

m

kijk

i

m

kijk

ij1 1 11 11 11

)1(ˆˆ

ˆˆˆ

222

mIJe

s

yyyy

yyyy

y

ijkR

jiijij

jj

ii



ijkijjiijk uy

ijkijjiijk ey ˆˆˆ

ijijkijjiijkijk yyye )ˆˆˆ(

g.l.=IJm-IJ=IJ(m-1)


Estimación

A B C D0.31 0.82 0.43 0.45

V 0.45 1.10 0.45 0.71 0.46 0.88 0.63 0.66E 0.43 0.72 0.72 0.62 0.41 0.88 0.56 0.61N 0.36 0.92 0.44 0.56 0.29 0.61 0.35 1.02E 0.40 0.49 0.31 0.71 0.23 1.24 0.40 0.38N 0.32 0.82 0.38 0.67

0.22 0.30 0.23 0.30O 0.21 0.37 0.25 0.36

0.18 0.38 0.24 0.31S 0.23 0.29 0.22 0.33

0.21 0.34 0.24 0.33

ANTÍDOTO

I

II

III


EstimaciónA B C D Medias

0,31 0,82 0,43 0,45 0,45 1,10 0,45 0,71V 0,46 0,88 0,63 0,66 0,43 0,72 0,72 0,62

E Medias 0,41 0,88 0,56 0,61 -0,038 0,067 0,032 -0,061N 0,36 0,92 0,44 0,56 0,29 0,61 0,35 1,02E 0,40 0,49 0,31 0,71 0,23 1,24 0,40 0,38

N Medias 0,32 0,82 0,38 0,67 -0,060 0,073 -0,080 0,068O 0,22 0,30 0,23 0,30 0,21 0,37 0,25 0,36S 0,18 0,38 0,24 0,31

0,23 0,29 0,22 0,33Medias 0,21 0,34 0,24 0,33

0,098 -0,139 0,048 -0,007

0,314 0,677 0,389 0,534

-0,164 0,198 -0,089 0,056

II 0,544 0,066

III 0,276 -0,202

ANTÍDOTO

I 0,615 0,136

0,479Medias

iˆ

jˆ

ij

ij

ij


Residuos

A B C D-0.103 -0.060 -0.128 -0.160

V 0.038 0.220 -0.108 0.100 0.048 0.000 0.073 0.050E 0.018 -0.160 0.163 0.010 0.00 0.00 0.00 0.00N 0.040 0.105 0.065 -0.108 -0.030 -0.205 -0.025 0.353E 0.080 -0.325 -0.065 0.043 -0.090 0.425 0.025 -0.288N 0.00 0.00 0.00 0.00

0.010 -0.035 -0.005 -0.025O 0.000 0.035 0.015 0.035

-0.030 0.045 0.005 -0.015S 0.020 -0.045 -0.015 0.005

0.00 0.00 0.00 0.00

III

RESIDUOS

ANTÍDOTO

I

II

022,0)1(

ˆˆ2

22

mIJe

s ijkR

kijk

ijijkijk

e

yye

0

Estimación con R


Estimación con R


Otras instrucciones


Residuos



Análisis de la varianza

I

i

J

j

m

kijk

I

i

J

j

m

kjiij

I

i

J

j

m

kj

I

i

J

j

I

i

J

j

m

ki

m

kijk

ijkjiijjiijk

ijijkjiijjiijk

ijkijjiijkijkijjiijk

eyyyy

yyyyyy

eyyyyyyyyyy

yyyyyyyyyyyy

eyuy

1 1 1

2

1 1 1

2

1 1 1

2

1 1 1 1 1

2

1

2

)(

)()()(

)()()(

)()()()(

ˆˆˆ

I

i

J

j

m

kijk

I

i

J

jjiij

J

jj

I

i

J

j

I

ii

m

kijk

eyyyym

yymIyymJyy

1 1 1

2

1 1

2

1

2

1 1 1

2

1

2

)(

)()()(


Variabilidades

I

i

J

j

m

k

I

i

J

j

m

kijkijijk

I

i

J

jij

J

j

I

iij

I

i

I

iii

I

i

J

j

m

kijk

eyyVNE

mBAVE

mIyymIBVE

mJyymJAVE

yyVT

1 1 1 1 1 1

22

1 1

2

1 1

22

1 1

22

1 1 1

2

)()(

)()(

)ˆ()()(

)ˆ()()(

)(


Descomposición de la variabilidad

)1()1)(1()1()1()1()()()(

mIJJIJInVNEBAVEBVEAVEVT

DATOS MODELO


Contraste de Hipótesis

� Si el Veneno no influye, los I niveles son iguales a efectos de tiempo de supervivencia, entonces

0 de distinto es Algún :0:

i1

210

HH I

I21Ii i1 0


Contraste efecto principal de factor A


i1

210

HH I

222 ]ˆ[)1(

ˆ RR sEmIJ

VNEs

222 ]ˆ[1

)(ˆ AA sE

IAVEs cierto, es Ho Si

)1(;121

2

2

2

ˆ

1)(

ˆˆ

mIJIR

I

ii

R

AA F

s

IyymJ

ssF

Ho rechaza Se Si FFA


Contraste efecto principal de factor B


j1

210

HH J

222 ]ˆ[1)(

ˆ BB sEJ

BVEs cierto, es Ho Si

)1(;121

2

2

2

ˆ

1)(

ˆˆ

mIJJR

J

jj

R

BB F

s

JyymI

ssF

Ho rechaza Se Si FFB


Contraste interacción AxB

0 de distinto es Algún ij:0:

1

12110

HH IJ

222 ]ˆ[)1)(1(

)(ˆ ABAB sE

JIBAVEs cierto, es Ho Si

)1();1)(1(2

2

ˆˆ

mIJJIR

ABAB F

ssF

naninteraccio BA y Ho rechaza Se Si FFAB


Tabla de análisis de la varianza

1)(Total

ˆ)1(Residual

ˆˆ

ˆ)1)(1()(BA

ˆˆ

ˆ1)(B

ˆˆ

ˆ1)(A

valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes

2

22

2

2

22

2

2

22

2

2

22

nyy

smIJe

pss

sJIyyyym

pss

sJyymI

pss

sIyymJ

ijk

Rijk

ABR

AB

ABjiij

BR

B

Bj

AR

A

Ai

Análisis de la varianza con R


Interpretación

La interacción no es significativa

Se interpreta cada factor por separado



Intervalos de confianza (interacción nula)

mJsty R

iiˆ

2/

mIsty R

jiˆ

2/

28Diseño Experimentos 28282828DiDiDiDiseeeeeeeeeeeeeeeeeeeeeeeeeseseseñññoññoñoññññññññññññññññññññoñoñññoññññoñooooooñoooñññooooooñññoñoño EEEEEEEEEEEEExpxpxxpxpxxxxppppxpxpxxpxpxxpppxpxpeeeeereeerererimmmmmmmmmmmmmmmmmmmmmmmmimimimeneneneneneeenneeennennnnneeennneeneennnnnnnenenentotttotttttttttotttttottttttttttttttttttttttttttototossssssssssssssssssssssssssss

29Diseño Experimentos 29DDiseseseseseseseseseseseseseeesesesssseseeeesesesesesesesesesessesseseeessseseseeesssessesesesssseseeeeeeeeeeesssssseseseesessssseseesesesesseeeeeseeessssseeseesseseeeñooñoooooñññññññññooññññññññooñññññññññññññoooooooñññññññoo Expxxxxxxxxppxxxpxppxpxxxxpxxxxxxxxxxxxx errrrrrrrrrrerrrrrrrrrrrrrerrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrimmmmmmimmimimimmmmmmmmmmmmmmmmmmmmmmmimmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmeneennennnneneneneenenenenneneeeeeneeeneeeneeneneneeeeeneeeeeeeeeeeeeeeeenneneennneeeeeeeneenneeeneeeenneeeentotottotototttttotototttotottotottttototttotttttttttottttttotttoototottooooootoooooootoooooottoooooootoooottooott ssssssssssssssssssssssssssssssssssssssssssssssssssss


Contrastes múltiples: Factor A

ji

ji

H

H

:

:

1

0

)1(2ˆ

mIJ

R

ji t

mJs

yy

t /2-t /2

/2

tIJ(m-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

mJmJN

yyyyyy

jiji

jijijj

ii

Ho

mJstyy

LSD

Rji

rechaza Se

2ˆ2/

31Diseño Experimentos 31Diseño Experimentos


Contrastes múltiples: Factor B

ji

ji

HH

::

1

0

)1(2ˆ

mIJ

R

ji t

mIs

yy

t /2-t /2

/2

tIJ(m-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

mImIN

yyyyyy

jiji

jijijj

ii

Ho

mIstyy

LSD

Rji

rechaza Se

2ˆ2/

33Diseño Experimentos 333333333333333333DiDiDiDiDiDDiDDiDiDDiDiiDiDDDiiDiDDDiseseseseseseseseseeseseseseseseseeseseseseseeeeseñoñoñoñoññoññoñññoñoñoñoñoñoññooooñoñoññooooo EEEEEEEEEEEEEEEEEEEEEEEEEEEEEExpxpxpxpxpxpxpxxxpxxxxpxpxpxxpxpppxpxxxxxpxpppxperererereeereerereererereeeeeerrrer mimimiimimmimimimmimmimimmmmmimimmmmmmmeneneneeneneeneneeeneeneneenentottottotototootototototooooototoooossssssssssssssssssssssssss

� En este ejemplo NO se debe interpretar porque no es significativa.

� ¿Cómo se haría?


Interacción

p q g�� ¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿CCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóóómmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo sssseeee hhhhaaaarrrrííííaaaa????

Diagnosis: Sobre residuos

� Normalidad� Homocedasticidad� Independencia


Diagnosis


Conclusión


• Se detecta falta de homocedasticidad. Los tratamientos que tienen media más alta, también tienen más variabilidad

• Además de aprecia falta de normalidad• En este caso, la solución es transformar la

variable respuesta (tiempo). Las transformaciones más usuales: = log= 1=


Transformaciones z=h(y) para estabilizar la varianza

En la práctica, en la mayoría de los casos, alguna de las transformaciones siguientes corrige la heterocedasticidad:

· 1/x· log(x)· x2 (u otras transformaciones xp)· x


Transformaciones Box-Cox

-1,5

-1

-0,5

0

0,5

1

1,5

0log

1

psiyzp

yz

ijij

pij

ij

1ijy

ijzp = 1

p < 1

p > 1


Búsqueda de la transformación adecuada

La dispersión aumenta al aumentar la media

p < 1

La dispersión disminuye al aumentar la media

p > 1

resid

uos

Valores previstos

-0,43

-0,23

-0,03

0,17

0,37

0,57

0 0,3 0,6 0,9 1,2

resid

uos

valores previstos

-1,4

-0,9

-0,4

0,1

0,6

1,1

1,6

0 4 8 12 16


Elección de la transformación

Empezar con p=1 (datos sin transformar) y decidir a partir de los gráficos si p>1 o p<1.

Parar cuando los gráficos estén ok.

pijij yz

211

12/1

log02/1

1

ijij

ijij

ijij

ijij

yzp

yzp

yzpyzp

p

Ejemplo: tiempo de supervivencia ratas


• Se ha probado = 1/2, = 0 (log ), =1/2, = 1 y se observa que esta última es una buena opción:

= 1• La nueva variable es la inversa del tiempo. Se

puede interpretar como una medida de “efectividad” de actuación del veneno ( número de animales muertos en intervalos de 10 horas).

Tabla Análisis de Varianza 1/y


- Los efectos principales del factor veneno y del factorantídoto son muy significativos (p-valor=0.000).- La interacción no es significativa (p-valor = 0.3867).


Diagnosis: homocedasticidad datos transformados z=1/y

46Diseño Experimentottttttttttttttttttttttttttttttttttt s

datos transformados z=1/yyNormalidad y Homocedasticidad ok


Comparaciones múltiples intervalos de confianza



Conclusiones

� Ha sido necesario transformar los datos para conseguir que se cumplan las condiciones de normalidad y homocedasticidad.

� La transformación utilizada es z = 1/y (inversa del tiempo). Se puede interpretar como tasa de muertes por hora.

� El análisis de la varianza indica que los efectos principales de los dos factores (Veneno y Antídoto) son muy significativos y que la interacción no es significativa (p-valor =0.38)

� La comparación de medias de los venenos indican que existen diferencias significativas entre los tres. El más perjudicial es el III, después el II y finalmente el I.


Conclusiones (cont.)

� La comparación de medias de los antídotos indican los más que reducen de manera más efectiva el efecto del veneno es el B y el D. Entre ellos no existen diferencias como se comprueba en el contraste múltiple de medias. Los antídotos A y C son claramente peores. Son también diferentes entre sí (el menos recomendable es A).

� No hay interacción, lo que implica que el efecto del Antídoto no depende del veneno. Para cualquier veneno, el mejor antídoto es B (o D).



Ejercicio con Interacción Significativa

� Un investigador quiere estudiar el efecto del sexo (H, M) y tipo de formación (ciencias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello se analiza el nº de incorrecciones gramaticales en artículos científicos enviados a publicación. Para combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el nº de fallos detectados en artículos de 15 páginas. ¿Qué conclusiones pueden extraerse?.

Letras Ciencias

Hombre 8, 6, 13 22, 28,33

Mujer 5,10,6 12,14,9

Comandos en R




Con = 0.05 son significativos el sexo, la formación y lainteracción. La diferencia en el número medio de erroresentre Hombres y Mujeres, depende del nivel del otro factor(si son de ciencias o letras.)

� En este ejemplo es significativa.


Interacción:

- El numero medio de errores es similar para Hombres (9) y Mujeres(7) si son de Letras.

- El número medio de errores de Hombres(27.7) es muy superior al de Mujeres (11.7) si son de Ciencias

Diagnosis


Bloques Aleatorizados


Ejemplo de introducción

Se desea estudiar el efecto de la Fluorita en la reducción del coste energético en la fabricación de cemento. Se emplean 6 mezclas distintas de materias primas.

0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23e 2 8.42 10.15 8.54 6.98 8.93z 3 18.31 16.84 15.86 14.64 15.96c 4 10.49 10.52 8.04 10.50 10.34l 5 9.78 9.59 6.96 8.15 9.24a 6 9.28 8.84 7.04 6.66 9.46

Fluorita


Modelo

ijjiij uy

: Media globali : Efecto del tratamiento i, i=1,...,Ij : Efecto del bloque j, j=1,2,...,J

uij : Componente aleatoria N(0, 2)

IJJJ

I

I

yyyJ

yyyyyyI

21

22212

12111

21

21Tratamientos

Bloq

ues •Normalidad

•Independencia•Homocedasticidad

Ii i1 0Jj j1 0

...11 12 1I

...21 22 2I

...J1 J2 JI

Tratamientos1 2 I

1

2

J

...

Bloq

ues



1:1:1:

1:

:Parámetros

2j

i

JI

n

yy

I

yy

J

yy

I

i

J

jij

I

iij

j

J

jij

i1 111

)1)(1(ˆˆ

ˆˆ

ˆ

:sEstimadore2

22JIe

s

yyyy

y

ijR

jj

ii

ijjiij

ijjiij

ey

uyˆˆˆ yyyy

ye

jiij

jiijij ˆˆˆ


Estimación

yyyyyyyyyy

yyyyyyJ

yyyyyyyyyyyy

I

Ii

I

JJIJJJ

I

I

j

21

21

21

2222212

1112111

ˆ

21

ˆ21


Estimación (ejemplo)

0% 1% 2% 3% 4%M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48

11.88 11.30 9.40 9.90 11.19 10.731.15 0.57 -1.34 -0.84 0.46

Fluorita

i

j


Residuos: Varianza residual

0% 1% 2% 3% 4%M 1 1.37 -1.21 -1.22 0.79 0.27

e 2 -1.33 0.98 1.27 -0.79 -0.13

z 3 0.84 -0.05 0.88 -0.84 -0.82

c 4 -0.64 -0.02 -0.60 1.36 -0.10

l 5 -0.11 0.28 -0.45 0.24 0.04

a 6 -0.13 0.02 0.12 -0.76 0.74

Fluorita

yyyyye jiijjiijij ˆˆˆ

88.020

51.17)1)(1(

ˆ2

2JIe

s ijR



I

i

J

j

I

i

J

jijj

I

i

J

j

I

i

J

jiij

jiijjiij

jiijjiij

ijjiijijjiij

eyyyyyy

yyyyyyyyyy

yyyyyyyyyy

eyuy

1 1 1 1

22

1 1 1 1

22 )()()(

)()()(

)()()(

ˆˆˆ

J

j

I

i

J

jijj

I

i

J

j

I

iiij eyyIyyJyy

1 1 1

22

1 1 1

22 )()()(


Variabilidades

VNEVEVEVT

eVNE

yyIBVE

yyJTVE

yyVT

I

i

J

jij

J

jj

I

ii

I

i

J

jij

B)(T)()()(

)()(

)(

1 1

2

1

2

1

2

1 1

2

)1)(1()1()1()1( JIJIn


Contraste de Hipótesis

� Si la Fluorita no influye, los I tratamientos son iguales a efectos de coste, entonces


i1

210

HH I

I21Ii i1 0


Contraste sobre tratamientos


i1

210

HH I

222 ]ˆ[)1)(1(

ˆ RR sEJI

VNEs

222 ]ˆ[1

)osTratamient(ˆ cierto, es Ho Si TT sE

IVEs

)1)(1(;121

2

2

2

ˆ

1)(

ˆˆ

JIIR

I

ii

R

TT F

s

IyyJ

ssF

Ho rechaza Se Si FFT


Explicación del contraste

),(,...,,

][,

),(0 cierto es Ho Si

2

21

121

2

JNyyy

JJ

yEJ

yyyy

Ny

I

Jj j

iiJii

i

jiji

21

2

1

2

22111

ˆ

I

)y -y(JE

I

)y -y(Js

Iyyy

y

I

ii

I

ii

TI

.ˆ quemayor será ˆ falso, es Ho Cuando

parecidas.serán ˆy ˆ cierto, es Ho Cuando22

22

RT

RT

ss

ss


Contraste de bloques


j1

210

HH J

222 ]ˆ[1

)Bloques(ˆ cierto, es Ho Si BB sE

JVEs

)1)(1(;121

2

2

2

ˆ

1)(

ˆˆ

JIJR

J

jj

R

BB F

s

JyyI

ssF

Ho rechaza Se Si FFB


Tabla de análisis de la varianza

1-nTotal

Residual

Bloque

oTratamient

valorpFVarianzaLibertad.CuadradosadVariabilidde Gradosde SumaFuentes

2

22

2

2

22

2

2

22

)(

ˆ)1)(1(

ˆˆ

ˆ1)(

ˆˆ

ˆ1)(

yy

sJIe

pss

sJyyI

pss

sIyyJ

ij

Rij

BR

B

Bj

TR

T

Ti



Tanto la Fluorita como la Mezcla presentan efectos significativos (pvalor entre 0 y 0.001).


Jsty R

iiˆ

2/


Isty R

jiˆ

2/


Contraste multiples: tratamientos

ji

ji

H

H

:

:

1

0

)1)(1(2ˆ

JI

R

ji t

Js

yy

t /2-t /2

/2

t(I-1)(J-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

JJN

yyyyyy

jiji

jijijj

ii

02/2

ˆ HS

LSDJ

styy Rji rechaza e


Comparación múltiples: FluoritaFluorita

13.16293.0085.2

2ˆ2/ JstLSD R

0% 1% 2% 3% 4%0% 0 0,58 2,49 1,99 0,691% 0 1,90 1,40 0,112% 0 -0,50 -1,803% 0 -1,304% 0

LSD = 1.13



Contraste multiples: bloques

ji

ji

H

H

:

:

1

0

02/ rechaza e2ˆ HS

LSDI

styy Rji)1)(1(2ˆ

JI

R

ji t

Is

yy

t /2-t /2

/2

t(I-1)(J-1)

R.R. R.R

R. Acept. H0

1-/2

),(ˆˆ

ˆˆˆˆ

22

IIN

yyyyyy

jiji

jijijj

ii


Comparación Múltiple: Mezcla

Mezcla

24.15293.0085.2

2ˆ2/ IstLSD R

1 2 3 4 5 61 0,00 3,90 -3,82 2,52 3,76 4,242 0 6,60 -1,37 -0,14 -0,353 0 6,34 7,58 8,074 0 1,23 1,725 0 0,496 0

LSD=1.24

83Diseño Experimentos 838383DiDiDDiDiDiDDDDDiDDDDDiDiDiDDDiiiiiDDDiiiiiDiDDDDDiiiiiiDDiiiiDDiiiiDDDiiiiiDDDiiiiDiDDDiiiiDDDDDiiiiiiDDDDiDDiiDiiiDDDDiDiDiDiDDDDiiiiiDDDDDiiiiiDiDDDiiDDDDDDiDDDDDDiiDDDDDDDiiiDDiDiiDDiDDDDiDDDiiDDDDDDiiDDDDiisesesesesessssesssssssssssssssssssssssssesssssssssssssssssssssssssssssssssssssssssssssssssssssesssssssessssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssssss ñoñoñoñoñoññññoññoñoñoñoñoñoñoññoñoññoñoññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññññoññññññññññññññoññññññññññññññññññññoñññññññññññññññññoñññoññññññññññññññññññññññññññññññññoññññññññoooooooññññoñññññññoooooññññññooñoooññññoooñññññoooñññoo EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEExpxpxpxpxpxxpxpxpxpxpxpppxxpxxpxxpxpxpxpxpxpxppppxxxpxpxpxppppxpxxxxxxxxxxpxxxpxpxppxppxppxppxxxxxpxxpxpxpxxxxxpxxxppxpppppxpxpxxxxxxxxppxpppxxxpxpxxpxxxxpxpppxppxpxxxxxxxppppxxxxxxpxpxpppxppxpxpxxxxxpxxxxxxpppxpxxxxpxxxxxxxppppxpxxxxxpxpxppppxxpxpxxxxpppppxxpxxxxxxxxppppppxpxpxxxxxxxpppppxxxxxxpppppppxxxxxxxxpxpppppxxxxxxpppppxxxxxpppppppxpxxxpxxxxxppppppxxxxpxxxxxxppxppppppxxxxxxxxppppppxxxxpppppx ererererererererrererererererererreerrrreeeererrrrrrerreeerrrreeeerrrrreeererrrrrreeeererrrrrrrreeerrrreerrrrreeeerrrrerrerrreeerrrrerrreeerrrreeerrrrreerrrrrerrreerrrreerrreerrrrrrrimimimiimmmimimimimimimimimimmmiiiiimimiiimiiimimiiiimmmiiiiimimimimimimimmimimmimmmmmmimmimmmimmmmmmmimimmmmmmimmmmimiimiimmmmmmmmmiiiimmmmmmmmmmiiimmmmmmmiiiimmmmmmmiiiimmmmmmmimmmeeneenenenenenennneneneneneneeneeenenenennneneneenenneeneneenenennennnneeneneneneneennnennnnnneeeennnnenennneeneeenennneneeeeneeeeenneneneneeeeeneneeennnnneeennnnnnneeeeeeeennnnnnnneeneeeeeeenennnnneneeeeeeeennnnnneeeennnnnneneeeeennnneeennnnnennnnnneeennnnnneeeennnneneneneeeeennenneeeeeeenennnnnneeeennnnnneeneeeennnneeeeeeennntototototototototottotototototototototooootototottttotttottotottoototootototottootottooooooooooootttoooooooooootttooootooooootttoooooottooooooooototooooootooooooooooooottoooooooooooootttooooooootoooooooooooooootooooooooooooototttooootttooooootttttttttooooooootttooooooootootoooooooosssssssssssssss


Diagnosis:Homocedasticidad

Fluorita0 1 2 3 4

-2-1.5

-1-0.5

00.5

11.5

2

Mezcla0 1 2 3 4 5 6

-2-1.5

-1-0.5

00.5

11.5

2

resid

uos

Valores previstos

-1.6-1.2-0.8-0.4

00.40.81.21.6

5 10 15 20

Gráfico de residuos


Diagnosis: normalidad

residuos

prob

abili

dad

-1.4 -0.9 -0.4 0.1 0.6 1.1 1.60.1

15

2050809599

99.9


Interpretación� El factor Fluorita influye significativamente (p-valor

=0.00077) en el coste.

� Las comparaciones de medias indica que el % deFluorita que proporciona coste menor es 2% y 3%,entre ellos no hay diferencias significativas.

� El bloque (Mezcla) influye muy significativamente enel coste (p-valor=0.00). Las mezclas queproporcionan un coste menor son 2, 5 y 6. Entreellas no hay diferencias significativas.

� La diagnosis del modelo indica que la hipótesis denormalidad y homocedasticidad son aceptables.


Capítulo 2. Diseño de experimentos

2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de �bra sintética. Seha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)

10% 20% 30%115 120 126

A 112 135 118133 139 142107 110 132

B 114 102 114108 117 125

1. Construir la tabla de Análisis de la Varianza y contrastar la in�uencia de los dos factores y lapresencia de la interacción.

2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguirla mayor resistencia al desgaste.

2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el �n demejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturasdiferentes. Los resultados del experimento son (archivo rendimiento:txt)

TemperaturaCatalizador 200 300 400

A 115 125 130 140 110 120B 115 105 135 145 100 110

1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi�cativos. (� = 0:05)

2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar unaprobabilidad de error tipo I total, �T = 0:03?

2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número deincorrecciones gramaticales en artículos cientí�cos enviados a publicación. Para cada combinaciónde niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el númerode fallos detectados en artículos de 15 páginas (archivo error:txt)

Letras CienciasHombre 8, 6, 13 22, 28, 33Mujer 5, 10, 6 12, 14, 9

1

Contrastar con nivel de signi�cación 0.05 si los efectos principales y la interacción son signi�cativos.Tener en cuenta que P (F1;8 � 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad1 y 8: Interpretar los resultados.

2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3�2con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es elporcentaje de granos de maíz que no se han in�ado adecuadamente. Los resultados del experimentose muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviacióntípica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores essigni�cativa.

A B C

Sartén5.5(1,4)

3.6(1,8)

7.5(2,5)

Horno3.8(1,3)

3.4(0,9)

4.3(1,3)

2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignadoal azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)

TratamientoA B C D

VenenoI 0.31 0.82 0.43 0.45

0.45 1.10 0.45 0.710.46 0.88 0.63 0.660.43 0.72 0.76 0.62

II 0.36 0.92 0.44 0.560.29 0.61 0.35 1.020.40 0.49 0.31 0.710.23 1.24 0.40 0.38

III 0.22 0.30 0.23 0.300.21 0.37 0.25 0.360.18 0.38 0.24 0.310.23 0.29 0.22 0.33

1. ¿Son los venenos y tratamientos signi�cativos? ¿Existe interacción entre el veneno y el tratamiento?

2. Analice los residuos del modelo anterior. ¿Se veri�can las hipótesis básicas del modelo? ¿Quétransformación de los datos hace que se veri�quen las hipótesis?

3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformaciónrealizada algún efecto sobre los efectos principales y la interacción?

2

2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En elestudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico encada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias enla tabla 2:

Tabla 1: Cantidad Absorbida (mg)

Tiempo de TemperaturaExposición T1 T2 T3

35.5 91.2 70.1E1 29.7 100.7 64.1

31.5 82.4 70.1

52.5 71.0 79.4E2 53.3 77.0 77.7

55.0 75.6 75.1

85.9 87.0 83.0E3 85.2 86.1 87.0

80.2 88.1 78.5

Tabla 2: Medias de Cantidad Absorbida (mg)

Tiempo de TemperaturaExposición T1 T2 T3 Medias

E1 32.23 91.43 68.10 63.92E2 53.60 74.53 77.40 68.51E3 83.76 87.06 82.83 84.56

Medias 56.53 84.34 76.11 72.33

La tabla 3 corresponde al análisis de la varianza del experimento.

Tabla 3: Tabla de análisis de la varianzaFuente Suma de Grados deVariabilidad Cuadrados Libertad Varianzas F p-valorTemperatura 3673.61 2 1836.80 110.58 0.0000T. Exposición 2112.65 2 1056.32 63.59 0.0000Interacción 2704.44 4 676.11 40.70 0.0000Residual 299.00 18 16.61Total 8789.7 26

1. (a) Interpreta los resultados del análisis de la varianza.

2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-cionan una absorción mayor (95%).

3. Comprueba grá�camente la hipótesis de homocedasticidad e interpreta los resultados.

2.7. Se ha realizado un diseño experimental para determinar la in�uencia de dos factores combinaciónde hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Seestudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido dehidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan losresultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de loscuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestrala tabla de análisis de la varianza del experimento.

3

Tabla 1. Datos y medias entre paréntesisA B C D Medias Etapa

10.3 10.5 7.2 13.0 111.1 8.2 5.3 12.9 1

1 15.3 9.7 12.5 5.3 22.1 8.9 19.1 12.0 2

Medias (9.7) (9.325) (11.025) (10.8) (10.213)

25.8 20.6 29.7 17.6 125.7 17.1 26.3 12.0 1

2 28.9 21.4 22.4 24.6 227.8 17.3 25.9 23.1 2

Medias (27.05) (19.1) (26.075) (19.325) (22.888)

28.5 21.0 30.4 20.5 131.2 26.8 26.6 26.2 1

3 24.8 19.4 34.4 27.8 226.5 22.2 27.5 21.9 2

Medias (27.75) (22.35) (29.975) (24.1) (25.981)

Medias (21.5) (16.925) (22.275) (18.075)

Tabla 2. ANOVA -Suma Grados

Fuentes Cuadrados Libertad Var. F p-valorHidrocarburos 242.5 3 80.85 5.55 .0031Hidrógeno 2234 2 1117 76.7 .0000Interacción 119.3 6 19.88 1.36 .2546Residual 523.7 36 14.55Total 3120 47

1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factorHidrógeno. Indica si existen diferencias signi�cativas con nivel de signi�cación 0.05.

2. Elige el tratamiento que proporciona el rendimiento óptimo, justi�cando la respuesta. Da un inter-valo de con�anza para el valor medio en dichas condiciones con nivel de con�anza del 95%.

3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observacionesque se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisisde la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.

Tabla 3. ANOVA - Etapa 1Suma Grados

Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 115.9 3 38.63 6.07 .0093Hidrógeno 1175.0 2 587.7 92.4 .0000Interacción 218.4 6 36.39 5.72 .0051Residual 76.3 12 6.358Total 1586.0 23

4

Tabla 4. ANOVA - Etapa 2Suma Grados

Fuentes Cuadrados Libert. Var. F p-valorHidrocarburos 162.9 3 54.31 3.35 .0555Hidrógeno 1076 2 537.9 33.19 .0000Interacción 94.94 6 15.82 0.976 .9762Residual 194.5 12 16.21Total 1528 23

¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realizael contraste con � = 0:05)

2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 oC y 320 oC) en laduración de cierto componente. Para cada combinación de horno y temperatura se ha replicadoel experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas(corregidas) de los datos de cada tratamiento.

Temperatura oC290 oC 320 oC

Media Desv. T. Media Desv. T.Horno 1 24.56 0.850 18.00 0.265Horno 2 19.10 1.539 14.40 0.265Horno 3 18.70 0.458 17.43 0.862

Contrasta si existe interacción entre los factores horno y temperatura (� = 0:05):

2.9. Cierto Organismo Público (O.P.) encargado de certi�car la composición de aleaciones de metalespreciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futurosanálisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tresaleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12muestras (codi�cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):

Aleac. A Aleac. B Aleac. C10.96 11.03 10.95 11.00 11.07 11.01

Lab. I 11.08 11.01 11.04 10.97 10.97 11.03(11.02) (10.99) (11.02)

10.97 10.96 10.97 10.96 11.02 11.00Lab. II 10.94 10.95 10.97 10.98 11.01 11.01

(10.955) (10.97) (11.01)

1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontradodiferencias entre las aleaciones.

2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar queveri�can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar paraanalizar los datos.

5

3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios soniguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.

4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y dela C (11.04 %). Con esta información comparar los resultados de los laboratorios.

2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en lasangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestrasde 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado

Enfermo 1 2 3 4 5 MediaEquipo A 215 305 247 221 286 254.8Equipo B 224 312 251 232 295 262.8

Contrastar con � = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)

2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El número de niveles del factores 5 y el número de bloques 8. Construir la tabla ADEVA. ¿Cuál sería el resultado del análisis sino se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada unode los modelos.

2.12. Se realiza un experimento para estudiar si la presencia de �uorita reduce el coste de fabricaciónde clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles depesetas por Tm) se muestran en la siguiente tabla (archivo fluorita2:txt):

FLUORITA MI MII MIII yi�0% 15.4 10.6 17.8 14.61% 10.3 5.5 10.9 8.92% 7.4 1.2 8.1 5.53% 10.7 6.5 9.6 8.94% 13.5 11.6 15.5 13.5y 11.4 7.1 12.4

5Xi=1

3Xj=1

e2ij = 10:2 �y�� = 10:3

1. (a) Determinar si el tipo de mezcla y el nivel de �uorita añadido in�uyen signi�cativamente en elcoste de fabricación. Se supone que no existe interacción entre los dos factores.

(b) Contrastar que porcentaje de �uorita produce el menor coste del clinker.

2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de lavariabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidadtotal es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cadatratamiento para que la interacción sea signi�cativa con � = 0:01: (Explicar el procedimiento decálculo, dejando el resultado indicado en función de las tablas).

6

2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totalescorrespondientes a efectos principales e interacciones de orden 2, 3 y 4.

2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles deacero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiadotres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura delbaño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimentose ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tresdatos de cada tratamiento.

A B C yi s2i1 1 1 40.2 0.251 1 2 61.1 2.681 2 1 35.9 2.431 2 2 57.1 4.442 1 1 49.0 3.492 1 2 70.3 7.772 2 1 46.7 5.082 2 2 67.6 1.033 1 1 41.9 4.273 1 2 62.7 11.413 2 1 37.1 1.333 2 2 60.3 6.13

1. (a) Dar un intervalo del 95 % de con�anza para la varianza del error experimental, �2.

2. Indicar si los efectos principales de A, B y C son signi�cativamente distintos de cero.

3. Dado �2, construir un intervalo que cumpla que la probabilidad de que s2i (la varianza muestralcorregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir �2 por su estimador ycon ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de lasobservaciones.

2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas acuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinaciónincluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentranen la misma proporción en cada animal? Realiza el contraste con nivel de signi�cación 0.05. (Lavariabilidad total es 41.90). (archivo ultrasonidos:txt)

1.a b c Medias

1 11.0 11.4 12.7 11:72 9.8 10.8 13.7 11:433 7.5 10.6 11.5 9:874 7.9 7.6 10.1 8:53

Medias 9.05 10.1 12.0 10.38

7

OTROS EJEMPLOS

2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar lostensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis gruposde tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar elexperimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.

Los resultados son los siguientes:

I II IIIH M H M H M147 122 156 131 127 110

1 124 142 127 133 122 115113 136 155 146 153 105140 108 100 141 114 103

2 130 151 140 125 139 135112 138 105 139 126 114

Conteste a las siguientes preguntas:

� ¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?

� ¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?

� ¿Hay diferencia entre hombres y mujeres?

� Comprobar si hay interacción entre descanso y sexo.

� Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.

En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-cante y sexo.

2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.

Se pide contestar a las siguientes preguntas:

� ¿Existen diferencias entre los fertilizantes?

� ¿Existen diferentes entre las semillas?

� Estudiar si la interacción entre las semillas y fertilizantes es signi�cativa.

� Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.

En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.

8

A B C1 14.3 18.1 17.6

14.5 17.6 18.211.5 17.1 18.913.6 17.6 18.2

2 12.6 10.5 15.711.2 12.8 17.511.0 8.3 16.712.1 9.1 16.6

2.19. Se ha realizado un experimento para estudiar la in�uencia de dos factores en el rendimientode un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), yel catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan losresultados que se muestran en la siguiente tabla.

Temperatura

Alta Media Baja

Catalizador 1 279 174 397172 277 348176 130 434

Catalizador 2 253 252 417238 367 427387 323 423

� ¿De qué modelo se trata?

� ¿Qué efectos son signi�cativos?

� ¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?

2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a lacompresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes(mezcladores) durante un tiempo �jo. Después, la resistencia de las probetas generadas ha sido medidapor otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se handividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgadacuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.

9

Medidor 1 Medidor 2 Medidor 3

Mezclador 1 5280 4340 41605520 4400 51804760 5020 53205800 6200 4600

Mezclador 2 4420 5340 41805280 4880 48005580 4960 46004900 6200 4480

Mezclador 3 5360 5720 44606160 4760 49305680 5620 46805500 5560 5600

� ¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetasgeneradas por cada mezclador?

� ¿Es signi�cativa, con nivel de signi�cación del 5%, la interacción entre medidores y mezcladores?

� ¿Se cumplen las hipótesis del modelo?

2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variablesmás importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Losresultados del experimento son los siguientes:

PresiónTemperatura 200 215 230

Baja 90.4 90.7 90.2Baja 90.2 90.6 90.4Media 90.1 90.5 89.9Media 90.3 90.6 90.1Alta 90.5 90.8 90.4Alta 90.7 90.9 90.1

Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:

� ¿Qué conclusiones se pueden sacar de los datos?

� ¿Bajo qué condiciones podría operar este proceso?

� ¿Existe interacción entre temperatura y presión?

� Compruebe las hipótesis del modelo.

10

2.22. Se realiza un experimento para estudiar la in�uencia de la temperatura de operación y de trestipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentranlos resultados obtenidos que se presentan a continuación:

TemperaturaCristal 100 125 150

580 1090 13921 568 1087 1380

570 1085 1386550 1070 1328

2 530 1035 1312579 1000 1299546 1045 867

3 575 1053 904599 1066 889

� ¿Hay diferencia entre las temperaturas?

� ¿Hay diferencia en el cristal? ¿Cúal es el mejor?

� Estudie si existe interacción entre la temperatura y el cristal.

2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseñoun experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintasvariedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.Los resultados obtenidos en gramos fueron los siguientes:

I II III IV V1 296 357 340 331 3482 402 390 431 340 3203 437 334 426 320 2964 303 319 310 260 2425 469 405 442 487 3946 345 342 358 300 3087 324 339 357 352 2208 488 374 401 338 320

Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientespreguntas:

� ¿Existen diferencias entre las variedades?

� ¿Cúal es la mejor y la peor?

� La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir¿cuál elegiría?

� Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad eindependencia.

11

Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto delterreno.

2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendola variable respuesta producción en kg.

Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestrasde licor de maíz. A continuación se presenta la tabla de los datos.

A B C D1 89 88 97 942 84 77 92 793 81 87 87 854 87 92 89 845 79 81 80 88

� ¿Cómo afectan los procedimientos y la materia prima?

� ¿Cuál es el mejor procedimiento y materia prima?

� Realice la diagnosis del modelo

En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloquemezcla.

2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar elcomportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de sucompilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada parala ejecución (dado en �s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. Eltiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés([-�,�],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Seproporcionan también los nombres de las funciones escalares consideradas.

Función Sistema IBM4331 4361 4341

EDUM 9,90 3,07 4,88ACOS CIRC [��; �] 179,62 33,28 33,23SEN LINEAL [��; �] 105,72 24,13 27,08EXP LINEAL [�16; 16] 254,82 39,14 37,46D2DUM 13,47 4,63 5,72

� El interés principal del experimento era el estudio de la e�cacia de los tres sistemas ¿ha resultadoadecuada la estrategia?

� Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.

2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estadode corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaronmuestras de agua corriente haciendo variar los factores Campus, Tipo de edi�cio y antigüedad del edi�cio.

12

Se midió la concentración de hierro en el agua corriente (mg=dm3) y para cada posible combinación defactores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que sepresentan en la siguiente tabla.

Factor Concentración de FeAntigüedad Tipo CampusViejo Académico Medford 0,23 0,28Nuevo Académico Medford 0,36 0,29Viejo Residencial Medford 0,03 0,06Nuevo Residencial Medford 0,05 0,02Viejo Académico Somerville 0,08 0,05Nuevo Académico Somerville 0,03 0,08Viejo Residencial Somerville 0,04 0,07Nuevo Residencial Somerville 0,02 0,06

� Identi�que el modelo de que se trata, estime sus parámetros y realice la diagnosis.

� Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.

� Estudie las interacciones e interprete las que resulten signi�cativas.

13

3. Regresión

1: Regresión simple I (Estimación y Contrastes)2: Regresión simple II (Diagnosis y transformaciones)3: Regresión Múltiple I (Estimación y Contrastes)4: Regresión Múltiple II (Variables cualitativas y

predicción)

CURSO 2021/2022

2Regresión Lineal

Regresión simple consumo y peso de automóviles

Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

),0(, 210 Nuuxy iiii

3Regresión Lineal

ix

iyx10

Modelo

),0(, 210 Nuuxy iiii

ix10 osdesconocid parámetros:,, 2

10

4Regresión Lineal


� Linealidad� E[yi ]= 0+ 1xi

� Normalidad� yi|xi N ( 0+ 1xi, 2)

� Homocedasticidad� Var [yi|xi] = 2

� Independencia� Cov [yi, yk] = 0

21

0

Parámetros

5Regresión Lineal

Estimación

xyx

yx

n

xx

n

xxyy

nxxnyx

xy

xxyxxxyddM

xnyxyddM

xyM

i

ii

n

ii

n

iii

i

n

iii

iiii

n

iiii

ii

n

iii

n

iii

101

1

2

11

210

1

10

210

110

0

101

100

1

21010

ˆˆ;)var(

),cov(ˆ

)(ˆ

))((

ˆˆ

ˆˆ

ˆˆ0)ˆˆ(

ˆˆ0)ˆˆ(

)(),(

6Regresión Lineal

Estimación

ni i

ni ii

i

ii

xxyyxx

xyx

xy

12

11

10

)())((

)var(),cov(ˆ

ˆˆ

n

iii xy

1

210 )(Mín

Mínimos cuadrados

n

iiinn xyMax

1

21022/ )(

21

21

exp

Máxima verosimilitud

7Regresión Lineal

xy 10ˆˆˆ

Recta de regresión

x

y

xy 10ˆˆ

Pendiente

1ˆ

)var(),cov(

1i

ii

xyx

8Regresión Lineal

Estimaciónconsumo y peso de automóviles

Núm. Obs. Peso Consumo(i) kg litros/100 km1 981 112 878 123 708 84 1138 115 1064 136 655 67 1273 148 1485 179 1366 1810 1351 1811 1635 2012 900 1013 888 714 766 915 981 1316 729 717 1034 1218 1384 1719 776 1220 835 1021 650 922 956 1223 688 824 716 725 608 726 802 1127 1578 1828 688 729 1461 1730 1556 15

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

071.07.10170117.087.11ˆˆ

0117.06.104446

2.1225)var(

),cov(ˆ

10

1

xy

xyx

i

ii

9Regresión Lineal 9Regresión Lineal

10Regresión Lineal


12Regresión Lineal

ResiduoPrevistoValor

ˆˆ

observadoValor 10 iii exy

ix

iy

ii xy 10ˆˆˆ

ie

Residuos iii

n

ii

R yyen

es ˆ;

2ˆ 1

2

2

13Regresión Lineal

= 2= 1.54 /

14Regresión Lineal

= 2= 1.543 /

15Regresión Lineal

Distribución de 1ˆ

2

22

1

2

222

221

21

22111

110

102211

22111

22111

210

)(

)][(][][][][]ˆ[

)()()][(][][][

][]ˆ[

normales de lineal Comb.ˆ),(

x

n

ii

inn

nn

iii

iinn

nn

nn

ii

nsw

yVarywyVarwyVarwywywywVarVar

xwwxyEyEwyEwyEw

ywywywEE

ywywyw

xNy

2

2

11 ,ˆxns

N

Parámetro y estimador

16Simple Linear Regression

1ˆ

087.02.330

54.1ˆ)ˆ( 1X

R

snsSE

kg 100km/100 cada litros 1.17100km/kg cada litros 0117.01

33.101.116.017.1

08.005.217.1

ˆˆ

1

1

1

2/11x

R

snst

1

t /2-t /2

/2

tn-2

.

1-

t28

2.05-2.05

Desviación típica de


1ˆ

X

R

snsSE ˆ)ˆ( 1

La precisión en la estimación de la pendientemejora si:1. La Desv. Típica residual es pequeña2. La muestra n es grande3. Los valores de x tienen mucha dispersión

18Regresión Lineal

R2

222

2

21

2ˆ)2(

nR

n

ii sn

e

00

),0(

ˆˆ

222

12

221

2

21010

iii

n

ni i

nni i

i

iiiiii

xeeeu

Nuexyuxy

19Regresión Lineal

Contraste principal de regresión: ¿depende y de x?

0:0:

11

10

HH

ix

iy

ix

iy

iii uxy 10 ii uy 0

H0 es falso

x e y están relacionadosH0 es cierto

x e y no están relacionados

20Regresión Lineal

ii xy 10ˆˆˆ

0:0:

11

10

HH

Contraste sobre la pendiente

t /2-t /2

/2

tn-2

R.R. R.R

R. Acept.

1-

),(ˆ11

xsnN

21111

ˆˆ

)1,0(ˆ

n

x

R

x

t

snsN

sn

Ho rechaza Se

;ˆˆ

2/;21

11

n

x

R

tt

snst

21

0 rechaza e05.24.13 HS

2.05-2.05

0.025

t28R.R. R.R

4.13)2.32330/(54.1

017.00t

0.025

Ejemplo: = 0.05

0:0:

11

10

HH 54.1ˆ;0117.0071.0ˆ Rii sxy

…

El peso influye significativamente en el consumo

Con =0.05 “x” influyesignificativamente en “y”

Area Azul = p-valor

0 05 “ ”P- P-valor >

= 0.05

0:0:

11

10

HH

Con =0.05 “x” NO influyesignificativamente en “y”

0: 11H 0: 10H

P-valor

23Regresión Lineal

ii xy 10ˆˆˆ

0:0:

01

00

HH

Ho rechaza Se

;1ˆ

ˆ

))1(,(ˆ

2/;20

2

20

0

2

22

00

n

x

R

x

tt

sx

ns

t

sx

nN

Contraste: ordenada en el origen

24Regresión Lineal

25Regresión Lineal

Descomposición de la variabilidad en regresión

VNEVEVTiyiyyiyyy

iyiyyiyyy

yiyiyiyyiyiy

e

iyxy

uxy

n

i

n

i

n

ii

i

i

iii

iii

1

2

1

2

1

2

10

10

)ˆ()ˆ()(

sumando)y cuadrado al elevando()ˆ()ˆ()(

) restando()ˆ(ˆ

ˆˆ

ˆˆ

26Regresión Lineal

Coeficiente de determinación R2

221

1

2211 ˆ)(ˆ:)(ˆˆ x

n

iiii nsxxVExxyy

VNEVEVT

VTVER2

regresor elpor explicado estáque VT de porcentaje el Mide

10 2Rn

ii

n

iii

n

ii

yyVT

yyVNE

yyVE

1

2

1

2

1

2

)(

)ˆ(

)ˆ(

27Regresión Lineal

Coef. determinación

12R 80.02R

50.02R 02R

28Regresión Lineal

ii xy 10ˆˆˆ0:

0:

11

10

HH

Contraste F

1ˆ

ntesindependieson ,

ˆ)2(

cierto) es H (Si

22

222

2

21

2

2

o212

VNEVE

sneVNE

VE

nR

ni i

212ˆ2 n,R

Fs

VE)VNE/(n-

VEF

0H rechaza Se FF

29Regresión Lineal

ii xy 10ˆˆˆ

0:0:

11

10

HH

Contraste F

2,12

22o

2

ˆ

]ˆ[

cierto) es H (Si][

nR

R

FsVEF

sE

VEE

0H rechaza Se FF

= 0.05F

Rechazo H0Acep. H0F1,n-2

= 0.05

4.2

30Regresión Lineal

ii xy 10ˆˆˆ

0:0:

11

10

HH

Contraste F

1.17538.2

8.416ˆ

38.2ˆ

8.416)ˆ(

2

21

R

R

n

iii

sVEF

s

yyVE

0H rechaza Se 2.41.175

F1,28



1)((VT) Total

2ˆ2)ˆ((VNE)Residual

ˆ)ˆ(

)ˆ(1)ˆ((VE)Explicada

FVarianzasLibertadCuadradosFUENTES de Gradosde Suma

2

2

2

222

nyyRsnyy

syy

yyyy

i

ii

R

iii

2

22

)()ˆ(

yyyy

VTVER

i

i



294.483(VT) Total38.22864.66(VNE)Residual

1.1758.41618.416(VE)Explicada


862.02R

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

33Regresión Lineal

Ejemplo: R2Núm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

;0117.0071.0ˆ ii xy

38.2ˆ2Rs

%2.864.4838.416

4.483

64.66)ˆ(

8.416)ˆ(

2

1

1

R

VNEVEVT

yyVNE

yyVE

n

iii

n

ii

34Regresión Lineal

Ejemplo 2: Pearson-Lee Data


Datos interesantes


37Regresión Lineal

38Regresión Lineal

La recta de regresión (línea roja) tiene pendiente menor que 1 (línea negra) , lo que significaque las madres altas en general tienen hijas que son más altas que la media (pues lapendiente es positiva) pero más bajas que ellas (porque la pendiente es menor que uno). Deforma similar, las madres bajas tienen hijas más bajas , pero más altas que sus madres.Este resultado es el origen del término “regresión”, que indica que los valores extremos deuna generación tienden a regresa o revertir hacia la media en la siguiente.


Conclusiones Principales1. Hay una relación muy significativa entre la altura de las

hijas y la altura de la madre (p-valor es prácticamente 0)

2. La relación es positiva: “A madre alta hija alta.”

3. La desviación típica de la pendiente (standard error) es

4. La estatura de la madre solo explica el 24% de la estaturade la hija (R-squared = 0.24)

5. Dada la estatura de la madre se puede predecir la estaturade la hija con un error medio de 2.266 pulgadas (sR).

54.01

590.049.00254.096.154.00259.0)ˆ(

1

11SE

Regresión2: Regresión simple II (Diagnosis y

Transformaciones)

Diagnosis del Modelo

La estimación está basada en las siguientes hipótesis:

� Linealidad� Normalidad� Homocedasticidad� Independencia

Observaciones Atípicas (muy perjudiciales)

41Regresión Lineal

ix

iyx10

ix

iyx10

Las hipótesis se comprueban con los RESIDUOS

42Regresión Lineal

Análisis de los ResiduosNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

-0,23-2,280,59-1,61-0,86-0,352,052,220,89-0,49-3,350,091,56-1,48-0,060,842,970,281,450,860,00-1,33-0,061,66-0,44-1,00-0,07-3,18

-0,441,77 iii yye ˆ

43Regresión Lineal

Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

0

5

10

15

20

25

500 700 900 1100 1300 1500 1700

Peso (Kg)

Cons

umo

(litro

s/10

0 Km

)

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

44Regresión Lineal

Diagnosis del ModeloNúm. Obs. Peso Consumo Predicción Residuos

(i) kg litros/100 km1 981 11 11,44 -0,442 878 12 10,23 1,773 708 8 8,23 -0,234 1138 11 13,28 -2,285 1064 13 12,41 0,596 655 6 7,61 -1,617 1273 14 14,86 -0,868 1485 17 17,35 -0,359 1366 18 15,95 2,0510 1351 18 15,78 2,2211 1635 20 19,11 0,8912 900 10 10,49 -0,4913 888 7 10,35 -3,3514 766 9 8,91 0,0915 981 13 11,44 1,5616 729 7 8,48 -1,4817 1034 12 12,06 -0,0618 1384 17 16,16 0,8419 776 12 9,03 2,9720 835 10 9,72 0,2821 650 9 7,55 1,4522 956 12 11,14 0,8623 688 8 8,00 0,0024 716 7 8,33 -1,3325 608 7 7,06 -0,0626 802 11 9,34 1,6627 1578 18 18,44 -0,4428 688 7 8,00 -1,0029 1461 17 17,07 -0,0730 1556 15 18,18 -3,18

;0117.0071.0ˆ ii xy 38.2ˆ2Rs

648

;7x ˆ 222222222222222222222222222222222222222222222222222222222Rs

No linealidad

45Regresión Lineal

No homocedasticidad

46Regresión Lineal

No homocedasticidad, ni linealidad

47Regresión Lineal

Observaciones atípicas

48Regresión Lineal

Residuos Aceptables

49Regresión Lineal

50Regresión Lineal

Normalidad de los Residuos

Herramientas de comprobación:� Histograma de residuos� Gráfico de probabilidad normal (Q-Q plot)� Contrastes formales (Kolmogorov-Smirnov)

Ejemplo de coches

Residuos-9 -6 -3 0 3 6 9

0

20

40

60

80

100

120

-6 -4 -2 0 2 4 6Residuos

0,115

2050809599

99,9

prob

abili

dad

51Regresión Lineal

Comprobación de la linealidad y homocedasticidad � Ambas hipótesis se comprueban

conjuntamente mediante gráficos de los residuos� Frente a valores previstos� Frente al regresor.

� En muchas ocasiones se corrige la falta de linealidad y la heterocedasticidadmediante transformación de las variables.

iii

iii

uxyuxy

110

110

logloglog

52Regresión Lineal

Residuos – Regresor o Val.Previstos

0

ix

ie

0

ix

ie

0

ix

ieLineal y homocedástico No lineal y homocedástico

Lineal y no homocedástico

0

ix

ie

No lineal y no homocedástico

Coches (ejemplo 1): Consumo ~ Peso

53Regresión Lineal

Normalidad ok Linealidad ok y Homocedasticidad ok

Cars (Ejemplo 2): mpg ~ weight

54Regresión Lineal

DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con información del siete variables: consumo (mpg), cc (engine), potencia (horse), peso (weight), tiempo de aceleración (accel), origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de cilindros (cylinders)

OBJETIVO: Estimar el modelo de regresión simple entre el consumo (mpg) y el peso (weight)

Cars: mpg ~ weight

55Regresión Lineal

mpg = 49.20 0.0076 weight(0.802) (0.00025)= 0.69 = 4.34

No hay linealidad ni homocedasticidad

Figura 2.1 Figura 2.2

Cars: cons ~ weight

56Regresión Lineal

TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”

cons = 235.1/mpg

Y X

…

Cars: cons ~ weight

57Regresión Lineal

cons = 0.7689 + 0.0040 weight(0.3298) (0.00011)= 0.79 = 1.78

TRANSFORMACIÓN: En lugar de medir el consumo en millas por galón (mpg), vamos a cambiar a “litros cada 100 km (cons)”

cons = 235.1/mpg

Cars: Cambio Variable

58Regresión Lineal


Mejora la linealidad y homocedasticidad

Cars: Normalidad

59Regresión Lineal


Normalidad no es problemática

Cars: Instrucciones con R

60Regresión Lineal

> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT

> mod_cars<-lm(mpg ~ weight, data = cars) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)> summary(mod_cars) % MUESTRA Resumen del modelo de regresión

> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)

> plot(cars$weight,cars$mpg,pch=19,col="blue") % DIBUJA Figura 2.1> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1

> plot(cars$weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2> abline(c(0,0),col="red",lty=2,lwd=2)

61Regresión Lineal

Tabla 2.1


62Regresión Lineal

> cars$cons <- 235.1/cars$mpg % cambio variable> m2 <- lm(cons ~ weight, data = cars) % nuevo modelo

> plot(cars$weight,cars$cons,pch=19,col="blue") % Figuras 2.3 y 2.4 > abline(m2,col="red",lwd=2)> plot(cars$weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))> abline(c(0,0),col="red",lwd=2,lty=2)> abline(c(5,0),col="red",lwd=2,lty=2)> abline(c(-5,0),col="red",lwd=2,lty=2)

> hist(residuals(m2), xlab="residuos", col="red", nclas=20) % figuras 2.5 y 2.6> qqnorm(residuals(m2), col="blue", pch=19) > qqline(residuals(m2), col="red", lwd=2, lty=2)

> summary(m2) % resumen del modelo m2 (tabla 2.2)


Forbes (Ejemplo 3)


Ejemplo “Forbes”En un artículo de 1857 un físico escocés llamadoJames D. Forbes presentó una serie de experimentosrealizados para estudiar la relación entre presiónatmosférica y punto de ebullición del agua. Forbessabía que la altitud podía ser determinada a partir dela presión atmosférica medida con un barómetro, conmenores presiones a medida que aumenta la altitud. Amediados del siglo XIX los barómetros eraninstrumentos muy frágiles y Forbes pensó que sepodía sustituir la medidas de la presión con medidasde la temperatura de ebullición del agua. Recogiódatos de 17 emplazamientos en los Alpes y losmontes de Escocia. En cada lugar se midió con unbarómetro la presión en pulgadas de mercurio (Pres)y la temperatura de ebullición del agua en gradosFahrenheit (Temp) empleando un termómetro. Losdatos se encuentran en el archivo “forbes.txt”

“forbes.txt”

Temp Pres1 194.5 20.792 194.3 20.79 3 197.9 22.404 198.4 22.675 199.4 23.156 199.9 23.357 200.9 23.898 201.1 23.99 9 201.4 24.02 10 201.3 24.0111 203.6 25.1412 204.6 26.5713 209.5 28.4914 208.6 27.76 15 210.7 29.0416 211.9 29.8817 212.2 30.06

Weisberg, S. (2005). Applied Linear Regression, 3rdedition. New York: Wiley.

Forbes: Modelo Inicial

64Regresión Lineal

Temp Pres Pred Resid1 194.5 20.79 20.639 0.15115522 194.3 20.79 20.534 0.25573373 197.9 22.40 22.417 -0.01667904 198.4 22.67 22.678 -0.00812525 199.4 23.15 23.201 -0.05101766 199.9 23.35 23.462 -0.11246387 200.9 23.89 23.985 -0.09535628 201.1 23.99 24.090 -0.09993479 201.4 24.02 24.247 -0.226802410 201.3 24.01 24.195 -0.184513111 203.6 25.14 25.397 -0.257165712 204.6 26.57 25.920 0.649941913 209.5 28.49 28.482 0.007769214 208.6 27.76 28.012 -0.251627715 210.7 29.04 29.110 -0.069701716 211.9 29.88 29.737 0.142827417 212.2 30.06 29.894 0.1659597

Pres = 81.06 + 0.523 Temp(2.05) (0.010)= 0.994 = 0.233 Tabla 3.1

Forbes: Conclusiones Modelo Inicial

65Regresión Lineal

• Según la figura y el valor R-cuadrado (0.994) el ajuste es muy bueno.

• Comparando los valores Previstos con los Observados (Pred) observamos que las diferencias (residuos) son pequeñas ( = 0.233)

• Los dos parámetros del modelo son muy significativos (entre paréntesis se proporcionan las desv. típicas. estimadas de los parámetros estimados)


Forbes: Diagnosis

66Regresión Lineal

En el gráfico de residuos frente al regresor se observa:

• La mayoría de las observaciones muestran no-linealidad• Existe una observación atípica

Forbes: Instrucciones R

67Regresión Lineal

> forbes <- read.table(“forbes.txt”,header=TRUE)> m <- lm(Pres ~ Temp, data = forbes)> summary(m)

68Regresión Lineal

> forbes$Pred <- predict(m)> forbes$Resid <- residuals(m)> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1

Figuras 3.1 y 3.2 > par(mfrow=c(1,2)) > plot(forbes$Temp,forbes$Pres,pch=19,col="blue",

xlab="Temperatura",ylab="Presión")

abline(m,col="red",lwd=2)

> plot(forbes$Temp,residuals(m), pch=19, col="blue", ylab="Residuos",xlab="Temperatura")

> abline(c(0,0),lty=2,lwd=2,col="red")

Forbes: Instrucciones R (cont)

Forbes: Modelo 1

69Regresión Lineal

Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 132.03 -0.24802252 194.3 20.79 131.79 131.85 -0.06889903 197.9 22.40 135.02 135.08 -0.05377004 198.4 22.67 135.55 135.53 0.01877135 199.4 23.15 136.46 136.42 0.03310106 199.9 23.35 136.83 136.87 -0.04111897 200.9 23.89 137.82 137.77 0.05618988 201.1 23.99 138.00 137.94 0.05847619 201.4 24.02 138.06 138.21 -0.155933710 201.3 24.01 138.04 138.12 -0.084456311 203.6 25.14 140.04 140.18 -0.147065812 204.6 26.57 142.44 141.08 11.359944513 209.5 28.49 145.47 145.47 0.001507014 208.6 27.76 144.34 144.66 -0.319735815 210.7 29.04 146.30 146.54 -0.242818116 211.9 29.88 147.54 147.62 -0.079161317 212.2 30.06 147.80 147.89 -0.0870083Lpres = 42.16 + 0.8956 Temp(3.34) (0.016)= 0.995 = 0.379 Tabla 4.1

= 100 × log

Forbes : modelo 1

70Regresión Lineal

En el gráfico de residuos frente al regresor se observa:• Existe una observación claramente atípica • Se ha corregido la falta de linealidad en el resto de las

observaciones.


Forbes: Modelo 1

71Regresión Lineal

• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad (da igual utilizarlogaritmos neperianos o decimales, se ha multiplicado por100 para evitar números muy pequeños en lasestimaciones, no tiene efecto en el análisis)

• La observación atípica tiene mucha influencia en laestimación del modelo, se aprecia como los residuos delresto de las observaciones no tienen media cero.

• Por lo demás el ajuste es muy bueno como se ve en lagráfica y en la tabla 4.1, los valores previstos se parecenmucho a los observados (los residuos son pequeños)

• Conviene eliminar la observación atípica y recalcular.


72Regresión Lineal

> forbes <- read.table(“forbes.txt”,header=TRUE)> m1 <- lm(100*log10(Pres) ~ Temp, data = forbes)> summary(m1)

73Regresión Lineal

> forbes$Lpres <- 100*log10(Pres)> forbes$Pred <- predict(m1)> forbes$Resid <- residuals(m1)> print(forbes,digits=4,print.gap=3) % proporciona tabla 4.1

Figuras 4.1 y 4.2

> par(mfrow=c(1,2))

> plot(forbes$Temp,100*log10(forbes$Pres),pch=19,col="blue",xlab="Temperatura“)

abline(m1,col="red",lwd=2)

> plot(forbes$Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",xlab="Temperatura")

> abline(c(0,0),lty=2,lwd=2,col="red")

Forbes: Instrucciones R (cont)

Forbes: Modelo 2

74Regresión Lineal

Temp Pres Lpres Pred Resid1 194.5 20.79 131.79 131.99 -0.20066992 194.3 20.79 131.79 131.81 -0.02244803 197.9 22.40 135.02 135.02 0.00891074 198.4 22.67 135.55 135.46 0.08370615 199.4 23.15 136.46 136.35 0.10254416 199.9 23.35 136.83 136.80 0.03057837 200.9 23.89 137.82 137.69 0.13239538 201.1 23.99 138.00 137.87 0.13558329 201.4 24.02 138.06 138.13 -0.077474210 201.3 24.01 138.04 138.05 -0.006447511 203.6 25.14 140.04 140.10 -0.058688112* 204.6 26.57 142.44 140.99 1.452732413 209.5 28.49 145.47 145.35 0.116483314 208.6 27.76 144.34 144.55 -0.208816815 210.7 29.04 146.30 146.42 -0.122431816 211.9 29.88 147.54 147.49 0.046634917 212.2 30.06 147.80 147.76 0.0401403Lpres = 41.33 + 0.8911 Temp(1.003) (0.0049)= 0.9996 = 0.1136

Tabla 5.1

= 100 × log(ELIMINANDO OBSERVACIÓN Nº 12)

La obs. 12 no se ha utilizado en la estimación del modelo

Forbes : modelo 2

75Regresión Lineal

En el gráfico de residuos frente al regresor se observa:• No existen observaciones atípicas (las líneas rojas se

encuentran a ±2 )• No se observa ninguna anomalía grave en el qqplot..


Forbes: Modelo 2

76Regresión Lineal

• Se ha realizado la transformación logarítmica de la presiónpara corregir la falta de linealidad y se ha eliminado laobservación 12 (el propio Forbes indica en su artículo quese trataba de un error de medida)

• Comparando el modelo 1 y 2, no se aprecian grandescambios en los parámetros estimados , .

• La desviación típica residual se ha reducidoconsiderablemente de uno a otro, pasando de 0.379 a0.113, y como consecuencia las desviaciones típicas de losparámetros.

• El análisis de los residuos no indican ninguna desviaciónimportante de las hipótesis del modelo


77Regresión Lineal

> # Modelo m2 de Forbes> out <- abs(residuals(m1)) > 3*0.3792> m2 <- lm(100*log10(Pres) ~ Temp, data = forbes[!out,])> summary(m2)

78Regresión Lineal

> # Tabla 5.1> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]> forbes$Pred2 <- P_Lpres> forbes$Resid2 <- 100*log10(Pres)-P_Lpres> print(forbes,digits=5,print.gap=3)

> # Figuras 5.1 y 5.2> par(mfrow=c(1,2)) > plot(forbes$Temp[!out],residuals(m2),

pch=19,col="blue",ylab="Residuos", xlab="Temperatura",ylim=c(-.5,.5))

> abline(c(0,0),lty=2,lwd=2,col="red") > abline(c(-.22,0),lty=2,lwd=2,col="red") > abline(c(+.22,0),lty=2,lwd=2,col="red")> > qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue") > qqline(residuals(m2),col="red",lty=2,lwd=2)

Forbes 2: Instrucciones R (cont)

FEV (Ejemplo 4)

79Regresión Lineal

Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury

Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)

age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...

Tabla 6.1

FEV: Modelo Inicial

80Regresión Lineal

• Tanto en el gráfico de dispersión de FEV y altura (ht) como en el de los residuos del modelo de regresión simple se observa la relación no-lineal entre las dos variables y la heterocedasticidad.


FEV: modelo 1

81Regresión Lineal


log(fev) = 2.27 + 0.052 ht(0.063) (0.0010)= 0.7956 = 0.1508

FEV: modelo 1

82Regresión Lineal


FEV: Modelo 1

83Regresión Lineal

• Se ha realizado la transformación logarítmica de la variablerespuesta (fev) y se ha corregido la falta de linealidad y laheterocedasticidad como se ve en las figuras 6.3 y 6.4

• El histograma y el qqplot (figura 6.5 y 6.6) no muestrangrandes desviaciones de la normalidad.

• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.

• Existe una relación muy significativa entre log(fev) y ht(altura). Un incremento de un pulgada en la estatura suponeun aumento de la capacidad pulmonar del 5% (esteresultado cambiará al considerar otras variables)

• La altura explica un 79% (R2) de la variabilidad del log(fev).

log(fev) = 2.27 + 0.052 ht(0.063) (0.0010)= 0.7956 = 0.1508log(fev)g( ) = 2.27 + 0.05250525 ht(0.063))(( )) (((0.0010))= 00..79567956 = 00..15081

FEV: Modelo m1 con R

84Regresión Lineal

Tabla 6.2

FEV : Instrucciones de R

85Regresión Lineal

> # FEV (ejemplo 4)> dat <- read.table("fev.dat",header=TRUE)> head(dat) #tabla 6.1> m <- lm(fev~ht, data = dat) # modelo m inicial> par(mfrow=c(1,2))> plot(dat$ht, dat$fev,col="blue") # figura 6.1> abline(m,col="red",lwd=2)> plot(dat$ht,residuals(m),col="blue") # figura 6.2> abline(c(0,0),col="red",lwd=2,lty=2)

> m1 <- lm(log(fev) ~ ht, data = dat)> summary(m1) # modelo estimado tabla 6.2> plot(dat$ht,log(dat$fev),col="blue") # figura 6.3> abline(m1,col="red",lwd=2) # figura 6.3> plot(dat$ht,residuals(m1),col="blue") # figura 6.4> abline(c(0,0),col="red",lty=2,lwd=2)> par(mfrow=c(1,2)) # figura 6.5 y 6.6> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")> qqnorm(residuals(m1),col="blue")> qqline(residuals(m1),col="red",lty=2,lwd=2)

Brains (ejemplo 5)

86Regresión Lineal

Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos62 observaciones, 2 variables

Descripción:Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos ydel cerebro en gramos

Variables:brain: Peso del cerebro (gramos)body: Peso del Cuerpo (kilogramos)

FuentesAllison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutionalcorrelates. Science, 194, 732-734.Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley

Tabla 7.1OBJETIVO: Estudiar la relación entre peso del cerebro y peso del cuerpo.

87Regresión Lineal

88Regresión Lineal

Brains: Transformación

89Regresión Lineal

• En la escala original (figura 7.1) no tiene sentido el modelo de regresión lineal.

• Haciendo las transformación logarítmica de las dos variables (figura 7.2) se aprecia una clara relación lineal


Brains: Modelo m1 con R

90Regresión Lineal

Tabla 7.2TaTaTaTaTaTaTaTaTaTTTaTaTaaTTaTaTTTTTTTTTaaaaTaTaaaaaTaTTTTTTTTaaaTaaaaaaTTTTTTTTaTaTaaaTaaaaaaTTaTTTTTTTTTaTaTaaaaaaaaaaTaTTTTTaTTTTaTaTaaaTTTTTTTTTaTaaaTaaaTaTTTTTaTaTaaaaTaTTTTTTaTaTaaaaTTTTTaTaaaTTTTaTaTaaaaTaTTTTTaTaTaaaaTTTTTTTaTaaaaTTTTTTTaTaaaaaaablblblblbblblblblblblblblbblbblbbbbbbbbbbbbbbbbbbbb aaaaaaaa aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 7.7777777777.7.7777777777777777777777777.7.77777777777777777777..7777777.7777...77777.7.2222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222

Brains: modelo 1

91Regresión Lineal


log(brain) = 2.13 + 0.752 log(body)(0.096) (0.028)= 0.9208 = 0.6943

Brains

92Regresión Lineal

• La relación entre el logaritmo de peso del cuerpo y ellogaritmo del peso del cerebro es lineal como se ve en lasfiguras 7.3 y 7.4

• Existen algunas observaciones atípicas pero se puedecomprobar que al eliminarlas los resultados no cambiansustancialmente.

• El log del peso del cuerpo explica el 92% (R2) de lavariabilidad del log del peso del cerebro.

log(brain) = 2.13 + 0.752 log(body)(0.096) (0.028)= 0.9208 = 0.6943

Funciones R para Regresión Simple

93Regresión Lineal

• m <- lm(y~x) Estima el modelo y (variable dependiente) y x (regresor). El modelo lo guarda en m

• summary(m) Modelo estimado• plot(m) Diagnosis• coef(m) Da los coeficientes• residuals(m) Residuos del modelo• fitted(m) Da los valores predichos• deviance(m) Suma de residuos al cuadrado• predict(m) Hace predicciones• anova(m) Tabla ANOVA

Regresión3: Regresión Múltiple I

95Regresión Lineal

Ejemplo regresión múltiple

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Y X1 X2 X3 X4Consumo Cilindrada Potencia Peso Aceleraciónl/100Km cc CV kg segundos

15 4982 150 1144 1216 6391 190 1283 924 5031 200 1458 159 1491 70 651 2111 2294 72 802 1917 5752 153 1384 14... ... ... ... ...

Var. Independienteso regresores

Var. dependienteso respuesta

96Regresión Lineal

Modelo regresión múltiple

osdesconocid parámetros:,,,,, 2210 k

),0(

,2

22110

Nu

uxxxy

i

ikikiii

� LinealidadE[yi] = 0+ 1x1i+ + kxki

� Normalidadyi| x1 ,...,xk Normal

� HomocedasticidadVar [yi|x1 ,...,xk] = 2

� IndependenciaCov [yi, yk] = 0

Estimación

97Regresión Lineal

),0(, 222110 Nuuxxxy iikikiii

1ˆˆ

ˆˆˆˆ

ˆˆˆ

1

2

2

110

110

kn

esyye

xxy

exxy

n

ii

Riii

kikii

ikikii

== =

g.l. = n-k-1

kikii xxy ˆˆˆˆ 110

98Regresión Lineal

Notación matricial

nkknnn

k

k

n u

uu

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

1

11

),( 2I0U

UXY

N

99Regresión Lineal

Estimación mínimo-cuadrática

eXY ˆdonde el vector e cumple

mínimo esn

iie

1

22e

nkknnn

k

k

n e

ee

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

ˆ

ˆˆ

1

11

100Regresión Lineal

Para que ||e||2 sea mínimo, e tiene que serperpendicular al espacio vectorial generado lascolumnas de X

nkii

nii

ni

nknnn

k

k

xe

xee

e

ee

xxx

xxxxxx

1

1 1

1

2

1

21

22212

12111

0

00

,1

11

0eX

eX

T


Mínimos cuadrados

YXXXXXYXeXXXYX

0eX

TTTT

TTT

T

1)(ˆˆˆ

x1

Y

XY ˆˆ

YYe ˆ

x2

x2

x1

Y Solución MC


Matriz de proyección V

1

x1

VYY

V)Y(IeY

VYYYXX)X(XY

XYT1T

ˆˆ

ˆˆPrevistos Val.

V)Y(IVYYXYe ˆ

Residuos TT XXX(XV 1)

Simétrica V=VT

Idempotente VV=V


Distribución de probabilidad de ˆ

1T

1TT1T

T1TT1T

T

T1T

T1TT1T

X)(X

X)X(XXX)(X

XX)(XIXX)(X

CYCCY

XXX)(XCXYC

XX)(XCCYYXX)(X

IXY

2

2

2

2

))()((

][][]ˆ[

][]ˆ[

ˆ) siendo(ˆ

),(

TVarVarVar

EE

Normal

N


Distribución de probabilidad de ˆ

kkkk

k

k

T

kkqqq

qqqqqq

10

11110

00100

11

0

1

0

)(

ˆ

ˆˆ

ˆ XXQ

),(ˆ),(ˆ

2

2

iiii qN

N 1TX)(X

)1()1()dim( kkQ


Residuos

)ˆˆˆ( 110 kikiii xxye

nkknnn

k

k

n e

ee

xxx

xxxxxx

y

yy

2

1

1

0

21

22212

12111

2

1

ˆ

ˆˆ

1

11

ResiduosPrevistosObservados

ˆ eXY


Varianza Residual

212

21

2

212

12

2

]1

[

1][

kne

E

kne

E

e

ni i

ni i

kn

ni ieeT

212

2

12

2

ˆ)1(

1ˆ

knR

ni i

R

skn

kne

s


0:0:

1

0

i

iHH

Ho rechaza Se2/;1

111

2

;ˆ

ˆˆ

ˆ)1,0(

ˆ),(ˆ

kniiiR

ii

kniiRii

ii

iiii

ttqs

t

tqs

Nq

qN

Contraste individual i

ikikii uxxy 110


0:0:

1

0

i

i

HH

Contrastes individuales

t /2-t /2

/2

tn-k-1

R.R. R.R

R. Acept.

1-

1)ˆ(

ˆkn

i

iii t

SEt

Ho rechaza Se

;)ˆ(

ˆ

2/;11

1

11

knttSE

t

/2

kikii xxy ˆˆˆˆ 110

, ( )

Con =0.05 “x” influyesignificativamente en “y”

Area Azul = p-valor

0 05 “ ”P- P-valor >

= 0.05

0:0:

1

0

i

i

HH

Con =0.05 “x” NO influyesignificativamente en “y”

0:1 iH 0:0 iH

P-valor

n-k-1


Estimate Stand Error t value Pr(>|t|)Intercept SE( ) = SE( )

SE( ) = SE( )SE( ) = SE( )

… … … … …

SE( ) = SE( )

Dependiente (y) ~ Independientes (x1, x2,..,xk)Modelo estimado y contrastes


log(fev) = 1.97 + 0.04399 ht + 0.0198 age(0.078) (0.0016)= 0.1476 (0.0031)


Descomposición de la variabilidad en regresión

VNEVEVT

eyyyy

eyyyyyeyy

exxy

ni i

ni i

ni i

iii

iii

ikikii

12

12

12

110

)ˆ()(

)ˆ()()(ˆ

ˆˆˆ

Restando


Coeficiente de determinación R2

regresores los por explicado estáque VTde porcentaje el Mide

10 2R

8071.0526.72536.582

VTVER

526.72990.13536.58

990.13)ˆ(

536.58)ˆ(

1

2

1

2

VT

yyVNE

yyVE

n

iii

n

ii

log(fev) = 1.97 + 0.0439 ht + 0.0198 age(0.078) (0.0016) (0.0031)


Coef. determinación corregido

2

22

ˆ)1(ˆ)1(11

y

R

snskn

VTVNE

VTVNEVT

VTVER

1

)(ˆ 1

2

2n

yys

n

ii

y

11)1(1

111

ˆˆ

1

2

2

22

knnR

knn

VTVNE

ssR

y

R

2R

= 1 (1 0.8071) × =0.8065


0:0:

1210

de distinto es algunoHH k

Contraste general de regresión.

0H rechaza Se FF

ikikii uxxy 110

1,2

2

22

o22

ˆˆ

ˆ

cierto) es H (Siˆ

knkR

E

R

E

FssF

sk

VEs

= 0.05

F

Rechazo H0Acep. H0

F1,n-2

= 0.05

3.01


Contraste F

0H rechaza Se 01.31362

F2,651

0algún :0:

1

210

iHH

1362021.0268.29

ˆˆ

021.0ˆ

268.292436.58ˆ

2

2

2

2

R

E

R

E

ssF

sk

VEs

P-valor = 0.00000…

log(fev) = 1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)



1)((VT) Total

2ˆ1)ˆ((VNE)Residual

ˆˆ

ˆ)ˆ((VE)Explicada


2

2

2

222

nyysknyy

ss

skyy

i

Rii

R

EEi

2

22

)()ˆ(

yyyy

VTVER

i

i



653526.72(VT) Total0215.0651990.13(VNE)Residual

1362268.292536.58(VE)Explicada


8071.0526.72536.582R

log(fev) = 1.97 + 0.0439 ht + 0.0198 age,(0.078) (0.0016) = 0.1476(0.0031)

Ejemplo 1: Cars


…

Y X1 X2 X3 X4

RegresoresDepend

= 1.05 + 0.0058 engine + 0.0369 horse ++ 0.0020 weight + 0.0813 accel

Valores Previstos y Residuos


= 1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accelY X1 X2 X3 X4

Datos Resultados

9.5762)(

9.1037)ˆ(

0.4725)ˆ(

1

2

1

2

1

2

n

ii

n

iii

n

ii

yyVT

yyVNE

yyVE

= 1 = 1037.9386= 2.7= = 47255762.9 = 81.992



Linealidad Homocedasticidad

ok

Normalidad ok

Diagnosis


DIAGNOSIS: residuos ~ regresores


Resumen del modelo

Conclusiones modelo final


1. No se aprecian desviaciones importantes de las hipótesis básicas delmodelo: linealidad, homocedasticidad y normalidad.

2. Se observa relación lineal significativa entre el consumo de los coches y supeso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-valores son menores que 0.05 en elmodelos). Los coeficientes estimadosson positivos, lo que significa que el aumento de cualquiera de las variablesindependientes incrementa el consumo del vehículo. Con las cuatrovariables se explica el 81.99 % de la variabilidad del consumo.

= 1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel= 1.64 = 81.99

Conclusiones modelo final (cont)


3. En el modelo de cuatro regresores el parámetro asociado a aceleración no essignificativo. La inclusión de la variable “aceleración” no mejorasignificativamente el modelo. Eso no implica que no exista relación lineal entreaceleración y consumo (la regresión simple entre estas variables indican relaciónsignificativa con coeficiente negativo).

4. El coeficiente asociado al peso es 0.0020, es muy significativo. Parainterpretarlo es necesario tener en cuenta las unidades: un aumento de una libraen el peso del coche manteniendo constante el resto de las variables produce unaumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor sepuede cambiar manteniendo el resto constante, lo que sólo es posible en losestudios experimentales.) El resto de los coeficientes se interpreta similarmente.


1 2 3 4Modelo engine horse weight accel

0,0320,0009

0,0850,0026

0,0040,0001

-0,6630,062

0,0202 0,0360,0019 0,00530,01313 0,002510,0023 0,00028720,03215 0,00480,00108 0,041

0,0351 0,00260,00432 0,000190,1027 0,3360,0035 0,048

0,00379 -0,16890,0001147 0,0351

0,0052 0,0299 0,002250,0025 0,005 0,00020,01765 0,0539 0,22820,0019 0,0063 0,04590,01006 0,0027 -0,09860,0026 0,000298 0,039

0,04113 0,0025 0,06390,0063 0,00022 0,0489

0,00587 0,03695 0,002018 0,08130,0026 0,0065 0,00031 0,049

1,648 81,75 81,61

1,640 81,99 81,80

1,723 80,05 79,89

1,704 80,50 80,35

1,734 79,75 79,65

1,643 81,86 81,72

1,650 81,67 81,58

1,892 75,90 75,78

1,715 80,18 80,08

1,877 76,28 76,16

78,55 78,49

3,380 22,70 22,50

1,775 78,78 78,67

1,874 76,28 76,22

2,002 72,94 72,87

1,780

134

234

1234

14

23

24

34

123

124

1

2

3

4

12

13

CARS: Todos los modelos

Conclusiones Generales


1. El que la relación lineal entre dos variables sea significativa no implica que existarelación de CAUSALIDAD entre las variables. Se debe interpretar como asociaciónentre las variables: los coches con más pesos presentan mayor consumo que loscoches con menos peso.

2. Cuando se añaden o eliminan variables de un modelo los coeficientes del restocambian. Eso es debido a la correlación entre los regresores. Cuando estascorrelaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre elcosnumo depende del resto de las variables en el modelo. La alta correlaciónentre los regresores hace muy difícil interpretar el significado de loscoeficientes, a este problema se le denomina MULTICOLINEALIDAD.

Conclusiones (cont.)


7. La selección del modelo depende del objetivo. Siempre el modelo con másregresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelosmuy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos elmodelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluyeademás los cc del motor (engine) como regresor con un aumento en R2despreciable (ahora 81.86%). En este modelo los tres coeficientes sonsignificativos. Si añadimos la variable accel, llegamos al modelo completo conR2 igual a 81.99%. El coeficiente de la última variable no es significativo.

8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y conello la variabilidad no explicada. La desviación típica residual también sueledisminuir (hay que tener en cuenta que el denominador de la varianza residualtambién disminuye). Los modelos 23, 123 y 1234 tienen una desviación típicaresidual muy parecida y próxima a 1.64 litros/100km. La interpretación(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datosdel peso (weight), potencia (horse), cc (engine) y aceleración (accel) del cochela distribución de su consumo tiene media la proporcionada por el modelo ydesviación típica 1.64 litros/100km.


Ejemplo 2: Cerezos Negros

Se desea construir un modelo de regresión para obtener el volumen de madera de una “cerezo negro” en función de la altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos.


Cerezos negros: Datos

Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen1 8,3 70 10,30 17 12,9 85 33,802 8,6 65 10,30 18 13,3 86 27,403 8,8 63 10,20 19 13,7 71 25,704 10,5 72 16,40 20 13,8 64 24,905 10,7 81 18,80 21 14,0 78 34,506 10,8 83 19,70 22 14,2 80 31,707 11,0 66 15,60 23 14,5 74 36,308 11,0 75 18,20 24 16,0 72 38,309 11,1 80 22,60 25 16,3 77 42,6010 11,2 75 19,90 26 17,3 81 55,4011 11,3 79 24,20 27 17,5 82 55,7012 11,4 76 21,00 28 17,9 80 58,3013 11,4 76 21,40 29 18,0 80 51,5014 11,7 69 21,30 30 18,0 80 51,0015 12,0 75 19,10 31 20,6 87 77,0016 12,9 74 22,20

Cerezos



Gráficos x-y

1. Se aprecia relación entre las dos variables y el volumen2. El gráfico del volumen versus diámetro presenta ligera curvatura3. El gráfico del volumen versus altura presenta clara heterocedasticidad


Primer modelo:cerezos negros ErrorDiametroAlturaVolumen 210


Falta de linealidadFalta de lin


Transformación

errordiámetro)altura)vol)diámetroalturakvol

20

2

log(log(log( 1


Diagnosis (modelo transformado)

ok


Interpretación

� Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de linealidad y homocedasticidad.

� El volumen está muy relacionada con la altura y el diámetro del árbol (R2= 97.77%)

� El modelo estimadolog(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error

es compatible con la ecuación vol=k Alt Diam2

� La desviación típica residual es sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%.


Multicolinealidad

� Cuando la correlación entre los regresores es alta.

� Presenta graves inconvenientes:� Empeora las estimaciones de los efectos de

cada variable i: aumenta la varianza de las estimaciones y la dependencia de los estimadores)

� Dificulta la interpretación de los parámetros del modelo estimado.


Multicolinealidad: efecto en la varianza de los estimadores

)1(1

)1(

)1()1(1

)1(||

~~~~ˆˆ

var

22110

212

22

21221

12

21221

122

122112

1222

21

222112

211221

2212

122121

2

1

rsrssr

rssr

rsrss

sssrssrs

ssssn

iuixixy

XXXX

XXXXTT

i

SS

SSXXXX

)1()1(

)1()1(ˆˆ

var

212

22

2

21221

212

21221

212

212

21

2

2

1

rnsrsnsr

rsnsr

rns

Ejemplo 3: Tabaco


Ejemplo “Tabaco” Monóxido de Carbono (CO)25 observaciones, 3 variables

Descripción: Se proporciona la producción de monóxido decarbono (co) y el contenido de nicotina (nico) y alquitrán(alq) en 25 marcas diferentes de cigarrillos americanos.

Fuente: Mendenhall, William, and Sincich, Terry (1992),Statistics for Engineering and the Sciences (3rd ed.), NewYork: (Original source: Federal Trade Commission, USA)

Variablesalq contenido en alquitrán mgnico contenido en nicotina mgco monóxido de carbono CO mg

Objetivo: Estudiar la relación entre CO con alquitrán y nicotina

CO ~ nico CO ~ alq


= 1.828= 85.74 = 1.397= 91.68

= 1.413= 91.86

� El coeficiente de la variable “nico” cambia de 12.39 a -2.36.

� En el modelo con dos regresores, el coeficiente de la variable “nico” no es significativo.

� Los standard errors de los coeficientes en el modelo de dos regresores han aumentado considerablemente respecto a los de regresión simple. El de “nico” pasa de 1.05 a 3.78. El cambio para “alq” es mayor.

� Los estadísticos t se han reducido (debido al aumento de los standards errors)

� La desviación típica residual del modelo con dos regresores es mayor que en el modelo de regresión simple “CO ~ alq”


�

�

�= 0.9537

Efecto de la multicolinealidad(alta correlación entre nico y alq)

Efecto de la MulticolinealidadEstudio del efecto de “aceleración” en el consumo de gasolina

Regresión SIMPLE



Regresión Múltiple


Consecuencias de la multicolinealidad� El efecto (coeficiente) de aceleración

es distinto en el modelo de regresión simple y en el de regresión múltiple.

� Los contrastes y p-valores cambian de un modelo a otro

Regresión4. Regresión Múltiple: Variables

Cualitativas y Predicción


Consumo Cilindrada Potencia Peso Aceleración Origenl/100Km cc CV kg segundos

15 4982 150 1144 12 Europa16 6391 190 1283 9 Japón24 5031 200 1458 15 USA9 1491 70 651 21 Europa11 2294 72 802 19 Japón17 5752 153 1384 14 USA12 2294 90 802 20 Europa17 6555 175 1461 12 USA18 6555 190 1474 13 USA12 1147 97 776 14 Japón16 5735 145 1360 13 USA12 1868 91 860 14 Europa9 2294 75 847 17 USA... ... ... ... ... ...

Variables cualitativas como regresores


Variables cualitativas como regresores

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +

+ 4 Acel + JAP ZJAP + USA ZUSA + Error

USAJapónEuropa

Origen

EUROPA siEUROPA si

USA siUSA si

JAPON siJAPON si

ii

iZ

ii

iZ

ii

iZ

EUR

USA

JAP

10

10

10


Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEURl/100Km cc CV kg segundos

15 4982 150 1144 12 0 0 116 6391 190 1283 9 1 0 024 5031 200 1458 15 0 1 09 1491 70 651 21 0 0 111 2294 72 802 19 1 0 017 5752 153 1384 14 0 1 012 2294 90 802 20 0 0 117 6555 175 1461 12 0 1 018 6555 190 1474 13 0 1 012 1147 97 776 14 1 0 016 5735 145 1360 13 0 1 012 1868 91 860 14 0 0 19 2294 75 847 17 0 1 0... ... ... ... ... ... ... ...

Variables cualitativas

Consumo = 0 + 1 CC + 2 Pot + 3 Peso +



Interpretación var. cualitativaConsumo = 0 + 1 CC + 2 Pot + 3 Peso +


• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA

Consumo = 0 + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

• Coches japoneses: ZJAP =1 y ZUSA = 0

• Coches americanos: ZJAP =0 y ZUSA = 1

Consumo = 0 + JAP + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error

Consumo = 0 + USA + 1 CC + 2 Pot + 3 Peso + 4 Acel + Error


Interpretación del modelo

0 + JAP

0

0 + USA

Europeos

Japoneses

Americanos

xi

yRef.

154Regresión Lineal 1515151515544444RReRRRRRRRRRReReReReReReReReReRRRRReRRReReeRReRRRRReReReeRRRReRRReRRRReRRRRReeRRRRRRRRReRReRRRRRRRReeRRRRRReeeeeRRRReeeeReReeeeeRRReeeeeeeeRRRRReeeeeeeeeRReRRRReeeeeeeeeeRRRReeeeeeeRRRRRRReRRR ggrgrgrgrgrggrggrgrggrgrggrgrgrgrrgrrrrgggrrrrrrrggrrrrrrrrrrrrrrrrrrrrrrrrgrrrrrrrrrrrrrreseeeseseesesesesesesesesseseseseeeeeeeeeeeessssssseseeeeeeseeeeeesssssesessssssesseeeeeeseeeesesssssssssseeeeeeeeeeeesesssssssssssseeeeeeeesssssssssssssseeeeeseeseeesssssssssssseeeesesssssssseseese ióiióióióóóóóóióióióióóóóóóóóióióióiiióióóóóóóiiiióóóóóóóióiióóóóóóóóóóóóóiióóóóóóóóiióóóóóiióóóóóióóióiióóiióóóóóóóóóóióiióóóóóóióiiióóóóóóióóóóóiiióóóóóóóóóiiiiióóóóóóóóóóóióiióóóóóóóónnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn LLLLLLLLLLLLLLLLLiLiLiiLLiLiLiLLLLLLLiLiLiiLiLiLiLLLLLLLiLiLiLLLLiLLLLLLLLLLLLLLLLiiLLLLiLLLLiLiLLLLLiiLLLLLLLLLLiLLLLLiLLLLLLLLiLLLLLLiLinnnenenenenneneenenenenenennnnenenneeeeeeenenennnnnnnnnneeeeeeeeeeenennnnnnnnneeeeeeeeeeennnnennnnnnneeeeeeeeeennnnnennnneeeeeeeeeeennnneeeeeeeenneeeeeeeen aaaaalalaaalaaalalaaaaalaaaaaaaaaaaaaalalaa


Interpretación� Se introduce en el modelo la variable cualitativa

origin del vehículo (USA=1, EUR=2,JAP=3). En el modelo se utiliza USA como referencia.

� El p-valor del coeficiente asociado a originJAP es 0.1467 >.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Americanos (manteniendo constante el peso, cc, pot y acel.)

� La misma interpretación para originEUR: no existe diferencia en el consumo de coches EUR y USA.

� Comparando R2 =0.8212 de este modelo con el anterior R2=0.8199, se confirma que el modelo con las variables origin no suponen una mejora sensible.


Modelo de regresión con variables cualitativas� En general, para considerar una variable

cualitativa con r niveles, se introducen en la ecuación r-1 variables ficticias

Y el nivel r no utilizado es el que actúa de referencia

1110,,21

20,1110

121 ririzi

iziiz irii nivel

nivelnivelnivel

nivelnivel

iirrii

kikiiuzzz

xxy

acualitativ variable,112211

110

Ejemplo: BodyNombre: Body (Cuerpo Humano) Exploring Relationships in Body

Dimensions507 Observaciones, 25 Variables

Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, ademásde la edad, peso, altura y género (mujeres = 0, hombres =1) de 507 individuos de los que 247 son hombres y 260 mujeres. Los datos fueronrecogidos entre personas que acudía frecuentemente al gimnasio en USA, la mayoría de ellos entre 20 y 40 años.

Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J. Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics Education Volume 11, Number 2 (2003), www.amstat.org/publications/jse/v11n2/datasets.heinz.html

OBJETIVO: Relación entre el peso y altura diferenciando entre hombres y mujeres.


Body


Estatura Peso

Hombres 177.7cm 78.1 kg

Mujeres 164.9cm 60.6 kg

Diferencia 12.8 cm 17.5 kg

Weight = 0 + 1 Height + HOM ZHOM + Error

Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Interpretación


8.36 kg

A igualdad de ESTATURA, la diferencia de

PESO entre un hombre y una

mujer es8.36 kgFigura 2.1.

Body: Instrucciones con R


# body : modelo de regresión

> body <- read.table("body.txt",header=TRUE)> m.body<-lm(Weight~Height+Gender, data = body)> summary(m.body)

# figura 2.1

> plot(body$Height,body$Weight,col=Gender+2) # Gender +2 asigna el color # rojo (2) a mujeres y el verde (3) a los hombres> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres

FEV (Ejemplo 3)


Ejemplo “Fev” Forced Expiratory Volume (FEV)654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) yfumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En lalección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury

Variablesage años del individuofev variable continua en litrosht variable continua, estatura en pulgadassex cualitativa (mujer=0, hombre=1)smoke cualitativa (No-fumador=0, fumador=1)

age fev ht sex smoke1 9 1.708 57.0 0 02 8 1.724 67.5 0 03 7 1.720 54.5 0 04 9 1.558 53.0 1 05 9 1.895 57.0 1 06 8 2.336 61.0 0 0...

Tabla 6.1

Modelo de regresión


Log(fev) = 0 + 1 ht + 2 age + HOM ZHOM + FUM ZFUM + Error

Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error

Interpretación


1. Todos los coeficientes son significativamente distintos de cero.2. A igualdad del resto de las variables, un aumento de 1cm en la

Estatura produce un incremento en fev del 4.2%3. A igualdad del resto de las variables, un aumento de 1 año en la

Edad produce un incremento en fev del 2.3%4. A igualdad del resto de las variables, los hombres tienen un 2.9%

más de fev que las mujeres.5. A igualdad del resto de las variables, los fumadores tienen un

4.6% menos de fev que los no-fumadores.

IMPORTANTE: El objetivo del estudio era cuantificar el efecto de fumar en la capacidad pulmonar de los jóvenes, el restos de lasvariables del modelo son necesarias (imprescindibles) paradetectar el efecto, aunque juegan un papel secundario.

fev: Instrucciones con R


# ejemplo 3: fev> pulmon <- read.table("fev.dat",header=TRUE)> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke, data = pulmon)> summary(m.pulmon)

# sex es una variable que toma valores 0,1# 0 mujeres# 1 hombres# # smoke es una variable 0,1, también 0 no fumador,# y 1 fumador## Cuando son variables 0,1 no es necesario convertirlas# en variables CUALITATIVAS o FACTOR utilizando la # instrucción # genero=factor(sex,labels=c(“Mujer”,”Hombre”))


Predicción

hx

hy

Media mh|xh Nueva Observ. yh|xh

hx

hm

hm

hy

hx


Predicción de la media mh(Regresión simple)

hx

hm

hx

hy

hhR vsthyhm ˆˆ 2/

))(1(12

2

x

hhh

sxx

nv

hx

hy


Predicción de la media mh(Regresión multiple)

hx

hm

hx

hy

hhR vsthyhm ˆˆ 2/

hx

hy

))()(1(1 1 xxSxx hxT

hhh nv


Intervalos de predicción para una nueva observación yh

hhR vsthyhy 1ˆˆ 2/

hx

hy


kk xxy ˆˆˆˆ 110

Límites de predicción

x

y hhR vsthyhy 1ˆˆ 2/

hhR vsthyhm ˆˆ 2/

Predicción


Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Peso predicho para el PESO MEDIO de hombre de 175cm

Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg

Peso predicho para la media de la distribución del peso de las mujeres de 170cm de estatura

Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg

Intervalos


Int. Confianza Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 75.04 77.33Height=170,Sexo = 0 64.25 63.03 65.47

Int. Predicción Previsto Lim. Inf Lim. SupHeight=175,Sexo = 1 76.19 58.85 93.51Height=170,Sexo = 0 64.25 49.92 81.59

95% confianza

Predicción: Instrucciones R


# ejemplo 3: fev> newbody <- data.frame(Height=170,Gender=0)> predict(m.body, newdata = newbody,interval="confidence")

fit lwr upr1 64.2563 63.03951 65.4731

> newbody <- data.frame(Height=170,Gender=0)> predict(m.body, newdata = newbody,interval="prediction")

fit lwr upr1 64.2563 46.92133 81.59128

> newbody <- data.frame(Height=175,Gender=1)> predict(m.body,newdata = newbody,interval="confidence")

fit lwr upr1 76.18717 75.04465 77.32969

> newbody <- data.frame(Height=175,Gender=1)> predict(m.body, newdata = newbody,interval="prediction")

fit lwr upr1 76.18717 58.85725 93.5171

Otros ejemplos con R


> newcar <- data.frame(horse=130,engine=180,accel=12,origin="USA", weight=3000)> predict(m, newdata = newcar, interval="confidence")

fit lwr upr1 11.84055 11.47096 12.21014

> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)> predict(m.pulmon, newdata= newboy, interval="confidence")

fit lwr upr1 5.33023 5.041005 5.619455> newcars <- data.frame(horse=c(130,140,150)+ ,engine=c(180, 185, 190)+ ,accel=c(10,11,12)+ ,origin=c("USA","JAP","EUR")+ ,weight=c(3000,2000,2500))> pred.w.clim <- predict(m, newdata = newcars, interval="confidence")> pred.w.clim

fit lwr upr1 11.67788 11.197035 12.158722 10.13996 9.440399 10.839523 11.62928 11.027327 12.23123


Modelos de regresion lineal

REGRESION SIMPLE

1. La tabla muestra los mejores tiempos mundiales en Juegos Olımpicos hasta 1976 en carreramasculina para distintas distancias.

y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795x: distancia (m) 100 200 400 800 1500 5000 10000 42196

(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficientede correlacion.

(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).

(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.

(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.Estimar el tiempo previsto para el record olımpico en dicha carrera, dando un intervalode confianza con α = 0.05.

2. Segun la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperaturaconstante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimarel peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se vasoltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica,1 atm = 14.7 psi) y de la masa del gas para el argon.

Presion (psi) Masa (g)52 1.02849 0.95644 0.88039 0.79334 0.72529 0.64525 0.59321 0.52619 0.50019 0.44211 0.3730 0.210

(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguientemodelo de regresion

Pi = β0 + β1mi + ui con ui ∼ N(0, σ2).

Estimar los parametros del modelo y contrastar si el termino independiente es signi-ficativo.

1

(b) Se considera el modelo alternativo

Pi = αmi + ui, con ui ∼ N(0, σ2).

Obtener el estimador de maxima verosimilitud del parametro α, ası como su varianza.

(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significacion 0.05.

(d) Para el segundo modelo, obtener un intervalo de prediccion para la presion cuando lamasa es igual a 1 gramo.

(e) Obtener la varianza del estimador de E[Ph|mh], es decir del valor medio de la presionPh para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el delprimer apartado, ¿que efecto tendrıa sobre la prediccion adoptar el modelo alternativo?

3. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estaturade sus padres (x) obteniendo las siguientes conclusiones:

(a) Existıa una correlacion positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medıan mas que la media era, en promedio,inferior a la de sus progenitores, mientras que los padres con estatura inferior a lamedia en promedio tenıan hijos mas altos que ellos, calificando este hecho como de”regresion” a la media.

Contrastar (α = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante deestimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormentepara una muestra de tamano 100 si la desviacion tıpica (estimada) de β1 es 0.04.

4. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la ve-locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y Hla constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxiasrespecto a la Via Lactea. Se pide:

Galaxia Distancia Velocidad(millones anos luz) (103Km/s)

Virgo 22 1.21Pegaso 68 3.86Perseo 108 5.15Coma Berenices 137 7.56Osa Mayor 1 255 14.96Leo 315 19.31Corona Boreal 390 21.56Geminis 405 23.17Osa Mayor 2 700 41.83Hidra 1100 61.14

Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

2

Nota: Observese que segun el modelo de Hubble la regresion debe pasar por el origen.Tomese 1 ano luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.

(a) Estimar por regresion la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H , la inversa de la constante de Hubble representa laedad estimada del Universo. Construir un intervalo de confianza del 95% para dichaedad .

5. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto materialplastico sometido a traccion y la tension aplicada en toneladas por cm2 (X) se realizaron 10experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70yi 23 20 33 45 67 52 86 74 98 102

Tabla: Alargamiento yi (mm) producidos por la tension xi (Tm/cm2).

(a) Ajustar el modelo de regresion lineal E(Y |x) = β0 + β1x y contrastar (α = 0.01) lahipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar unalargamiento de 50 milımetros, sabiendo que la desviacion tıpica residual vale 10.55.

(b) Si el lımite de elasticidad se alcanza cuando x = 2.2 Tm/cm2, construir un intervalode confianza al 95% para el alargamiento medio esperado en ese punto.

(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nuladebe ser nulo tambien, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores¿Cual es el sesgo del estimador del parametro de la pendiente si se estima segun elmodelo del apartado 1?

6. Estimar por mınimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con lamuestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).

7. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320− 1.2x,sR = 2 y sy = 4. Si el numero de datos ha sido n = 50, contrastar H0 : β1

= −1 frente a laalternativa H1 : β1 < −1.

8. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales yel numero de unidades reparadas en ese tiempo por un equipo de mantenimiento con losresultados mostrados en la siguiente tabla

unidades reparadas 1 3 4 6 7 9 10tiempo de reparacion 23 49 74 96 109 149 154

Se pide:

3

(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla paraconstruir un intervalo de confianza (α = 0.01) para el tiempo medio de reparacion de8 unidades.

(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparacion para un lotede 14 unidades.

(c) Si los tiempos de reparacion fuesen medias de 10 datos. ¿Cual serıa la recta de regresion?

REGRESION MULTIPLE

9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-ciones de una gestora de inversiones, ademas se proporciona el numero de nuevos prestamosdel mes (x1) y el numero de prestamos pendientes (x2).

n x1 x2 y1 80 8 22562 93 9 23403 100 10 24264 82 12 22935 90 11 23306 99 8 23687 81 8 22508 96 10 24099 94 12 236410 93 11 237911 97 13 244012 95 11 236413 100 8 240414 85 12 231715 86 9 230916 87 12 2328

(a) Estima la ecuacion de regresion

yi = β0+ β

1x1i + β

2x2i + ui con ui ∼ N(0, σ2)

incluyendo la varianza del modelo.

(b) Realizar los contrastes individuales e interpretar los coeficientes.

(c) Realiza el contraste general de regresion o contraste de la F. Proporciona el p-valor.

(d) Proporciona la tabla con valores previstos y residuos.

(e) Comprueba las hipotesis del modelo.

4

10. Los fabricantes que utilizan rodamientos en sus productos tienen interes en la fiabilidad deestos componentes. La medida basica de fiabilidad se denomina rating life, y consiste en elnumero de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a estose denota por L10. Los modelos teoricos indica que este valor esta relacionado con la carga(P) a la que se somete el rodamiento, el diametro (D) del rodamiento y el numero de bolas(Z) del mismo, mediante la ecuacion:

L10 =

(

kZaDb

P

)3

.

Se desea comprobar experimentalmente esta ecuacion, para lo cual se realizo un experimentocon rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La informacion que contienees la siguiente:

Com: Codigo de empresa 1, 2, and 3

N: Numero de ensayo (en cada empresa)

Year: Ano del ensayo NA = No disponible

NB : Numero de Rodamiento

P: Carga

Z: Numero de bolas

D: Diametro

L10: Percentil 10

L50: Percentil 50

Slope: Parametro de la distribucion Weibull

Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demas casos.

Com N Year NB P Z D L10 L50 Slope Btype1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 01 2 1937 20 4240 8 .68750 26.200 74.20 1.81 01 3 1937 14 4240 8 .68750 11.100 68.10 1.04 01 4 1937 19 4240 8 .68750 11.800 66.80 1.09 01 5 1937 18 4240 8 .68750 13.500 79.40 1.06 01 6 1938 21 2530 9 .50000 5.800 25.70 1.27 01 7 1938 28 4240 8 .68750 18.300 44.70 2.10 01 8 1938 27 4240 8 .68750 5.620 73.20 0.73 01 9 1940 20 4240 8 .68750 15.800 82.70 1.14 01 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

5

(a) Estima el modelo

log(L10i) = β0 + β1 log(Zi) + β2 log(Di) + β3 log(Pi) + ui con ui ∼ N(0, σ2),

y realiza los contrastes individuales y el contraste general.

(b) Segun el modelo, β3= −3. Realiza el contraste

H0 : β3= −3

H1 : β3 6= −3

Proporciona el p-valor del contraste.

(c) Da un intervalo de confianza para los parametros a y b del modelo teorico.

(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 delsegundo fabricante (informacion en la variable Btype). Estima e interpreta el siguientemodelo de regresion:

log(L10i) = β0+ β

1log(Zi) + β

2log(Di) + β

3log(Pi) +

α2T2i + γ2T2i × log(Zi) + δ2T2i × log(Di) +

α3T3i + γ3T3i × log(Zi) + δ3T3i × log(Di) + ui

(e) Compara el modelo del apartado 1 con el modelo del apartado 4.

11. La matriz de varianzas de tres variables estandarizadas es la siguiente

1 0.8 0.60.8 1 0.20.6 0.2 1

Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.

12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas(

1 0.50.5 1

)

y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2. Calcular la regresion multipleentre y y las dos variables x1, x2 sabiendo que la variable y tiene media cero y varianzaunidad.

13. Para establecer la relacion entre el voltaje de unas baterıas y la temperatura de fun-cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguientetabla

Baterıa 1 2 3 4 5 6 7 8Temperatura 10 10 20 20 30 30 40 40

Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8

6

Se pide:

(a) Contrastar la hipotesis (α = 0.05) de que no existe relacion lineal entre el voltaje y latemperatura.

(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterıas de Cadmio y las 2,4, 6 y 8 conbaterıas de Zinc. Introducir en el analisis anterior una variable cualitativa que tengaen cuenta los dos tipos de baterıas y contrastar si es significativa al 95%.

(c) Dar un intervalo de confianza para el voltaje de una baterıa de Cadmio que va a trabajara 35◦ centıgrados. (Utilizar el modelo estimado en el apartado 2).

(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados ante-riores.

14. La variable y se relaciona con las variables x1 y x2 segun el modelo E(y) = β0+β1x1+β2x2;no obstante se estima el siguiente modelo de regresion que no incluye la variable x2

yi = β0+ β

1x1i.

Justificar en que condiciones el estimador β1 es centrado.

15. Se efectua una regresion con dos variables explicativas E[y] = β0+ β

1x1 + β

2x2. La matriz

de varianzas de x1 y x2 es

[

2 11 3

]

¿Cual de los dos estimadores β1 y β2 tendra menor varianza?

16. Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6

(a) Estimar un modelo de regresion simple con y como variable dependiente y x comoregresor. Indicar si el modelo es apropiado, justificando la respuesta.

(b) Estimar el modeloyi = β0 + β1xi + β2x

2

i + ui

y realizar el contraste H0 : β2 = 0.

(c) Estimar el modeloyi = β

0+ β

1xi + β

2x2

i + β3x3

i + ui

Realizar el contraste general de regresion con α = 0.01. Seleccionar entre los tres elmodelo mas adecuado, justificando la respuesta.

7

17. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrirlos orificios con una lamina de cobre mediante electrolisis. Una caracterıstica esencial delproceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluarel efecto de 7 variables, X1: Concentracion de Cobre, X2: Concentracion de Cloruro, X3:Concentracion de Acido, X4: Temperatura, X5: Intensidad, X6: Posicion y X7: Superficiede la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales ylos resultados de cada experimento se muestran en la tabla.

X1 X2 X3 X4 X5 X6 X7 Y1 1 -1 1 1 1 -1 2.131 -1 1 1 1 -1 -1 2.15-1 1 1 1 -1 -1 -1 1.671 1 1 -1 -1 -1 1 1.531 1 -1 -1 -1 1 -1 1.491 -1 -1 -1 1 -1 1 1.78-1 -1 -1 1 -1 1 1 1.80-1 -1 1 -1 1 1 -1 1.93-1 1 -1 1 1 -1 1 2.191 -1 1 1 -1 1 1 1.61-1 1 1 -1 1 1 1 1.70-1 -1 -1 -1 -1 -1 -1 1.43

Responder a las siguientes preguntas aplicando el modelo de regresion multiple: matrizidentidad de 8× 8.

(a) Estimar el modelo de regresion multiple

yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + β5x5i + β6x6i + β7x7i + ui.

Obtener la descomposicion de la variabilidad del modelo y realizar el contraste

H0 : β1 = β2 = β3 = β4 = β5 = β6 = β7 = 0

frente a la hipotesis alternativa H1: algun βj es distinto de cero.

(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efectosignificativo.

(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar elmodelo y contrastar sus coeficientes. Interpretar los resultados del experimento.

18. El molibdeno se anade a los aceros para evitar su oxidacion, pero en instalaciones nuclearespresenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Seha realizado un experimento para determinar el grado de oxidacion del acero en funcion delporcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigeranteutilizado (R1, R2). Los resultados se muestran en la tabla.

8

Molibdeno (%)Refrig. 0.5% 1% 1.5% 2% MediasR1 26.2 23.4 20.3 23.3 23.3R2 34.8 31.7 29.4 26.9 30.7R1 33.2 31.3 28.6 29.3 30.6R2 43.0 40.0 31.7 33.3 37.0

Media 34.3 31.6 27.5 28.2 30.4

(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de re-frigerante como regresores; estimar el modelo e indicar que parametros son significativos(α = 0.05)).

(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalaciony los correspondientes a las dos ultimas en otra distinta. Escribir un nuevo modelo queincluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dosanteriores. Estimar el nuevo modelo.

(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de unode ellos no influye en el valor de los estimadores βi, (i 6= 0) restantes. ¿ Influye enla varianza residual y en los contrastes ? Explicar este efecto en funcion de que elparametro β del regresor eliminado sea o no nulo.

19. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. Elvolumen y del tronco de arbol puede ser calculado aproximadamente con el modelo

yi = αx1ix2

2i + ui,

segun el cual, el volumen del tronco es proporcional al volumen de un cono con las medidasx1i, x2i, siendo α el parametro (desconocido) de proporcionalidad, mas una componentede error aleatorio ui. La tabla siguiente contiene los datos (en metros y metros cubicos)correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

Obs. x1i x2i yi1 10,1 0,117 0,0622 11,3 0,130 0,0853 20,4 0,142 0,2044 14,9 0,193 0,2275 23,8 0,218 0,4706 19,5 0,236 0,4847 21,6 0,257 0,6238 22,9 0,269 0,7229 19,8 0,297 0,82110 26,8 0,328 1,28011 21,0 0,351 1,03412 27,4 0,376 1,67913 29,0 0,389 2,07314 27,4 0,427 2,02215 31,7 0,594 4,630

9

(a) Estimar α por maxima verosimilitud suponiendo que las variables ui tienen distribucionnormal de media cero, con la misma varianza e independientes.

(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalode prediccion de su volumen (95% de confianza).

(c) En el analisis de los residuos se observa que la varianza de los errores crece con elvolumen del tronco. Para obtener homocedasticidad se propone el siguiente modelotransformado utilizando logaritmos neperianos,

log yi = β0+ β

1log x1i + β

2log x2i + ui

Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumendel tronco del apartado 2.

20. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525oF ) en un bano templado de aceite (t0 = 95 oF ). Para determinar la influencia de lastemperaturas del acero y del bano de aceite en las propiedades finales del material se hanelegido tres valores de la temperatura del acero y tres del bano de aceite,

Temperatura acero (T )

1450 oF1525 oF1600 oF

Temperatura aceite (t)

70 oF95 oF120 oF

y se han realizado los siguientes experimentos:

x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0

donde se ha utilizado la siguiente transformacion (para simplificar calculos)

x1i =Ti − 1525

75y x2i =

ti − 95

25.

Estimar el modelo de regresion

yi = β0+ β

1x1i + β

2x2i + β

3x1ix2i + ui

e indicar que parametros son significativos para nivel de significacion 0.05. Estimar y con-trastar el modelo anterior empleando las variables originales Ti y ti.

10

FORMULARIO DE LA ASIGNATURA

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN

Cátedra de Estadística ETSII – UPM

Versión 2022.02

Tema 1. Análisis de la varianza

1) Comparación de dos tratamientos:

1.a) Modelo: �� = �� + ��, ∀ ∈ �1, ��, � ∈ �1, �� → �(0, �) I : número de tratamientos ��: número de observaciones del tratamiento i-ésimo

1.b) Comparación de medias:

(��•��•)�(��) "# �$�% �$�

→ &'�( donde )*( = '��+'�%'��( )+( + '��+'�%'��( )((

1.c) Comparación de varianzas:

)+(�+()((�((, → -'��+,'��+

2) Comparación de ‘k’ tratamientos:

2.a) Modelo: �� = �� + ��, �� → �(0, �) 2.b) Descomposición de variabilidad:

./ = ∑ ∑ (�� − �••)('2�3+4�3+

.5 = ∑ ��(��• − �••)(4�3+

.�5 = ∑ ∑ (�� − ��•)('2�3+4�3+ = ∑ ∑ 6��('2�3+4�3+

2.c) Tabla Análisis de Varianza:

Suma de Grados deFuentes Cuadrados Libertad Varianzas F

Tratamientos ∑��(��• − �••)( 8 − 1 .5/(8 − 1) ∑ ��(��• − �••)((8 − 1))*(

Residual ∑∑(�� − ��•)( � − 8 )*( = .�5/(� − 8)Total ∑∑(�� − �••)( � − 1

2.d) Intervalos de confianza para medias:

�� ∈ ��• ± &;/( )*<�� 2.e) Contraste dos a dos para la diferencia de medias:

&�� = ��• − ��• − =�� − ��>)*? 1�� + 1��

→ &'�4

Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

Página 2 de 14

Tema 2. Diseño de experimentos

1) Dos factores con interacción ��@ = � + A� + B� + AB�� + ��@ ∀ ∈ �1, ��, � ∈ �1, C�, D ∈ �1, E� ��@ → �(0, �) ; ∑ A� = 0G�3+ ; ∑ B� = 0H�3+ ; ∑ AB�� = 0G�3+ , ∀� ; ∑ AB�� = 0H�3+ , ∀ I : número de niveles factor A J : número de niveles factor B m : número de replicaciones

1.a) Descomposición de variabilidad: ./ = ∑ ∑ ∑ (��@ − �•••)(I@3+H�3+G�3+ .�5 = ∑ ∑ ∑ 6��@(I@3+H�3+G�3+ 6��@ = ��@ − ��• .5(J) = EC ∑ (��•• − �•••)( = EC ∑ (AK�)(G�3+G�3+ .5(L) = E� ∑ (�•�• − �•••)( = E� ∑ (BM�)(G�3+H�3+ .5(J × L) = E ∑ ∑ (AB��)(H�3+G�3+

1.b) Tabla de Análisis de Varianza: Fuentes Suma de Grados deVariabilidad Cuadrados Libertad. Varianza - c − valorJ EC∑(��•• − �•••)( � − 1 )e( = .5(J)/(� − 1) )e( )*(, ceL E�∑(�•�• − �•••)( C − 1 )f( = .5(J)/(C − 1) )f( )*(, cf

J × L E∑∑(��• − ��•• − �•�• + �•••)( (� − 1)(C − 1) )ef( = .5(JL)/(� − 1)(C − 1) )ef( )*(, cefResidual ∑∑∑6��@( �C(E − 1) )*( = .�5/(�C(E − 1))Total ∑∑∑(��@ − �•••)( � − 1

1.c) Comparaciones múltiples (interacción nula): factor A ijk•• − jl•• − =mk − ml>n oKp<q/rst → uvs(r�w) 1.d) Intervalos de confianza (interacción nula): factor A � + A� ∈ ��•• ± &;( · )* / <EC 1.e) Intervalos de confianza (interacción significativa): � + A� + B� + ( AB)�� ∈ ��• ± &;/( · )* / √E

2) Bloques aleatorizados �� = � + A� + B� + �� ∀ ∈ �1, ��, � ∈ �1, C� ; ��@ → �(0, �) ; ∑ A� = 0G�3+ ∑ B� = 0H�3+

I : número de niveles Factor J : número de niveles Bloque

2.a) Descomposición de variabilidad:

./ = ∑ ∑ (�� − �••)(H�3+G�3+ .�5 = ∑ ∑ 6��(H�3+G�3+

.5(/) = C ∑ (��• − �••)(G�3+ .5(L) = � ∑ (�•� − �••)(H�3+ 6�� = �� − ��• − �•� + �••

2.b) Tabla de Análisis de Varianza:

Fuentes Suma de Grados deVariabilidad Cuadrados Libertad. Varianza - c − valorFactor C∑(��• − �••)( � − 1 ){( = .5(/)/(� − 1) ){( )*(, c{Bloque �∑(�•� − �••)( C − 1 )f( = .5(L)/(C − 1) )f( )*(, cfResidual ∑∑6��( (� − 1)(C − 1) )*( = .�5/(� − 1)(C − 1)Total ∑∑(�� − �••)( n-1

2.c) Intervalo de confianza (para los tratamientos): � + A� ∈ ��• ± &;/( )* /<C 2.d) Contraste dos a dos (para los tratamientos): i��• − ��• − =A� − A�>n )*<2/Ct → &(G�+)(H�+)


Página 3 de 14

Tema 3. Modelos de Regresión

1) Regresión lineal simple (RLS)

1.a) Estimación:

BM+ = cov( ��, ��) / var( ��) BM� = � − BM+� )*( = ∑ �2�$2��'�(

1.b) Distribución de estimadores:

BM+ → �(B+, �( (�)�()⁄ ) BM� → � �B�, ��' i1 + ��

��n� ('�() "�� → �'�((

1.c) Contrastes:

=BM+ − B+> i "√' �nt → &'�( =BM� − B�> � "√' #1 + �� t → &'�( 1.d) Descomposición de la variabilidad: .5 = BM+( � )�( .�5 = )*( · (� − 2) ./ = )�( · (� − 1)

2) Regresión lineal múltiple (RLM)

2.a) Estimación:

�� = (�{�)�+�{� )*( = ∑ 6�('�3+� − D − 1 2.b) Distribución de estimadores:

�� → �(�, �((�{�)�+) (� − D − 1))*(�( → �'�@�+(

2.c) Varianza estimadores para k = 2:

var ��BM+BM(�� =⎝⎜⎛

�(�)+((1 − �+(( ) −�+(�(

�)+)((1 − �+(( )−�+(�(�)+)((1 − �+(( ) �(

�)(((1 − �+(( ) ⎠⎟⎞

2.d) Contrastes individuales y contraste general:

C. Individuales: BM� − B�)*<�� → &'�@�+ C. General: .5/D)*( → -@,'�@�+ 2.e) Modelo en diferencias a la media: �� = (��{��)�+��{�� = (��)�+(��) �� → �(�, �(=��{��)�+> = �(�, �((�� · �)�+)

2.f) Coeficiente de determinación ( () y coeficiente de determinación corregido ( ¡ ():

( = .5./ = ∑(�K� − �)(∑(�� − �)( ¡ ( = 1 − )*()�( = 1 − .�5./ · � − 1� − D − 1 = 1 − (1 − () · � − 1� − D − 1

2.g) Cálculo de predicción e intervalo de confianza:

- IC para la media: E¢ ∈ �K¢ ± &£� )*<¤¢¢ - IC para una nueva observación: �¢ ∈ �K¢ ± &;/()*<1 + ¤¢¢

donde ¤¢¢ se calcula: - RLS: ¤¢¢ = +' i1 + (�¥��)�

�� n - RLM (alternativa 1): ¤¢¢ = +' §1 + i(¨¢ − ¨){��+(¨¢ − ¨)n© donde ¨¢ = ª�+,¢ �(,¢ ··· �@,¢«{

- RLM (alternativa 2): ¤¢¢ = ¨¢{(�{�)�+¨¢ donde ¨¢ = ª1 �+,¢ �(,¢ ··· �@,¢«{


Página 4 de 14

4. Instrucciones Esenciales R

0) Previo

maquinas = read.table( 'maquinas.txt', header=T ) # lectura del archivo de texto 'maquinas.txt' head(maquinas) # Muestra las 6 primeras filas del 'data frame' maquinas

View(maquinas) # Abre una ventana nueva y muestra los datos

names(maquinas) # Proporciona los nombres de las variables del 'data.frame' maquinas

maquinas$maq = factor(maquinas$maq) # Transforma una variable numérica a un *factor*

?head # Con ? delante de una función nos proporciona información de la función

#---------------------------------------------------------------------------------------------------------

# Cálculo de probabilidades

dnorm(x, 0, 1) # Función densidad de una distribución normal N(0,1)

pnorm(q, 0, 1) # Función distribución de una distribución normal N(0,1)

qnorm(p, 0, 1) # Función distribución inversa de una distribución normal N(0,1)

F. distr. Inv. F. distrib. F. Densidad Números aleatorios Binomial pbinom qbinom dbinom rbinom

Chi-Cuadrado pchisq qchisq dchisq rchisq

Exponencial pexp qexp dexp rexp

F pf qf df rf

Geométrica pgeom qgeom dgeom rgeom Normal pnorm qnorm dnorm rnorm

Poisson ppois qpois dpois rpois

T-Student pt qt dt rt

#---------------------------------------------------------------------------------------------------------

Instalación del paquete DisRegETSII:

1. Instalar el paquete “devtools” y cargarlo:

install.packages("devtools")

library(devtools)

2. Instalar el paquete utilizando la funcion install_github de devtools install_github("javiercara/DisRegETSII")

1) Comparación de dos tratamientos t.test(rend ~ maq, data = maquinas,

var.equal=T, conf.level = 0.95) # comparación e intervalo de confianza de dos medias t.test(maquinas$rend ~ maquinas$maq,

var.equal=T, conf.level = 0.95) # alternativa a la inst. anterior (válido tmb para var.test, aov)

var.test(rend ~ maq, data = maquinas) # comparación e intervalo de confianza para dos varianzas

2) Comparación de K tratamientos (modelo con factor) centeno = read.table("centeno.txt",header=TRUE) # Lee el archivo

m = aov(rend ~ sem , data = centeno) # Análisis de la varianza (aov) de *rend* en función del factor *sem*

anova(m) # Muestra la tabla de análisis de la varianza del modelo *m*

model.tables(m,"means") # Proporciona las medias de los distintos tratamientos tapply(centeno$rend,centeno$sem,mean) # Otra forma pra proporcionar las medias de los distintos tratam.

tapply(centeno$rend,centeno$sem,sd) # *tapply* es muy útil, puede calcular *sd*, *var*, *length*, etc

residuals(m) # los residuos del modelo (sirve para cualquier modelo)

predict(m) # los valores predichos para cada obs. (sirve para cualquier modelo)

ICplot(m,'sem',alpha = 0.05) # Gráfico de los IC para las medias de cada tratamiento pairwise.t.test(centeno$rend, centeno$sem,

p.adjust.method = 'none') # Comparación de medias dos - a – dos

3) Modelo con dos factores e interacción venenos = read.table("venenos.txt",header=TRUE) # Lee el archivo m1 = aov(tiempo ~ ant*ven ,

data = venenos) # Realiza el aov de *tiempo* en función de dos factores con interacción

m2 = aov(tiempo ~ ant+ven ,

data = venenos) # Realiza el aov de *tiempo* en función de dos factores sin interacción

anova(m1) # Tabla de análisis de la varianza del modelo *m1* model.tables(m1,"means") # Proporciona las medias por filas, columnas, tratamientos y la media global

model.tables(m1,"effects") # Proporciona las estimaciones de los parámetros del modelo

tapply(venenos$tiempo,venenos$ant,mean) # medias para cada antídoto (*ant*)

tapply(venenos$tiempo,list(venenos$ant,

venenos$ven),mean) # Medias de las combinaciones *ant* y *ven* (tratamientos) tapply(venenos$tiempo,list(venenos$ant,

venenos$ven),var) # Se puede utilizar cualquier función, por ejemplo varianza

ICplot(m1, 'ant', alpha = 0.05) # Gráfico de los IC para las medias de los cuatro *ant*

ICplot(m1, 'ven', alpha = 0.05) # Gráfico de los IC para las medias de los tres *ven*

source("interIC.R") # Carga en memoria interIC.R (debe estar en la carpeta) interIC(m1, 'ant','ven', alpha = 0.05) # Gráfico de interacción (IC para las medias de cada tratamiento)


Página 5 de 14

4) Diagnosis del modelo plot(m1) # Realiza los gráficos importantes para la diagnosis

plot(as.numeric(venenos$ven),

residuals(m1)) # Gráfico de residuos para cada veneno

plot(predict(m1),residuals(m1)) # Gráfico de residuos frente a medias de tratamientos qqnorm(residuals(m1)) # QQ plot de los residuos para comprobar normalidad

qqline(residuals(m1)) # añade linea al QQ plot de los residuos

5) Regresión simple

cars1 = read.table("cars.txt"), header = T) # carga los datos (el archivo debe estar en la carpeta)

m0 = lm (mpg ~ horse, data = cars1) # estima el modelo de regresión: mpg = b0 + b1 horse + u

summary(m0) # proporciona los resultados del modelo m0

plot(cars1$horse,cars1$mpg) # gráfico de dispersión entre horse (x) y mpg (y)

abline (m0,col="red",wd=2) # dibuja la recta de reg. estimada en m0 (color rojo y grosor=2)

6) Regresión múltiple

m1 = lm (mpg ~ horse + weight +

accel, data = cars1) # estima el modelo de regresión múltiple

m1a = lm (mpg ~ horse +

I(horse^2) + weight +

accel, data = cars1) # incluye el término horse al cuadrado

m1b = lm (mpg ~ horse + weight +

I(horse*weight) +

accel, data = cars1) # incluye el término horse*weight

m1c = lm (log(mpg) ~ horse + weight +

accel, data = cars1) # utiliza el log de mpg como variable respuesta

7) Regresión múltiple con variables cualitativas

cars1$origin = factor( cars1$origin,

labels = c("USA","EUR","JAP")) # Convierte "origin" a tipo "factor" y se asignan etiquetas

m2 = lm (mpg ~ horse + weight + accel + origin,

data = cars1) # modelo con variable cualitativa (utiliza la 1ª como referencia)

cars1$origin = relevel(cars1$origin,

ref = "EUR") # Cambia el nivel de referencia (por defecto el primero)

m2a = lm (mpg ~ horse + weight + accel + origin,

data = cars1) # modelo con variable cualitativa con EUR como referencia

m2b = lm (mpg ~ weight + accel + origin + horse*origin,

data = cars1) # modelo con parámetros asociados a horse distintos para cada origen

m3 = lm (mpg ~ ., data = cars1) # utiliza todas las variables en cars1 como regresores

anova(m3) # análisis de la varianza del modelo m3

8) Diagnosis del modelo de regresión

plot(m0) # diagnosis del modelo m0

resi = residuals(m0) # residuos para las observaciones en cars1

pred = predict(m0) # valores predichos (ajustados) para las observaciones en cars1

plot(pred,resi) # Diagnosis: comprueba linealidad y homocedasticidad

qqnorm(resi) # Diagnosis: comprueba normalidad

qqline(resi) # añade recta al qqplot para comprobar normalidad

9) Predicción

xnueva = data.frame(engine=180,

horse =100,weight=3000, accel =10,

origin = "JAP", cylinders=4) # coche nuevo para hacer predicción del consumo

predict(m3,xnueva,interval = "confidence") # predicción e intervalo para la media

predict(m3,xnueva,interval = "prediction") # predicción e intervalo para una nueva observación

10) Otras instrucciones para regresión

m4 = step(m3) # a partir de m3 selecciona el modelo utilizando STEPWISE coefficients(m4) # coeficientes del modelo

confint(m4, level=0.95) # intervalo de confianza para los coef. vcov(m4) # matriz de varianza de los parámetros estimados out = influence(m4) # diagnosis sobre datos atípicos

5. Tablas


Página 6 de 14

1) Distribución Normal Estándar

La tabla muestra los valores ¬ tales que (® ≤ ¬).

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586 0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535 0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409 0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173 0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793 0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240 0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490 0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524 0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327 0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891 1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214 1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298 1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147 1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774 1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189 1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408 1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449 1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327 1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062 1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670 2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169 2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574 2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899 2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158 2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361 2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520 2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643 2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736 2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807 2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861 3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900 3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929 3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950 3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965 3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976 3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983 3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989 3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992 3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995 3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997 4.0 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998 4.1 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99999 0.99999

Ejemplo: (® ≤ 1,96) = 0,97500


Página 7 de 14

2) Distribución ·q

La tabla muestra los valores � tales que (�'2 ≥ �) = A

A

n 0.995 0.99 0.975 0.95 0.5 0.05 0.025 0.01 0.005 1 0.00004 0.0002 0.001 0.004 0.455 3.841 5.024 6.635 7.879 2 0.010 0.020 0.051 0.103 1.386 5.991 7.378 9.210 10.597 3 0.072 0.115 0.216 0.352 2.366 7.815 9.348 11.345 12.838 4 0.207 0.297 0.484 0.711 3.357 9.488 11.143 13.277 14.860 5 0.412 0.554 0.831 1.145 4.351 11.070 12.833 15.086 16.750 6 0.676 0.872 1.237 1.635 5.348 12.592 14.449 16.812 18.548 7 0.989 1.239 1.690 2.167 6.346 14.067 16.013 18.475 20.278 8 1.344 1.646 2.180 2.733 7.344 15.507 17.535 20.090 21.955 9 1.735 2.088 2.700 3.325 8.343 16.919 19.023 21.666 23.589 10 2.156 2.558 3.247 3.940 9.342 18.307 20.483 23.209 25.188 11 2.603 3.053 3.816 4.575 10.341 19.675 21.920 24.725 26.757 12 3.074 3.571 4.404 5.226 11.340 21.026 23.337 26.217 28.300 13 3.565 4.107 5.009 5.892 12.340 22.362 24.736 27.688 29.819 14 4.075 4.660 5.629 6.571 13.339 23.685 26.119 29.141 31.319 15 4.601 5.229 6.262 7.261 14.339 24.996 27.488 30.578 32.801 16 5.142 5.812 6.908 7.962 15.338 26.296 28.845 32.000 34.267 17 5.697 6.408 7.564 8.672 16.338 27.587 30.191 33.409 35.718 18 6.265 7.015 8.231 9.390 17.338 28.869 31.526 34.805 37.156 19 6.844 7.633 8.907 10.117 18.338 30.144 32.852 36.191 38.582 20 7.434 8.260 9.591 10.851 19.337 31.410 34.170 37.566 39.997 21 8.034 8.897 10.283 11.591 20.337 32.671 35.479 38.932 41.401 22 8.643 9.542 10.982 12.338 21.337 33.924 36.781 40.289 42.796 23 9.260 10.196 11.689 13.091 22.337 35.172 38.076 41.638 44.181 24 9.886 10.856 12.401 13.848 23.337 36.415 39.364 42.980 45.559 25 10.520 11.524 13.120 14.611 24.337 37.652 40.646 44.314 46.928 26 11.160 12.198 13.844 15.379 25.336 38.885 41.923 45.642 48.290 27 11.808 12.879 14.573 16.151 26.336 40.113 43.195 46.963 49.645 28 12.461 13.565 15.308 16.928 27.336 41.337 44.461 48.278 50.993 29 13.121 14.256 16.047 17.708 28.336 42.557 45.722 49.588 52.336 30 13.787 14.953 16.791 18.493 29.336 43.773 46.979 50.892 53.672 40 20.707 22.164 24.433 26.509 39.335 55.758 59.342 63.691 66.766 50 27.991 29.707 32.357 34.764 49.335 67.505 71.420 76.154 79.490 60 35.534 37.485 40.482 43.188 59.335 79.082 83.298 88.379 91.952 70 43.275 45.442 48.758 51.739 69.334 90.531 95.023 100.425 104.215 80 51.172 53.540 57.153 60.391 79.334 101.879 106.629 112.329 116.321 90 59.196 61.754 65.647 69.126 89.334 113.145 118.136 124.116 128.299 100 67.328 70.065 74.222 77.929 99.334 124.342 129.561 135.807 140.169 110 75.550 78.458 82.867 86.792 109.334 135.480 140.917 147.414 151.948 120 83.852 86.923 91.573 95.705 119.334 146.567 152.211 158.950 163.648

Ejemplo: (χ9( ≥ 19,02) = 0,025


Página 8 de 14

3) Distribución t-Student

La tabla muestra los valores � tales que (&� ≥ �) = A.

A

n 0.2 0.15 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005 1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599 3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924 4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610 5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869 6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959 7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408 8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041 9 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781 10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587 11 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437 12 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318 13 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221 14 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140 15 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073 16 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015 17 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965 18 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922 19 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883 20 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850 21 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819 22 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792 23 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.768 24 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745 25 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725 26 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707 27 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690 28 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674 29 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659 30 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646 40 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551 50 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496 60 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460 70 0.847 1.044 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435 80 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416 90 0.846 1.042 1.291 1.662 1.987 2.368 2.632 2.878 3.183 3.402 100 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390 Inf 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291

Ejemplo: (&9 ≥ 2,262) = 0,025


Página 9 de 14

4) Distribución º(m = », »¼)

La tabla muestra los valores � tales que (-E, � ≥ �) = 0,05. E

n 1 2 3 4 5 6 7 8 9 10 1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 240.543 241.882 2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396 3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786 4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964 5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735 6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060 7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637 8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347 9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137 10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978 11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854 12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753 13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671 14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602 15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544 16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494 17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450 18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412 19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378 20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348 21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321 22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297 23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275 24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255 25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236 26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220 27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204 28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190 29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177 30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165 40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077 50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026 60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993 70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969 80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951 90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938 100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927 Inf 3.841 2.996 2.605 2.372 2.214 2.099 2.010 1.938 1.880 1.831

5�E: (-7,8 ≥ 3,50) = 0,05


Página 10 de 14

Distribución º(m = », »¼) (continuación)


n 12 15 20 24 30 40 60 100 120 Inf 1 243.906 245.950 248.013 249.052 250.095 251.143 252.196 253.041 253.253 254.314 2 19.413 19.429 19.446 19.454 19.462 19.471 19.479 19.486 19.487 19.496 3 8.745 8.703 8.660 8.639 8.617 8.594 8.572 8.554 8.549 8.526 4 5.912 5.858 5.803 5.774 5.746 5.717 5.688 5.664 5.658 5.628 5 4.678 4.619 4.558 4.527 4.496 4.464 4.431 4.405 4.398 4.365 6 4.000 3.938 3.874 3.841 3.808 3.774 3.740 3.712 3.705 3.669 7 3.575 3.511 3.445 3.410 3.376 3.340 3.304 3.275 3.267 3.230 8 3.284 3.218 3.150 3.115 3.079 3.043 3.005 2.975 2.967 2.928 9 3.073 3.006 2.936 2.900 2.864 2.826 2.787 2.756 2.748 2.707 10 2.913 2.845 2.774 2.737 2.700 2.661 2.621 2.588 2.580 2.538 11 2.788 2.719 2.646 2.609 2.570 2.531 2.490 2.457 2.448 2.404 12 2.687 2.617 2.544 2.505 2.466 2.426 2.384 2.350 2.341 2.296 13 2.604 2.533 2.459 2.420 2.380 2.339 2.297 2.261 2.252 2.206 14 2.534 2.463 2.388 2.349 2.308 2.266 2.223 2.187 2.178 2.131 15 2.475 2.403 2.328 2.288 2.247 2.204 2.160 2.123 2.114 2.066 16 2.425 2.352 2.276 2.235 2.194 2.151 2.106 2.068 2.059 2.010 17 2.381 2.308 2.230 2.190 2.148 2.104 2.058 2.020 2.011 1.960 18 2.342 2.269 2.191 2.150 2.107 2.063 2.017 1.978 1.968 1.917 19 2.308 2.234 2.155 2.114 2.071 2.026 1.980 1.940 1.930 1.878 20 2.278 2.203 2.124 2.082 2.039 1.994 1.946 1.907 1.896 1.843 21 2.250 2.176 2.096 2.054 2.010 1.965 1.916 1.876 1.866 1.812 22 2.226 2.151 2.071 2.028 1.984 1.938 1.889 1.849 1.838 1.783 23 2.204 2.128 2.048 2.005 1.961 1.914 1.865 1.823 1.813 1.757 24 2.183 2.108 2.027 1.984 1.939 1.892 1.842 1.800 1.790 1.733 25 2.165 2.089 2.007 1.964 1.919 1.872 1.822 1.779 1.768 1.711 26 2.148 2.072 1.990 1.946 1.901 1.853 1.803 1.760 1.749 1.691 27 2.132 2.056 1.974 1.930 1.884 1.836 1.785 1.742 1.731 1.672 28 2.118 2.041 1.959 1.915 1.869 1.820 1.769 1.725 1.714 1.654 29 2.104 2.027 1.945 1.901 1.854 1.806 1.754 1.710 1.698 1.638 30 2.092 2.015 1.932 1.887 1.841 1.792 1.740 1.695 1.683 1.622 40 2.003 1.924 1.839 1.793 1.744 1.693 1.637 1.589 1.577 1.509 50 1.952 1.871 1.784 1.737 1.687 1.634 1.576 1.525 1.511 1.438 60 1.917 1.836 1.748 1.700 1.649 1.594 1.534 1.481 1.467 1.389 70 1.893 1.812 1.722 1.674 1.622 1.566 1.505 1.450 1.435 1.353 80 1.875 1.793 1.703 1.654 1.602 1.545 1.482 1.426 1.411 1.325 90 1.861 1.779 1.688 1.639 1.586 1.528 1.465 1.407 1.391 1.302 100 1.850 1.768 1.676 1.627 1.573 1.515 1.450 1.392 1.376 1.283 Inf 1.752 1.666 1.571 1.517 1.459 1.394 1.318 1.243 1.221 1.000


Página 11 de 14

5) Distribución º(m = », »q¼)


n 1 2 3 4 5 6 7 8 9 10 1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656 963.285 968.627 2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 39.387 39.398 3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 14.473 14.419 4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980 8.905 8.844 5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619 6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461 7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761 8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295 9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964 10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717 11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526 12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374 13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250 14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147 15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060 16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986 17 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922 18 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866 19 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817 20 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774 21 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735 22 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700 23 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668 24 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640 25 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613 26 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590 27 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568 28 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547 29 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529 30 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511 40 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388 50 5.340 3.975 3.390 3.054 2.833 2.674 2.553 2.458 2.381 2.317 60 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270 70 5.247 3.890 3.309 2.975 2.754 2.595 2.474 2.379 2.302 2.237 80 5.218 3.864 3.284 2.950 2.730 2.571 2.450 2.355 2.277 2.213 90 5.196 3.844 3.265 2.932 2.711 2.552 2.432 2.336 2.259 2.194 100 5.179 3.828 3.250 2.917 2.696 2.537 2.417 2.321 2.244 2.179 Inf 5.024 3.689 3.116 2.786 2.567 2.408 2.288 2.192 2.114 2.048

5�E: (-7,8 ≥ 4,53) = 0,025


Página 12 de 14

Distribución F(α = 0,025) (continuación)

La tabla muestra los valores � tales que (-E, � ≥ �) = 0,025

E

n 12 15 20 24 30 40 60 100 120 Inf 1 976.708 984.867 993.103 997.249 1001.414 1005.598 1009.800 1013.175 1014.020 1018.258 2 39.415 39.431 39.448 39.456 39.465 39.473 39.481 39.488 39.490 39.498 3 14.337 14.253 14.167 14.124 14.081 14.037 13.992 13.956 13.947 13.902 4 8.751 8.657 8.560 8.511 8.461 8.411 8.360 8.319 8.309 8.257 5 6.525 6.428 6.329 6.278 6.227 6.175 6.123 6.080 6.069 6.015 6 5.366 5.269 5.168 5.117 5.065 5.012 4.959 4.915 4.904 4.849 7 4.666 4.568 4.467 4.415 4.362 4.309 4.254 4.210 4.199 4.142 8 4.200 4.101 3.999 3.947 3.894 3.840 3.784 3.739 3.728 3.670 9 3.868 3.769 3.667 3.614 3.560 3.505 3.449 3.403 3.392 3.333 10 3.621 3.522 3.419 3.365 3.311 3.255 3.198 3.152 3.140 3.080 11 3.430 3.330 3.226 3.173 3.118 3.061 3.004 2.956 2.944 2.883 12 3.277 3.177 3.073 3.019 2.963 2.906 2.848 2.800 2.787 2.725 13 3.153 3.053 2.948 2.893 2.837 2.780 2.720 2.671 2.659 2.595 14 3.050 2.949 2.844 2.789 2.732 2.674 2.614 2.565 2.552 2.487 15 2.963 2.862 2.756 2.701 2.644 2.585 2.524 2.474 2.461 2.395 16 2.889 2.788 2.681 2.625 2.568 2.509 2.447 2.396 2.383 2.316 17 2.825 2.723 2.616 2.560 2.502 2.442 2.380 2.329 2.315 2.247 18 2.769 2.667 2.559 2.503 2.445 2.384 2.321 2.269 2.256 2.187 19 2.720 2.617 2.509 2.452 2.394 2.333 2.270 2.217 2.203 2.133 20 2.676 2.573 2.464 2.408 2.349 2.287 2.223 2.170 2.156 2.085 21 2.637 2.534 2.425 2.368 2.308 2.246 2.182 2.128 2.114 2.042 22 2.602 2.498 2.389 2.331 2.272 2.210 2.145 2.090 2.076 2.003 23 2.570 2.466 2.357 2.299 2.239 2.176 2.111 2.056 2.041 1.968 24 2.541 2.437 2.327 2.269 2.209 2.146 2.080 2.024 2.010 1.935 25 2.515 2.411 2.300 2.242 2.182 2.118 2.052 1.996 1.981 1.906 26 2.491 2.387 2.276 2.217 2.157 2.093 2.026 1.969 1.954 1.878 27 2.469 2.364 2.253 2.195 2.133 2.069 2.002 1.945 1.930 1.853 28 2.448 2.344 2.232 2.174 2.112 2.048 1.980 1.922 1.907 1.829 29 2.430 2.325 2.213 2.154 2.092 2.028 1.959 1.901 1.886 1.807 30 2.412 2.307 2.195 2.136 2.074 2.009 1.940 1.882 1.866 1.787 40 2.288 2.182 2.068 2.007 1.943 1.875 1.803 1.741 1.724 1.637 50 2.216 2.109 1.993 1.931 1.866 1.796 1.721 1.656 1.639 1.545 60 2.169 2.061 1.944 1.882 1.815 1.744 1.667 1.599 1.581 1.482 70 2.136 2.028 1.910 1.847 1.779 1.707 1.628 1.558 1.539 1.436 80 2.111 2.003 1.884 1.820 1.752 1.679 1.599 1.527 1.508 1.400 90 2.092 1.983 1.864 1.800 1.731 1.657 1.576 1.503 1.483 1.371 100 2.077 1.968 1.849 1.784 1.715 1.640 1.558 1.483 1.463 1.347 Inf 1.945 1.833 1.708 1.640 1.566 1.484 1.388 1.296 1.268 1.000


Página 13 de 14

6) Distribución º(m = », »w) La tabla muestra los valores � tales que (-E, � ≥ �) = 0,01

E

n 1 2 3 4 5 6 7 8 9 10 1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 6022.473 6055.847 2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399 3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229 4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546 5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051 6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 50 7.171 5.057 4.199 3.720 3.408 3.186 3.020 2.890 2.785 2.698 60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 70 7.011 4.922 4.074 3.600 3.291 3.071 2.906 2.777 2.672 2.585 80 6.963 4.881 4.036 3.563 3.255 3.036 2.871 2.742 2.637 2.551 90 6.925 4.849 4.007 3.535 3.228 3.009 2.845 2.715 2.611 2.524 100 6.895 4.824 3.984 3.513 3.206 2.988 2.823 2.694 2.590 2.503 Inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321

Ejemplo: (-7,8 ≥ 6,18) = 0,01


Página 14 de 14

Distribución F(α = 0,01) (continuación)

La tabla muestra los valores x tales que (-E, � ≥ �) = 0,01

m

n 12 15 20 24 30 40 60 100 120 Inf 1 6106.321 6157.285 6208.730 6234.631 6260.649 6286.782 6313.030 6334.110 6339.391 6365.864 2 99.416 99.433 99.449 99.458 99.466 99.474 99.482 99.489 99.491 99.499 3 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.240 26.221 26.125 4 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.577 13.558 13.463 5 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.130 9.112 9.020 6 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.987 6.969 6.880 7 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.755 5.737 5.650 8 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.963 4.946 4.859 9 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.415 4.398 4.311 10 4.706 4.558 4.405 4.327 4.247 4.165 4.082 4.014 3.996 3.909 11 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.708 3.690 3.602 12 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.467 3.449 3.361 13 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.272 3.255 3.165 14 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.112 3.094 3.004 15 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.977 2.959 2.868 16 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.863 2.845 2.753 17 3.455 3.312 3.162 3.084 3.003 2.920 2.835 2.764 2.746 2.653 18 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.678 2.660 2.566 19 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.602 2.584 2.489 20 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.535 2.517 2.421 21 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.475 2.457 2.360 22 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.422 2.403 2.305 23 3.074 2.931 2.781 2.702 2.620 2.535 2.447 2.373 2.354 2.256 24 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.329 2.310 2.211 25 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.289 2.270 2.169 26 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.252 2.233 2.131 27 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.218 2.198 2.097 28 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.187 2.167 2.064 29 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.158 2.138 2.034 30 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.131 2.111 2.006 40 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.938 1.917 1.805 50 2.562 2.419 2.265 2.183 2.098 2.007 1.909 1.825 1.803 1.683 60 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.749 1.726 1.601 70 2.450 2.306 2.150 2.067 1.980 1.886 1.785 1.695 1.672 1.540 80 2.415 2.271 2.115 2.032 1.944 1.849 1.746 1.655 1.630 1.494 90 2.389 2.244 2.088 2.004 1.916 1.820 1.716 1.623 1.598 1.457 100 2.368 2.223 2.067 1.983 1.893 1.797 1.692 1.598 1.572 1.427 Inf 2.185 2.039 1.878 1.791 1.696 1.592 1.473 1.358 1.325 1.000

Diseño de Experimentos y Regresión

Documents

Transcript of Diseño de Experimentos y Regresión