Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de...

46
1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algún sentido el comportamiento de una variable de interés. Se considera que esta variable, llamada variable dependiente o respuesta, puede ser aproximada a partir de una relación funcional, en la cual aparecen todas aquellas variables que proveen información sobre el comportamiento de la misma; estas variables se incorporan al modelo como variables predictoras o explicativas y serán llamadas variables independientes. La relación funcional puede ser expresada como: Y = f ( X 1 ,X 2 , ..., X p ), que de manera ideal, proporciona los valores de la respuesta Y . A partir de este planteamiento surgen dos problemas: a) La forma analítica de f puede ser desconocida o conocida pero muy complicada. b) El número p de variables que intervienen en el estudio puede ser tan grande que sea imposible manipular adecuadamente a f Las alternativas que se tienen son: a) Aproximar a f mediante f ( posiblemente un polinomio ). b) Ignorar todas aquellas variables cuya influencia sea considerada despreciable, re- duciendo así el número de variables consideradas. La alternativa b tiene como consecuencia que las variables ignoradas causen fluctua- ciones en la respuesta. Estas fluctuaciones se consideran aleatorias, aun manteniendo fijos los valores de las variables consideradas. Así pues, a partir de a y b es posible establecer la siguiente relación: Y =f ( X 1 ,X 2 , ..., X p )+ ε 1 Notas de la profesora Margarita Elvira Chávez Cano 1

Transcript of Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de...

Page 1: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

1

Introducción

La modelación se refiere al desarrollo de expresiones matemáticas que describen en

algún sentido el comportamiento de una variable de interés. Se considera que esta variable,

llamada variable dependiente o respuesta, puede ser aproximada a partir de una relación

funcional, en la cual aparecen todas aquellas variables que proveen información sobre

el comportamiento de la misma; estas variables se incorporan al modelo como variables

predictoras o explicativas y serán llamadas variables independientes. La relación funcional

puede ser expresada como:

Y = f ( X1,X2, ..., Xp ),

que de manera ideal, proporciona los valores de la respuesta Y .

A partir de este planteamiento surgen dos problemas:

a) La forma analítica de f puede ser desconocida o conocida pero muy complicada.

b) El número p de variables que intervienen en el estudio puede ser tan grande que

sea imposible manipular adecuadamente a f

Las alternativas que se tienen son:

a) Aproximar a f mediante f ′ ( posiblemente un polinomio ).

b) Ignorar todas aquellas variables cuya influencia sea considerada despreciable, re-

duciendo así el número de variables consideradas.

La alternativa b tiene como consecuencia que las variables ignoradas causen fluctua-

ciones en la respuesta. Estas fluctuaciones se consideran aleatorias, aun manteniendo fijos

los valores de las variables consideradas. Así pues, a partir de a y b es posible establecer

la siguiente relación:

Y =f ′(X1, X2, ..., Xp )+ ε

1Notas de la profesora Margarita Elvira Chávez Cano

1

Page 2: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

donde ε está determinada por los factores cuya influencia es considerada despreciable.

Además de las X’s, los modelos involucran constantes desconocidas llamadas parámet-

ros, que controlan el comportamiento del modelo. Estos parámetros serán denotados por

letras griegas y estimados a partir de los datos.

La complejidad matemática del modelo y el grado hasta el cual sea un modelo realista,

dependerá de cuánto se sepa acerca del proceso que está siendo estudiado.

En estudios preliminares de un proceso o en los casos donde la predicción es el objetivo

primario, los modelos casi siempre caerán en la clase de modelos que son lineales en los

parámetros . Esto es, los parámetros entran al modelo como coeficientes simples de las

variables independientes. Tales modelos serán referidos como modelos lineales. Por otro

lado, los modelos más reales son frecuentemente no lineales en los parámetros ; la mayoría

de los modelos de crecimiento, por ejemplo, son modelos no lineales. Esta clase de modelos

cae en dos categorías:

a) Modelos que pueden ser linealizados mediante una transformación apropiada sobre

la variable dependiente, es decir, modelos intrínsecamente lineales.

b) Modelos que no pueden ser transformados.

La mayor parte del material que veremos, está dedicado a los modelos lineales y aquellos

modelos no lineales que son intrínsecamente lineales.

2

Page 3: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

El modelo de regresión lineal simple

El modelo más simple involucra solamente una variable independiente y establece que

la verdadera media de la variable dependiente cambia en razón constante cuando el valor

de la variable independiente crece o decrece. De esta forma, la relación funcional entre la

verdadera media de Y , E(Y ) y X es la ecuación de la línea recta

E ( Y ) = β0 + β1X

donde β0 es la intercepción de esta recta con el eje Y , el valor de E (Y ) cuando X = 0;

β1 es la pendiente de ella, la razón de cambio en E (Y ) por unidad de cambio en X.

En las situaciones prácticas o reales, la información con que se cuenta consta de

n parejas de observaciones muestrales sobre X, Y , que pueden ser graficadas como se

muestra en la figura 1.

La diferencia esencial que se observa a partir de esta figura es que en la práctica, la

línea β0 + β1X es desconocida.

Las observaciones sobre la variable dependiente, Yi , se supone que son observa-

ciones aleatorias de poblaciones de variables aleatorias con la media dada por E (Yi). La

desviación de una observación Yi de su media poblacional E (Y i) (la línea desconocida),

se toma en cuenta sumando un error aleatorio para dar el modelo estadístico

Yi = β0 + β1Xi + εi ; i = 1, 2, ..., n

3

Page 4: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

X

Y

Recta Ajustada

β0+β1ΧRecta Real

Figura 1

Las Xi son las n observaciones sobre la variable independiente y se supone que son

medidas sin error, esto es, se supone que los valores observados deX forman un conjunto

de constantes conocidas. Las Yi y las Xi son observaciones apareadas, medidas sobre cada

unidad observacional.

Esencialmente, se tienen dos tipos de hipótesis que se hacen sobre el modelo, la

hipótesis estructural y la hipótesis distribucional . La hipótesis estructural consiste

en suponer que el modelo es lineal en los parámetros, esto es, los parámetros entran al

modelo como coeficientes simples sobre las variables independientes o funciones de ellas.

La hipótesis distribucional se refiere a las suposiciones que se hacen en relación a los

errores aleatorios que aparecen en el modelo como εi ; como anteriormente se vio de

manera implícita, se supone que la media de los εi es igual a cero, E(εi) = 0, ya que

de manera natural se espera que en promedio no haya errores; se supone también que la

varianza de los errores es constante, común y desconocida V ar (εi) = σ2 ; esto significa

que se espera que las observaciones no se distribuyan de manera irregular alrededor

4

Page 5: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

de la línea media y de esta forma facilitar el desarrollo de la teoría. Obsérvese que

σ2 = cte. refleja que los factores no controlados influyen de la misma manera sobre cada

respuesta Yi . Como εi es el único elemento aleatorio en el modelo, estas suposiciones

implican que las Yi son variables aleatorias, por lo tanto también tienen varianza común

y son mutuamente independientes. Con el fin de construir intervalos de confianza y hacer

pruebas de significancia, se introduce la hipótesis de que los errores aleatorios tienen

distribución normal, lo cual implica que las Yi también tienen distribución normal.

Las suposiciones acerca de los errores aleatorios son denotadas por:

εi ∼ N (0, σ2), independientes, i = 1, 2, ..., n (notación de Wilks).

Estimación por mínimos cuadrados

El modelo lineal simple

Yi = β0 + β1Xi + εi ; i = 1, 2, ...n

tiene dos parámetros, β0 y β1 , que serán estimados a partir de los datos. Con la hipótesis

de varianza constante sobre los errores, aparece otro parámetro que no está incluido en

el modelo, σ2, pero que es necesario estimar también; el tratamiento para este parámetro

se hará más adelante.

Si no hubiera error aleatorio en Yi , podrían utilizarse cualesquiera dos parejas de

observaciones para obtener explícitamente los valores de los parámetros. Sin embargo, la

variación aleatoria de Y causa que cada pareja de datos dé diferentes resultados (todos

los estimadores serían idénticos sólo si los datos observados cayeran exactamente sobre

la línea recta). Se necesita un método que combine toda la información para dar una

solución óptima de acuerdo a algún criterio.

El procedimiento o método de mínimos cuadrados tiene el siguiente criterio, conocido

como el principio de mínimos cuadrados : La solución debe dar la suma de cuadrados

de las desviaciones verticales de las Yi observadas de los valores estimados más pequeña

posible. Estas desviaciones son conocidas como los residuales, ei, es decir

5

Page 6: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

ei = Yi − Yi ; i = 1, 2, ..., n

Sean β0 y β1 los estimadores de los parámetros β0 y β1 , respectivamente; sea

Yi = β0 + β1Xi ; i = 1, 2, ..., n

el valor estimado de Y para cada Xi , i = 1, 2, ..., n. Esta ecuación es conocida como la

recta estimada o ajustada.

El principio de los mínimos cuadrados elige β0 y β1 que minimizan la suma de

cuadrados de los residuales denotada como SCE

n�i=1

( Yi − Yi )2 =

n�i=1

e2i = SCE

Los estimadores para βo y β1 se obtienen utilizando las técnicas del cálculo diferencial

para encontrar los valores que minimizan la SCE.

n�i=1

( Yi − Yi )2 =

n�i=1

( Yi − βo − β1Xi )2

Derivando esta expresión con respecto a βo y a β1 e igualando a cero, se tienen las

ecuaciones

nβo +

�n�i=1

Xi

�β1 =

n�i=1

Yi�

n�i=1

Xi

�βo +

�n�i=1

X2i

�β1 =

n�i=1

XiYi

Estas ecuaciones son conocidas como ecuaciones normales. Resolviéndolas simultánea-

mente para β0 y β1 se obtienen los estimadores de β0 y β1.

Multiplicando la primera ecuación por

n�i=1

Xi

n= X y restando al resultado la segunda

ecuación se tiene:

β1

�X

n�i=1

Xi −n�i=1

X2i

�= X

n�i=1

Yi −n�i=1

XiYi

⇒ β1 =

n�i=1

Yi(Xi − X )

n�i=1

X2i −

(�Xi)

2

n

=

n�i=1

(Xi − X )�Yi − Y

n�i=1

(Xi − X )2

6

Page 7: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

donden�i=1

(Xi − X )2 =n�i=1

Xi2 −

n�i=1

Xi2

ny

n�i=1

(Xi − X )�Yi − Y

�=

n�i=1

Yi(Xi − X )

Ahora bien, dividiendo la primera ecuación entre n y despejando β0 :

β0 = Y − X β1

Estos estimadores de los parámetros dan la ecuación de regresión:

Yi = β0 + β1Xi

Ejemplo 1.- Considérense los datos obtenidos de un estudio dirigido por el Dr. A. S. Heagle

en North Carolina State University. Dicho estudio analiza los efectos de la contaminación

por ozono en granos de soya (tabla 1). Cuatro distintos niveles de ozono y la producción

media de soya correspondiente fueron medidos. La dosis de ozono es la concentración

promedio durante la época de crecimiento en partes por millón (ppm); la producción se

reporta en gramos por planta.

Tabla 1

i ozono (ppm) X producción (gm./plt) Y

1 .02 242

2 .07 237

3 .11 231

4 .15 201

Si suponemos que la producción de soya está relacionada linealmente con la cantidad

de ozono, podemos aplicar el modelo antes desarrollado. De la tabla obtenemos

4�i=1

Xi = .354�i=1

Yi = 911

X = .0875 Y = 227.754�i=1

X2i = .0399

4�i=1

Y 2i = 208495

4�i=1

XiYi = 76.99

7

Page 8: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

por lo cual los estimadores por mínimos cuadrados son

β1 =

4�i=1

XiYi −

�4�i=1

Xi

��4�i=1

Yi

n

4�i=1

X2i −

�4�i=1

Xi

�2

n

=76.99− .35 (911)

4

.0399− (3,5)2

4

= −293.531

y

β0 = Y − X β1

= 227.75− (−293.531) (.0875)

= 253.434

De esta manera, el modelo ajustado es:

Y = 253.434− 293.531X

La interpretación de β1 = −293.531 es que se espera que la producción media dis-

minuya, puesto que la pendiente es negativa; esto es, la producción media disminuirá

en aproximadamente 294 gramos por planta con cada unidad (ppm) de ozono que se

agregue. Obsérvese que el rango de ozono va de .02 a .15, por lo cual no es razonable

esperar que la misma tasa de decaimiento en la producción ocurra en, digamos, 1 ppm

La intersección β0 = 253.434 es el valor de X en el cual la línea ajustada cruza el eje Y .

En este caso, como el valor más bajo del nivel de ozono es .02 se puede considerar como

una extrapolación interpretar a β0 como el valor estimado de la producción cuando no

existe contaminación por ozono.

Propiedades de los estimadores por mínimos cuadrados

Los estimadores por mínimos cuadrados, β0 y β1, tienen varias propiedades estadís-

ticas importantes. Veremos primero la propiedad de insesgamiento.

8

Page 9: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

E (β1) = E

n�i=1

Yi(Xi − X )

n�i=1

(Xi − X )2

=1

n�i=1

(Xi − X )2

n�i=1

(Xi − X )E(Yi)

=1

n�i=1

(Xi − X )2

n�i=1

(Xi − X )(βo + β1Xi)

= β1

ya quen�i=1

(Xi − X ) = 0 yn�i=1

Xi(Xi − X ) =n�i=1

(Xi − X )2

E(β0) = E(Y − β1X)

=

n�i=1

E(Yi)

n−E(β1)X

=

n�i=1

(β0 + β1Xi)

n− β1X

= β0 + β1X − β1X

= β0

Por lo tanto, β0 y β1 son estimadores insesgados.

Note que β0 y β1 son lineales en el sentido de que son combinaciones lineales de las

Y ′i s , esto es,

β1 =n�

i=1

Xi − Xn�i=1

(Xi − X )2

Yi

y

β0 =n�

i=1

1

n− X (Xi− X )

n�i=1

(Xi − X )2

Yi

Con estas expresiones y bajo la hipótesis de independencia se tiene:

9

Page 10: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

V ar ( β1) =n�

i=1

(Xi− X )2

n�i=1

(Xi − X )2

2

V ar (Yi)

= σ21

n�i=1

(Xi − X )2

V ar (β0) =n�

i=1

1

n− X (Xi− X )

n�i=1

(Xi − X )2

2

V ar ( Yi)

= σ2n�

i=1

1

n− X (Xi− X )

n�i=1

(Xi − X )2

2

=

1

n+

X2

n�i=1

(Xi − X )2

σ2

El problema que surge ahora es determinar cómo se comportan conjuntamente β0 y

β1, por lo que es de interés el cálculo de la covarianza.

Como β0 y β1 son combinaciones lineales de las Y ′i s , podemos proponer una solución

general para la covarianza de las funciones lineales:

Sea U una combinación lineal de las Y ′i s y W otra combinación lineal de las Y ′

i s ,

esto es,

U =n�i=1

aiYi y W =�diYi

La covarianza entre U y W está dada por

10

Page 11: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Cov (U,W ) = E ((U − E(U ) ) (W −E (W ) ))

= E

�(n�i=1

aiYi −n�i=1

aiE(Yi))(n�i=1

diYi −n�i=1

diE(Yi))

= E

�(n�i=1

ai (Yi −E(Yi)) ) (n�i=1

di (Yi −E(Yi)))

=n�i=1

aidi E ((Yi − E(Yi))2) +

n�i�=j

aidj E ((Yi −E(Yi))(Yj − E(Yj)))

=�i

aidi V ar(Yi ) +�i�=j

aidj Cov(Yi , Yj)

donde Cov (Yi , Yj) = 0 puesto que las Y ′i s son independientes. Por lo tanto

Cov (U,W ) =�aidi V ar ( Yi )

Usando este resultado tenemos

Cov(β0, β1) = Cov

n�

i=1

Xi − Xn�i=1

(Xi − X )2

Yi ,

n�

i=1

1

n− X (Xi− X )

n�i=1

(Xi − X )2

Yi

=n�

i=1

Xi − Xn�i=1

(Xi − X )2

1

n− X (Xi− X )

n�i=1

(Xi − X )2

V ar (Yi)

= σ2

1

n

n�

i=1

Xi − Xn�i=1

(Xi − X )2− X

n�i=1

(Xi − X )2

�n�i=1

(Xi − X )2�2

= σ2

Xn�i=1

(Xi − X )2

�= 0

Esto significa que β0 y β1 no son independientes. Las propiedades de los estimadores

pueden resumirse en el siguiente teorema.

Teorema de Gauss-Markov: En el modelo de regresión lineal simple

Yi = β0 + β1Xi + εi; εi ∼ N (0, σ2), independientes

los estimadores por mínimos cuadrados para β0 y β1 son los mejores estimadores lineales

insesgados (mejores en el sentido de varianza mínima) .

11

Page 12: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Demostración: Probaremos primero que el teorema se cumple en el caso de β1. Para

ello proponemos un estimador β′

1 �= β1 que satisfaga las condiciones requeridas; es decir,

β′

1 debe ser una combinación lineal de las Y ′i s, ser insesgado y de varianza mínima. Sea

β′

1 =n�i=1

ciYi . Aplicando a éste la esperanza se tiene

E β′

1

�= E

�n�i=1

ciYi

�=

n�i=1

ciE (Yi)

=n�i=1

ci (β0 + β1Xi) = β0

n�i=1

ci + β1

n�i=1

ciXi

donde E β′

1

�= β1 si y sólo si

n�i=1

ci = 0 yn�i=1

ciXi = 1

Se desea, además, minimizar la varianza de este estimador:

V ar β′

1

�= V ar

�n�i=1

ciYi

�=

n�i=1

c2iV ar (Yi) =n�i=1

c2iσ2 = σ2

n�i=1

c2i

donde σ2 es una constante desconocida. Así, el problema puede plantearse como mini-

mizarn�i=1

c2i sujeto a las condiciones de insesgamiento, es decir,

minimizarn�i=1

c2i sujeto an�i=1

ci = 0 yn�i=1

ciXi − 1 = 0

Apliquemos el método de multiplicadores de Lagrange.

Sea φ =n�i=1

c2i − 2λ

�n�i=1

ci

�− 2γ

�n�i=1

ciXi − 1

∂φ

∂λ= −2

n�i=1

ci = 0⇒n�i=1

ci = 0

∂φ

∂γ= −2

�n�i=1

ciXi − 1

�= 0⇒

n�i=1

ciXi = 1

∂φ

∂ci= 2ci − 2λ− 2γXi = 0⇒

ci − λ− γXi = 0

i = 1, 2, ..., n

Haciendo la suma sobre i, se tiene

n�i=1

ci − nλ− γn�i=1

Xi = 0

Usando la condiciónn�i=1

ci = 0 en la ecuación anterior se tiene

12

Page 13: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

λ = −γX

Retomando la tercera ecuación y multiplicándola por Xi se tiene:

ciXi − λXi − γX2i = 0

n�i=1

ciXi − λn�i=1

Xi − γn�i=1

X2i = 0

donden�i=1

ciXi = 1, por lo cual, sustituyendo λ :

1 + γXn�i=1

Xi − γn�i=1

X2i = 0

lo cual ocurre si y sólo si

γ

�X

n�i=1

Xi −n�i=1

X2i

�= −1

de donde

γ =1

n�i=1

X2i − X

n�i=1

Xi

=1

n�i=1

�Xi − X

�2

por lo tanto, de la tercera ecuación :

ci = λ+ γXi

= −γX + γXi = γ�Xi − X

=Xi − X

n�i=1

�Xi − X

�2

y puesto que β′

1 =n�i=1

ciYi se tiene que β′

1 =

n�i=1

�Xi − X

n�i=1

�Xi − X

�2Yi = β1, que es lo que

queríamos demostrar. De manera análoga se construye el estimador para β0.

Con el fin de formular intervalos de confianza y pruebas de hipótesis, obtendremos a

continuación la distribución de β0 y β1 .

Bajo la hipótesis εi ∼ N (0, σ2) , se tiene que Yi = β0 + β1Xi + εi también tiene

distribución normal; i. e.

13

Page 14: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Yi ∼ N (β0 + β1Xi , σ2)

por ser una combinación lineal de εi , variable aleatoria normal para cada i.

De la misma forma, por ser β0 y β1 combinaciones lineales de variables aleatorias

normales, su distribución también es normal con los parámetros obtenidos anteriormente;

entonces:

β0 ∼ N

β0,

1

n+

X2

n�i=1

( Xi − X)2

σ2

β1 ∼ N

β1,

σ2

n�i=1

( Xi − X)2

Bajo la hipótesis de normalidad puede verificarse que los estimadores obtenidos por el

método de máxima verosimilitud para β0 yβ1, coinciden con los estimadores correspon-

dientes obtenidos por mínimos cuadrados. En efecto, calculemos la densidad conjunta de

las Y ′i s (la función de verosimilitud):

L(Y1, Y2, ..., Yn) =n�

i=1

1√2πσ2

exp

�− 1

2σ2(Yi − β0 − β1Xi)

2

=

�1

2πσ2

�n2 exp

�− 1

2σ2

n�i=1

(Yi − β0 − β1Xi)2

Si aplicamos a la ecuación anterior la función ln se tiene

ln (L(Y1, Y2, ..., Yn)) =−n2

ln (2πσ2)− 1

2σ2

n�i=1

(Yi − β0 − β1Xi)2

que es la función que deseamos maximizar; de este modo∂ lnL(Y1, Y2, ..., Yn)

∂β0=

1

2σ2

n�i=1

2 (Yi − β0 − β1Xi) = 0

∂ lnL(Y1, Y2, ..., Yn)

∂β1=

1

2σ2

n�i=1

2 (Yi − β0 − β1Xi)Xi = 0

∂ lnL(Y1, Y2, ..., Yn)

∂σ2= −n

2

2πσ2+

1

2 (σ2)2

n�i=1

(Yi − β0 − β1Xi)2 = 0

Obsérvese que de la ecuación (1)

n�i=1

Yi = nβ0 + β1

n�i=1

Xi

14

Page 15: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

y de la segunda ecuación

n�i=1

XiYi = β0

n�i=1

Xi + β1

n�i=1

X2i

que son las ecuaciones normales.

Por otro lado, ya que σ2 , la varianza del error, es un parámetro adicional desconocido,

el estimador máximo verosímil correspondiente es

σ2 =1

n

n�i=1

(Yi − β0 − β1Xi)2

=1

n

n�i=1

(Yi − Y i )2

=1

n

n�i=1

ei2

Este estimador no es insesgado, como veremos a continuación

E ( σ2) = E

�1

n

n�i=1

e2i

donde

ei = Yi − Y i

= β0 + β1Xi + εi − (β0 + β1Xi)

= (β0 − β0) + (β1 − β1)Xi + εi

por lo que

n�i=1

e2i =n�i=1

−(β0 − β0)− (β1 − β1)Xi + εi

�2

=n�i=1

(β0 − β0) + (β1 − β1)Xi − εi

�2

de donde, desarrollando el cuadrado

E

�n�i=1

e2i

�= E(

n�i=1

(β0 − β0)2 + (β1 − β1)

2n�i=1

X2i +

n�i=1

ε2i + 2(β0 − β0)(β1 − β1)n�i=1

Xi

−2(β0 − β0)n�i=1

εi − 2(β1 − β1)n�i=1

Xiεi)

= nE(β0 − β0)2 +

n�i=1

X2i E(β1 − β1)

2 +n�i=1

E(ε2i ) + 2n�i=1

XiE (β0 − β0)(β1 − β1)

−2E

�(β0 − β0)

n�i=1

εi

�− 2E

�(β1 − β1)

n�i=1

Xiεi

15

Page 16: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

= nV ar (β0) +n�i=1

X2i V ar (β1) + nσ2 + 2

n�i=1

XiCov( β0, β1)

−2E

�(β0 − β0)

n�i=1

εi

�− 2E

�(β1 − β1)

n�i=1

Xiεi

= n

1

n+

X2

n�i=1

( Xi − X )2

σ2 +

n�

i=1

X2i

σ2

n�i=1

( Xi − X )2+ nσ2

−2n�

i=1

XiXσ2

n�i=1

( Xi − X )2− 2E

�(β0 − β0)

n�i=1

εi

�− 2E

�(β1 − β1)

n�i=1

Xiεi

Dado que Yi = β0 + β1Xi + εi

β0 =n�

i=1

1

n− X (Xi − X )

n�i=1

( Xi − X)2

Yi

= β0+

n�

i=1

1

n− X (Xi − X )

n�i=1

( Xi − X)2

εi

y

β1 =n�

i=1

Xi − Xn�i=1

( Xi − X)2

Yi

= β1 +

n�i=1

( Xi − X)εi

n�i=1

( Xi − X)2

entonces,

E

�( β0 − β0)

n�

i=1

εi

�= E

n�

i=1

1

n− X (Xi − X )

n�i=1

( Xi − X)2

εi

�n�

i=1

εi

16

Page 17: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Desarrollando esta expresión y aplicando la esperanza se tiene

E

�( β0 − β0)

n�

i=1

εi

�= σ2

n�

i=1

1

n− X (Xi − X )

n�i=1

( Xi − X)2

= σ2

De manera similar tenemos

E

�( β1 − β1)

n�

i=1

Xiεi

�= E

n�i=1

( Xi − X)εi

n�i=1

( Xi − X)2

�n�

i=1

Xiεi

=1

n�i=1

( Xi − X)2

�σ2

n�i=1

Xi( Xi − X)

= σ2

por lo tanto

E

�n�i=1

e2i

�= σ2 +

nX2

n�i=1

( Xi − X)2σ2 +

n�i=1

X2i

n�i=1

( Xi − X)2σ2 + nσ2

−2nX2

n�i=1

( Xi − X)2σ2 − 2σ2 − 2σ2

= (n− 3)σ2 +

n�i=1

X2i

n�i=1

( Xi − X)2σ2 − nX2

n�i=1

( Xi − X)2σ2

=

n�i=1

X2i − nX2

n�i=1

( Xi − X)2σ2 + (n− 3)σ2

E

�n�i=1

e2i

�= (n− 2)σ2

de donde, E ( σ2 ) �= σ2 , esto es, σ2 obtenido por máxima verosimilitud no es insesgado.

Sin embargo, es posible construir un estimador insesgado a partir de la última expresión

obtenida; en efecto, si

17

Page 18: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

σ2 =

n�i=1

e2i

n− 2

entonces

E (σ2) = σ2

además se tiene que

n�i=1

e2i

σ2∼ χ2(n−2)

donde los grados de libertad de la distribución, así como el denominador del estimador

insesgado es (n−2). Esta cantidad corresponde a n, el número de observaciones o tamaño

de la muestra y a 2, que es el número de parámetros en el modelo. La demostración de

este resultado se hará más adelante.

Intervalos de confianza

Las características generales de una línea recta están dadas por la intersección con el

eje de las Y ’s y la pendiente, que corresponden a β0 y β1 respectivamente. Es importante

estudiar estas características a través de los intervalos de confianza, ya que así sabremos

si la recta considerada pasa por el origen o no y si tiene pendiente distinta de cero.

Intervalo de confianza para β1

Como

β1 ∼ N

β1 ,

σ2

n�i=1

( Xi − X)2

⇒ β1 − β1

σ

����1

n�i=1

( Xi − X)2

∼ N (0, 1)

donde σ2 es desconocido, por lo que, para construir una cantidad pivotal consideramos

a la variable

18

Page 19: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

n�i=1

e2i

σ2= (n− 2)

σ2

σ2∼ χ2(n−2)

entonces

β1 − β1

σ

����1

n�i=1

( Xi − X)2

����������

n�i=1

e2i

σ2

(n− 2)

=

(β1 − β1)

�n�i=1

( Xi − X)2

����n�i=1

e2i

n− 2

=

( β1 − β1)

�n�i=1

( Xi − X)2

����n�i=1

e2i

n− 2

= T ∼ t(n−2)

por lo tanto

P�tα

2

(n−2) < T < t1−α

2

(n−2)

�= 1− α

donde t1−α

2

(n−2) y tα

2

(n−2) son los cuantiles 1− α

2yα

2de una distribución t con

(n− 2) grados de libertad y t1−α

2

(n−2) = −tα

2

(n−2).

Por lo tanto, el intervalo del (1− α)× 100% de confianza para β1 está dado por

β1 ± t1−α

2

(n−2)

����n�i=1

e2i

n− 2�n�i=1

( Xi − X)2

Intervalo de confianza para β0 .

De manera similar al caso anterior tenemos

19

Page 20: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

β0 ∼ N

β0 ,

1n+

X2

n�i=1

( Xi − X)2σ2

y

n�i=1

e2i

σ2∼ χ2(n−2)

Si tα

2

(n−2) y t1−α

2

(n−2) denotan los cuantiles α2

y 1 − α2

de una distribución t

con (n − 2) grados de libertad y considerando que t1−α

2

(n−2) = − tα

2

(n−2) , el intervalo del

( 1− α )× 100% de confianza para β0 está dado por

β0 ± t1−α

2

(n−2)

����n�i=1

e2i

n− 2

�����1n+

X2

n�i=1

( Xi − X)2

Intervalo de confianza para σ2

Dado que la siguiente variable puede ser tomada como una cantidad pivotal:

n�i=1

e2i

σ2∼ χ2(n−2)

se tiene el planteamiento:

P

aα/2 <

n�i=1

e2i

σ2< b1−α/2

= 1− α,

donde aα/2 y b1−α/2 son los cuantiles de una distribución χ2(n−2).

Entonces, un intervalo del (1− α)× 100% de confianza para σ2 está dado por

n�i=1

e2i

b1−α/2,

n�i=1

e2i

aα/2

.

20

Page 21: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Coeficiente de correlación

Un tema muy importante en los modelos lineales es el que discute la variación conjunta

de dos o más variables y responde a la pregunta: ¿Qué tan estrechamente están asociadas

las variables?, o de otra manera, ¿cuál es el grado de asociación entre las variables?.

Las técnicas que se han desarrollado para medir el grado de asociación entre variables,

son conocidas como métodos de correlación. Este nombre refleja la práctica generaliza-

da de hablar acerca de medidas de correlación . Consecuentemente, cuando se hace un

análisis para determinar la cantidad de correlación, se dice que se ha efectuado un análi-

sis de correlación. La medida de correlación es usualmente conocida como coeficiente de

correlación.

Debido a la naturaleza del concepto, es claro que está estrechamente relacionado con el

concepto de regresión. Así, para una ecuación de regresión dada, se verá que es razonable

esperar que un coeficiente de correlación medirá qué tan bien se ajusta a los datos la

ecuación de regresión.

Para dar una expresión apropiada del coeficiente de correlación, consideremos primero

que dicho coeficiente se define entre dos variables aleatorias X y Y como

ρxy =Cov (X , Y )

σxσy=E ((X − E(X))(Y − E(Y ))

σxσy,

donde σx y σy denotan las desviaciones estándar de X y Y respectivamente. De esta

definición se demuestra que −1 ≤ ρxy ≤ 1 .

En análisis de regresión lineal es de interés calcular el coeficiente de correlación mues-

tral, es decir, el coeficiente de correlación para la muestra

(X1, Y1 ), (X2, Y2 ), ..., (Xn, Yn )

Dicha muestra puede ser considerada como la pareja de vectores en ℜn

X ′ = ( X1, X2, ..., Xn ) , Y ′ = (Y1, Y2, ..., Yn)

21

Page 22: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Decimos que dos vectores, X y Y son ortogonales si el producto X ′Y o Y ′ X es

cero. Geométricamente, dos vectores ortogonales son perpendiculares entre sí o forman

ángulo recto en el origen. Dos vectores linealmente dependientes forman ángulos de 0 o de

180 grados en el origen. Todos los otros ángulos reflejan vectores que no son ortogonales

ni linealmente dependientes. En general, si θ representa el ángulo entre dos vectores, el

coseno de éste es

cos θ =X ′Y

X ′X Y ′Y

=X ′Y

X Y Si los elementos de cada vector tienen media cero, el coseno del ángulo formado por

los dos vectores es la correlación entre las dos columnas de datos en los vectores. Por

lo tanto, la ortogonalidad de dos vectores corresponde a una correlación igual a cero

entre los elementos en los dos vectores. Si dos vectores son linealmente dependientes, el

coeficiente de correlación entre los elementos de los dos vectores será 1 ó -1, dependiendo

de si los vectores tienen la misma dirección o direcciones contrarias.

Así, la expresión del coeficiente de correlación muestral, conocida como coeficiente de

correlación de Pearson es

rxy =

n�i=1

(Xi − X ) ( Yi − Y )

�n�i=1

(Xi − X )2�

n�i=1

(Yi − Y )2

el cual debe satisfacer

−1 ≤ rxy ≤ 1

22

Page 23: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Figura 2

Para demostrar que ésta se cumple, veremos antes lo que se llama la igualdad fundamental

del análisis de varianza ( o la partición den�i=1

(Yi − Y )2 ), para lo cual consideraremos

la igualdad Yi − Y = (Yi − Yi ) + ( Yi − Y ) , vea la figura anterior.

En esta expresión Yi − Y nos indica la distancia vertical entre Yi y Y . Elevando al

cuadrado ambos lados de la igualdad y sumando sobre i se tiene

n�i=1

( Yi − Y )2 =n�i=1

( Yi − Yi ) + ( Yi − Y )

�2

desarrollando el segundo miembro se tiene

n�i=1

( Yi − Yi ) + ( Yi − Y )

�2=

n�i=1

( Yi − Yi )2 +

n�i=1

( Yi − Y )2

+2n�i=1

(Yi − Yi ) ( Yi − Y )

donde

n�i=1

(Yi − Yi ) ( Yi − Y ) = 0

ya que

n�i=1

( Yi − Yi ) ( Yi − Y ) =n�i=1

( Yi − Yi ) β1 (Xi − X )

En efecto

Yi = β0 + β1Xi

Y = β0 + β1X

⇒ Yi − Y = β1 (Xi − X )

entonces

n�i=1

(Yi − Yi ) ( Yi − Y ) = β1

n�i=1

( Yi − Yi ) (Xi − X )

= β1

n�i=1

(Xi − X ) (Yi − Y )− β1 (Xi − X )

puesto que

23

Page 24: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Yi − Yi = ( Yi − Y ) + ( Y − Yi )

= ( Yi − Y )− ( Yi − Y ) = ( Yi − Y )− β1 (Xi − X )

por lo tanto

n�i=1

(Yi − Yi ) ( Yi − Y ) = β1

n�i=1

(Xi − X )( Yi − Y )− β2

1

n�i=1

(Xi − X )2

=

n�i=1

(Xi − X )(Yi − Y )

n�i=1

(Xi − X )2

n�i=1

(Xi − X )( Yi − Y )

�n�i=1

(Xi − X )( Yi − Y )

�2

�n�i=1

(Xi − X )2�2

n�i=1

(Xi − X )2

n�i=1

(Yi − Yi ) ( Yi − Y ) = 0

de donde

n�i=1

(Yi − Y )2 =n�i=1

( Yi − Yi )2 +

n�i=1

( Yi − Y )2

La notación que se usa para esta igualdad es:

SCT = SCE+ SCR

donde SCE es la suma de cuadrados de residuales o suma de cuadrados del error y

SCR es la suma de cuadrados debida a la regresión. SCT es conocida como la suma de

cuadrados total o suma de cuadrados corregida por la media.

Esto significa que la variabilidad total de los valores de Y alrededor de su media

muestral puede ser descompuesta en dos partes, la primera es la variación de los valores

de Y alrededor de su media; note que

Yi = β0 + β1Xi

⇒ Y = β0 + β1X

24

Page 25: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

y

Y = β0 + β1X

= (Y − β1X ) + β1X

= Y

esto es

Y = Y

Generalmente se dice quen�i=1

( !Yi− Y )2 es la suma de cuadrados debida a o explicada

por la influencia lineal de X también se dice que es la suma de cuadrado debida a la

regresión. La segunda componente es la variación residual o no explicada de los valores

de Y alrededor de la línea de ajuste.

Considere a continuación que

( Yi − Y ) = β1 (Xi − X )

⇒n�i=1

( Yi − Y )2 = β2

1

n�i=1

(Xi − X )2

n�i=1

( Yi − Y )2

n�i=1

(Yi − Y )2= β

2

1

n�i=1

(Xi − X )2

n�i=1

(Yi − Y )2

=

�n�i=1

(Xi − X )( Yi − Y )

�2

�n�i=1

(Xi − X )2�2

n�i=1

(Xi − X )2

n�i=1

(Yi − Y )2

es decir

n�i=1

( Yi − Y )2

n�i=1

( Yi − Y )2=

�n�i=1

(Xi − X )(Yi − Y )

�2

�n�i=1

(Xi − X )2��

n�i=1

( Yi − Y )2� = r2xy

Esto significa que en el caso del modelo lineal simple, el coeficiente de correlación al

cuadrado, denotado por R2 , es igual a la proporción de la variación total en torno a la

25

Page 26: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

media Y explicada por la regresión; idealmente se espera que la suma de cuadrados debida

a la regresión sea mucho mayor que la suma de cuadrados del error, es decir, que R2 tenga

un valor muy cercano a uno. Este es llamado también coeficiente de determinación.

Ahora bien,

n�i=1

( Yi − Y )2 =n�i=1

(Yi − Yi )2 +

n�i=1

( Yi − Y )2

n�i=1

(Yi − Y )2

n�i=1

(Yi − Y )2=

n�i=1

(Yi − Yi )2

n�i=1

(Yi − Y )2+

n�i=1

( Yi − Y )2

n�i=1

( Yi − Y )2

por lo tanto

r2xy = 1−

n�i=1

(Yi − Yi )2

n�i=1

( Yi − Y )2

de donde se deduce que el valor máximo de r2xy es 1, lo cual ocurre sólo cuando

n�i=1

( Yi − Yi )2 = 0

y esto último ocurre cuando y sólo cuando cada una de las Yi − Yi = ei es igual a cero

y, por tanto, los puntos están sobre una línea recta. Por lo anterior, los límites de r son

±1, donde el signo queda determinado por el signo del término

n�i=1

(Xi − X )( Yi − Y )

El valor mínimo de r2 es cero y ocurre cuando

n�i=1

( Yi − Yi )2 =

n�i=1

( Yi − Y )2,

esto es, cuando la línea de regresión es Y = Y y la variación explicada es cero, ya que

26

Page 27: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

n�i=1

( Yi − Y )2 =n�i=1

( Yi − Y )2 +n�i=1

(Yi − Yi)2

Pruebas de hipótesis

En el aspecto que concierne a las pruebas de hipótesis, es de gran importancia la que

se refiere a la pendiente, planteando

Ho : β1 = 0 vs. Ha : β1 �= 0

Esta dice que la variable dependiente Y no muestra ni incremento ni decremento lineal

cuando cambia la variable independiente. En algunos casos, la naturaleza del problema

sugerirá otros valores para la hipótesis nula. Un desarrollo preliminar de dicha prueba es

el que sigue.

Dado que

β1 ∼ N

β1,

σ2

n�i=1

(Xi − X)2

se tiene

β1 − β1σ�

n�i=1

(Xi − X)2

∼ N(0, 1)

por lo tanto

(β1 − β1)2n�i=1

(Xi − X)2

σ2∼ χ2(1)

Por otro lado también se sabe que

27

Page 28: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

n�i=1

ei2

σ2∼χ2(n−2)

Estas dos variables son independientes (como se verá más adelante ), por lo tanto

(β1 − β1)2n�i=1

(Xi − X)2

σ2n�i=1

ei2

σ2

(n− 2)

=

(β1 − β1)2n�i=1

(Xi − X)2

n�i=1

ei2

(n− 2)

= F ∼ F(1,n−2)

Bajo Ho la F se reduce a

F =

β12n�i=1

(Xi − X)2

n�i=1

ei2

(n− 2)

=Q1Q2

(n− 2)

donde

β12n�i=1

(Xi − X)2 =n�i=1

(Yi − Y )2

De esta forma, la estadística F puede utilizarse para llevar a cabo la prueba; note

que las sumas de cuadrados que aparecen en la expresión, corresponden a las sumas de

cuadrados en las cuales queda particionadan�i=1

(Yi − Y )2 , la suma de cuadrados total.

Tabla de Análisis de Varianza (Ho : β1 = 0)

Fuente de Grados de Sumas de Cuadrados

variación libertad Cuadrados Medios F

Regresión 1n�i=1

(Yi − Y )2 = Q1

n�i=1

(Yi − Y )2

Residuales n− 2n�i=1

(Yi − Yi)2 = Q2

n�i=1

(Yi − Yi)2

n− 2

n�i=1

(Yi − Y )2

n�i=1

(Yi − Yi)2

n− 2

Total n− 1n�i=1

(Yi − Y )2 = Q1 +Q2

28

Page 29: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Todos los cálculos para obtener la estadística F se resumen en una tabla, llamada

Tabla de Análisis de Varianza (tabla anterior).

Ejemplo 2: La industria del curtido se enfrenta a un problema complejo, el control de

la contaminación del agua. Los desperdicios de esta industria se caracterizan por al-

tos valores de demanda de oxígeno bioquímico, sólidos volátiles y otros contaminantes.

Considere los datos experimentales que aparecen en la tabla 2.

Estos se obtuvieron de 33 muestras de desperdicio químicamente tratado durante el

estudio Chemical Treatment of Spent Vegetable Tan Liquor, realizado en Virginia Poly-

tecnic Institute y State University, en 1970. Se registraron las lecturas de X, porcentaje

de reducción en los sólidos totales y de Y , porcentaje de reducción en la demanda de

oxígeno químico para las 33 muestras. Los datos de la tabla 2 se graficaron en la figura

3 para obtener un diagrama de dispersión.

En una primera inspección de este diagrama, se observa que los datos siguen muy

claramente una tendencia lineal, lo cual indica que la suposición de linealidad parece

razonable. En este mismo diagrama se han dibujado dos rectas; una corresponde a la

línea ajustada o estimada y la otra a la recta teórica o desconocida, que ha sido esbozada

basándose en experiencia anterior.

Tabla 2: Medidas de sólidos ( %) y demanda de oxígeno químico

29

Page 30: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

X Y X Y X Y

3 5 32 32 39 45

7 11 33 34 40 39

11 21 33 32 41 41

15 16 34 34 42 40

18 16 36 37 42 44

27 28 36 38 43 37

29 27 36 34 44 44

30 25 37 36 45 46

30 35 38 38 46 46

31 30 39 37 47 49

31 40 39 36 50 51

Reducción de sólidos

Dem

anda

de

oxíg

eno

0

10

20

30

40

50

60

-5 5 15 25 35 45 55

Recta ajustadaRecta real

Figura 3

De los datos de la tabla 2 obtenemos: β0 = 3.829640 , β1 = 0.903643

30

Page 31: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

De esta forma, la recta estimada o ajustada está dada por

Y = 3.8296 + 0.9036X

en la cual, se redondearon los coeficientes a cuatro decimales.

Donde:

X: Reducción de Sólidos ( %)

Y : Demanda de oxígeno químico

Observe que

n�i=1

ei2 =

n�i=1

(Yi − Yi)2 =

n�i=1

(Yi − β0 − β1Xi)2

=n�i=1

(Yi − Y )− β1(Xi − X)

�2

=n�i=1

(Yi − Y )2 − 2β1n�i=1

(Xi − X)(Yi − Y ) + β2

1

n�i=1

(Xi − X)2

=n�i=1

(Yi − Y )2 − 2β1n�i=1

(Xi − X)(Yi − Y )

+

�n�i=1

�Xi − X

� �Yi − Y

��2

�n�i=1

�Xi − X

�2�2

n�i=1

Xi − X

�2

=n�i=1

(Yi − Y )2 − β1

n�i=1

(Xi − X)(Yi − Y )

El intervalo del 95 % de confianza para β0 es:

0.2131 < β0 < 7.4462

de donde se infiere que la línea no pasa por el origen y puede seguir considerándose a β0

en el modelo.

Por otro lado, el intervalo del 95 % de confianza para β1 es

0.8011 < β1 < 1.0061

es decir, β1 �= 0 y por lo tanto tiene sentido la regresión.

Estos argumentos quedan sustentados por el resultado que se obtiene de la siguiente

tabla de análisis de varianza:

31

Page 32: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Tabla de análisis de varianza (Ho : β1 = 0)

Grados de Sumas de Cuadrados

Fuente de variación libertad cuadrados medios F

Regresión 1 3,390.38 3,390.38

Error 31 323.49 10.4356 324.899

Total 32 3,713.88

n�i=1

ei2 =

n�i=1

(Yi − Y )2 − β1

n�i=1

(Xi − X)(Yi − Y ) = 3, 713.88− (0.9036)(3, 752.09)

n�i=1

(Yi − Y )2 =n�i=1

(Yi − Y )2 −n�i=1

ei2 = 3, 390.38

Sea α = 0.05 el nivel de significancia, entonces el cuantil .95 de una F(1,31) es 4.17;

y el cuantil .99 de una F(1,31) es 7.56. Por lo tanto, la prueba es significativa, esto es,

rechazamos Ho y se concluye que el modelo tiene sentido..

Para calcular r ó r2, notemos primero que:

r =

n�i=1

(Xi − X)(Yi − Y )

�n�i=1

(Xi − X)2�

n�i=1

(Yi − Y )2=

n�i=1

(Xi − X)(Yi − Y )

n�i=1

(Xi − X)2

�n�i=1

(Xi − X)2

�n�i=1

(Yi − Y )2=

β1

�n�i=1

(Xi − X)2

�n�i=1

(Yi − Y )2

por lo tanto

r2 = β2

1

n�i=1

(Xi − X)2

n�i=1

(Yi − Y )2=

n�i=1

(Yi − Y )2

n�i=1

(Yi − Y )2

es la proporción de la variación total en Y que queda explicada por el ajuste de la

regresión. Sustituyendo los valores en el ejemplo, se tiene:

r2 = (0.9036)24, 152.18

3, 713.88= 0.9128

32

Page 33: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

lo cual indica que la mayor parte de la variabilidad corresponde al ajuste de la regresión.

Así, se rechaza la hipótesis Ho : β1 = 0 al nivel de significancia α si F > F 1−α(1,n−2)

donde F 1−α(1,n−2) denota el cuantil (1− α) de una distribución F con 1 y n − 2 grados de

libertad.

El desarrollo formal para llevar a cabo la prueba de hipótesis Ho : β1 = 0 es por

razón de verosimilitudes:

Se definen primero los espacios paramétricos:

ΘHo = {(β0, β1, σ2) | β0 ∈ ℜ, β1 = 0, 0 < σ2 <∞}

y

Θ = {(β0, β1, σ2) | β0, β1 ∈ ℜ, 0 < σ2 <∞} .

L(ΘHo) y L(Θ) denotan a las funciones de verosimilitud en los espacios correspondi-

entes y L("ΘHo) y L(!Θ) denotan a las funciones evaluadas en el punto donde alcanzan su

valor máximo. Entonces

L(ΘHo) =n�

i=1

1√2πσ2

exp

�− 1

2σ2(Yi − β0)

2

=

�1

2πσ2

�n

2

exp

�− 1

2σ2

n�i=1

(Yi − β0)2

lnL(ΘHo) = −n2

ln 2πσ2 − 1

2σ2

n�i=1

(Yi − β0)2

derivando e igualando a cero esta expresión se tiene

∂ lnL(ΘHo)

∂β0=

1

2σ2

n�i=1

2(Yi − β0) = 0

∂ lnL(ΘHo)

∂σ2= −n

2

2πσ2+

1

2(σ2)2

n�i=1

(Yi − β0)2 = 0

De este sistema se obtiene

β0 = Y

y

33

Page 34: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

σ2 =1

n

n�i=1

(Yi − Y )2

por lo tanto

L("ΘHo) =

n

2πn�i=1

(Yi − Y )2

n

2

exp

− n

2n�i=1

(Yi − Y )2

n�i=1

(Yi − Y )2

=

n

2πn�i=1

(Yi − Y )2

n

2

exp*−n

2

+

Por otro lado

L(Θ) =

�1

2πσ2

�n2 exp

�− 1

2σ2

n�i=1

(Yi − β0 − β1Xi)2

lnL(Θ) = −n2

ln 2πσ2 − 1

2σ2

n�i=1

(Yi − β0 − β1Xi)2

∂ lnL(Θ)

∂β0=

1

2σ2

n�i=1

2(Yi − β0 − β1Xi) = 0

∂ lnL(Θ)

∂β1=

1

2σ2

n�i=1

2(Yi − β0 − β1Xi)(Xi) = 0

∂ lnL(Θ)

∂σ2= −n

2

2πσ2+

1

2(σ2)2

n�i=1

(Yi − β0 − β1Xi)2 = 0

Resolviendo el sistema tenemos

β1 =

n�i=1

(Xi − X )( Yi − Y )

n�i=1

(Xi − X )2; β0 = Y − β1X

y

σ2 =1

n

n�i=1

( Yi − Yi )2 =

1

n

n�i=1

ei2

Que son los estimadores por máxima verosimilitud que ya habíamos obtenido para

los parámetros en el modelo.

Sustituyendo β0, β1 y σ2 en la función de verosimilitud y considerando que :Yi = β0+

β1Xi, se obtiene:

34

Page 35: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

L(!Θ) =

n

2πn�i=1

(Yi − Yi )2

n

2

exp

− n

2n�i=1

(Yi − Yi )2

n�i=1

(Yi − Yi )2

=

n

2πn�i=1

(Yi − Yi )2

n

2

exp*−n

2

+

En el exponente de la exponencial de la expresión anterior se ha hecho la simplifi-

cación:

n�

i=1

Yi − β0 − β1Xi

�2=

n�

i=1

Yi − !Yi

�2

De esta forma, la razón de verosimilitudes es la siguiente, después de eliminar las expo-

nenciales:

λ =L("ΘHo)

L(!Θ)=

n

2πn�i=1

(Yi − Y )2

n

2

n

2πn�i=1

(Yi − Yi )2

n

2

=

n�i=1

(Yi − Yi )2

n�i=1

(Yi − Y )2

n

2

≤ λ0

lo cual ocurre si y sólo sin�i=1

(Yi − Yi )2

n�i=1

(Yi − Y )2≤ λ

2

n

0

donde, por la descomposición de la suma de cuadrados total tenemosn�i=1

(Yi − Yi )2

n�i=1

(Yi − Y )2=

n�i=1

(Yi − Yi )2

n�i=1

(Yi − Y )2 +n�i=1

(Yi − Yi )2=

1

1 +

n�i=1

(Yi − Y )2

n�i=1

(Yi − Yi )2

35

Page 36: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

por lo tanto, la desigualdad anterior puede escribirse como

n�i=1

(Yi − Y )2

n�i=1

(Yi − Yi )2≥ c

donde

n�i=1

(Yi − Yi )2

σ2∼ χ2(n−2)

y

n�i=1

(Yi − Y )2 = β2

1

n�i=1

(Xi − X )2

donde, bajo Ho

β1 ∼ N

0,

σ2

n�i=1

(Xi − X )2

entonces

β1σ�

n�i=1

(Xi − X )2

∼ N(0, 1)

⇒β2

1

n�i=1

(Xi − X )2

σ2∼ χ2(1)

De lo anterior se obtiene

F =

n�i=1

(Yi − Y )2

n�i=1

(Yi − Yi )2

n− 2

=

β2

1

n�i=1

(Xi − X )2

σ2n�i=1

(Yi − Yi )2

σ2

n− 2

∼ F(1,n−2)

36

Page 37: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Por lo tanto la regla decisión es: rechazar Ho : β1 = 0 al nivel de significancia α si el

valor de la estadística F excede al cuantil (1− α) de una distribución F(1,n−2), i. e., si

F > F 1−α(1,n−2)

Como puede verse, el resultado es el mismo que se obtuvo anteriormente y de la misma

forma, el resumen del desarrollo efectuado para esta prueba queda expresado en la tabla

de análisis de varianza correspondiente.

Predicción

Una vez obtenida la ecuación de regresión (o línea ajustada), la pregunta natural que

surge es: ¿Cómo va a ser utilizada la ecuación de regresión ?. El objetivo primario es

proveer una buena descripción del comportamiento de la variable dependiente ( o de re-

spuesta ); esto se logra haciendo una interpretación adecuada de la ecuación de regresión.

En segundo lugar, es de interés la predicción de respuestas futuras y la estimación de

respuestas medias , así como la extrapolación o predicción de respuestas fuera del rango

de los datos.

Intervalo de confianza para la respuesta media

Un uso importante de un modelo de regresión es estimar la respuesta media E(Y )

para un valor particular de la variable regresora o independiente X. SeaX0 el nivel o valor

de esta variable para el cual deseamos estimar la respuesta media, es decir E(Y | X0).

Suponemos que X0 es cualquier valor de X sobre el rango de los datos originales sobre

X utilizados para ajustar el modelo.

Un estimador puntual de E(Y | X0) que sea insesgado es

"E(Y | X0) = β0 + β1X0

donde β0 y β1 son los estimadores por mínimos cuadrados. Para obtener un intervalo del

(1 − α) × 100% de confianza para E(Y | X0), notamos primero que "E(Y | X0) es una

combinación lineal de las Y ′i s, por lo tanto, se distrubuye normalmente. La varianza de

"E(Y | X0) es la siguiente:

37

Page 38: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Var( "E(Y | X0)) = Var( β0 + β1X0) = Var(Y − β1X + β1X0) = Var(Y + β1(X0 − X))

= Var

n�

i=1

1

n+

(Xi − X )n�i=1

(Xi − X )2(X0 − X)

Yi

=

n�

i=1

1

n+

(Xi − X )n�i=1

(Xi − X )2(X0 − X)

2

Var(Yi)

=n�

i=1

σ2

1

n2+

(Xi − X )2�n�i=1

(Xi − X )2�2 (X0 − X)2 + 2

1

n

(Xi − X )n�i=1

(Xi − X )2(X0 − X)

= nσ2

n2+

(X0 − X)2

n�i=1

(Xi − X )2σ2

=

1

n+

(X0 − X)2

n�i=1

(Xi − X )2

σ2

Tenemos entonces

"E(Y | X0)−E(Y | X0)�������

1

n+

(X0 − X)2

n�i=1

(Xi − X )2

σ2

∼ N(0, 1) y

n�i=1

(Yi − Yi )2

σ2∼ χ2(n−2)

38

Page 39: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Figura 4

de donde se sigue que:

t =

"E(Y | X0)−E(Y | X0)�������

1

n+

(X0 − X)2

n�i=1

(Xi − X )2

σ2

����������

n�i=1

(Yi − Yi )2

σ2

n− 2

="E(Y | X0)− E(Y | X0)����

n�i=1

(Yi − Yi )2

n− 2

�������

1

n+

(X0 − X)2

n�i=1

(Xi − X )2

∼ t(n−2)

donde

n�i=1

(Yi − Yi )2

n− 2=

n�i=1

e2i

n− 2= CME

Por lo tanto, un intervalo del (1− α)× 100% de confianza sobre la respuesta media

en el punto X = X0 es

39

Page 40: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

"E(Y | X0)− t1−α

2

(n−2)

√CME

�����1

n+

(X0 − X)2

n�i=1

(Xi − X )2< E(Y | X0) <

"E(Y | X0) + t1−α

2

(n−2)

√CME

�����1

n+

(X0 − X)2

n�i=1

(Xi − X )2

Note que la amplitud del intervalo es función de X0. La amplitud mínima del intervalo

ocurre en el punto X0 = X.

Predicción de observaciones nuevas

Si X0 es el valor de X, entonces

Y0 = β0 + β1X0

es un estimador puntual del nuevo valor de respuesta Y0.

Intervalo de predicción para la futura observación Y .

Note que la variable aleatoria

ψ = (Y0 − Y0) ∼ N (0, V ar(ψ))

V ar(ψ) = V ar(Y0 − Y0)

= V ar(Y0) + V ar(Y0)

ya que la observación futura Y0 es independiente de Y0. Por lo tanto

V ar(ψ) = σ2 + σ2

1

n+

(X0 − X)2

n�i=1

(Xi − X )2

= σ2

1 +

1

n+

(X0 − X)2

n�i=1

(Xi − X )2

El intervalo de predicción del (1 − α) × 100% de confianza sobre una observación

futura en X0 es

Y0−t1−α

2

(n−2)

√CME

�����1 +1

n+

(X0 − X)2

n�i=1

(Xi − X )2< Y0 < Y0+t

1−α

2

(n−2)

√CME

�����1 +1

n+

(X0 − X)2

n�i=1

(Xi − X )2

donde t1−α

2

(n−2) es el cuantil 1− α

2de una distribución t con n− 2 grados de libertad.

40

Page 41: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Este intervalo tiene amplitud mínima en X0 = X y se hace más ancho a medida que,,X0 − X

,, se incrementa.

Comparando los intervalos que acabamos de calcular, observamos que el intervalo de

predicción en X0 es siempre más ancho que el intervalo de confianza en X0, debido a que

el intervalo de predicción depende de dos cosas: El error del modelo ajustado y el error

asociado con observaciones futuras.

Ejemplo 3.- Utilizando los datos de la tabla 2, construiremos un intervalo del 95 % de

confianza para E(Y | X0) con X0 = 20. A partir de la ecuación de regresión se encuentra

que:

"E(Y | X0 = 20) = 3.8296 + (0.9036) (20) = 21.9025

X = 33.4545,n�i=1

(Xi − X )2 = 4152.18⇒√CME = 3.2296 y t.975(31) = 2.045.

Entonces, un intervalo del 95 % de confianza para E (Y0 | X0 = 20) es

21.095− (2.045)(3.2296)

�1

33+

(20− 33.4545)2

4152.18< E(Y0 | X0 = 20) <

21.095 + (2.045)(3.2296)

�1

33+

(20− 33.4545)2

4152.18

entonces 19.2996 < E(Y0 | X0 = 20) < 22.8904

Un intervalo de predicción para Y0 cuando X0 = 20 del 95 % de confianza es

21.095− (2.045)(3.2296)

�1 +

1

33+

(20− 33.4545)2

4152.18< Y0 <

21.095 + (2.045)(3.2296)

�1 +

1

33+

(20− 33.4545)2

4152.18lo cual ocurre sólo cuando

14.2508 < Y0 < 27.9392

41

Page 42: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

Forma matricial del modelo lineal simple

En el presente capítulo hemos construido el modelo de regresión lineal simple en

notación algebraica; a continuación introduciremos la notación matricial para éste. Es-

ta notación nos permitirá más adelante continuar con la construcción de modelos más

generales.

Sabemos que

Yi = β0 + β1Xi + εi

εi ∼ N(0, σ2), independientes

i = 1, 2, ..., n

Si escribimos cada uno de los n elementos se tiene

Y1 = β0 + β1X1 + ε1

Y2 = β0 + β1X2 + ε2...

Yn = β0 + β1Xn + εn

que es equivalente a la siguiente expresión matricial

Y1

Y2

···Yn

=

β0 + β1X1 + ε1

β0 + β1X2 + ε2

···

β0 + β1Xn + εn

Sea

Y =

Y1

Y2

···Yn

42

Page 43: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

se tiene

Y =

β0 + β1X1 + ε1

β0 + β1X2 + ε2

···

β0 + β1Xn + εn

descomponiendo el miembro derecho

Y =

β0 + β1X1

β0 + β1X2

···

β0 + β1Xn

+

ε1

ε2

···εn

=

1 X1

1 X2

· ·· ·· ·· Xn

β0

β1

+

ε1

ε2

···εn

Si denotamos por

X =

1 X1

1 X2

· ·· ·· ·· Xn

β =

β0

β1

43

Page 44: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

ε =

ε1

ε2

···εn

se tiene la siguiente expresión de la recta ajustada

Y = Xβ + ε

Note que Y es un vector de dimensión n×1, X es una matriz de n×2, β es un vector

de 2× 1 y ε es un vector de n× 1.

Para denotar la hipótesis distribucional, definamos la esperanza de un vector Z, de

tamaño n, cuyas entradas zi son variables aleatorias como:

E(Z) =

E(z1)

E(z2)

···

E(zn)

La esperanza de una matriz se define como la matriz de las esperanzas, esto es:

E(A) =

E(a11) E(a12) · · · E(a1n)

E(a21) E(a22) · · · E(a2n)

· ·· ·· ·

E(am1) E(am2) · · · E(amn)

Necesitamos también definir la varianza de un vector; sea Z un vector de tamaño n

44

Page 45: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

V ar(Z) = E�(Z − E(Z)) (Z − E(Z))′

que es la matriz

E

(z1 −E(z1))2 (z1 −E(z1)) (z2 − E(z2)) · · · (z1 − E(z1)) (zn − E(zn))

(z2 −E(z2)) (z1 − E(z1)) (z2 −E(z2))2 · · · (z2 − E(z2)) (zn − E(zn))

···

···

···

(zn −E(zn)) (z1 − E(z1)) (zn −E(zn)) (z2 −E(z2)) · · · (zn −E(zn))2

esto es:

V ar(Z) =

V ar(z1) Cov(z1, z2) · · · Cov(z1, zn)

Cov(z1, z2) V ar(z2) · · · Cov(z2, zn)

···

Cov(z1, zn) Cov(z2, zn) · · · V ar(zn)

Que es llamada la matriz de varianzas y covarianzas. Obsérvese que ésta es una matriz

simétrica y que si los elementos del vector fueran independientes, se tendría la matriz

diagonal

V ar(Z) =

V ar(z1) 0 · · · 0

0 V ar(z2) · · · 0

· ·· ·· ·0 0 · · · V ar(zn)

Así, tenemos la notación

45

Page 46: Introducción - WordPress.com...1 Introducción La modelación se refiere al desarrollo de expresiones matemáticas que describen en algúnsentido el comportamiento de una variablede

ε ∼ N(0, σ2In)

E(ε) = 0

V ar (ε) =

V ar(ε1) 0 · · · 0

0 V ar(ε2) · · · 0

· ·· ·· ·0 0 · · · V ar(εn)

Por otro lado, la densidad conjunta de los errores

f (ε1, ε2, ..., εn) = f (ε1) · f (ε2) · ...f (εn)

puede ser escrita de la siguiente forma:

f (ε) =n�

i=1

1√2πσ

exp

�− 1

2σ2(εi)

2

=

�1

2πσ2

�n

2

exp

�− 1

2σ2

n�i=1

(εi)2

donde f (ε) = f (ε1, ε2, ..., εn)

La suma de cuadrados de los errores puede ser denotada por

ε′ε =n�i=1

(εi)2 = ε′Inε

con lo cual la densidad conjunta de los errores queda expresada de la siguiente manera:

f (ε) =

�1

2πσ2

�n

2

exp

�−1

2ε′�

1

σ2In

�ε

=

�1

2πσ2

�n

2

exp

�−1

2ε′ (σ2In)

−1ε

=

�1

�n

2

(|σ2In|)−1 exp�−1

2ε′ (σ2In)

−1ε

46