Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn...

42
Modelos Estadísticos de Regresión Lineal Suponga que cuenta con un banco de datos que contiene información relativa a dos variables X y Y las cuales se presume guardan una relación aproximadamente lineal. El ejemplo de las variables Estatura y Peso que ya se ha examinado es pertinente en este punto. Caso Estatura Peso 1 166 60 2 170 66 3 174 75 4 168 60 5 195 98 6 186 85 7 170 70 8 165 73 9 153 49 10 168 72 11 171 71 12 178 62 13 165 61 14 171 70 15 183 100 16 170 75 17 175 62 18 165 56 19 168 50 202

Transcript of Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn...

Page 1: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Modelos Estadísticos de Regresión Lineal Suponga que cuenta con un banco de datos que contiene información relativa a dos variables X y Y las cuales se presume guardan una relación aproximadamente lineal. El ejemplo de las variables Estatura y Peso que ya se ha examinado es pertinente en este punto.

Caso Estatura Peso1 166 602 170 663 174 754 168 605 195 986 186 857 170 708 165 739 153 49

10 168 7211 171 7112 178 6213 165 6114 171 7015 183 10016 170 7517 175 6218 165 5619 168 50

202

Page 2: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Peso y Estatura

40

50

60

70

80

90

100

150 160 170 180 190 200

En la Figura se muestra el Diagrama de Dispersión correspondiente y, como ya se ha discutido, es claro que estos datos presentan evidencia de asociación entre las respectivas variables, en particular sugieren una relación lineal. Si el propósito del estudio es pronosticar el valor de una observación futura de la variable Peso, resulta natural sugerir el empleo de la variable Estatura como elemento auxiliar en el pronóstico.

203

Page 3: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Específicamente, parece razonable el empleo de la distribución condicional de la variable Peso, dado el valor de la variable Estatura, en lugar de la distribución marginal de la variable Peso. Más aun, y en virtud de la evidencia gráfica, resulta pertinente explorar la viabilidad de un modelo que incorpore explícitamente la relación lineal que se presume guardan estas dos variables. Precisamente con esa idea, un segundo paso después del análisis gráfico, consiste en la evaluación cuantitativa de la fuerza con que se manifiesta esta relación. En este punto resulta conveniente el cálculo del, ya conocido, coeficiente de correlación.

YYXX

XYYX, SS

SR =

204

Page 4: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Para el cálculo de este coeficiente es necesario recordar que:

∑ −−= ))(( yyxx iiXYS , ∑ −= 2)( xxiXXS y ∑ −= 2)( yyiYYS .

Así, para los datos del ejemplo se tiene que

SXY = 1824.5,

SYY = 3423.2 y

SXX = 1498.4; Por tanto,

RX,Y = 0.806 y R = 0.649 . 2

YX,

Estos cálculos permiten establecer que existe evidencia de asociación lineal positiva en los datos. La interpretación concreta, es la siguiente: El patrón de asociación lineal con la Estatura explica el 65% de la variabilidad del Peso.

205

Page 5: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Recordando la discusión que se presentó cuando se trató el Análisis Exploratorio de Asociación, si se cuenta con la información de dos variables cuantitativas para n casos de forma que el banco incluye los pares (x1, y1), (x2, y2), … (xn, yn) entonces se dice que las variables tienen una relación lineal si existen dos constantes β0 y β1 tales que la ecuación

yi = β0 + β1 xi se cumple en forma exacta para todos y cada uno de los casos en el banco.

Evidentemente, esta no es la situación con los datos de la Estatura y el Peso. El patrón que se manifiesta es, mas bien, una tendencia. En otras palabras, una relación lineal aproximada. En consecuencia, es necesario precisar la noción de tendencia lineal e incorporarla explícitamente en un modelo estadístico para pronósticos.

206

Page 6: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

La forma en que la idea de tendencia lineal se incorpora en los modelos estadísticos para pronósticos, particularmente en los de regresión es la siguiente. Para cada valor fijo x de la variable explicativa (en este caso la Estatura) se considera que el valor correspondiente de la variable de respuesta Y (el Peso en el ejemplo) se produce de acuerdo a una ecuación de la forma

y = β0 + β1 x + ε

en donde ε es una variable aleatoria que suma una gran cantidad de factores que, además de la Estatura, influyen en el Peso. Este supuesto se conoce con el nombre de supuesto estructural de separabilidad aditiva. Este es sólo el primero de diversos supuestos que se suelen incorporar en los modelos de regresión.

207

Page 7: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

En principio se supone que ε tiene una distribución Normal. Este supuesto, de normalidad, es particularmente razonable si se considera que se satisfacen las condiciones del Teorema Central del Límite. Por su parte el supuesto de media cero considera que los factores que componen y se integran en ε tienen efectos que pueden ser tanto negativos como positivos y se compensan en promedio, de manera que E(ε) = 0. Particularmente por conveniencia se adopta un supuesto más, de homoscedasticidad, según el cual los errores asociados a las distintas observaciones tienen la misma varianza, aunque desconocida, 2σ .

208

Page 8: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Finalmente, los modelos estadísticos de regresión incorporan el supuesto de independencia. Es decir, suponen que los errores o perturbaciones asociadas a las distintas observaciones (y, en consecuencia, las observaciones mismas de la variable Y) no están relacionadas en forma alguna. En consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional de la variable Y, dado un valor fijo x de la variable explicativa X, es de la forma

Y ~ Normal (β0 + β1x, σ2) y que los datos disponibles en el banco constituyen observaciones independientes de la variable Y. Vale la pena insistir en los supuestos clave que involucra un modelo de este tipo:

Separabilidad Aditiva 1. 2. 3. 4.

Normalidad Homoscedasticidad Independencia.

209

Page 9: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

La idea práctica más importante en el desarrollo conceptual de este tipo de modelos es que, si los valores de los parámetros β0, β1 y σ2 fuesen conocidos, entonces el comportamiento de Y dado un valor fijo de X, por ejemplo x, estaría completamente descrito por un modelo Normal cuyos parámetros serían totalmente conocidos.

Por ejemplo, si fuese posible establecer que los parámetros toman los valores β0 = -135, β1 = 1.2 y σ2 = 64, entonces para una Estatura de X = 170 centímetros, la respectiva distribución condicional del Peso resultaría una Normal con media

µ = -135 + (1.2)*(170) = 69 y varianza

σ2 = 64.

Así, cualquier pronóstico sobre el Peso dada una Estatura de 170 cms. Se obtendría del modelo correspondiente.

210

Page 10: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Distribución Normal (69, 64).

En este ejemplo no se conocen los valores de los parámetros. Esta es la situación en general y, por tanto, es necesario seleccionarlos o, con un lenguaje más estadístico, estimarlos, a partir de los datos en el banco disponible. De hecho, la estructura que se conoce como modelo de regresión lineal simple no es un modelo sino una familia paramétrica de modelos en el sentido que se ha discutido previamente.

0.00

0.01

0.02

0.03

0.04

0.05

40 50 60 70 80 90 100

211

Page 11: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Esta familia tiene tres parámetros (β0, β1 y σ2) y contiene tantos modelos como combinaciones de:

1. ordenada al origen (β0) en los reales, 2. pendiente (β1) también en los reales y 3. varianza (σ2) positiva

existan. Por supuesto, hay una cantidad infinita e incontable de este tipo de modelos.

Por otra parte, y ya que de parámetros se trata, es interesante observar que un modelo de esta familia no solamente describe una distribución condicional para Y sino que, en cuanto se fijan los valores de los parámetros (β0, β1 y σ2), al cambiar el valor de x se pueden obtener todas las distribuciones condicionales de Y dada X.

El problema que resta es el de estimación de los parámetros –el banco típicamente es sólo una muestra- y, en particular, interesa que el método de estimación ajuste el modelo a los datos tomando en cuenta que éste será utilizado para producir pronósticos.

212

Page 12: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Suponga que, con algún procedimiento, se determinan los valores estimados de los parámetros . Entonces, la estimación de la esperanza condicional de Y, dado un valor fijo de la variable Estatura X = x, está dada por

210 y σββ ˆˆ,ˆ

x 10x β+β=µ ˆˆˆ .

Observe que µ estima el punto en torno al cual se espera que ocurran los valores de Y cuando X tome el valor x.

En ese sentido, y aún cuando se sabe que todo pronóstico puntual tiene confiabilidad cero puesto que el modelo Normal es continuo, es que a

suele considerársele un pronóstico puntual para Y cuando X = x.

De hecho, usualmente se utiliza la notación

, o simplemente y xx µ= ˆˆ y xµ= ˆˆ , y a la ecuación

x y 10 β+β= ˆˆˆ

se le conoce como la recta ajustada.

213

Page 13: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Ahora bien si, al menos en términos indicativos, el valor de puede interpretarse como un pronóstico, entonces se puede proponer un criterio para la estimación de los parámetros del modelo.

y xµ= ˆˆ

La idea es seleccionar los parámetros que produzcan los mejores pronósticos. En concreto, aquellos que, para cada valor de X en el banco de datos, produzcan el valor y más cercano al correspondiente valor observado y.

En otras palabras, los parámetros deben seleccionarse de manera que la diferencia

y-y e ˆ=

sea lo más pequeña posible para todos y cada uno de los casos en el banco. Es fácil comprobar, con un argumento gráfico, que no es posible minimizar todos los errores de predicción {e1, e2, …en} simultáneamente. Es necesario entonces definir una medida individual cuya minimización pueda interpretarse como una forma de minimización global de los errores.

214

Page 14: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Existen distintas posibilidades pero la más común, que además resulta simple, es la siguiente:

∑=

=∆n

1i

2ie

o equivalentemente,

∑=

−=∆n

1i

2ii )y(y ˆ .

Más explícitamente aún se puede escribir, en términos de los parámetros:

∑=

β−β−=ββ∆n

1i

2i10i10 )x(y ˆˆ)ˆ,ˆ(

La propuesta es seleccionar los valores de los parámetros que minimicen el valor de la función ∆.

Este criterio se conoce en la literatura con el nombre de Método de Mínimos Cuadrados.

215

Page 15: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Es evidente que ∆ no puede tomar valores negativos y que la única manera en que puede alcanzar el valor cero es cuando todos y cada uno de los errores son iguales a cero (cuando el ajuste es perfecto).

Casualmente es interesante notar que si los errores tienen media igual a cero entonces, salvo porque el número de datos no aparece como divisor, ∆ coincide con la varianza de {e1, e2, …en}. Así que el método de mínimos cuadrados también puede interpretarse como un método de mínima varianza.

El caso es que la minimización de ∆ puede llevarse a cabo de distintas formas. Una de ellas consiste en reconocer que es una función diferenciable de β y 0

ˆ1β . De esta forma, se pueden

calcular las derivadas parciales de ∆ respecto a estos dos parámetros; Establecer la igualdad con cero de las dos expresiones y resolver el par de ecuaciones.

216

Page 16: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Las derivadas parciales son las siguientes:

∑=

β−β−=β∂∆∂ n

1ii10i

0

)(-1)x(y ˆˆ2ˆ

∑=

β−β−=β∂∆∂ n

1iii10i

1

))(-xx(y ˆˆ2ˆ

De donde se obtiene el sistema de ecuaciones lineales:

∑∑==

=β+βn

1ii

n

1ii10 yxn ˆˆ

∑∑∑===

=β+βn

1iii

n

1i

2i1

n

1ii0 yxxx ˆˆ

Cuya solución está dada por los valores:

xy 10 β−=β ˆˆ

=

=−

=β n

1i

2i

n

1iii

1

)x-(x

y)(yx-(x )ˆ

217

Page 17: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Equivalentemente,

xy 10 β−=β ˆˆ

XX

XY1 S

S=β

se conocen como los estimadores de mínimos cuadrados de los coeficientes de la regresión.

Por su parte a la recta que definen estos estimadores

x y 10 β+β= ˆˆˆ

se le conoce como la recta ajustada de mínimos cuadrados.

Para los datos de Peso y estatura se tiene que:

171.63x = ,

69.25y = ,

SXY = 1824.5 y

SXX = 1498.4

218

Page 18: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

De manera que

139.7680 −=β

1.2181 =β

y, por tanto, la recta ajustada por mínimos cuadrados resulta:

x 2181768139y .+.−=ˆ

40

50

60

70

80

90

100

150 160 170 180 190 200

La gráfica exhibe los datos del ejemplo junto con la correspondiente recta ajustada por mínimos cuadrados.

219

Page 19: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

De acuerdo con la discusión de las ideas que subyacen la producción de estimadores, es claro que tanto β como 0

ˆ1β han sido calculados a partir

de los datos disponibles y que de ellos, las observaciones de la variable Y son el resultado de registrar variables aleatorias.

Por tanto los valores estimados de los parámetros también se pueden considerar como el resultado de observar sendas variables aleatorias. A partir de los supuestos del modelo es posible probar que

)SN(~ xx2

11 /,ˆ σββ y

))/(nSxN(~ xx

n

1i

2i

200 ∑

=σββ ,ˆ

En particular, entonces, se tiene que

)E 11 β=β(ˆ y

)E 00 β=β( ˆ .

220

Page 20: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

De manera que tanto 0β como 1β son estimadores insesgados de los respectivos parámetros desconocidos. Por otra parte, es interesante observar como la varianza de cada uno depende tanto de la varianza en el modelo σ2 como de los datos de la variable X.

Concretamente, en el caso de 1β , la varianza de este estimador decrece a medida que la varianza de los datos de la variable X aumenta.

En lo que se refiere a 0β , el resultado es menos obvio pero es posible comprobar que su varianza decrece a medida que la media de los datos de la variable X se aproxima a cero.

En cualquier caso, se tienen los estimadores de los coeficientes del modelo de regresión y, por tanto la recta ajustada. Sin embargo aún no se ha determinado la distribución condicional de Y dado un valor fijo de X. Falta por estimar la varianza σ2.

221

Page 21: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Para estimar el parámetro σ2 también se pueden utilizar distintos argumentos. La forma más simple y común se basa en el cálculo de las diferencias

iii y- y e ˆ= i = 1, 2, …, n

entre las observaciones y los valores obtenidos de la recta de mínimos cuadrados.

Los valores {e1, e2, …en} que se conocen como errores residuales, tienen media cero y en cierto sentido aproximan el comportamiento de las variables aleatorias {ε1, ε2, …εn}. En particular, su varianza estima la varianza de ε. Puesto, que como ya se indicó la media aritmética de e1, e2, …en es cero, la correspondiente varianza resulta simplemente

=

=

=

−=

=

)−=

n

1i

2iin

1

n

1i

2in

1

2n

1iin

12

)y(y

e

e(eS

ˆ

222

Page 22: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

De esta manera, el estimador de la varianza σ2

está dado por la suma de cuadrados de los residuales dividida por el tamaño del banco. Es decir,

∑=

−=σn

1i

2iin

12 )y(y ˆˆ

Como variable aleatoria, se tiene que 2σ presenta el siguiente comportamiento:

22)(n

22 ~n −σσ χ/ˆ .

Es decir, n tiene una distribución Ji cuadrada con n-2 grados de libertad.

22 σσ /ˆ

La variable W tiene una distribución Ji cuadrada, con r grados de libertad, si es continua, tiene como soporte el intervalo (0, ∞) y su función de densidad está dada por:

w/2)exp(w21

(r/2)1 f(w) 1r/2

r/2

Γ= −

223

Page 23: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Dos resultados interesantes son los siguientes:

1. Si Z es Normal estándar, entonces Z2 es Ji cuadrada con 1 grado de libertad.

2. Si W1 es Ji cuadrada con r1 g. l., W2 es

Ji cuadrada con r2 g. l. y son independientes entonces, W = W1+W2 resulta Ji cuadrada con r1+r2 g. l.

El modelo Ji cuadrada tiene un solo parámetro, que puede tomar cualquier valor positivo y que se conoce con el nombre de grados de libertad. Si W es una variable aleatoria Ji cuadrada con r grados de libertad entonces,

E(W) = r

Var(W) = 2r

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0 5 10 15 20

3 grados 10 grados 5 grados

224

Page 24: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Al margen de las características generales del modelo Ji cuadrada, es conveniente en este punto notar que:

2)/n(n)E( 22 −σ=σ

de manera que no es un estimador insesgado. Sin embargo, si en lugar de

2σ2σ se utiliza

2)/(nn 22 −σ=σ ˆ~

el nuevo estimador sí es insesgado. Es importante observar que ambos estimadores son muy parecidos, especialmente si n es grande. En cualquier caso en los que resta de este texto se empleará la versión insesgada:

∑=

−=σn

1i

2ii2-n

12 )y(y ˆ~

Este estimador tiene las propiedades básicas:

1. (n 22)(n

22 ~2)- −σσ χ/~

2. E( 22) σ=σ~

3. 2)-(n2)Var( 42 /~ σ=σ

225

Page 25: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Volviendo a los datos del ejemplo, se tiene que

1201.7)y(yn

1i

2ii =−∑

=ˆ y n-2 = 17.

Por lo tanto,

70.6872 =σ~ y 8.408=σ~

Es importante observar que ambos estimadores son muy parecidos, especialmente si n es grande. En cualquier caso en los que resta de este texto se empleará la versión insesgada:

∑=

−=σn

1i

2ii2-n

12 )y(y ˆ~

Con estos resultados se puede intentar la determinación de la distribución condicional de Y dado un valor fijo cualquiera de X. Una primera aproximación sería, para un valor fijo x,

) x, N(~Y 210 σβ+β ~ˆˆ

226

Page 26: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Sin embargo y precisamente porque los valores de los parámetros constituyen sólo una estimación y no necesariamente coinciden con los verdaderos valores desconocidos, es necesario incorporar esa incertidumbre en el modelo. En la literatura estadística ha sido establecido el procedimiento por medio del cual la incertidumbre adicional se toma en cuenta. En primer lugar, el modelo Normal se sustituye por un modelo t (de Student) que es muy parecido pero con colas más pesadas. Una variable W tiene una distribución t de Student con r grados de libertad si es continua con soporte (-∞, ∞) y su función de densidad está dada por:

( ) 1)/2(r-21/2- /2)w(1r(r/2)

1)/2][(r f(w) ++πΓ

+Γ=

227

Page 27: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

El modelo t de Student se aproxima al modelo Normal estándar a medida que el número de grados de libertad aumenta. Por otra parte, es interesante tener presente el siguiente resultado. Si Z es Normal estándar, V es Ji cuadrada con r grados de libertad y estas dos variables son independientes entonces

V/rZ W =

tiene una distribución t de Student con r grados de libertad.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-5.0 -3.0 -1.0 1.0 3.0 5.0

Normal Estándar T con 2 grados T con 10 grados

228

Page 28: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Volviendo al argumento principal, como una primera medida para tomar en cuenta la incertidumbre asociada a los estimadores de los parámetros en la distribución condicional de Y, el modelo Normal se sustituye por un modelo t. Además, como una segunda forma de corrección, la varianza se incrementa de manera que, a medida que los pronósticos se intentan para valores de X más lejanos de los que se tienen en el banco de datos, la precisión disminuye.

El resultado concreto establece que, para todo propósito práctico

{ } 2)n(~1

-Y1/2

S)x(x

n1

x

xx

2−

++σ

µ−

t~

ˆ .

Es decir, el valor de la variable Y, debidamente estandarizada, utilizando la desviación estándar estimada y un factor de corrección, no sigue ya una distribución Normal sino una distribución t de Student con n-2 grados de libertad.

229

Page 29: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Se puede comprobar que toda distribución t de Student es simétrica, unimodal (con moda en cero) y su densidad tiene forma de campana como la Normal (con una varianza mayor como se ha indicado).

En estas condiciones, si se denota por t(r, p) el cuantil de orden p de una t con r grados de libertad, entonces un pronóstico para el valor de Y cuando X = x, con confiabilidad de (1-α)×100% está dado por

{ }1/2S

)x(xn1

/2)-1 2,-(nx xx

2

1t −++σ±µ ~ˆ α .

Consideremos el caso del ejemplo. Ahí se tiene que

n = 19, 171.63 x = , SXX = 1498.4,

139.7680 −=β , 1.2181 =β y 8.408=σ~

Si ahora, de tablas, se observa que el cuantil de orden 0.975 de una distribución t con 17 grados de libertad resulta t(17, 0.975) = 2.11 entonces, un pronóstico con 95% de confiabilidad para el valor de Y cuando X = x está dado por el intervalo

{ }1/2

1498.4171.63)(x

191 2

1(8.408)(2.11)

x]2181768139−++∗∗±

.+ .−

[

230

Page 30: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Bandas de pronóstico al 95% para el Peso.

La recta ajustada por mínimos cuadrados es la recta óptima, en el sentido de que minimiza la suma de cuadrados de los errores en los pronósticos para los casos que aparecen en el banco de datos disponible. Sin embargo, como ya se ha comentado, los valores de los parámetros obtenidos por este método constituyen solamente estimaciones de los valores verdaderos (y desconocidos).

20

40

60

80

100

120

150 160 170 180 190 200

231

Page 31: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Es natural preguntarse entonces, cuales otros valores podrían ser estimaciones aceptables de esos parámetros desconocidos o si un valor específico es compatible con la estimación que se ha obtenido.

La clave para resolver estas interrogantes se encuentra en el modelo de probabilidad que describe el comportamiento de los estimadores como variables aleatorias.

Como ya se ha indicado, bajo los supuestos del modelo de regresión lineal simple se tiene que

)SN(~ xx2

11 /,ˆ σββ y

))/(nSxN(~ xx

n

1i

2i

200 ∑

=σββ ,ˆ

Considere, como ejemplo, el caso de 1β . A partir del modelo correspondiente se sigue que el error en la estimación tiene la siguiente distribución

)SN(0~- xx2

11 /,ˆ σββ .

232

Page 32: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

En consecuencia, si la varianza 2σ fuese conocida sería posible calcular intervalos para el error en el pronóstico y, por tanto, intervalos para otros valores estimados igualmente aceptables, con grado de confiabilidad determinado. Ahora bien, σ no es conocida pero se puede estimar con

2

2σ~ y entonces, se podría afirmar que aproximadamente,

)SN(0~- xx2

11 /~,ˆ σββ .

La corrección precisa, como en el caso de los pronósticos, recurre al empleo de la distribución t de Student. El resultado es el siguiente:

2)n(~)-S 11XX −

σββ( t~

ˆ

233

Page 33: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Por lo tanto, si t(n-2, p) es el cuantil de orden p de la distribución t de Student con n-2 grados de libertad, entonces

α=≤σ

ββ(≤− −−−− 1-)t

)-S tP( 2) / 2,1(n

11XX2) / 2,1(n αα ~

ˆ

De tal manera que cualquier valor 1β que cumpla con la condición

2) / 2,1(n11XX

2) / 2,1(n t )-S

t αα −−−− ≤σ

ββ(≤− ~

ˆ

es un valor tan compatible como 1β con el banco de datos disponible. En otros términos, se puede decir que un estimación por intervalo para el verdadero valor de

, con una confiabilidad de (1-α)×100%, está dada por

XX2) / 2,1(n1 S

t2

−−

σ±β

α .

234

Page 34: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

De hecho, en un sentido contrario, se puede decir que todo valor del parámetro que no cumpla la condición

2) / 2,1(n11XX

2) / 2,1(n t )-S

t αα −−−− ≤σ

ββ(≤− ~

ˆ

no es compatible con el banco de datos disponible (con un nivel de confiabilidad de (1-α)×100%). Si por ejemplo, hubiese razones –contextuales, teóricas o de algún otro tipo- para plantear que

puede tomar el valor (conocido) β entonces, con un nivel de confiabilidad (1-α)×100%, se puede afirmar que la hipótesis β se rechaza, a partir de la evidencia en el banco de datos, si no se cumple la condición

1β 1∗

11∗β=

2) / 2,1(n

*11XX

2) / 2,1(n t )-S

t αα −−−− ≤σ

ββ(≤− ~

ˆ

235

Page 35: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Es decir, la hipótesis β se rechaza –con un nivel de confiabilidad (1-α)×100%-, si

11∗β=

2) / 2,1(n11XX t - S

α−−

ββ~ˆ

Un caso de interés particular es β Es decir, el contraste de la hipótesis H

0. 1 =∗

0.1 =β : La hipótesis se rechaza, con un nivel de confiabilidad (1-α)×100%, si

2) / 2,1(n1XX t

Sα−−>

σ

β~

ˆ

La importancia del contraste de H 01 =β : (contra la alternativa H ) es de importancia porque si el banco de datos es compatible con H, entonces existe evidencia para declarar que, al menos linealmente, la variable X no influye en los pronósticos de Y.

01A ≠β :

236

Page 36: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

En el caso del ejemplo, se tiene que 1.2181 =β ,

70.6872 =σ~ ( 8.408=σ~ ) y SXX = 1498.4. Además, de tablas se observa que t(17, 0.975) = 2.11. Por tanto, el intervalo con 95% de confiabilidad para

está dado por 1β

1498.468770 2.111.218 .

±

es decir, [0.7597, 1.6763]. En otras palabras, cualquier valor entre 0.7597 y 1.6763 es un valor de compatible con los datos (siempre con 95% de confiabilidad).

Con el mismo nivel de confiabilidad, 95%, se puede afirmar que los valores fuera de este intervalo no son compatibles con la evidencia que proporciona el banco de datos. En particular, puesto que el cero está fuera del intervalo, se rechaza la hipótesis H 0.1 =β : Este hecho puede también comprobarse si se verifica que

5.6078 σ

β S 1XX= ~

ˆ

mientras que t(17, 0.975) = 2.11. Por tanto,

2) / 2,1(n1XX t

Sα−−>

σ

β~

ˆ

y se obtiene el resultado.

237

Page 37: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

El caso de β es similar. Como ya se ha indicado, bajo los supuestos del modelo,

))/(nSxN(~ xx

n

1i

2i

200 ∑

=σββ ,ˆ

En consecuencia,

))/(nSxN(0~- xx

n

1i

2i

200 ∑

=σββ ,ˆ

Nuevamente si σ fuese conocida, ese modelo podría emplearse para describir el grado de aproximación de β como estimador de

2

0β . Como ya se comentó, la varianza es desconocida pero puede estimarse con 2σ~ y como una primera aproximación puede afirmarse que

))/(nSxN(0~- xx

n

1i

2i

200 ∑

=σββ ~,ˆ

238

Page 38: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

La versión precisa de esta afirmación, utilizando la t de Student, es la siguiente:

2)n(~)-x

nS 002i

xx −σ

ββ(

∑t~

ˆ

De donde se tiene que una estimación por intervalo para el verdadero valor de 0β , con una confiabilidad de (1-α)×100%, está dada por

XX

2i

2) / 2,1(n0 nSx t )(~

ˆ ∑2

−−

σ±β α .

Asimismo, el contraste de H (contra la alternativa ) puede llevarse a cabo, con una confiabilidad (1-α)×100%, comprobando si β pertenece al intervalo descrito. La hipótesis se rechaza si el valor en la hipótesis se encuentra fuera del intervalo y, en caso contrario, se puede afirmar que la evidencia en el banco no permite rechazarla.

∗β=β : 00 ∗β≠β : 00AH

∗0

239

Page 39: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Equivalentemente, también es posible llevar a cabo el contraste de H , con un nivel de confiabilidad (1-α)×100%, si se rechaza cuando

∗β=β: 00

2) / 2,1(n00

2i

xx t )-x

nSα−−

ββ(

∑ ~ˆ

Recurriendo, una vez más, a los datos del ejemplo se tiene 139.7680 −=β , 70.6872 =σ~ ( 8.408=σ~ ),

171.63X = y SXX = 1498.4. Por otra parte y como ya se indicó, de tablas se observa que el cuantil relevante es t(17, 0.975) = 2.11. Por tanto, el intervalo con 95% de confiabilidad para 0β está dado por

4.440 8.4082.11139.768- ××±

es decir, [-218.534, -61.002].

Respecto al parámetro σ2 se puede proceder de forma similar. El estimador insesgado de la varianza está dado

∑=

−=σn

1i

2ii2-n

12 )y(y ˆ~

240

Page 40: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Por otra parte, como se indicó,

22)(n

22 ~ 2)-(n −σσ χ/~ . Ahora, si se tiene que

p) P( 2p) 2,(n

22)(n =≤ −− χχ ,

es decir, si 2

p) (r,χ es el cuantil de orden p de una Ji cuadrada con r grados de libertad entonces

α=≥σσ − -1) 2)-(n P( 2) 2,(n

22αχ/~ .

De donde se sigue que

α=σ≤σ − -1) 2)-(n P( 2) 2,(n

22αχ/~

de forma que una estimación por intervalo, con una confiabilidad de (1-α)×100% para σ2 está dada por el intervalo

) 2)-(n ( 2) 2,(n

2αχ −σ0 /~, .

241

Page 41: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Cuantiles de orden p de una distribución Ji Cuadrada con r grados de libertad.

pr 0.010 0.050 0.100 0.200 0.800 0.900 0.950 0.990

1 0.000 0.004 0.016 0.064 1.642 2.706 3.841 6.6352 0.020 0.103 0.211 0.446 3.219 4.605 5.991 9.2103 0.115 0.352 0.548 1.005 4.642 6.251 7.815 11.3414 0.297 0.711 1.064 1.649 5.989 7.779 9.488 13.2775 0.554 1.145 1.610 2.343 7.289 9.236 11.070 15.086

6 0.872 1.635 2.204 3.070 8.558 10.645 12.592 16.8127 1.239 2.167 2.833 3.822 9.803 12.017 14.067 18.4758 1.646 2.733 3.490 4.594 11.030 13.362 15.507 20.0909 2.088 3.325 4.168 5.380 12.242 14.684 16.919 21.66610 2.558 3.940 4.865 6.179 13.442 15.987 18.307 23.209

11 3.053 4.575 5.578 6.989 14.631 17.275 19.675 24.72512 3.571 5.226 6.304 7.807 15.812 18.549 21.026 26.21713 4.107 5.892 7.042 8.634 16.985 19.812 22.362 27.68814 4.660 6.571 7.790 9.467 18.151 21.064 23.685 29.14115 5.229 7.261 8.547 10.307 19.311 22.307 24.996 30.578

16 5.812 7.962 9.312 11.152 20.465 23.542 26.296 32.00017 6.408 8.672 10.085 12.002 21.615 24.769 27.587 33.40918 7.015 9.390 10.865 12.857 22.760 25.989 28.869 34.80519 7.633 10.117 11.651 13.716 23.900 27.204 30.144 36.19120 8.260 10.851 12.443 14.578 25.038 28.412 31.410 37.566

21 8.897 11.591 13.240 15.445 26.171 29.615 32.671 38.93222 9.542 12.338 14.041 16.314 27.301 30.813 33.942 40.28923 10.196 13.091 14.848 17.187 28.429 32.007 35.172 41.63824 10.856 13.848 15.659 18.062 29.553 33.196 36.415 42.98025 11.524 14.611 16.473 18.940 30.675 34.382 37.652 44.314

26 12.198 15.379 17.292 19.820 31.795 35.563 38.885 45.64227 12.879 16.151 18.114 20.703 32.912 36.741 40.113 46.96328 13.565 16.928 18.939 21.588 34.027 37.916 41.337 48.27829 14.256 17.708 19.768 22.475 35.139 39.087 42.557 49.58830 14.953 18.493 20.599 23.364 36.250 40.256 43.773 50.892

242

Page 42: Modelos Estadísticos de Regresión Linealallman.rhon.itam.mx/~lnieto/index_archivos/Cap5.pdfEn consecuencia, un Modelo de Regresión Lineal Simple supone que la distribución condicional

Volviendo al ejemplo, de las tablas se puede observar que

8.67220.05) (17, =χ

mientras que

70.6872 =σ~

de manera que, con 95% de confiabilidad, el intervalo para σ2 resulta( 8.672)/ 70.687170, × . Es decir,( . 138.57) 0,

En otras palabras, se puede afirmar que con un 95% de confiabilidad la varianza desconocida

no es mayor que 138.57. Equivalentemente, la desviación estándar

2σσ no es mayor que 11.772.

243