Alumnos_ei_semana 5 y 6

60
QUINTA SEMANA Modelo de regresión Lineal Simple

description

estadistica industrial unmsm

Transcript of Alumnos_ei_semana 5 y 6

Page 1: Alumnos_ei_semana 5 y 6

QUINTA SEMANA

Modelo de regresión Lineal Simple

Page 2: Alumnos_ei_semana 5 y 6

Caso: Pizzerías Armand

Cadena de restaurantes de comida italiana que abarca cinco estados. Los lugares donde sus establecimientos han tenido más éxito están cercanos a establecimientos de educación superior. Los administradores creen que las ventas en esos restaurantes (representada por y), se relacionan en forma positiva con la población estudiantil (representada por x). Esto es, que los restaurantes cercanos a centros escolares con gran población tienden a generar más ventas que los que están cerca de centros con población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación que muestre cómo se relaciona la variable dependiente y con la variable independiente x.

Page 3: Alumnos_ei_semana 5 y 6

Modelo de regresión y ecuación de regresión

En el ejemplo de Pezzerías Armand, cada restaurante está asociado con un valor de x (población estudiantil) y un valor correspondiente de y (ventas

trimestrales). La ecuación que describe cómo se relaciona y con x y con un término de error se llama modelo de regresión.

Modelo de regresión lineal simple

En este modelo, y es una función lineal de x (la parte ) más . son los parámetros del modelo, y (letra griega épsilon) es una variable aleatoria. El término de error explica la variabilidad en y que no se puede explicar con la relación lineal entre x y y.

(1)

Page 4: Alumnos_ei_semana 5 y 6

Ecuación de regresión lineal simple

En la regresión lineal simple, la gráfica de la ecuación de regresión es una línea recta; es la ordenada al origen de esa recta, es su pendiente y es la media o valor esperado de y para determinado valor de x.

(2)

Page 5: Alumnos_ei_semana 5 y 6

Ecuación de regresión estimada

Si se conocieran los valores de los parámetros podríamos usar la ecuación (2) para calcular el valor medio de y para determinado valor de x. Desafortunadamente, los valores de los parámetros no se conocen, en la práctica, y se deben estimar usando datos de la muestra. Se calculan estadísticos de la muestra (denotados b0 y b1) como estimados de los parámetros , respectivamente. Al sustituir los valores de los parámetros por los estadísticos b0 y b1 en la ecuación de regresión, obtenemos la ecuación de regresión estimada, o simplemente ecuación de regresión

Page 6: Alumnos_ei_semana 5 y 6

En la regresión lineal simple, la ecuación de regresión se escribe en la siguiente forma:

En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea de regresión estimada; b0 es la ordenada al origen, b1 es la pendiente y es el valor estimado de y para determinado valor de x.

Page 7: Alumnos_ei_semana 5 y 6

Método de cuadrados mínimosEl método de cuadrados mínimos es un procedimiento para encontrar la ecuación de regresión estimada usando datos de una muestra. Para ilustrarlo en el ejemplo de Pizzerías Armand, suponga que se reunieron datos de una muestra de 10 restaurantes ubicados cerca de centros educativos. Para la i-ésima observación o restaurante de la muestra, xi es el

tamaño de la población estudiantil, en miles, y yi son las

ventas trimestrales (en miles de dólares). Los valores de xi y

yi para los 10 restaurantes de la muestra se resumen en la

siguiente tabla:

Page 8: Alumnos_ei_semana 5 y 6

Restaurantei

Población de estudiantes (miles)

xi

Ventas trimestrales(miles de dólares) yi

1 2 582 6 1053 8 884 8 1185 12 1176 16 1377 20 1578 20 1699 22 149

10 26 202En la tabla, vemos que el restaurante 1, con x1 = 2 y y1 = 58 está cerca de un centro

con 2000 estudiantes y sus ventas trimestrales son de 58 000 dólares. El restaurante 2, con x2 = 6 y y2 = 105 está cerca de un centro con 6 000 estudiantes y sus ventas

trimestrales son de 105 000 dólares. El valor máximo de ventas es para el restaurante 10, que está cerca de un centro con 26 000 estudiantes y sus ventas trimestrales son de 202 000 dólares.

Page 9: Alumnos_ei_semana 5 y 6

Diagrama de dispersión

El diagrama de dispersión permite observar gráficamente los datos y hacer conclusiones preliminares acerca de la relación posible entre las variables. El tamaño de la población de estudiantes se representa en el eje horizontal y el valor de las ventas trimestrales en el eje vertical. Los diagramas de dispersión, para el análisis de regresión, se forman con valores de la variable independiente x en el eje horizontal, y los de la variable dependiente y en el eje vertical.

Page 10: Alumnos_ei_semana 5 y 6

La siguiente figura muestra el diagrama de dispersión de los datos de Pizzerías Armand.

Estudiantes

Venta

s

2520151050

200

175

150

125

100

75

50

Diagrama de dispersión de Pizzerías Armand

Page 11: Alumnos_ei_semana 5 y 6

Para el i-ésimo restaurante, la ecuación de regresión estimada es:

Page 12: Alumnos_ei_semana 5 y 6

Pendiente e intercepción y para la ecuación de regresión estimada

o

Page 13: Alumnos_ei_semana 5 y 6

La ecuación de regresión estimada, deducida con el método de los cuadrados mínimos es:

La pendiente de la ecuación de regresión (b1 = 5) es positiva, lo cual

implica que al aumentar la población de estudiantes, las ventas también aumentan. De hecho, podemos llegar a la conclusión (ya que las ventas se miden en miles de dólares y la población en miles de estudiantes) que un aumento de 1 000 estudiantes en la población está asociado con un aumento de 5 000 dólares en las ventas esperadas; esto es, se espera que las ventas aumenten en 5.00 dólares por estudiante.Si creemos que la ecuación de regresión estimada con cuadrados mínimos describe en forma adecuada la relación entre x y y, parece razonable usarla para predecir el valor de y para determinado valor de x.

Page 14: Alumnos_ei_semana 5 y 6

Por ejemplo, si quisiéramos predecir las ventas en un restaurante ubicado cerca de un centro con 16 000 estudiantes, el resultado sería,

En consecuencia, predeciríamos ventas trimestrales de 140 000 dólares para este restaurante.

Page 15: Alumnos_ei_semana 5 y 6

Coeficiente de determinación

En el ejemplo de las Pizzerías Armand obtuvimos la ecuación de regresión para aproximar la relación lineal entre el tamaño de la

población de estudiantes, x, y las ventas trimestrales, y. Ahora la pregunta es: ¿qué tan bien se ajusta a los datos la ecuación de regresión? La relación SSR/SST, (SSR = suma de cuadrados debida a la regresión; SST = suma de cuadrados del total) que asume valores entre cero y uno, se usa para evaluar la bondad de ajuste para la ecuación de regresión. A esta relación se le llama coeficiente de determinación y se representa por r2. En el ejemplo de Pezzerías Armand, el valor del coeficiente de determinación es:

Page 16: Alumnos_ei_semana 5 y 6

Si lo expresamos como porcentaje, se puede interpretar a r2 como el porcentaje de la suma total de cuadrados que se puede explicar aplicando la ecuación de regresión. En el ejemplo de las pezzerías podemos concluir que se puede explicar 90.27% de la suma de cuadrados del total con la ecuación de regresión para predecir las ventas. En otras palabras, 90.27% de la variación en las ventas se puede explicar con la relación lineal entre el tamaño de la población de estudiantes y las ventas. Debemos estar satisfechos de ver tan buen ajuste entre la ecuación de regresión y los datos.

Page 17: Alumnos_ei_semana 5 y 6

Coeficiente de correlación

El coeficiente de correlación es una medida descriptiva de la intensidad de la asociación lineal entre dos variables, x y y. Los valores del coeficiente de correlación siempre están entre -1 y +1. Un valor de +1 indica que las dos variables, x y y, tienen una relación lineal positiva perfecta. Esto es, todos los puntos de datos están en una línea recta con pendiente positiva. Un valor de -1 indica que x y y tienen una relación lineal negativa perfecta, y que todos los puntos de datos están en una recta con pendiente negativa. Los valores del coeficiente de correlación cercanos a cero indican que x y y no tienen relación lineal.

Page 18: Alumnos_ei_semana 5 y 6

Si ya se ha hecho un análisis de regresión y se ha calculado el coeficiente de determinación r2, el coeficiente de correlación de la muestra se puede calcular como sigue:

El signo del coeficiente de correlación es positivo si la ecuación de regresión tiene pendiente positiva (b1 >0) y

negativo si la ecuación de regresión tiene pendiente negativa (b1 < 0). Para nuestro ejemplo, como la pendiente

de la ecuación de regresión es positiva, el coeficiente de correlación es:

Page 19: Alumnos_ei_semana 5 y 6

Concluimos que, con un coeficiente de correlación de la muestra rxy =+0.9501, hay una fuerte asociación lineal

positiva entre x y y.Aunque el coeficiente de correlación se restringe a una relación lineal entre dos variables, el coeficiente de determinación se puede emplear en relaciones no lineales y en relaciones que tengan dos o más variables independientes. En este sentido, el coeficiente de determinación tiene una aplicabilidad más amplia.

Page 20: Alumnos_ei_semana 5 y 6

Ya vimos que el valor del coeficiente de determinación (r2) es una medida de la bondad de ajuste de esta ecuación. Sin embargo, aún con un valor grande de r2 no se debería usar la ecuación de regresión sin antes efectuar un análisis de la adecuación del modelo supuesto. Un paso importante en la determinación de si es adecuado el modelo supuesto implica determinar la significancia (o importancia estadística) de la relación. Las pruebas de significancias en el análisis de regresión se basan en los siguientes supuestos acerca del término de error .

Page 21: Alumnos_ei_semana 5 y 6

Pruebas de significancia

Para probar si hay alguna relación importante de regresión debemos efectuar una prueba de hipótesis para determinar si el valor de es cero. Existen dos pruebas que se usan con más frecuencia. En ambas se requiere una estimación de , la varianza de en el modelo de regresión.

Page 22: Alumnos_ei_semana 5 y 6

A partir del modelo de regresión y sus supuestos podemos concluir que ,

la varianza de , también representa la varianza de los valores de y respecto a la línea de regresión. Recordemos que las desviaciones de los valores de y respecto a la línea de regresión estimada se llaman residuales. Así, la suma de los residuales al cuadrado, SSE, es una medida de la variabilidad de las observaciones reales respecto a la línea de regresión. El error cuadrado medio (MSE, por sus siglas en inglés) es la estimación de ; es igual a la SSE dividida entre sus grados de libertad. Si , la SSE se puede escribir en la forma

Page 23: Alumnos_ei_semana 5 y 6

Cada suma de cuadrados tiene asociado un número, que llamamos sus grados de libertad. Se ha demostrado que la SSE tiene n -2 grados de libertad, porque se deben estimar dos parámetros, , para calcular la SSE. Así, el cuadrado medio se calcula dividiendo SSE entre n – 2. El MSE da un estimador insesgado de . Debido a esto, también se usa la notación s2 en vez de MSE.

Page 24: Alumnos_ei_semana 5 y 6

Error cuadrado medio (estimación de )

Para el ejemplo de Pizzerías Armand, se tiene:

es una estimación insesgada de . Para estimar sacamos la raíz cuadrada de s2. El valor que resulta, s, se llama error estándar de la estimación.

Page 25: Alumnos_ei_semana 5 y 6

Error estándar de la estimación

.

Para el ejemplo de las Pizzerías Armand, .

Page 26: Alumnos_ei_semana 5 y 6

Prueba t de significancia en la regresión lineal simple

Estadístico de prueba

Regla de rechazo

Con el estadístico de prueba: Rechace o bien, si Con el valor p: Rechace donde se basa en una distribución t con n – 2 grados de libertad.

Page 27: Alumnos_ei_semana 5 y 6

Desviación estándar estimada de b1

Para nuestro ejemplo, se tiene:

como desviación estándar estimada de b1.

Haremos esta prueba de significancia para nuestro ejemplo a un nivel de significancia = 0.01. El estadístico de prueba es:

Page 28: Alumnos_ei_semana 5 y 6

De acuerdo con la tabla, vemos que el valor bilateral de t que corresponde a = 0.01 y n – 2 =10 – 2 = 8 grados de libertad es . Como 8.62 >

3.355, rechazamos H0 y llegamos a la conclusión de que, con un nivel de significancia de 0.01, no es igual a cero. La evidencia estadística es suficiente para concluir que tenemos una relación importante entre la población de estudiantes y las ventas. El criterio del valor p también se utiliza para probar una relación significativa. Se aplica la regla de rechazo común: Rechace H0 si el valor p < .No obstante, debido a que es difícil determinar el valor p a partir de las tablas de la distribución de probabilidad t, se emplea un programa de computadora como Minitab. Para nuestro ejemplo, el valor p asociado con el estadístico de prueba t = 8.62 es 0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una relación significativa entre la población de estudiantes y las ventas.

Page 29: Alumnos_ei_semana 5 y 6

SEXTA SEMANA

Modelo de regresión Lineal Simple

Page 30: Alumnos_ei_semana 5 y 6

Intervalo de confianza para La forma de un intervalo de confianza para es como sigue:

El estimador puntual es b1 y el margen de error es . El coeficiente de confianza asociado con este intervalo es 1 – y es el valor de t que da un área de en el extremo superior de una distribución t con n – 2 grados de libertad. Por ejemplo, suponga que queremos construir una estimación de intervalo de 99% de para las Pizzerías Armand. En la tabla, encontramos que el valor t que corresponde a = 0.01 y n – 2 = 10 – 2 = 8 grados de libertad es . Por tanto, la estimación del intervalo de confianza de 99% de es

Page 31: Alumnos_ei_semana 5 y 6

o bien, 3.05 a 6.95

Al usar la prueba t de significancia, las hipótesis probadas fueron:

Con un nivel de significancia = 0.01, podemos usar el intervalo de confianza de 99% como alternativa para sacar la conclusión de la prueba de hipótesis para los datos de nuestro ejemplo. Debido a que el cero, el valor supuesto de , no está incluido en el intervalo de confianza (3.05 a 6.95), se rechaza H0 y se concluye que existe una relación significativa entre la población y las ventas.

Page 32: Alumnos_ei_semana 5 y 6

Prueba F

También se puede usar una prueba F, basada en la distribución F de probabilidad, para probar si la regresión es significativa. Como sólo hay una variable independiente, la prueba F debe indicar la misma conclusión que la prueba t; esto es, si la prueba t indica que y que en consecuencia hay una relación significativa, la prueba F también indicará una relación significativa. Pero cuando hay más de una variable independiente, sólo se puede usar la prueba F para ver si hay una relación significativa general.

Prueba F de la significancia en la regresión lineal simple

Estadístico de prueba

Page 33: Alumnos_ei_semana 5 y 6

Regla de rechazo

Con el estadístico de prueba: Rechace Con el valor p: Rechace H0 si el valor de p <

donde se basa en una distribución F con un grado de libertad en el numerador y n – 2 grados de libertad en el denominador.

Hagamos la prueba F para nuestro ejemplo.

De la tabla, observamos que el valor F que corresponde a = 0.01 con un grado de libertad en el numerador y n – 2 = 10 – 2 = 8 grados de libertad en el denominador es

. Como 74.25 > 11.26, rechazamos H0 y concluimos que, con un nivel de significancia de 0.01, no es igual a cero. La prueba F ha suministrado la evidencia estadística necesaria para decir que tenemos una relación tangible entre la población de estudiantes y las ventas. El criterio del valor p también se emplea con la prueba F. Se aplica la regla de rechazo usual: Rechace H0 si el valor p < . Sin embargo, puesto que resulta difícil determinar el valor p directamente de las tablas de la distribución F de probabilidad, se emplea un paquete de software de computadora como Minitab. Para nuestro ejemplo, el valor p asociado con el estadístico de prueba F = 74.25 es 0.000. Con un valor p = 0.000 < = 0.01, se rechaza H0 y se concluye que tenemos una relación significativa entre la población de estudiantes y las ventas.

Page 34: Alumnos_ei_semana 5 y 6

Forma general de la tabla de análisis de varianza para regresión lineal simple

Fuente de variación

Suma de cuadrados

Grados de libertad Cuadrado medios F

Regresión SSR 1

Error SSE n - 2

Total SST n - 1

Page 35: Alumnos_ei_semana 5 y 6

Uso de la ecuación de regresión para evaluar y predecir

El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y y. Al usar el método de los cuadrados mínimos obtuvimos la ecuación de regresión lineal simple. Si los resultados tienen una relación estadísticamente significativa entre x y y, y si el ajuste que proporciona la ecuación de regresión parece bueno, esa ecuación podría usarse para estimaciones y predicciones.

Estimación puntual

En el ejemplo de Pizzerías Armand, la ecuación estimada de regresión es un estimado de la relación entre el tamaño de la población estudiantil, x, y las ventas trimestrales, y. Podemos usarla para determinar una estimación puntual del valor medio de y para determinado valor de x, o para predecir un valor individual de y que corresponda a determinado valor de x. Por ejemplo, suponga que los gerentes de Armand desean una estimación puntual de las ventas trimestrales promedio de todos los restaurantes cercanos a centros de estudio con 10 000 estudiantes. Al aplicar la ecuación de regresión, vemos que para x = 10 (o sea, 10 000), Así, una estimación puntual de las ventas muestrales promedio de todos los restaurantes cercanos a centros de estudios con 10 000 estudiantes es de 110 000 dólares.

Page 36: Alumnos_ei_semana 5 y 6

Ahora suponga que los gerentes de Armnand desean predecir las ventas de determinado restaurante cercano al Centro Universitario Moderno, escuela con 10 000 alumnos. En este caso, no interesa el valor medio de todos los restaurantes cercanos a escuelas con 10 000 alumnos; tan sólo interesa predecir las ventas trimestrales para ese restaurante. Sucede que la estimación puntual para este caso es igual a la estimación para el valor medio de y. En consecuencia, también se predecirían ventas de

o sea, de 110 000 dólares para este restaurante.

Page 37: Alumnos_ei_semana 5 y 6

Estimación de intervalo

Las estimaciones puntuales no dan ninguna información de la precisión asociada con la estimación. Para este fin debemos determinar estimaciones de intervalo. El primer tipo de estimaciones de intervalo es la estimación de intervalo de confianza; es una estimación de intervalo del valor medio de y para determinado valor de x. El segundo tipo es la estimación de intervalo de predicción, que se usa cuando deseamos una estimación de intervalo de un valor individual de y que corresponde a determinado valor de x. La estimación puntual del valor medio de y es la misma que la correspondiente a un valor individual de y. No obstante, son diferentes las estimaciones de intervalo que obtenemos para estos dos casos.

Page 38: Alumnos_ei_semana 5 y 6

Estimación del intervalo de confianza del valor medio de y

La ecuación de regresión determina una estimación puntual del valor medio de y para determinado valor de x. Al describir el procedimiento de estimación del intervalo de confianza usaremos la siguiente notación:

= valor particular o dado de la variable independiente x valor medio o esperado de la variable dependiente y que corresponde a la

dada = estimación puntual de cuando x =

Page 39: Alumnos_ei_semana 5 y 6

Al usar esta notación para estimar las ventas promedio de todos los restaurantes de Armand cercanos a centros escolares con 10 000 alumnos, = 10 y representa el valor medio desconocido de las ventas para todos los restaurantes en los que = 10. La estimación de es = 60+5(10) = 110.

En general, no podemos esperar que sea exactamente igual a Si queremos hacer una inferencia acerca de lo aproximado que está al valor medio verdadero

, tendremos que estimar la varianza de . La fórmula para estimar la varianza

de dada , denotada por , es

La estimación de la desviación estándar de es igual a la raíz cuadrada

Page 40: Alumnos_ei_semana 5 y 6

Los resultados de los cálculos para Pizzerías Armand fueron, entre otros, s = 13.829. Con = 10, y = 568,

= 4.95

Estimación del intervalo de confianza de

donde el coeficiente de confianza es 1 – y se basa en una distribución t con n -2 grados de libertad.

Page 41: Alumnos_ei_semana 5 y 6

Al usa esta ecuación para determinar una estimación del intervalo de confianza de 95% para las ventas promedio de todos los restaurante de Armand cercanos a centros escolares con 10 000 estudiantes, necesitamos el valor de t para = 0.025 n – 2 = 10 – 2 = 8 grados de libertad. En la tabla encontramos que . Así, con y un margen de error de = 2.306(4.95) = 11.415, la estimación del intervalo de confianza de 95% es

En dólares, el intervalo de confianza de 98% para las ventas promedio de todos los restaurantes cercanos a centros escolares con 10 000 estudiantes es $110 000 $11 415. En consecuencia, la estimación del intervalo de confianza para las ventas promedio cuando la población de estudiantes es 10 000, va de 98 585 a 121 415 dólares

Page 42: Alumnos_ei_semana 5 y 6

Estimación del intervalo de predicción de un valor individual de y

Suponga que en lugar de estimar el valor medio de las ventas para todos los restaurantes de Armand, ubicados cerca de centros con 10 000 alumnos, deseamos estimar las de un restaurante determinado cercano al Centro Universitario Moderno, cuya población es de 10 000 estudiantes. Como dijimos, la estimación puntual de un valor individual de y dado = lo tenemos en la ecuación de regresión Para el restaurante del Centro Universitario Moderno =10 y las ventas estimadas correspondientes son , es decir, $110 000 . Observe que este valor es el mismo que la estimación puntual de las ventas promedio para todos los restaurantes cerca de centros escolares con 10 000 estudiantes.

Para determinar una estimación de intervalo de predicción debemos determinar primero la varianza asociada al empleo de como estimación de un valor individual de y cuando = . Esta varianza está formada por la suma de los dos componentes siguientes:

Page 43: Alumnos_ei_semana 5 y 6

1.- La varianza de los valores individuales de y respecto al promedio , cuyo estimado es s2. 2.- La varianza asociada con el uso de para estimar , cuya estimación es .

La fórmula para estimar la varianza de un valor individual de , denotado por , es

Por consiguiente, una estimación de la desviación estándar de un valor individual de es

Page 44: Alumnos_ei_semana 5 y 6

Para nuestro ejemplo, la desviación estándar estimada que corresponde a la predicción de ventas para determinado restaurante cercano a un centro con 10 000 estudiantes se calcula como sigue:

Estimación de intervalo de predicción de yp

donde el intervalo de confianza es 1 – y se basa en una distribución t con n – 2 grados de libertad

Page 45: Alumnos_ei_semana 5 y 6

El intervalo de predicción de 95% para las ventas trimestrales del restaurante cercano al Centro Universitario Moderno se puede determinar con y . Por tanto, con = 110 y un margen de error de = 2.306(14.69) = 33.875, la estimación del intervalo de predicción de 95% es

En dólares, este intervalo de predicción es $110 000 $33 875, o sea, desde $76 125 hasta $143 875. Observe que este intervalo, para un solo restaurante, es más ancho que el intervalo de confianza para las ventas promedio de todos los restaurantes cercanos a centros con 10 000 estudiantes (de 98 585 a 121 415 dólares). La diferencia refleja el hecho de que pudimos estimar el valor medio de y con más exactitud que con la que podemos predecir sólo un valor particular o individual de y. Ambas estimaciones, la de intervalo de confianza y la de intervalo de predicción son más precisas cuando el valor de la variable independiente es

.

Page 46: Alumnos_ei_semana 5 y 6

Análisis de residuales: validación de los supuestos del modelo

Como ya se dijo, el residual en la observación i es la diferencia entre el valor observado de la variable dependiente (yi) y el valor estimado de esa variable ( )

Residual en la observación i

yi - En otras palabras, el i-ésimo residual es el error debido al uso de la ecuación de regresión para predecir el valor de yi. Los residuales en el ejemplo de Pizzerías

Armand se calculan en la siguiente tabla.

Población de estudiantes

(miles) xi

Ventas trimestrales (miles) yi

Ventas estimadas

Residuales

2 58 70 -12

6 105 90 15

8 88 100 -12

8 118 100 18

12 117 120 -3

16 137 140 -3

20 157 160 -3

20 169 160 9

22 149 170 -21

26 202 190 12

Page 47: Alumnos_ei_semana 5 y 6

Los residuales proporcionan la mejor información acerca de ; por consiguiente, un

paso importante para describir si las hipótesis acerca de son adecuadas, es realizar un análisis de residuales. La mayor parte de este análisis se basa en el examen de diferentes gráficas. Describiremos las siguientes gráficas de residuales: 1.- Una gráfica de residuales en función de los valores de la variable independiente x. 2.- Una gráfica de residuales en función de los valores predichos de la variable dependiente 3.- Una gráfica de residuales estandarizados.

Page 48: Alumnos_ei_semana 5 y 6

Gráfica de residuales en función de x

Esta es una gráfica de residuales en la que los valores de la variable independiente se representan en el eje horizontal y los valores de los residuos correspondientes en el eje vertical. La gráfica para nuestro ejemplo, sería:

Población

Residuo

2520151050

20

10

0

-10

-20

Gráfica de residuales en función de x

Concluimos que la gráfica de residuales no muestra evidencia de que se debe dudar de los supuestos sobre los que se basó el modelo de regresión para Pezzerías Armand. Hasta ahora confiamos en la conclusión de que es válido el modelo de regresión lineal simple. Esto se puede apreciar en la parte A de las gráficas obtenidas en otros estudios.

Page 49: Alumnos_ei_semana 5 y 6

La experiencia y el buen juicio son factores que facilitan la interpretación de las gráficas de residuales. Casi nunca una gráfica de residuales se apega exactamente a uno de los patrones que presentamos a continuación. Sin embargo, los analistas dedicados a estudios de regresión, que revisan con frecuencia gráficas de residuales, tienen mucha destreza para captar las diferencias entre comportamientos razonables y patrones que indican que es conveniente cuestionar los supuestos del modelo.

Gráficas de residuales obtenidas en tres estudios de regresión

R e * * * * * * s * Patrón adecuado* * * * *

i 0 ** * * * * A d * * * * * * u o x

Page 50: Alumnos_ei_semana 5 y 6

* * * * * * * 0 * Varianza no constante * * B

* * * * *

* * * ** * * * * * 0 * Forma inadecuada del modelo * * C * * * *

* * *

Page 51: Alumnos_ei_semana 5 y 6

Gráfica de residuales en función de En esta gráfica de residuales se representa el valor predicho de la variable dependiente

en el eje horizontal, y los valores de los residuales en el eje vertical.

Observe que su aspecto es igual que el de la gráfica de residuales en función de la variable independiente, x. No se muestra un patrón que lleve a cuestionar los supuestos del modelo. Para la regresión lineal simple, la gráfica de residuales en función de x y la de los residuales en función de dan el mismo patrón. Para el análisis de regresión múltiple, la gráfica de residuales en función de se usa con más frecuencia, porque se maneja más de una variable independiente.

Page 52: Alumnos_ei_semana 5 y 6

Residuos estandarizados

Muchas de las gráficas de residuales que se obtienen con los programas de cómputo trabajan con una versión estandarizada de los residuales. Con el método de los cuadrados mínimos, el promedio de los residuales es cero. Así, tan sólo con dividir cada residual entre su desviación estándar se obtiene el residual estandarizado.

Desviación estándar del i-ésimo residual

(5)

siendo,

desviación estándar del residual i s = error estándar del estimado

Una vez calculada la desviación estándar de cada residual, se puede calcular el residual estandarizado dividiéndolo entre su desviación estándar .

Page 53: Alumnos_ei_semana 5 y 6

Residual estandarizado para la observación i

La gráfica de residuales normalizados puede suministrar una perspectiva acerca de la hipótesis de que el términos de error tiene distribución normal. Si se satisface esa hipótesis, la distribución de los residuales estandarizados debería aparecer como si proviniera de una distribución de probabilidad normal estándar. (En vista de que se usa s en lugar de

, la distribución de probabilidad de los residuales estandarizados no es, técnicamente, normal. Sin embargo, en la mayoría de los estudios de regresión, el tamaño de la muestra es lo suficientemente grande como para que sea una buena aproximación normal).

Así, al trabajar en una gráfica de residuales estandarizados cabe esperar que, aproximadamente, 95% de los residuales estandarizados están entre -2 y +2.A continuación presentamos la gráfica de residuales estandarizados en función de la variable independiente x, para nuestro ejemplo.

Page 54: Alumnos_ei_semana 5 y 6

Población

SRES

1

2520151050

1.5

1.0

0.5

0.0

-0.5

-1.0

-1.5

-2.0

Gráfica de residuales estandarizados en función de la variable x

Todos los residuales estandarizados están entre -2 y +2. Por consiguiente, con base en los residuales estandarizados, no tenemos motivos para dudar de la hipótesis de que tiene una distribución normal. Debido a que se requieren bastantes cálculos para determinar los valores estimados de

, los residuales y los residuales estandarizados, la mayoría de los paquetes estadísticos calculan esos valores como resultado opcional de la regresión. Por consiguiente, se pueden obtener con facilidad las gráficas de residuales. Para problemas grandes, esos paquetes de cómputo son la única forma práctica de trazar las gráficas de residuales.

Page 55: Alumnos_ei_semana 5 y 6

Análisis de residuales: valores atípicos y observaciones influyentes

Describiremos cómo se puede aplicar el análisis de residuales para identificar observaciones que se pueden clasificar como valores atípicos, o que tengan una influencia especialmente grande para determinar la ecuación estimada de regresión. Describiremos algunas medidas que se deben tomar cuando se hayan encontrado esas observaciones.

Detección de valores atípicos

Un valor atípico es un punto (observación) que no se ajusta a la tendencia que muestran los datos restantes. Los valores atípicos representan observaciones de alguna manera sospechosas, que requieren un examen cuidadoso. Pueden representar datos erróneos; en este caso, se deben corregir los datos. Pueden evidenciar una violación de los supuestos del modelo; en este caso se debe tener en cuenta otro modelo. Por último, simplemente pueden ser valores poco usuales que han sucedido por casualidad. En este caso se deben conservar.Para ilustrar el proceso de detección de valores atípicos revisaremos el conjunto de datos que se presentan en la siguiente tabla:

Page 56: Alumnos_ei_semana 5 y 6

Conjunto de datos

x y 1 45 1 55 2 50 3 75 3 40 3 45 4 30 4 35 5 25 6 15

Page 57: Alumnos_ei_semana 5 y 6

En el diagrama de dispersión, vemos que excepto por la observación 4 (x4 = 3, y4 = 75), se

aprecia una tendencia que sugiere una relación lineal negativa. En realidad, dada la tendencia del resto de los datos, cabría esperar que y4 fuera mucho menor y, por consiguiente, esa observación

es un valor atípico. Para el caso de la regresión lineal simple se pueden detectar los valores atípicos, con frecuencia, tan sólo examinando el diagrama de dispersión.También se pueden usar los residuales estandarizados para identificar los valores atípicos. Si una observación se desvía mucho de la tendencia del resto de los datos, el residual estandarizado correspondiente tendrá valor absoluto grande. Muchos paquetes de cómputo identifican observaciones cuyos residuales estandarizados tiene valor absoluto grande.

Page 58: Alumnos_ei_semana 5 y 6

Detección de observaciones influyentes

Algunas veces, una o más observaciones tienen una gran influencia sobre los resultados obtenidos. Las observaciones influyentes se pueden identificar en un diagrama de dispersión cuando sólo hay una variable independiente. Una observación influyente también puede ser un valor atípico (observación con un valor de y que se desvía mucho de la tendencia), puede corresponder a un valor de x muy alejado de su promedio, o bien, puede ser causada por una combinación de los dos casos (un valor de y algo fuera de la tendencia y un valor de x algo extremo).Como las observaciones influyentes tienen un efecto tan grande sobre la ecuación de regresión, se deben revisar con cuidado. Primero se comprueba que no se haya cometido un error al recopilar o registrar los datos. Si se ha cometido un error se puede corregir y formarse una nueva ecuación de regresión. Si la observación es válida, consideramos que es una fortuna contar con ella. Ese punto, si es válido, puede contribuir a una mejor comprensión del modelo adecuado y conducir a una mejor ecuación de regresión. La presencia de la observación influyente, en caso de ser válida, sugeriría tratar de obtener datos con valores intermedios de x para comprender mejor la relación entre x y y.

Page 59: Alumnos_ei_semana 5 y 6

Las observaciones con valores extremos de la variable independiente se llaman puntos de influencia. La influencia de una observación se determina por lo alejado que se encuentra el valor de la variable independiente respecto al valor promedio. Para el caso de una sola variable independiente, la influencia de la i-ésima observación, representada por hi, se puede calcular

con la ecuación:

, mayo será la influencia de la observación i.

Según la fórmula, es claro que mientras más alejada se encuentre xi de su promedio , mayor será la influencia de la observación i.

Veamos los datos de la siguiente tabla:

xi yi

10 125 10 130 15 120 20 115 20 120 25 110 70 100

Page 60: Alumnos_ei_semana 5 y 6

En el diagrama de dispersión del conjunto de datos de la tabla, vemos claramente que la observación 7 (x =70, y = 100) tiene un valor extremo de x. En consecuencia, esperamos que sea identificado como un punto de alta influencia. Para esta observación, la influencia se calcula:

Las observaciones influyentes debidas a una interacción de grandes residuales y gran influencia son difíciles de detectar. Se cuenta con procedimientos de diagnósticos que consideran ambas cosas para determinar cuándo una observación es influyente. Una de estas medidas, llamado estadístico D de Cook, lo veremos más adelante cuando se vea la regresión múltiple.