Inferencia en RLS, datos atípicos. Aplicación

31

Transcript of Inferencia en RLS, datos atípicos. Aplicación

Page 1: Inferencia en RLS, datos atípicos.  Aplicación
Page 2: Inferencia en RLS, datos atípicos.  Aplicación

• Realizar un Análisis de Regresión Lineal Simple completo cuando se presentaen los pares de observaciones a ser asociadas, datos atípicos.

• Mostrar el uso de la RLS cuando cumple con los requisitos exigidos al aplicardicho método, de tal manera que el modelo fijado sea correcto.

Objetivos específicos:

• Presentar la Prueba de Hipótesis que nos permitirá decidir si la observaciónsospechosa es realmente atípica.

• Eliminar científicamente los datos atípicos.• Encontrar una ecuación del modelo de regresión que presente lo más preciso

posible la relación entre dos variables en torno al problema de los datosatípicos haciendo uso de la estadística inferencial.

• Hacer inferencias respecto a sus parámetros.

Objetivos generales:

Page 3: Inferencia en RLS, datos atípicos.  Aplicación

Problemas en el Análisis de Regresión:

Algunos de los problemas estadísticos implicados en el análisis de regresión son:

• Identificar la existencia de datos atípicos • Obtener un buen estimador de los parámetros del

modelo• Contrastar hipótesis sobre dichos parámetros• Determinar la bondad del modelo para los datos

particulares• Comprobar que se cumplen las hipótesis exigidas

Page 4: Inferencia en RLS, datos atípicos.  Aplicación

FUNDAMENTO TEÓRICO

Regresión Lineal Simple.- Cuando la relación entre las dos variables tiende auna recta, se dice Regresión Lineal. Así por ejemplo, observar las Figuras a,b y c.

Y X ui i i ˆˆY X ei i i

ibXaiY ˆ

El modelo de regresión lineal simple

Modelo aleatorio(MRLSM)

MRLSP

Modelo determinístico

Page 5: Inferencia en RLS, datos atípicos.  Aplicación

Método de Mínimos Cuadrados Ordinarios

ibXaiY ˆ

Los valores de los estimadores resultan de la aplicación del Método de Mínimos Cuadrados Ordinariosque consiste en minimizar los errores (ei).

De ese procedimiento se obtiene dos ecuaciones normales:

11 1

n

i

n

i iXbnaiY

21 1

21

n

i

n

i iXbn

i iXaiXiY

Estimadores de Regresión:

nesobservacio ... /n)2iX( - X 2

i

/niYiX-iYiX = b

esdesviacion .......... x2i

iyix = b

Xb - Y = a

Page 6: Inferencia en RLS, datos atípicos.  Aplicación

Propiedades de los erroresLos errores definidos como ˆe Y Yi i i satisface las siguientes propiedades:

10

n

ii

e

1)

2)

3)

1 1 1 1 1

ˆ ˆˆ ˆ ˆ( ) ( ) 0n n n n n

i i i i i i ii i i i i

e Y Y Y X Y n X

10

n

i ii

e X

1 1 1

ˆˆ ˆ( ) ( )n n n

i i i i i i i ii i i

e X Y Y X Y X X

2

1 1 1

ˆˆ 0n n n

i i i ii i i

Y X X X

1

ˆ 0n

i ii

eY

1 1 1 1

ˆ ˆˆ ˆ ˆ( ) 0n n n n

i i i i i i ii i i i

eY e X e e X

Page 7: Inferencia en RLS, datos atípicos.  Aplicación

ˆe Y Yi i i ˆ ˆ ˆ( ) ( ) )(Y Y Y Y Y Y Y Y Y Yi i i i i i

2 2 2

1 1 1

ˆ ˆ( ) ) ( )(n n n

i i iY Y Y Y Y Yi i i i

Análisis de VarianzaPara obtener la estimación de la varianza de los errores, se debe descomponer la varianza total del modelo. Para ello se parte de la definición de los errores:

2

2 1

ˆ( )

2 2

n

i ii

e CMEY YSCES

n n

La varianza de los errores representada por es desconocida y se estimautilizando la suma de cuadrados de los errores. Un estimador insesgado dees:

Page 8: Inferencia en RLS, datos atípicos.  Aplicación

Distribución de los estimadores MCO

Para hacer inferencias, se asumen que los errores son independientes y2(0, )ie N . También las son una combinación

lineal de as Yi. Por lo tanto, una combinación lineal de v.a. normales e independientes

se distribuyen normalmente, es decir:

2

2ˆ ,

ix N

i)

ii)

iii)

2

22 1ˆ ,

i

Xn x

N

22

2

1ˆ , ii i

xn x

Y N X

iv)0

22

0 2

1 ( )/ 1ˆ , oi XX

X Xn x

Y N X

Page 9: Inferencia en RLS, datos atípicos.  Aplicación

Inferencia acerca de los parámetros

0 0ˆ ˆˆ ˆ 1P t S t S a l f a

0 0ˆ ˆˆ ˆ 1P t S t S

Page 10: Inferencia en RLS, datos atípicos.  Aplicación

2 22 2

2 2

0 01 1ˆ ˆ 1( / )ii e i e

i ix xS S

n x n xP Y t Y tE Y X

0

2 22 2

2 20 01 ( ) 1 ( )

/1 1ˆ ˆ 1o oi e i eXX

X X X XS Y S

n x n xP Y t Y t

Page 11: Inferencia en RLS, datos atípicos.  Aplicación

0:oH 1)

2)3)

4)

5)

6)

0

1 0

0

): )

)

aH b

c

0:oH

0

1 0

0

): )

)

aH b

c

Elegir la distribución t de studentn.s. alfa

1 ; 2 0?,c nSi t t entonces se rechaza H a)

b)

c)

; 2 0?,c nSi t t entonces se rechaza H

1 / 2 ; 2 0?,c nS i t t en to n ces se rech a za H

ˆ

ˆc St

ˆ

ˆc St

Conclusión

Page 12: Inferencia en RLS, datos atípicos.  Aplicación

Elegir la distribución t de student

n.s. alfa

Conclusión

1)

2)

3)

4)

5)

6)

1 / 2 ; 2 0?,c nS i t t en to n ces se rech a za H

0:o S SH Y Y

01 : S SH Y Y

ˆ

ˆ

S

S S

Yc

Y YSt Donde :

22

2ˆ1 ( )1

S

oY e

X XS

n xS

Page 13: Inferencia en RLS, datos atípicos.  Aplicación

Aplicación

Un investigador debe realizar el análisis de regresión para un conjunto de profesionales cuando las variables de estudio son los años de experiencia y los ingresos que perciben. Uno de los objetivos es fijar un modelo de regresión sin considerar las observaciones sospechosas y otro objetivo es hacer inferencias acerca de sus parámetros. Los datos considerados en el estudio son:

Page 14: Inferencia en RLS, datos atípicos.  Aplicación

Verificando la normalidad de los errores y detectando los datos atípicos

El gráfico permitirá verificar:

• Si la distribución de los errores es normal y sin “outliers” o datos atípicos.

• Si la varianza de los errores es constante y si se requieren transformaciones de las variables.

• Si la relación entre las variables es efectivamente lineal o presenta algún tipo de curvatura.

• Si hay dependencia de los errores, especialmente en el caso de que la variable independiente sea el tiempo.

Page 15: Inferencia en RLS, datos atípicos.  Aplicación

Realizando las pruebas de hipótesis para eliminar datos sospechosos o extraños.

Page 16: Inferencia en RLS, datos atípicos.  Aplicación
Page 17: Inferencia en RLS, datos atípicos.  Aplicación

Realizando la prueba de hipótesis para la primera observación sospechosa:

Page 18: Inferencia en RLS, datos atípicos.  Aplicación
Page 19: Inferencia en RLS, datos atípicos.  Aplicación

Realizando la prueba de hipótesis para la segunda observación sospechosa:

Page 20: Inferencia en RLS, datos atípicos.  Aplicación
Page 21: Inferencia en RLS, datos atípicos.  Aplicación

Realizando la prueba de hipótesis para la tercera observación sospechosa:

Page 22: Inferencia en RLS, datos atípicos.  Aplicación

FIJACIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE SIN LAS OBSERVACIONES ATÍPICAS

Antes de utilizar el modelo de regresión lineal debemos preguntarnos:

• Qué también se ajusta la ecuación a los datos?• El modelo puede ser utilizado para la predicción?• Cumple con los supuestos para que garantice su correcta aplicación?

Para responder las primeras interrogantes observamos el siguiente cuadro:

Ahora procedemos a la comprobación de supuestos.

Para que tenga validez las inferencias como las pruebas de hipótesis y las estimaciones es necesario comprobar los supuestos básicos.

Page 23: Inferencia en RLS, datos atípicos.  Aplicación

El diagrama de dispersión es un gráfico que visualiza una primera aproximación no muy rigurosa al estudio de la linealidad. En este caso, como no presenta alguna configuración especial entonces se corrobora la supuesta linealidad. Aquí se comparan los errores y las estimaciones de Y, siendo:

LINEALIDAD

Esto mismo lo podemos hacer de una manera más directa recurriendo al diagrama de dispersión con observaciones estandarizadas para los errores y las estimaciones de Y. Una ventaja es de que las variables están en la misma escala.

Page 24: Inferencia en RLS, datos atípicos.  Aplicación

NORMALIDAD

Se puede observar en ambos casos una buena aproximación a la normalidad.Pero, si queremos ser más rigurosos recurrir a procedimientos analíticos. Uno delos métodos estadísticos que prueba la normalidad de los datos es la prueba deKolmogorov-Smirnov o la prueba de Shapiro-Wilk.

Page 25: Inferencia en RLS, datos atípicos.  Aplicación

HOMOSCEDASTICIDAD

Este exige que para todo el recorrido de lavariable X la varianza del error sea constante.Uno de los recursos es el gráfico de los errores ylas estimaciones de Y estandarizadas paracomprobar la homocedasticidad. Si no hayhomocedasticidad (heterocedasticidad) la nubede puntos tiene forma de "embudo", sea a laderecha o a la izquierda, lo que es indicativo quela magnitud de los residuos varía en un sentido oen otro.

Pero, para ser más rigurosos, unmétodo analítico es calcular lacorrelación entre los errores en valoresabsolutos y las puntuacionespredichas. Se considera en valoresabsolutos para que la correlación nosea cero.

Page 26: Inferencia en RLS, datos atípicos.  Aplicación

INDEPENDENCIA DE LOS ERRORES

Para verificar la independenciade los errores utilizamos laDurbin-Watson

Page 27: Inferencia en RLS, datos atípicos.  Aplicación

INFERENCIA ACERCA DE LOS PARÁMETROS

Page 28: Inferencia en RLS, datos atípicos.  Aplicación
Page 29: Inferencia en RLS, datos atípicos.  Aplicación

CONCLUSIÓN:

• En la aplicación expuesta se ha mostrado el análisis deregresión lineal simple completo, desde la verificación de lanormalidad de los errores, detección de datos atípicos,eliminación científica de los datos sospechosos, identificacióndel modelo sin observaciones sospechosas, comprobación desupuestos e inferencia acerca de los parámetros.

• Se ha mostrado en detalle los métodos estadísticos utilizadoscuando se realiza un Análisis de Regresión Lineal Simple.

• Se ha encontrado la ecuación del modelo de regresión lo másprecisa posible sin los datos atípicos.

• Se ha eliminado mediante pruebas de hipótesis los datosatípicos .

• Se ha realizado inferencias acerca de los parámetros en losresultados de las pruebas F y t.

Page 30: Inferencia en RLS, datos atípicos.  Aplicación

BIBLIOGRAFÍA

• Johnston J. J. Dinardo (1997), · “Métodos Econométricos”, Mc Graw-Hill.

• Gujarati D. N. (1997), “Econometría” , Mc Graw-Hill.

• Salvatore, Dominick , “Econometría”, Serie Schaum. Mc Graw-Hill.

• G. S. Maddala (1996), “Introducción a la Econometría”, 2da. Edición Pretince Hall, México.

• Draper, N y Smith, H. (1998). Applied Regression Analysis, Third Edition. John Wiley, New York.

• Rao, C.R. (1973). Linear Statistical Inference and its applications. John Wiley and Sons, New York.

Page 31: Inferencia en RLS, datos atípicos.  Aplicación