Regresion lineal simple

56
Tema 1- Regresión lineal simple. 1.1. Introducción 1.2. Especificación del modelo de regresión lineal simple en la población. 1.2.1. Estructura de los modelos de regresión 1.2.2. Hipótesis básicas 1.3. Estimación de los parámetros del modelo de regresión lineal simple 1.3.1. La recta de regresión de mínimos cuadrados en puntuaciones directas y principales propiedades 1.3.2. La recta de regresión en puntuaciones diferenciales 1.3.3. La recta de regresión en puntuaciones típicas 1.3.4. Relación entre la pendiente de la recta y el coeficiente de correlación 1.3.5. Interpretación de los coeficientes de la recta de regresión 1.4. El contraste de la regresión 1.4.1.Componentes de variabilidad y bondad de ajuste 1.4.2. Validación del modelo 1.4.3. Significación de parámetros 1.5. Diagnosis del modelo: Análisis de residuos 1.6. Predicción

Transcript of Regresion lineal simple

1. Tema 1- Regresin lineal simple. 1.1. Introduccin 1.2. Especificacin del modelo de regresin lineal simple en la poblacin. 1.2.1. Estructura de los modelos de regresin 1.2.2. Hiptesis bsicas 1.3. Estimacin de los parmetros del modelo de regresin lineal simple 1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades 1.3.2. La recta de regresin en puntuaciones diferenciales 1.3.3. La recta de regresin en puntuaciones tpicas 1.3.4. Relacin entre la pendiente de la recta y el coeficiente de correlacin 1.3.5. Interpretacin de los coeficientes de la recta de regresin 1.4. El contraste de la regresin 1.4.1.Componentes de variabilidad y bondad de ajuste 1.4.2. Validacin del modelo 1.4.3. Significacin de parmetros 1.5. Diagnosis del modelo: Anlisis de residuos 1.6. Prediccin 2. Tema 1- Regresin lineal simple. 1.1. Introduccin 1.1.1. Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresin simple. 1.1.2. El concepto de relacin entre variables: naturaleza y tipos de relacin. 1.1.3. Herramientas para evaluar la relacin entre dos variables 1.1.3.1. El diagrama de dispersin 1.1.3.2. La covarianza 1.1.3.3. El coeficiente de correlacin de Pearson 3. 1.1. Introduccin 1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresin simple. Se pretende estudiar si la competencia escolar de nios, medida en una escala entre 1 y 4, depende del tiempo en meses que llevan viviendo con un progenitor Variable dependiente o criterio (endgena): competencia escolar Variable independiente o predictora (exgena): meses de monoparentalidad Se pretende estudiar si el ajuste emocional de nios, medido por un test de ajuste que proporciona puntuaciones en una escala entre 0 y 10, depende del mbito rural o urbano en el que vive la familia Variable dependiente o criterio: ajuste emocional Variable independiente o predictora: mbito geogrfico 4. 1.1. Introduccin 1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el modelo de regresin simple. Se pretende estudiar la relacin entre estrs laboral y la variable trabajo a turno Variable dependiente o criterio: estrs laboral Variable independiente o predictora: tipo de turno: fijo o variable Se pretende estudiar si las notas en Anlisis de Datos II dependen de Anlisis de Datos I Variable dependiente o criterio: Anlisis de Datos II Variable independiente o predictora: Anlisis de datos I Para estudiar empricamente estas relaciones medimos, en una muestra de sujetos, los valores de las variables incluidas en la relacin. Genricamente, la informacin de un sujeto cualquiera de la muestra Si, vendr dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datos de la investigacin y para los ejemplos propuestos tendr el siguiente formato. 5. Tabla o matriz de datos Anlisis de datos I Anlisis de datos II 1 2 2 1 3 3 4 4 5 2 0 3 7 5 8 6 9 8 10 9 Meses comp escolar 2 4 18 4 108 3.66 24 2.83 132 2 60 3.5 16 2.16 9 2.66 84 2.5 comp escolar mbito 4 1 4 1 3.66 1 2.83 1 2 1 3.5 0 2.16 0 2.66 0 2.5 0 1.83 0 Turno estrs 0 65 0 76 0 50 0 89 0 57 1 45 1 34 1 56 1 55 1 61 N=10 N=9 N=10 N=10 Observar que las variable mbito y turno aunque no son mtricas las hemos codificado como numricas. Hemos elegido el 0 y el 1 para diferenciar entre las categoras de las variables. Este tipo de codificacin, muy frecuente en estadstica, se conoce como codificacin dummy o ficticia 6. 1.1.2. El concepto de relacin entre variables. Naturaleza y tipos de relacin: el grfico de dispersin 0 5 10 15 20 25 0 2 4 6 8 10 12 -20 -15 -10 -5 0 5 0 2 4 6 8 10 12 0 1 2 3 4 0 2 4 6 8 10 12 7. 1.1.2. El concepto de relacin entre variables: naturaleza y tipos de relacin. 0 20 40 60 80 100 0 1 -15 -10 -5 0 5 10 0 5 10 15 20 25 30 0 5 10 15 20 25 30 35 40 0 5 10 15 20 0 50 100 150 200 250 300 0 5 10 15 20 8. 1.1.2. El concepto de relacin entre variables: naturaleza y tipos de relacin. 19 21 23 25 27 29 31 0 2 4 6 8 10 12 0 5 10 15 20 25 30 35 0 2 4 6 8 10 12 9. 1.1.3.2. La covarianza ( )( ) S X X Y Y N S P C Nx y i i N i = = = 1 1 1 La covarianza puede tomar valores entre (-,+) de manera que si: Sxy= 0 independencia lineal Sxy> 0 relacin lineal directa o positiva Sxy< 0 relacin lineal inversa o negativa Vamos a ver, utilizando el grfico de dispersin, porque las relaciones De orden anteriores estn relacionadas con el tipo de relacin lineal. 10. Sxy> 0 relacin lineal directa o positiva X Y X X- Y Y- Sxy< 0 relacin lineal inversa o negativa X X- Y Y- X Y Sxy= 0 independencia lineal X X- Y Y- X Y 11. Anlisis de datos I Anlisis de datos II 1 2 -3.9 -2.3 8.97 2 1 -2.9 -3.3 9.57 3 3 -1.9 -1.3 2.47 4 4 -0.9 -0.3 0.27 5 2 0.1 -2.3 -0.23 0 3 -4.9 -1.3 6.37 7 5 2.1 0.7 1.47 8 6 3.1 1.7 5.27 9 8 4.1 3.7 15.17 10 9 5.1 4.7 23.97 Sumas 49 43 0 0 73.3 Medias 4.9 4.3 8.14444444 X X- Y Y- ( )( )X X Y Y- - S x y 12. 1.1.3.2. La covarianza: dependencia de escalas 13. 1.1.3.3. El coeficiente de correlacin de Pearson ( )( ) ( ) ( ) r S S S X X Y Y X X Y Y x y x y x y i i N i i i N i i N = = = = = 1 2 1 2 1 +1 1r x y 0 5 10 15 20 25 0 2 4 6 8 10 12 rxy = 1 -20 -15 -10 -5 0 5 0 2 4 6 8 10 12 rxy = -1 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 rxy = 0.88 rxy = -0.88 0 2 4 6 8 10 12 0 2 4 6 8 10 12 rxy = 0 rxy = 0 14. 1.2. Especificacin del modelo de regresin lineal simple en la poblacin. Xi i Expresin matemtica del modelo en la poblacin ( )Y f X X Y Y X Y Y i i i i i i i i i i i i = + = + + = + = + = 0 1 0 1 predictora criterio independiente dependiente exgena endgena explicativa explicada En el modelo hay dos variables observadas: X e Y y dos parmetros la ordenada en el origen de la recta de regresin y la pendiente Interpretacin de los parmetros: 0 1 1.2.1. Estructura de los modelos de regresin Puntuacin predicha por la recta de regresin verdadera Residuo o error de prediccin Yi 15. Interpretacin de los parmetros: XXY 3,070 10 +=+= i Esperanza de vida Ejercicio fsico i Esperanza de vida Consumo de tabaco XXY 04,070 10 =+= 16. 1.2.2. Hiptesis bsicas 2. Homocedasticidad: la varianza del trmino de error es constante: 1. El trmino de Error es una variable aleatoria con media cero: 4. Los errores son independientes entre s. 3. Los errores se distribuyen normalmente: 3. La distribucin de Y es normal para cada X: 4. Las observaciones Yi son independientes entre s. Las hiptesis anteriores pueden formularse de manera equivalente en trminos de la variable criterio. As, 2. La varianza de Y es constante: 2) /( =iXYVar ii XXYE +=)/( 1. La media de Y depende linealmente de X: ii XXYE +=)/( 2 )/( =iXYVar ii XXYE +=)/( ),(/ 2 ii XNXY + 0)( =iE 2 )( =iVar ),0( 2 Ni 17. Resumen grfico de las hiptesis bsicas formuladas en trminos de la variable criterio X1, X2, X3, X4 Distribucin Normal 2 / 2 / 2 / 2 / 4321 xyxyxyxy === 18. Resumen grfico de las hiptesis bsicas formuladas en trminos de los residuos 0 X1, X2, X3, X4 19. El objetivo del anlisis de regresin ser estimar los parmetros del modelo presentado y contrastar las hiptesis de partida todo ello a partir de una muestra. 20. 1.3. Estimacin de los parmetros del modelo de regresin lineal simple 1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades 1.3.2. La recta de regresin en puntuaciones diferenciales 1.3.3. La recta de regresin en puntuaciones tpicas 1.3.4. Relacin entre la pendiente de la recta y el coeficiente de correlacin 1.3.5. Interpretacin de los coeficientes de la recta de regresin 21. 1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades Partimos de una muestra de sujetos extrados de una poblacin en la que se han tomado valores de las variables X e Y. La situacin ms frecuente es que los puntos estn dispersos en el plano definido por X e Y. La primera pregunta a plantearnos es de las infinitas rectas que podemos ajustar a la nube de puntos Cul estimar mejor los parmetros?. Existen diferentes criterios. 22. 1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades Y a b X e Y e Y b b X e Y e Y b b X e Y Y i i i i i i i i i i i i i i i = + + = + = + + = + = + = 0 1 0 1 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 X: Anlisis de datos I 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 Y:AnlisisdeDatosII 23. Criterio de mnimos cuadrados: ( ) ( )( ) ( )( ) ( )( ) e Y Y Y a b X a Y a b X b Y a b X i i N i i i i i N i N i i i N i i i N 2 1 2 2 11 2 1 2 1 0 0 = = + = + = + = = == = = m i n 1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades 24. Recta de regresin mnimo cuadrtica (puntuaciones directas): ( )( ) ( ) ( ) a Y b X b X X Y Y X X S S r S S Y a b X Y b X X i i N i i i N x y x x y y x i i i = = = = = + = + = = 1 1 2 2 1.4.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades 25. Ejemplo de clculo de la recta de regresin de mnimos cuadrados 56,582,5004155 17,5520,253,94,5810 6,6512,251,93,569 7,256,252,92,548 1,352,250,91,557 -0,550,25-1,10,536 1,050,25-2,1-0,525 0,152,25-0,1-1,544 2,756,25-1,1-2,533 10,8512,25-3,1-3,512 9,4520,25-2,1-4,521 yx X X Y Y X X Y Y ( )X X 2 26. Recta de regresin mnimo cuadrtica: a Y bX b X X Y Y X X Y X i i N i i i N i i 4 1 0 743 55 0 021 56 50 82 50 0 743 0 021 0 743 1 1 2 , , , , , , , , , 1.4.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades iXY 742,0021,0 += dependencia de escalas.xls 27. Propiedades de la Recta de regresin mnimo cuadrtica: 1.4.1. La recta de regresin de mnimos cuadrados en puntuaciones directas y principales propiedades 1) La media de las puntuaciones predichas es igual a la media de Y 2) Los errores tienen media cero 3) La recta de mnimos cuadrados pasa por el punto: 4) Los errores no correlacionan ni con la variable predictora ni con las puntuaciones predichas X Y, 28. 1.4.2. La recta de regresin de mnimos cuadrados en puntuaciones diferenciales a) Modelo y recta en puntuaciones diferenciales ( ) ( ) bxy ebxy eXXbYY ebXXbYebXaY = += += ++=++= 29. 1.4.2. La recta de regresin de mnimos cuadrados en puntuaciones estandarizadas a) Modelo y recta en puntuaciones estandarizadas xixyi eixixyyi y i x i xy y i ii x y xyi ZrZ ZZrZ S e S x r S y ex S S ry ebxy = += += + = += 30. iXY 742,0021,0 += xy 742,0 = xZZ 86,0 = Recta de regresin en diferenciales y en tipificadas. Relacin entre b y r. Interpretacin de los coeficientes de la regresin a) En puntuaciones directas b) En puntuaciones diferenciales c) En puntuaciones estandarizadas y x xy S S br = 31. X 3210-1-2 Y 3 2 1 0 -1 -2 -3 X 210-1-2-3 Y 3 2 1 0 -1 -2 -3 X 1,51,0,50,0-,5-1,0 Y 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 1.4. El contraste de la regresin: introduccin 32. X 1,51,0,50,0-,5-1,0-1,5-2,0 Y 3 2 1 0 -1 -2 -3 X 210-1-2-3 Y 3 2 1 0 -1 -2 X 3210-1-2-3 Y 3 2 1 0 -1 -2 -3 1.4. El contraste de la regresin: introduccin 33. X 3210-1-2-3 Y 3 2 1 0 -1 -2 -3 X 3210-1-2-3 Y 3 2 1 0 -1 -2 -3 1.4. El contraste de la regresin: introduccin 34. X 3210-1-2-3-4 Y 3 2 1 0 -1 -2 -3 -4 1.4. El contraste de la regresin: introduccin 35. Xi Yi 1.4. El contraste de la regresin: introduccin ii bXaY += 36. Xi Yi Y Desviacin Desviacin Desviacin total explicada residual ii bXaY += 1.4.1.Componentes de variabilidad y bondad de ajuste ( ) ( ) ( )iiii YYYYYY += 37. 1.4.1. Componentes de variabilidad y bondad de ajuste Xi SC SC SCt res exp Variacin Total Variacin Explicada Variacin Residual ( ) ( ) ( ) 2 1 2 1 2 1 === += N i ii N i i N i YYYYYY 38. SC Y Y y Y Y N N St i i N i i N i i i N i N y 1 2 2 1 2 1 2 1 2 1 1.4.1. Componentes de variabilidad y bondad de ajuste ( ) ( ) ( ) 22 1 2 122 1 22 2 1 2 2 1 exp 1 x N i N i i i N i i N i N i SNb N X XbxbXXbYYSC = ==== = = === Frmulas para calcular las sumas de cuadrados en puntuaciones directas y diferenciales: ( ) exp 1 2 2 1 SCSCeYYSC t N i i N i iires === == 39. 1.4.1. Componentes de variabilidad y bondad de ajuste Frmulas para calcular las sumas de cuadrados en tipificadas: SC SC SCt res exp ( ) ( )( )2 2 1 22 1 2 exp 1 2 11 1 1 xyres xy N i xxy N i i N i yt rNSC NrZrZSC NZSC = === == == = 40. 1.4.1. Componentes de variabilidad y bondad de ajuste Bondad de ajuste o Coeficiente de determinacin SC SC SC SC SC SC R R t t t res t exp 1 12 2 ( ) ( ) ( ) ( ) 2 2 22 1 2 22 1 2 1 2 exp2 xy y x N i i N i i N i i t r S Sb YY XXb YY YY SC SC R == = == == = 41. 1.4.1. Componentes de variabilidad y bondad de ajuste r2 xy= 1 r2 xy= 0 r2 xy Representacin en diagramas de Venn Y X Y X XY 42. Esquema del Contraste de Hiptesis Contrastar una Hiptesis Estadsticamente es juzgar si cierta propiedad supuesta para una poblacin es compatible con lo observado en una muestra de ella. 1.4.2. Validacin del modelo 43. Elementos de una Prueba de Hiptesis 1.- Hiptesis Nula (H0), Hiptesis Alternativa. 2.- Estadstico de Contraste (Discrepancia). 3.- Regin de Rechazo (Regin Crtica): nivel de significacin. 4.- Regla de Decisin. 44. 1.4.2. Validacin del modelo 1.- Hiptesis Nula (H0), Hiptesis Alternativa. 2.- Estadstico de Contraste (Discrepancia). F S S SC k SC N K r K r N K res res xy xy exp exp 2 2 2 2 1 1 1 ( ) ( ) iiii ii XYXXYEH YXYEH ++=+= +=== 10101 00 /: /: 45. 1.4.2. Validacin del modelo 3.- Regin de Rechazo (Regin Crtica): nivel de significacin. Regin de aceptacin de H0 Regin de rechazo de H0 1- Fc 46. 4.- Regla de Decisin. 1.4.2. Validacin del modelo Se rechaza la H0 si: F >Fc o de manera equivalente si: p < Por el contrario, se acepta la H0 si: F Fc o de manera equivalente si: p 47. Tabla F 48. Tabla F 49. 1.4.3. Significacin de parmetros 1.- Hiptesis Nula (H0), Hiptesis Alternativa. 2.- Estadstico de Contraste (Discrepancia). t b S b S X X b S X X N r r N b res i i N res i i i N i N xy xy 1 2 2 1 2 2 1 2 1 2 1 2 H H H H 0 1 1 1 0 1 0 0 0 0 : : : : Nota: en regresin simple t2 = F 50. 1.4.3. Significacin de parmetros 3.- Regin de Rechazo (Regin Crtica): nivel de significacin. Fc Regin de aceptacin de H0 Regiones de rechazo de H0 2 2 1 51. 4.- Regla de Decisin. Se rechaza la H0 si: t >+tc o de manera equivalente si: p < Por el contrario, se acepta la H0 si: t +tc o de manera equivalente si: p 1.4.3. Significacin de parmetros 52. http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html 53. Tabla t de Student 54. Calculadoras estadsticas en internet http://faculty.vassar.edu/lowry/VassarStats.htm http://davidmlane.com/hyperstat/t_table.html http://davidmlane.com/hyperstat/F_table.html http://calculators.stat.ucla.edu/cdf/ http://members.aol.com/johnp71/pdfs.html http://www.psychstat.missouristate.edu/introbook/tdist.htm http://www.psychstat.missouristate.edu/introbook/fdist.htm 55. 1.6. Prediccin Intervalos de prediccin: ( ) ( ) ( ) Y Y t S N X X X X o N K r e s o i i N: , + + = 1 2 2 2 1 1 1