REGRESIÓN..[1] faltamnte
-
Upload
edgar-garcia-guerrero -
Category
Documents
-
view
215 -
download
2
description
Transcript of REGRESIÓN..[1] faltamnte
INTRODUCCIÓN
Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple.Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.La Regresión se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de dependencia entre dos o más variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o más variables dependientes.La regresión en forma gráfica, trata de lograr que una dispersión de las frecuencias sea ajustada a una línea recta o curva.Como sabemos la estadística inferencial es muy importante en nuestra vida cotidiana ya que veremos los dos tipos de estadística ya sea descriptiva o inferencial y cuál es su importancia y abarca lo que son los tipos de regresiones lineales que a continuación vamos a ver.
REGRESIÓN LINEAL SIMPLE
El análisis de regresión es una técnica estadística para investigar la relación funcional entre dos o más variables, ajustando algún modelo matemático. La regresión lineal simple utiliza una sola variable de regresión y el caso más sencillo es el modelo de línea recta.
En muchos problemas hay dos o más variables inherentes relacionados, y es necesario explorar la naturaleza de esta relación. El análisis de regresión es una técnica estadística para modelar e investigar la relación entre dos o más variables.
Deseamos determinar la relación entre una sola variable regresiva X y una variable de repuesto Y. La variable regresiva X se supone como una variable matemática continua, controlable por el experimentador. Supóngase que la verdadera relación entre Y y X es una línea recta, y que la observación Y en cada nivel de X es una variable aleatoria. Luego, el valor esperado de Y para cada valor de X es:
EC.1 Donde:La ordenada de origen 0 y la pendiente 1 son constantes desconocidas.Suponemos que cada observación Y, puede describirse mediante el modelo siguiente: EC.2 Donde:E = error aleatorio con media cero y varianza 2 .
Por medio del método de mínimos cuadrados estimaremos 0 y 1 de manera que la suma de los cuadrados de las desviaciones entre las observaciones y la línea de regresión sean mínimas.Empleando la EC. 2, podemos escribir:
i = 1 , 2 , 3 , … , n EC.3
Y la suma de los cuadrados de las desviaciones de las observaciones respecto a la línea de regresión verdadera es:
EC.4
Los estimadores de mínimos cuadrados de 0 y 1, digamos deben satisfacer:
EC.5
La simplificación de estas dos ecuaciones produce:
EC.6
Las ecuaciones 6 se denominan ecuaciones normales de mínimos cuadrados.La solución para la ecuación normal es:
EC.7
EC.8
Donde:
Por lo tanto, las ecuaciones 7 y 8 son los estimadores por mínimos cuadrados, de la ordenada al origen y la pendiente, respectivamente. El modelo de regresión lineal simple ajustado es:
EC.9
Respecto a la notación, es conveniente dar símbolos especiales al numerador y al denominador de la ecuación 8, esto es:
EC.10
EC.11
Llamaremos a Sxx la suma corregidora de cuadrados de “x” y a Sxy la suma corregida de productos cruzados de “x” y “y”. Los datos del extremo derecho de las ecuaciones 10 y 11 son las fórmulas de cómputo usuales.Al emplear esta nueva notación, el estimador de mínimos cuadrados de la pendiente es:
EC.12
Ejemplo 1:Un ingeniero químico está investigando el efecto de la temperatura de operación de proceso en el rendimiento del producto. El estudio da como resultado los siguientes datos:
Temperatura Rendimiento°C “X” % “Y” XjYj Xj2 Yj2
100 45 4500 10000 2025
110 51 5610 12100 2601120 54 6480 14400 2916130 61 7930 16900 3721140 66 9240 19600 4356150 70 10500 22500 4900160 74 11840 25600 5476170 78 13260 28900 6084180 85 15300 32400 7225190 89 16910 36100 7921
∑ 1450 673 101570 218500 47225
El examen de este diagrama de dispersión indica que hay una fuerte relación entre el rendimiento y la temperatura, y la suposición tentativa del modelo de línea recta parece razonable.n = 10
Sustituyendo en EC.10 y EC.11
Los estimadores de mínimos cuadrados de la pendiente y la ordenada al origen son:
El modelo de regresión lineal simple ajustado es:
Suele ser necesario obtener una estimación de . La diferencia entre la observación Yj y el
correspondiente valor predicho , la diferencia digamos ej = Yj - , se denomina un residuo. La suma
de los cuadrados de los residuos, o la suma de cuadrados del error, sería:
SSE = ej2 SSE = (Yj – )2 EC. 14
Una fórmula de cálculo más conveniente para SSE puede encontrarse sustituyendo el modelo ajustado
en la EC. 14 y simplificando considerando que (Yj – )2 entonces podemos escribir SSE como:
SSE = Syy - Sxy EC. 15
El valor esperado de la suma de cuadrados del error E(SSE) = (n-2), por lo tanto:
el cual es un estimador de .
PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE.
Una parte importante de la evaluación de la suficiencia del modelo de regresión lineal simple es la prueba de hipótesis estadística en torno a los parámetros del modelo y la construcción de ciertos intervalos de confianza. Para probar la hipótesis con respecto a la pendiente y la ordenada al origen del modelo de regresión, debemos de hacer la suposición adicional de que la componente del error “ej” se distribuye normalmente. Por consiguiente, las suposiciones completas son que los errores son NIP (0, 2). Después analizaremos como pueden verificarse estas suposiciones mediante el análisis residual.
Supóngase que deseamos probar la hipótesis de que la pendiente es igual a una constante, digamos , las hipótesis apropiadas son:
EC. 16
Donde hemos supuesto una alternativa de dos lados (bilateral). Como resultado de la suposición de normalidad, el estadístico es:
EC. 17
Sigue la distribución t con n-2 grados de libertad bajo
Rechazaríamos H0 sí: EC. 18
Donde se calcula a partir de la EC. 17 puede emplearse un procedimiento similar para probar la hipótesis respecto a la ordenada al origen. Para probar
EC. 19
Usaríamos el estadístico:
EC. 20
Y se rechaza la hipótesis nula si ; un caso especial muy importante de la hipótesis de la ecuación es:
EC. 21Esta hipótesis se relaciona con la significación de la regresión. El procedimiento de prueba para puede desarrollarse a partir de desplazamientos. El primer planteamiento se inicio con la siguiente división.
+ EC. 22
Las dos componentes Syy miden, respectivamente, el tamaño de la variabilidad en la “yj,” explicada por la línea de regresión y la variación residual dejada sin explicar por la línea de regresión, solemos llamar a:
n
SSE = ∑ (Yj – j)2 la suma de los cuadrados del error, j =1
nSSR = ∑ (Yj – Yj)2 la suma de regresión de cuadrados. j =1
Por consiguiente la EC. 22 puede escribirse como: Syy = SSR + SSE EC. 23
Al comparar la EC. 23 con la EC. 15, notaremos que la suma de regresión de cuadrados SSR es :SSR = 1Sxy EC. 24Syy tiene n-1 grados de libertad, y SSR y SSE tiene 1 y n-2 grados de libertad respectivamente. Podemos mostrar que:
E SSE = σ2
(n-2) y E(SSR)= σ2 + β12Sxx
Y que SSE y SSR son independientes. Por tanto, si Ho: β1 = 0; es verdadera, entonces el estadístico:
SSR
F0 = 1 = MSR EC. 25 SSE MSE
(n-2)
Sigue la distribución F1, n-2, y rechazaríamos H0 si F0 >
El procedimiento de prueba suele arreglarse en una tabla de análisis de varianza, tal como la tabla 1.Análisis de varianza para probar la significancia de la regresión:
Fuente de Variación
Suma de cuadrados
Grados de Libertad
Media cuadrática F0
Regresión SSR = 1Sxy 1 MSR MSR / MSE
Error Residual SSE = Syy - 1Sxy n-2 MSE
Total de Grados Syy n-1
La prueba para la significancia de la regresión puede desarrollarse también a partir de la EC. 17 con B1,0 = 0, digamos:
EC. 26
Al elevar al cuadrado ambos lados de la Ec. 26, obtenemos:
t02 = 1
2 Sxx = 1Sxy = MSR EC. 27 MSE MSE MSE
Nótese que t02 en la Ec. 27 es idéntico a F0 en la EC. 25, es cierto en general, que el cuadrado de una variable
aleatoria t con f grados de libertad es una variable aleatoria F, con uno y f grados de libertad en el numerador y el denominador, respectivamente. En consecuencia, la prueba que utiliza t 0 es equivalente a la prueba basada en F0.
Ejemplo 2: Probablemente el modelo desarrollado en el ejemplo 1 en lo que se refiere a la significación de regresión. El modelo ajustado es:
= -2.73939 + 0.480303X, y Syy se calcula como:
Tabla 2: Prueba para la significancia de la regresión, ejemplo 2.
Fuente de variación Suma de los cuadrados
Grados de libertad Media cuadrática Fo
RegresiónErrorTotal
1924.877.23
1932.10
189
1924.870.90
2138.74
F01, 1, 8 = 11.26 F0.025, 8, 1 = 7.57 Tabla 5
La suma de regresión de cuadrados es: SSR = 1Sxy = (0.4830303)(3,985) = 1924.87
Y la suma de cuadrados de 1 error es: SSE = Syy-SSR = 1932.10-1924.87 = 7.23
El análisis de varianza para probar H0 = B1 = 0 se resume en la tabla 2. Al notar que F0 = 2138.74 > F01,1,8 = 11.26, rechazamos Ho y concluimos que H1: B1 0.
ESTIMACIÓN DE INTERVALOS EN LA REGRESIÓN LINEAL SIMPLE.
Además de la estimación puntual de la pendiente y la ordenada al origen, es posible obtener estimaciones del intervalo de confianza de estos parámetros. El ancho de estos intervalos de confianza es una media de calidad total de la línea de regresión. Si las “ej” se distribuyen normal e independientemente, entonces:
y
Se distribuye como t con n-2 grados de libertad, en consecuencia, un intervalo de confianza del 100% (1-) por ciento en la pendiente B1 esta dada por:
EC.28
De manera que similar a un intervalo de confianza del 100% (1-) en la ordenada del origen es:
EC.29
Ejemplo 3: Determinemos un intervalo de confianza del 95% en la pendiente de la línea de regresión
empleando los datos en el ejemplo 1. Recuérdese que =0.48303, Sxx =8250 y MSE =0.90 de la tabla 2.
Sustituyendo obtenemos:
Puede construirse un intervalo de confianza del 100% (1-) alrededor de la línea de regresión verdadera de X = Xo puede calcularse a partir de:
EC.30El intervalo de confianza para E (y / X0)es una función de X0. El ancho de un intervalo es un mínimo para Xo = X y se ensancha conforme l X0-X l aumenta.
X0
yj LIMITES DE INTERVALO 95% INTERVALO E(Y/X0)
100 45 45.56 -1.29 1.29 44.27 A 46.84 -0.56 0.3136
110 51 50.39 1.09 1.09 49.29 A 51.48 0.61 0.3721120 54 55.22 0.92 0.92 54.30 A 56.14 -1.22 1.4884130 61 60.05 0.78 0.78 59.27 A 60.83 0.95 0.9025140 66 64.88 0.7 0.7 64.18 A 65.58 1.12 1.2544150 70 69.72 0.7 0.7 69.02 A 70.42 0.28 0.0784160 74 74.55 0.78 0.78 73.77 A 75.33 -0.55 0.3025170 78 79.38 0.92 0.92 78.46 A 80.30 -1.38 1.9044180 85 84.21 1.09 1.09 83.12 A 85.30 0.79 0.6241190 89 89.04 1.29 1.29 87.75 A 90.33 -0.04 0.0016
0.00 7.2420Ejemplo 4: Construimos un intervalo de confianza del 95% en torno a la línea de regresión para los datos en el ejemplo 1. El modelo ajustado es Y 0 = - 2.73939 + 0.48303 X. X0 y el intervalo de confianza en E (y/X0).
ó :
Los valores ajustados de y los correspondientes limites de confianza del 95% para los puntos Xo = Xj, j =
1, 2, . . . ,10, se representan en la tabla 3, podemos encontrar el intervalo de confianza del 95% en la media real del proceso en Xo = 140° C.
REGRESION LINEAL MULTIPLE
En la regresión lineal múltiple tratamos de determinar la relación existente entre la variable dependiente (Y) y dos o más variables independientes ( X1, X2, X3, ..., XK ) también llamadas variables regresoras.En este caso la variable dependiente se ve afectada por los cambios que se le hagan a las variables independientes en conjunto.La relación entre las variables regresoras y la variable dependiente se establece mediante el modelo general de regresión lineal múltiple:
kk XXXXY 3322110
Donde 0, 1, 2, ..., k son los parámetros del modelo ( se tienen k variables independientes y p parámetros ).En este caso 0 representa la ordenada en el origen, es decir, el punto donde el hiperplano corta al aje Y (al haber más de dos variables independientes la relación queda representada por medio de un hiperplano).
En general i representa el cambio esperado en Y por cada incremento unitario en X i, siempre y cuando las demás variables independientes permanezcan constantes.Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasión sólo dos variables independientes. Quedará al lector utilizar más de dos variables independientes para futuras aplicaciones.
Al utilizar dos variables independientes, el modelo general de regresión lineal múltiple queda representado por:
22110 XXY
Donde:
0 representa el punto donde el plano corta al eje Y (ahora la relación entre las dos variables independientes y Y está representada por un plano).
1 representa el cambio esperado en Y por cada incremento unitario en X1, siempre y cuando X2 permanezca constante.
2 representa el cambio esperado en Y por cada incremento unitario en X2, siempre y cuando X1 permanezca constante.
La figura siguiente muestra la relación entre las variables independientes y Y.
ESTIMACION DE PARAMETROS
Para encontrar los estimadores de los parámetros del modelo, partiremos de una muestra aleatoria de tamaño n para valores de X1, X2 y Y:
X1i X2i Yi
X11 X21 Y1
X12 X22 Y2
X13 X23 Y3
.
.
.
.
.
.
.
.
.
X1
X2
Y
22110 XXY
X1n X2n Yn
Al utilizar una muestra aleatoria para estimar los parámetros, incurriremos en un error en la estimación. Debemos agregar dicho error al modelo de regresión lineal múltiple:
22110 XXY
Donde es un error aleatorio con media 0 y varianza 2.
Cada una de las observaciones de Y se puede representar mediante el modelo anterior:
iiii XXY 22110
Si utilizamos el enfoque de vectores y matrices, las observaciones de Y quedarán representadas mediante:
XY
donde:
nY
YY
.
.
.2
1
Y
nn XX
XXXX
21
2212
2111
1
11
.
.
.
.
.
.
.
.
.X
2
1
0
β
n
.
.
.2
1
ε
El método a utilizar en la estimación de los parámetros del modelo es el método de mínimos cuadrados. Dicho método consiste en minimizar la función de mínimos cuadrados.
La función de mínimos cuadrados está dada por la letra L y es igual a la suma de todos los errores elevados al cuadrado:
n
iiL
1
2
Si multiplicamos la transpuesta del vector por el mismo vector obtendremos la suma de los errores elevados al cuadrado:
n
ii
1
2εε
La función de mínimos cuadrados quedará como:
εε L
Ahora bien, si de la ecuación vectorial del modelo de regresión anterior despejamos el error:
XβYε Sustituyéndolo en L:
XβYXβYεε L
Al realizar las operaciones anteriores y simplificando se llega a lo siguiente:
22 XβXYβXYY L
Derivando la función anterior con respecto de β , evaluando para β̂ e igualando a cero:
0 βXXYXβ β
ˆˆ
L
Despejando β̂ :
YXXXβ 1ˆ
Donde:
2
1
0
ˆˆˆ
β̂
n
ii
n
iii
n
ii
n
iii
n
ii
n
ii
n
ii
n
ii
XXXX
XXXX
XXn
1
22
121
12
121
1
21
11
12
11
XX
n
iii
n
iii
n
ii
YX
YX
Y
12
11
1
YX
De esta manera, el modelo de regresión lineal múltiple ajustado queda definido por:
22110 XXY ˆˆˆˆ
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL MULTIPLE
PRUEBA DE SIGNIFICANCIA
La prueba de significancia del modelo nos permite determinar estadísticamente si las variables independientes (en conjunto) tienen efecto o no sobre la variable dependiente.
Para realizar esta prueba se requiere descomponer la suma total de cuadrados, representada por Syy, en dos componentes: SSR y SSE
Syy = SSR + SSEDonde:
Syy es la suma total de cuadradosSSR es la suma de cuadrados de la regresiónSSE es la suma de cuadrados del error
Las ecuaciones apropiadas para calcular las expresiones anteriores son:
Partimos de las hipótesis:
Utilizamos la tabla de análisis de varianza:
Fuente de Variación
Suma de cuadrados
Gradosde libertad
Media de cuadrados Estadístico de prueba
Regresión SSR k
Error SSE n – p
Total Syy n – 1
El estadístico de prueba F0 tiene una distribución F (Fisher) con v1 = k y v2 = n – p grados de libertad en el numerador y el denominador, respectivamente.
En este caso, si el estadístico de prueba es mayor que el valor de tablas F , k, n – p, se rechaza la hipótesis nula; concluiremos que la variable independiente está relacionada con al menos una de las variables independientes.
PRUEBAS SOBRE COEFICIENTES INDIVIDUALES
En la prueba de significancia determinamos si existe o no relación entre la variable dependiente y las variables independientes en conjunto, es decir, no se puede determinar la relación entre Y y cada una de las variables independientes.
Se pueden realizar pruebas individuales para analizar la relación entre la variable dependiente y cada una de las variables independientes.
Partimos de las hipótesis siguientes:
para j = 1, 2, ..., k
El estadístico de prueba apropiado es:
Donde es el valor de la diagonal principal de la matriz inversa ( (X´X)-1 ):
El estadístico de prueba t0 anterior sigue una distribución t-student con v = n – p grados de libertad.
Entonces, si el valor absoluto del estadístico de prueba es mayor que el valor de tablas t /2, n – p, se rechaza la hipótesis nula. Como conclusión diremos que la variable independiente Y sí está relacionada con la variable independiente Xj.
CONCLUSION
Como ya vimos en los temas anteriores son muy importantes ya que podemos ver los tipos de regresiones y
para que nos sirven ya que son una herramienta que hoy en día necesitamos para resolver cualquier
problema también debemos de saber los conceptos de regresiones.
Dentro de estos análisis encontramos diagramas de dispersión, también debemos de saber para que nos
sirven las pruebas de hipótesis y donde debemos de aplicarla estos análisis de regresión tanto como la
prueba de hipótesis debemos aplicarla para cada problema y darle solución como dice la palabra hay una
hipótesis y esa hipótesis debemos de resolverla como vimos estos temas son de muy gran importancia para
cada uno de nosotros en nuestra vida laboral.