Terminologia de La Regresion, Estimacion de Parametros y Prueba de Hipotesis en La Regresion Lineal...

8
4.1 Terminología de la regresión. Regresión lineal simple. El termino “regresión” fue acuñado por Sir Francis Galton (1822 – 1911), primo de Charles Darwin. Galton estudiaba la eugénica, término también introducido por sí mismo para definir el estudio de la mejora de la raza humana a partir de las características hereditarias. Galton estudio la altura de los hijos con relación a la altura de sus padres, y probó que la altura de hijos altos “regresaba” hacia la media de la altura de la población a lo largo de sucesivas generaciones. En otras palabras, hijos de padres muy bajos tendían a ser en promedio más altos que sus padres. En la actualidad, el término de regresión se utiliza siempre que se busca predecir una variable en función de otra, y no implica que se esté estudiando si se está produciendo una regresión a la media. Anteriormente a Galton se debe mencionar a Legendre (1752 – 1833), quien introdujo el método de los mínimos cuadrados utilizándolos para definir la longitud de 1 metro como una diez millonésima parte del arco meridional. Con posterioridad a Galton, las propiedades de las técnicas de regresión fueron estudiadas por Edgeworth, Pearson y Yule. La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una función lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son: 1. El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal). Es decir se asume que: , siendo el termino independiente (constante o “intercept”), el coeficiente b de regresión de la variable explicativa (pendiente o “slope”) y es una variable aleatoria que se llama error residual. 2. La variable explicativa se ha medido sin error. 3. El valor esperado de del modelo es cero. 4. La varianza de (y por lo tanto de la variable respuesta) es constante. 5. Los son independientes entre si. 6. Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el modelo, también es necesario que la distribución de sea normal.

Transcript of Terminologia de La Regresion, Estimacion de Parametros y Prueba de Hipotesis en La Regresion Lineal...

4.1 Terminología de la regresión.

Regresión lineal simple.

El termino “regresión” fue acuñado por Sir Francis Galton (1822 – 1911), primo de Charles Darwin.

Galton estudiaba la eugénica, término también introducido por sí mismo para definir el estudio de

la mejora de la raza humana a partir de las características hereditarias.

Galton estudio la altura de los hijos con relación a la altura de sus padres, y probó que la altura de

hijos altos “regresaba” hacia la media de la altura de la población a lo largo de sucesivas

generaciones. En otras palabras, hijos de padres muy bajos tendían a ser en promedio más altos

que sus padres. En la actualidad, el término de regresión se utiliza siempre que se busca predecir

una variable en función de otra, y no implica que se esté estudiando si se está produciendo una

regresión a la media. Anteriormente a Galton se debe mencionar a Legendre (1752 – 1833), quien

introdujo el método de los mínimos cuadrados utilizándolos para definir la longitud de 1 metro

como una diez millonésima parte del arco meridional. Con posterioridad a Galton, las propiedades

de las técnicas de regresión fueron estudiadas por Edgeworth, Pearson y Yule.

La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable

respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable

independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el

peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una

función lineal de la variable explicativa.

Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:

1. El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la

variable explicada, y esta relación es lineal). Es decir se asume que:

, siendo el termino independiente (constante o

“intercept”), el coeficiente b de regresión de la variable explicativa (pendiente o

“slope”) y es una variable aleatoria que se llama error residual.

2. La variable explicativa se ha medido sin error.

3. El valor esperado de del modelo es cero.

4. La varianza de (y por lo tanto de la variable respuesta) es constante.

5. Los son independientes entre si.

6. Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el

modelo, también es necesario que la distribución de sea normal.

Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediantes el estudio de

los residuos (valores observados – valores predichos): normalidad, tendencias, etc. Cuando no se

cumplen los criterios de aplicación es necesario realizar transformaciones a las variables, o bien

para obtener una relación lineal o bien para homogeneizar la varianza.

Regresión lineal simple. Tiene como objeto estudiar como los cambios en una variable aleatoria,

en el caso de existir una relación funcional entre ambas variables que puede ser establecida por

una expresión lineal, es decir, su representación gráfica es una línea recta. Cuando la relación

lineal concierne el valor medio o esperado de la variable aleatoria, estamos ante un modelo de

regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx

y, según lo establecido, se tendrá:

( ) Donde a y son los coeficientes de regresión.

De manera equivalente, otra formulación del modelo de regresión lineal simple seria: si Xi es un

valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces:

( ) es el error o desviación aleatoria de

Definición valor medio. Constante que representa el centro de gravedad de la ley de probabilidad

de una variable aleatoria y que, en casos de notable simetría en la función de densidad, puede

interpretarse que dicha constante nos señala la zona donde se sitúan los valores de máxima

probabilidad de la variable aleatoria.

El valor medio o valor esperado de una variable aleatoria X se define como:

Siempre que dicho valor exista, donde f es la función de densidad de la variable.

Regresión lineal simple.

Método estadístico que estudia la relación lineal entre dos variables.

¿Existe una relación lineal entre las variables?

¿Cuán fuerte es esta relación lineal entre las variables?

¿Qué predicciones se pueden hacer basados en esta relación lineal entre las variables?

Relación lineal.

:

Pendiente de la línea.

Por cada unidad que aumenta la , la cambia unidades.

:

Intercepto en .

Valor de cuando .

Modelo

– variable independiente (imput).

– variable dependiente (output o respuesta).

– error relativo.

– intercepto en Y.

– pendiente.

4.2 Estimación de Parámetros.

Suposiciones.

Los errores aleatorios ( ).

Son independientes.

Tiene una media igual a 0.

Tienen la misma varianza .

Tienen una distribución Normal (requerido para la prueba F).

Por los tanto, para cada valor de X, existe una población de Y’s.

Independientes unas de otras.

Con una distribución Normal con media ⁄ ( ) .

Una misma varianza .

Estimación de regresión estimada.

Intercepto en Y ( ).

Pendiente ( ).

Valor estimado de Y

Valor observado en Y.

Residuo ( ) (o error).

Método de mínimo cuadrados.

Es un procedimiento para obtener la ecuación de la línea que mejor se ajusta a los datos de la

muestra. Para obtener la ecuación de la línea hay que determinar y .

La línea de mejor ajuste es aquella que minimiza la suma e cuadrados de los residuos (distancia

entre el valor observado, , y el valor estimado, .

∑( ) ∑

Los valores de y obtenidos mediante este método son:

∑ (∑ )(∑ )

∑ (∑ )

Ejemplo:

¿Existe alguna relación entre los gastos de una familia y sus ingresos? Para estudiar esta relación

se escogieron 10 familias y se obtuvo sus gastos anuales (en miles) y sus ingresos anuales (en

miles).

( )( )

( )

( )

Ingresos (en miles)

Gastos (en miles)

$30 $40

35 44

28 36

42 56

32 41

50 63

45 55

36 48

48 58

40 50

4.3 Prueba de hipótesis en la

regresión lineal simple.

Prueba de hipótesis.

¿Es estadísticamente significativa la relación lineal obtenida? ¿Hay realmente una relación lineal

entre las dos variables?

Si entonces ( ) (una constante) y no dependería de X, o sea, no habría relación

entre X y Y.

Para llevar a cabo la prueba de hipótesis utilizamos la tabla de ANOVA.

Tenemos tres fuentes de variación:

ANOVA

Fuente de Variación.

gl SS MS F F(critica o P – valué.

Regresión. Error.

1 n – 2.

(SSR)

(SSE)

(MSR)

( )

(MSE)

(de la tabla De F con 1, n – 2 grados de libertad y nivel de significancia

)

TOTAL n – 1. ∑

(∑ )

(SST)

Ejemplo (seguimos con el ejemplo anterior)

( )( )

( ) ⁄

ANOVA

Fuente. gl SS MS F F (crit) Regresión. 1 680.88 680.88 247.40 5.32 Error. 8 22.02 275 Total. 9 702.90

Como F > F (critica) se rechaza . La relación entre los ingresos y los gastos es significativa a un

nivel de significancia de .05.