DIANA JOSEFINA ORDAZ MUNGUIA ESTADISTICA INFERENCIAL II
INSTITUTO TECNOLOGICO SUPERIOR DE TEZIUTLAN
1.1 MODELOS DE REGRESION LINEAL
Los modelos de regresin son tambin conocidos como modelos predictivos. En el caso del
modelo lineal simple, es aquel donde se tienen dos variables: dependiente e independiente, en
donde los diagramas de dispersin permiten visualizar la relacin que existe entre las dos
variables.
Diagramas de dispersin
Es una grfica en la cual cada punto representa un par de valores observados de las variables
dependientes e independientes. El valor de la variable independiente se grafica en el eje
horizontal y el valor de la variable dependiente se grafica en el eje vertical.
Y
Variable dependiente
X
Variable independiente
a) Relacin lineal directa b) relacin lineal inversa c) no hay relacin
d) relacin curvilnea directa e) relacin directa con menor f) relacin lineal directa
grado de relacin que en a con mayor grado de relacin que en a
DIANA JOSEFINA ORDAZ MUNGUIA ESTADISTICA INFERENCIAL II
INSTITUTO TECNOLOGICO SUPERIOR DE TEZIUTLAN
Si el diagrama de dispersin indica una relacin que generalmente es lineal entonces se ajusta a una
lnea recta de los datos. Una recta de regresin con pendiente positiva indica una relacin directa
entre las variables, una pendiente indica una relacin inversa entre las variables y una pendiente de
cero indica que las variables no estn relacionadas. La dispersin puede ser curvilnea cuando el
anlisis entre la relacin no son lineales debido a que se transforman los valores de una o ambas
variables.
1.2 supuestos del modelo de regresin lineal
1.- linealidad: si no existe la linealidad se dice que tenemos un error de especificacin en el caso
de que sean variables independientes nos da diagramas de dispersin parcial para cada variable
y la relacin que muestra es la relacin neta entre las variables representadas.
2.- dependencia: las variables aleatorias muestran residuos completamente independientes.
3.- homocedasticidad: esta condicin se estudia utilizando las variables de pronsticos
tipificados y residuos tipificados implica la variacin siendo esta uniforme.
4.- normalidad: se puede obtener mediante las opciones de histograma, grafico de probabilidad
normal.
5.- no linealidad: esto puede ser linealidad perfecta si una de las variables independientes, tiene
una relacin lineal con otra. Linealidad parcial si entre las variables independientes existen altas
correlaciones.
Mtodos de los mnimos cuadrados
La ecuacin lineal que representa al modelo de regresin lineal simple es:
Yi = 0 + 1 Xi + i
Yi= valor de la variable dependiente del ensayo u observacin.
0= primer parmetro de la ecuacin de regresin, que indica el valor de Y cuando X=0.
1= segundo parmetro de la ecuacin de regresin, llamado coeficiente de regresin, que
indica la pendiente de la recta de la regresin.
Xi= valor especifico de la variable independiente en el ensayo u observacin.
i= error aleatorio de muestreo en el ensayo u observacin.
Los parmetros 0 y 1 en el modelo de regresin lineal se estiman mediante los valores de 0 y
b1 que estn basados en los datos mustrales con la siguiente ecuacin.
B1=
22 b0= -b1X
= b0+ b1X
DIANA JOSEFINA ORDAZ MUNGUIA ESTADISTICA INFERENCIAL II
INSTITUTO TECNOLOGICO SUPERIOR DE TEZIUTLAN
Residuos y graficas de residuales
Para un valor dado de X el valor de la recta de regresin se le denomina valor ajustado, la
diferencia entre el valor observado Y y el valor ajustado se le denomina el residuo e= Y-.
Error estndar de estimacin
Es la desviacin estndar condicional de la variable dependiente Y, y se representa con el
smbolo xy La frmula de desviacin mediante la cual se estima este valor es la siguiente para datos
mustrales:
Sxy= Y-
n-2
La frmula de clculo alternativa que no requiere la determinacin de cada uno de los valores
ajustados y con mayor precisin es la siguiente:
Sxy= y2-b0y-b1y
n-2
Inferencias relativas a la pendiente
Para estimar o predecir se debe determinar primero, si existe una relacin entre las dos
variables. En ausencia de cualquier relacin en la poblacin, la pendiente de la recta de la
regresin poblacional ser por definicin 0 (1=0). Por lo tanto la usual hiptesis nula que se
prueba es H0:1=0.
La hiptesis nula tambin se puede formular como una prueba de una cola, en cuyo caso la
hiptesis alternativa (H1) no es simplemente que las dos variables estn relacionadas, si no que
la relacin es de tipo especifica.
Se prueba un valor hipottico de la pendiente mediante el clculo estadstico t y el uso de n-2gl
y la formula es la siguiente:
Sb1= Syx x2-nx2 t= b1-(1)0 Sb1
El intervalo de confianza para la pendiente poblacional b1, en donde los grados de libertad para
t, son una vez ms n-2 se construye de la siguiente forma:
B1 tSb1 Intervalos de confianza para la media poblacional
La estimacin puntual de la media condicional y el error estndar de la media condicional dando
un intervalo de confianza para la misma usando n-2gl es:
tSx
Syx=
1
+
()2
2 2
= b0 + b1X
DIANA JOSEFINA ORDAZ MUNGUIA ESTADISTICA INFERENCIAL II
INSTITUTO TECNOLOGICO SUPERIOR DE TEZIUTLAN
Calculo de los coeficientes de correlacin y determinacin
El coeficiente de determinacin r2 es relativamente fcil de interpretar, la raz cuadrada de este
mismo se determina como coeficiente de correlacin r y se utiliza la siguiente formula:
R2= b0y + b1xy nY2/ y2 ny2
R= r2
El coeficiente de correlacin indica la direccin de la relacin entre las variables X, Y. El cuadrado
del coeficiente de correlacin indica la proporcin de Y en cuestiones de varianza.
1.00 correlacin positiva perfecta
0.50 correlacin positiva moderada
0 ninguna correlacin
-0.50 correlacin negativa moderada
-1.00 correlacin negativa perfecta
Mtodo de la covarianza
Otra medida que se usa para expresar la relacin entre dos variables aleatorias es la covarianza
muestral, mide la magnitud en la que dos variables varan de manera conjunta y se usan los
anlisis financieros para determinar el riesgo total, relacionado con las inversiones
interrelacionadas, se utiliza la siguiente formula:
COv (x,y)= (x-x)(y-y)/ n-1
Pruebas de significancia con respecto al coeficiente de correlacin
Para estimar si una hiptesis nula; =0 se utiliza la siguiente formula:
T= r/ 1-r2/n-2
DIANA JOSEFINA ORDAZ MUNGUIA ESTADISTICA INFERENCIAL II
INSTITUTO TECNOLOGICO SUPERIOR DE TEZIUTLAN
EJERCICIO
La siguiente tabla presenta los datos que relacionan el nmero de semanas de experiencia de 12
trabajadores seleccionados aleatoriamente en un empleo consiste en conectar con cables,
componentes electrnicos en miniatura, con el nmero de componentes que les fueron rechazados
durante la semana pasada.
trabajadores Semanas de experiencia
Nmero de rechazos
xy X2 Y2
1 7 26 182 49 676
2 9 20 180 81 400
3 6 28 168 36 784
4 14 16 224 196 256
5 8 23 184 64 529
6 12 18 216 144 324
7 10 24 240 100 576
8 4 26 104 16 676
9 2 38 76 4 1444
10 11 22 242 121 484
11 1 32 32 1 1024
12 8 25 200 64 625
92 298 2048 876 7798
a) Determine la ecuacin de regresin y trase la recta de regresin en el diagrama de
dispersin
b) Pruebe si la H0 es aceptada o rechazada con un nivel de significancia del 5%.
c) Estime el valor del coeficiente de regresin e interprete el valor
d) Estime el nmero de componentes que le rechazaron a un empleado que tiene 3 semanas
de experiencia en el trabajo
e) Calcule el coeficiente de determinacin y correlacin e interprete su resultado.
f) Pruebe la hiptesis nula para el valor de correlacin utilizando un nivel de significancia del
1% e interprete su resultado
a) B1= 2048-12(7.67)(24.83)876-12(7.67)2 = -1.40
B0= 24.83-(-1.40)(7.67)= 35.57
b) Sxy= 7798-(35.57x298)-(-1.40x2048) 12-2= 2.56
Sb1= 2.56 876-12(7.67)2 = 0.20
T= -1.40 0.20 = -7
c) B1 tSb1
-1.40 (-7)(0.20)
-1.40 + (-7)(0.20) = -2.8
-1.40 - (-7)(0.20) = 0
DIANA JOSEFINA ORDAZ MUNGUIA ESTADISTICA INFERENCIAL II
INSTITUTO TECNOLOGICO SUPERIOR DE TEZIUTLAN
d) Sy,x= 2.56 (112) + (3 7.67)2 876 (92)2 12 = 1.18
= 37.57 + (-1.40x3)= 31.37
31.37 + (-7x1.18)= 23.11
31.37 - (-7x1.18)= 39.63
e) R2= (35.57 x 298) + (-1.40 x 2048) (12 x 24.83)2 7798 (12 x 24.83)2 = 0.84
R= 0.84 = 0.92
f) T= 0.92 1-0.84 12-2 = 7.27