¿Y ahora que? El proceso de recuperación ante la pérdida de trabajo
Trabajo de Recuperación
-
Upload
keysi-cedillo-preciado -
Category
Documents
-
view
43 -
download
6
description
Transcript of Trabajo de Recuperación
ANALISIS DE
REGRESION Y
CORRELACIÓN
LINEAL Y MULTIPLE
KEYSI MILAGROS CEDILLO PRECIADO
ESTADÍSTICA GENERAL
Mg. Walter Castañeda Guzmán
Por
“Año de la Promoción de la Industria Responsable y del Compromiso Climático”
Facultad de Ciencias Económicas
Escuela Académico Profesional de Contabilidad
1
El objetivo de este trabajo es
analizar el grado de la relación
existente entre variables
utilizando modelos matemáticos
y representaciones gráficas. Así
pues, para representar la
relación entre dos o más
variables desarrollaremos una
ecuación que permitirá estimar
una variable en función de la
otra.
Por ejemplo, ¿en qué medida, un
aumento de los gastos en
publicidad hace aumentar las
ventas de un determinado
producto?, ¿cómo representamos
que la bajada de temperaturas
implica un aumento del consumo
de la calefacción?,...
A continuación, estudiaremos
dicho grado de relación entre dos
variables en lo que llamaremos
análisis de correlación. Para
representar esta relación
utilizaremos una representación
gráfica llamada diagrama de
dispersión y, finalmente,
estudiaremos un modelo
INTRODUCCIÓN
2
En primer lugar agradezco a
Dios por darme la oportunidad
de tener un día más de vida,
estudiando la Carrera que más
anhelo, Contabilidad.
En segundo lugar, a mis padres,
Norma y Charly, quienes me
guían y me acompañan siempre.
En tercer lugar, a mis hermanos,
Oreste y Samir, y a mi novio,
Percy, por su apoyo
incondicional, A sí mismo a mi
docente encargado de la
Asignatura de Estadística
General, Mg. Walter Castañeda
Guzmán, que nos brinda las
pautas necesarias de nuestro
curso.
DEDICATORIA
3
Mediante este trabajo quiero
dar a conocer todos los
beneficios de trabajar los
métodos estadísticos como como
son: Regresión y correlación.
También ejemplos practicos de
su utilización en la vida diaria,
mediante casos prácticos, que
refuercen los conociemintos
aprendidos antes en clase.
PRESENTACIÓN
4
Indice TABLA DE CONTENIDO
Análisis de Regresión y Correlación .......................................................................... 6
Métodos a usar ......................................................................................................... 6
Regresión: ................................................................................................................ 6
minimos cuadrados ............................................................................................... 9
Correlación: ............................................................................................................ 9
DIFERENCIA ENTRE REGRESIÓN Y CORRELACIÓN .............................................. 11
PASOS PARA PODER EFECTUAR ESTOS MÉTODOS: ............................................. 12
Regresión lineal .................................................................................................... 12
correlación lineal ................................................................................................. 13
mínimos cuadrados: ............................................................................................ 13
Bibliografía .................................................................................................................. 35
6
Análisis de Regresión y Correlación Lineal
MÉTODOS A USAR
REGRESIÓN:
Expresándolo en forma simple, la regresión lineal es una técnica que permite
cuantificar la relación que puede ser observada cuando se grafica un diagrama de
puntos dispersos correspondientes a dos variables, cuya tendencia general es
rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del
mejor ajuste” de la forma:
𝑦 = 𝑎 + 𝑏𝑥
En esta ecuación, “y” representa los valores de la coordenada a lo largo del eje
vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la
coordenada sobre el eje horizontal (absisa). El valor de “a” (que puede ser negativo,
positivo o igual a cero) es llamado el intercepto; en tanto que el valor de “b” (el cual
puede ser negativo o positivo) se denomina la pendiente o coeficiente de regresión.
Ecuación de regresión estimada:
�̂� = 𝛽0 + 𝛽1𝑥
A la gráfica de la ecuación de regresión simple estimada se le llama recta de
regresión estimada; 𝛽0 es la intersección con el eje 𝑦 y 𝛽1 es la pendiente. En la
sección siguiente se muestra el uso del método de mínimos cuadrados para calcular
los valores de 𝛽0 y 𝛽1 para la ecuación de regresión estimada
7
Como el valor de proporciona tanto una estimación puntual de E(x) para un valor
dado de x como una estimación puntual de un solo valor de y para un valor dado
de x, a se le llamará simplemente valor estimado de y.
PROCESO DE ESTIMACIÓN EN LA REGRESIÓN LINEAL SIMPLE
SUPOSICIONES ACERCA DEL TÉRMINO DEL ERROR EN EL
ANÁLISISDE REGRESIÓN:
�̂� = 𝛽0 + 𝛽1𝑥+∈
El término del error ∈ es una variable aleatoria cuya media, o valor
esperado, es cero; es decir: 𝐸( )∈ = 0
o Implicación: 𝛽0 𝑦 𝛽1, 𝑠𝑜𝑛 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒𝑠, 𝑝𝑜𝑟 𝑙𝑜 𝑡𝑎𝑛𝑡𝑜,
𝐸 𝛽0 = 𝛽0 𝑦 𝐸 𝛽1 = 𝛽1,
𝐴𝑠𝑖,
𝑝𝑎𝑟𝑎 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑥, 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑌 𝑒𝑠:
�̂� = 𝛽0 + 𝛽1𝑥
Modelo de regresión:
•Ecuación de Regresión:
•Parámetros Desconocidos
Datos Muestrales
Ecuación de Regresión estimada:
•Estadísticos Muestrales
Son las estimaciones de
:
�̂� = 𝛽0 + 𝛽1𝑥+∈
𝐸(𝑦) = 𝛽0 + 𝛽1𝑥
𝛽0 𝑦 𝛽1
𝛽0 𝑦 𝛽1
𝑏0 𝑦 𝑏1
8
La varianza de∈, que se denota 𝜎2, es la misma para todos los valores
de x.
o Implicación: La varianza de y respecto a la recta de regresión es
igual a 𝜎2 y es la misma para todos los valores de x
Los valores de ∈ son independientes.
o Implicación: El valor de ∈ correspondiente a un determinado
valor de x no está relacionado con el valor de ∈ correspondiente
a ningún otro valor de x; por lo tanto, el valor de y correspondiente
a un determinado valor de x no está relacionado con el valor de
y de ningún otro valor de x.
El término del error ∈ es una variable aleatoria distribuida normalmente.
o Implicación: como y es función lineal de ∈, también y es una
variable aleatoria distribuida normalmente.
SUPOSICIONES DEL MODELO DE REGRESIÓN
9
MINIMOS CUADRADOS
El método de mínimos cuadrados es un método en el que se usan los datos muestrales
para hallar la ecuación de regresión estimada.
CRITERIO DE MÍNIMOS CUADRADOS
min (𝑦𝑖 − �̂�𝑖)2
donde:
𝑦𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖
�̂�𝑖 = 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖
PENDIENTE E INTERSECCIÓN CON EL EJE y DE LA ECUACIÓN DE REGRESIÓN ESTIMADA
𝛽1 =∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − �̅�)𝑛
𝑡=1
∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1
𝛽0 = �̅� − �̅�𝛽0
Donde:
𝑥𝑡 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖
𝑦𝑡 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 𝑖
�̅� = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
�̅� = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
CORRELACIÓN:
El análisis de correlación se encuentra estrechamente vinculado con el análisis de
regresión y ambos pueden ser considerados de hecho como dos aspectos de un
mismo problema.
La correlación entre dos variables es - otra vez puesto en los términos más simples - el
grado de asociación entre las mismas. Este es expresado por un único valor llamado
coeficiente de correlación (r), el cual puede tener valores que ocilan entre -1 y +1.
10
Cuando “r” es negativo, ello significa que una variable (ya sea “x” o “y”) tiende a
decrecer cuando la otra aumenta (se trata entonces de una “correlación negativa”,
correspondiente a un valor negativo de “b” en el análisis de regresión). Cuando “r”
es positivo, en cambio, esto significa que una variable se incrementa al hacerse
mayor la otra (lo cual corresponde a un valor positivo de “b” en el análisis de
regresión).
Los valores de “r” pueden calcularse fácilmente en base a una serie de pares de
datos de “x” e “y”, utilizando la misma table y montos que se indican en el Paso 2 de
la sección “regresión” de este capítulo. De este modo “r” puede ser obtenido -
indirectamente - a partir de la relación:
𝑟2 =∑𝑥𝑦 − [
(∑𝑥)(∑𝑦)𝑛 ]
2
[∑𝑥2 −(∑𝑥)2
𝑛 ] [∑𝑦2 −(∑𝑦)2
𝑛 ]
Tambien se dice que es el conjunto de técnicas estadísticas empleado para medir la
intensidad de la asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en determinar que tan intensa
es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos
en un diagrama de dispersión.
11
DIFERENCIA ENTRE REGRESIÓN Y CORRELACIÓN
•Estudiar y predecir el valor promedio de una variable sobre la base de valores fijos de otras variables
•Existe una asimetría en el tratamiento que se les da a las variables.
•La variable dependiente es aleatoria o estocástica: su valor depende de una distribución de probabilidades.
•Las variables independientes tienes valores fijos en muestras repetidas
Regresión
•El objetivo es medir el grado de asociación lineal entre dos variables
•El tratamiento de las variables es simétrico:
•No se distinguen entre variable dependiente y variable explicativa
•Se asume que las dos variables son simétricasCorrelación
12
PASOS PARA PODER EFECTUAR ESTOS MÉTODOS:
REGRESIÓN LINEAL
Serie de datos para el cálculo de una regresión (“a” y “b”) y del coeficiente de
correlación (“r”)
El procedimiento para obtener valores de “a” y “b” para una serie de pares de datos
de “x” y de “y” es como sigue:
Primero. Calcule, para cada par de valores de “x” e “y”, las cantidades “x²”, “y²”,
y “x.y”.
Segundo. Obtenga las sumas (∑) de estos valores para todos los pares de datos
de “x” e “y”, así como las sumas del total de los valores de “x” e “y”. Los
resultados de los Pasos 1 y 2 aparecerán en forma similar a la siguiente.
Número 𝑿 𝑿𝟐 𝒀 𝒀𝟐 𝑿𝒀
1
2
. . . . . .
. . . . . .
. . . . . .
SUMA ∑𝑿 ∑𝑿𝟐 ∑𝒀 ∑𝒀𝟐 ∑𝑿𝒀
Tercero. Estime la pendiente (b) por medio de la relación:
𝑏 =∑𝑥𝑦 −
(∑𝑥)(∑𝑦)𝑛
∑𝑥2 −(∑𝑥)2
𝑛
Cuarto. Estime el intercepto (a) por medio de la relación:
𝑎 =∑𝑦
𝑛− (𝑏.
∑ 𝑥
𝑛)
A partir de esos valores de “a” y de “b” obtenidos mediante las Ecuaciones 2 y 3, es
posible trazar a lo largo de los puntos dispersos de un gráfico la línea recta mejor
ajustada a los mismos, y verificar visualmente si tales puntos están bien “expresados”
por la línea
13
CORRELACIÓN LINEAL
Utilizaremos la siguiente Fórmula:
𝑟2 =∑𝑥𝑦 − [
(∑𝑥)(∑𝑦)𝑛 ]
2
[∑𝑥2 −(∑𝑥)2
𝑛 ] [∑𝑦2 −(∑𝑦)2
𝑛 ]
¡Atención!: si no hay correlación de ningún tipo entre dos v.a., entonces tampoco
habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice
que no hay correlación lineal, pero puede que la haya de otro tipo.
MÍNIMOS CUADRADOS:
La ecuación de la recta de mínimos cuadrados (en forma punto-pendiente) es la
siguiente:
𝑦 − �̅� =𝐶𝑜𝑣(𝑥, 𝑦)
𝑆𝑥2 ∗ (𝑥 − �̅�)
15
Problema 1) Según los datos, encontrar la ecuación de regresión:
Número Compras Ingresos Obtenidos
1 9.0 0.5
2 9.4 0.5
3 7.4 1.2
4 9.7 1.0
5 10.4 0.3
6 5.0 1.5
7 6.7 1.0
8 8.4 0.5
9 8.0 0.5
10 10,0 0.5
11 9.2 0.5
12 6.2 1.0
13 7.7 0.5
a) Obtenemos las sumas:
Número 𝑿 𝑿𝟐 Y 𝒀𝟐 XY
1 9.0 81.00 0.5 0.25 4.50
2 9.4 88.36 0.5 0.25 4.70
3 7.4 54.76 1.2 1.51 9.10
4 9.7 94.09 1.0 1.00 9.70
5 10.4 108.16 0.3 0.09 3.12
6 5.0 25.00 1.5 2.25 7.50
7 6.7 44.89 1.0 1.00 6.70
8 8.4 70.56 0.5 0.25 4.20
9 8.0 64.00 0.5 0.25 4.00
10 10.0 100.00 0.5 0.25 5.00
11 9.2 84.64 0.5 0.25 4.60
12 6.2 38.44 1.0 1.00 6.20
13 7.7 59.29 0.5 0.25 3.85
SUMA 107.10 913.19 9.53 8.60 73.17
Obtenemos los
datos de aquí
16
a) Encontramos los valores de a y b:
I. Primero el valor de b:
𝑏 =∑𝑥𝑦 −
(∑𝑥)(∑𝑦)𝑛
∑𝑥2 −(∑𝑥)2
𝑛
=72.17 −
107.10 ∗ 9.5313
913.19 −(107.10)2
13
= −0.2
II. Luego el valor de a:
𝑎 =∑𝑦
𝑛− (𝑏.
∑𝑥
𝑛) =
9.53
13− ((−0.2).
107.10
13) = 2.2
b) Reemplazamos en la Ecuación:
�̂� = 𝑎 + 𝑏𝑥
�̂� = 2.2 − 0.2𝑥
Comparando Datos en Excel: (si concuerdan)
𝑦 = −0.1731𝑥 + 2.1592
𝑅² = 0.5718
c) Graficamos la Ecuación:
y = 2.2-0.2x
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
0.0 2.0 4.0 6.0 8.0 10.0 12.0
Ing
reso
s O
bte
nid
os
Compras
Relación entre Compras e Ingresos
Obtenidos
17
Problema 2) Según los datos obtenidos de la empresa Copymax SAC.
Obtenidos en los 6 años anteriores con relación a las ventas obtenidas:
AÑO VENTA GASTO EN PUBLICIDAD
2009 600 330
2010 440 220
2011 330 150
2012 550 180
2013 340 200
2014 490 190
En este modelo queremos comprobar qué influencia tienen los gastos de
publicidad sobre el volumen de facturación o las ventas de la empresa.
Para cuantificar la relación entre ambas variables y tener una aproximación
de la magnitud de la influencia de los gastos en publicidad sobre las ventas de
la empresa debemos estimar el modelo por mínimos cuadrados ordinarios
(M.C.O.) donde se minimiza la suma de los cuadrados de los residuos
a) La diferencia entre un valor observado y el valor estimado lo
denominaremos residuo.
𝑅𝑒𝑠𝑖𝑑𝑢𝑜 = 𝑦𝑡 − �̂�𝑡
b) Como ya hemos citado anteriormente, la ecuación de la recta de
mínimos cuadrados (en forma punto-pendiente) es la siguiente:
𝑦 − �̅� =𝐶𝑜𝑣(𝑥, 𝑦)
𝑆𝑥2∗ (𝑥 − �̅�) =
∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − 𝑌)𝑛𝑡=1
∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1
∗ (𝑥 − �̅�)
Encontramos la pendiente:
𝑦 − �̅�
(𝑥 − �̅�)=
∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − 𝑌)𝑛𝑡=1
∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1
𝛽 =∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − �̅�)2014
𝑡=2009
∑ (𝑋𝑡 − �̅�)22014𝑡=2009
Sabiendo que: �̅� = 475 y �̅� = 200:
18
𝛽 =∑ (𝑋𝑡 − 475)(𝑌𝑡 − 200)2014
𝑡=2009
∑ 𝑋𝑡 − 475̅̅ ̅̅ ̅ 22014
𝑡=2009
AÑO x y (x-u)(y-u) (x-u)
2009 600 250 7159.67 94.00 8836
2010 550 220 2031.33 44.00 1936
2011 500 150 143.00 -6.00 36
2012 450 110 3574.67 -56.00 3136
2013 456 123 2541.67 -50.00 2500
2014 480 190 -420.33 -26.00 676
suma 3036 1043 15030 0 17120
u 506 174
𝛽1 =15030
17120
𝛽1 = 0.88
Y para encontrar la ecuación:
𝛽0 = �̅� − �̅�𝛽0
𝛽0 = 174 − 506(0.88)
𝛽0 = −270.39
Entonces la ecuación tendrá la forma:
�̂� = 𝛽0 + 𝛽1𝑥
�̂� = −270.39+ 0.88𝑥
Comparando Datos en Excel: (si concuerdan)
y = 0.8779x - 270.39
R² = 0.8557
19
a) Graficamos la Ecuación:
y = 0.8779x - 270.39
R² = 0.8557
0
50
100
150
200
250
300
0 100 200 300 400 500 600 700
Ga
sto
s e
n P
ub
licid
ad
Ventas
Relación entre Ventas y Gastos en
Publicidad
20
Problema 3) Dadas las siguientes cinco observaciones de las variables x y y.
x y
1 3
2 7
3 5
4 11
5 14
I. Trace el diagrama de dispersión correspondiente a estos datos
II. Use la ecuación de regresión estimada para predecir el valor de
y cuando x = 4.
Solución:
a) Encontramos las medias:
�̅� = ∑ 𝑥𝑖
𝑛𝑖=1
𝑛=
15
5= 3
�̅� = ∑ 𝑦𝑖
𝑛𝑖=1
𝑛=
40
5= 8
b) Encontramos los valores de 𝛽1 y 𝛽0:
𝛽1 =∑ (𝑋𝑡 − �̅�)(𝑌𝑡 − �̅�)𝑛
𝑡=1
∑ (𝑋𝑡 − �̅�)2𝑛𝑡=1
𝛽1 =∑ (𝑋𝑡 − 3)(𝑌𝑡 − 8)𝑛
𝑡=1
∑ (𝑋𝑡 − 3)2𝑛𝑡=1
=26
10= 2.6
Luego encontramos 𝛽0:
𝛽0 = �̅� − �̅�𝛽1
𝛽0 = 8 − 3 ∗ 2.6
𝛽0 = 8 − 7.8
𝛽0 = 0.2
c) Encontramos la ecuación:
�̂� = 𝛽0 + 𝛽1𝑥
21
�̂� = 0.2 + 2,26𝑥
Comparamos con Excel (si concuerdan):
y = 2.6x + 0.2
R² = 0.845
d) Graficamos el diagrama:
e) Use la ecuación de regresión estimada para predecir el valor de y
cuando x = 4.
�̂� = 0.2 + 2,26(4)
�̂� = 10.6
y = 2.6x + 0.2
R² = 0.845
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6
y
x
Relación entre X y Y
23
Análisis De Regresión Y Correlación Múltiple
MODELO DE REGRESIÓN Y ECUACIÓN DE REGRESIÓN
Los conceptos de modelo de regresión y ecuación de regresión vistos en el
capítulo previo, son aplicables en el caso de la regresión múltiple. A la
ecuación que describe cómo está relacionada la variable dependiente y
con las variables independientes x 1 , x 2, . . ., x p se le conoce como modelo
de regresión múltiple. Se supone que el modelo de regresión múltiple toma la
forma siguiente:
𝑦 = 𝛽0+𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 +⋯+ 𝛽𝑝𝑥𝑝+∈
En el modelo de regresión múltiple, 𝛽0, 𝛽1, 𝛽2, 𝛽3, …𝛽𝑝 son parámetros y el
término del error ∈, es una variable aleatoria. Examinando con atención este
modelo se ve que y es una función lineal de 𝑥1, 𝑥2, 𝑥3 …𝑥𝑝 (la parte
𝛽0+𝛽1𝑥1 + 𝛽2𝑥2 + 𝛽3𝑥3 +⋯+ 𝛽𝑝𝑥𝑝) más el término del error ∈. El término del
error corresponde a la variabilidad en y que no puede atribuirse o explicarse
al efecto lineal de las p variables independientes.
24
Ecuación de regresión múltiple estimada:
�̂� = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 +⋯+ 𝑏𝑝𝑥𝑝+∈
Donde:
𝑏0, 𝑏1, 𝑏2, 𝑏3, … 𝑏𝑝 Son las aproximaciones de 𝛽0, 𝛽1, 𝛽2, 𝛽3, …𝛽𝑝
�̂� = 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒
Para una muestra de n observaciones (cada Observación estará formada por una
tupla con los valores de 𝑋2, 𝑋3, … , 𝑋𝑘 y el valor de Y asociado), tendremos el
siguiente sistema de n ecuaciones lineales:
{
𝑌1 = 𝛽1 + 𝛽2 ∗ 𝑋21 +⋯+ 𝛽𝑘 ∗ 𝑋𝑘1 + 𝑢1
𝑌1 = 𝛽1 + 𝛽2 ∗ 𝑋22 +⋯+ 𝛽𝑘 ∗ 𝑋𝑘2 + 𝑢2…𝑌1 = 𝛽1 + 𝛽2 ∗ 𝑋23 +⋯+ 𝛽𝑘 ∗ 𝑋𝑘3 + 𝑢3
25
Regresión múltiple: Fórmulas
Variables independientes: α = (𝑋2, 𝑋3, … , 𝑋𝑘)
Modelo de regresión múltiple: �̂� = 𝑏0+𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 +⋯+ 𝑏𝑝𝑥𝑝+∈
Criterio de mínimos cuadrados: 𝑚𝑖𝑛∑(𝑦𝑖 − 𝑦�̅�)
2
Relación entre SCT, SCR y SCE:
𝑆𝐶𝑇 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
Coeficiente de determinación múltiple:
𝑟2 =𝑆𝐶𝑅
𝑆𝐶𝑇=
𝑆𝐶𝑇 − 𝑆𝐶𝐸
𝑆𝐶𝑇= 1 −
𝑆𝐶𝐸
𝑆𝐶𝑇
Coeficiente de determinación múltiple ajustado:
Cuadrado medio debido a la regresión:
𝐶𝑀𝑅 =𝑆𝐶𝑅
𝑝
Cuadrado medio del error:
𝐶𝑀𝐸 =𝑆𝐶𝐸
𝑛 − 𝑝 − 1
Estadístico de la prueba F:
𝐹 =𝐶𝑀𝑅
𝐶𝑀𝐸
Estadístico de la prueba t:
𝑡 =𝑏𝑖𝑆𝑏𝑖
26
La figura siguiente muestra la relación entre las variables independientes y Y.
PROBLEMAS
A fin de ejemplificar los temas anteriormente vistos, analizaremos el siguiente
problema:
El dueño de un restaurante de hamburguesas en la ciudad de Tumbes desea
determinar la interrelación entre la introducción de aderezos importados y las
utilidades que recibe.
Utilidades 70 40 100 80 30 100
Demanda de catsup nacional 2 1 3 2 1 3
Demanda de catsup importada 50 65 75 30 45 35
Con esta información determinaremos lo siguiente:
1.- La ecuación de regresión lineal múltiple.
2.- La prueba de significancia del modelo. = 0.05
3.- Intervalos de confianza del 95 % para los parámetros del modelo.
4.- Intervalos de confianza del 90 % para la utilidad esperada y la futura
cuando la demanda de catsup nacional sea de 4 y la de catsup importada
de 50.
5.- El coeficiente de determinación múltiple.
X1
X2
Y
22110 XXY
27
De acuerdo al enunciado del ejercicio, Y representa a las utilidades, X1
representa a la demanda de catsup nacional y X2 representa a la demanda
de catsup importada.
El objetivo principal es establecer si las dos variables independientes tienen
efecto o no sobre las utilidades del restaurante, a fin de establecer
diferencias entre las dos. Es decir, si es indiferente cual de las dos variables
utilizar en el proceso.
A fin de solucionar cada uno de los incisos del ejercicio, empezaremos
calculando las sumatorias de los valores de X1, X2 y Y.
n = 6 X1X2 = 600
X1 = 12 Y = 420
X12 = 28 Y2 = 33800
X2 = 300 X1Y = 970
X22 = 16500 SX2Y = 20850
Puesto que YXXXβ 1ˆ entonces:
10
532
10
20850
970
420
000666600333330
025050
0333330508333332
20850
970
420
16500600300
6002812
3001261
.
.
..
..
...
β̂
de aquí, entonces, el modelo de regresión lineal múltiple solicitado en el
inciso 1 es:
21 1053210 XXY ..ˆ
a partir del modelo anterior, podemos concluir lo siguiente:
El plano de regresión cortará al eje Y en y = 10.
Por cada incremento en la demanda de catsup nacional, las
utilidades se incrementarán 32.5 veces, en promedio; siempre y
cuando la demanda de catsup importada permanezca
constante.
Por cada incremento en la demanda de catsup importada, las
utilidades disminuirán 0.1 veces, en promedio; siempre y cuando
la demanda de catsup nacional permanezca constante.
28
Para realizar la prueba de significancia en el inciso 2, calcularemos primero los
valores de Syy, SSR y SSE:
4400
6
42033800
2
2
2
Syy
Syy
n
YYSyy
4240
6
420
20850
970
420
10532102
2
SSR
SSR
n
YSSR
..
YXβ
160
42404400
SSE
SSE
SSRSyySSE
Planteamos las hipótesis:
0
0210
iaH
H
:
:
el nivel de significancia de la prueba es de 0.05. Realizando la tabla de análisis de varianza:
Fuente de Variación
Suma de cuadrados
Grados de
libertad
Media de cuadrados Estadístico de prueba
Regresión 4240 2 2120
2
4240MSR 7539
333353
21200 .
.F
Error 160 3 333353
3
160.MSE
Total 4400 5
29
El valor de tablas de la distribución F con = 0.05, v1 = 2 y v2 = 3 grados de libertad en
el numerador y el denominador, respectivamente, es 9.55.
Al comparar el estadístico de prueba contra el valor de tablas vemos que F0 es mayor
que F, 2, 3; rechazamos la hipótesis nula. Por lo tanto, podemos afirmar que las
utilidades del restaurante están significativamente relacionadas con la demanda de
catsup nacional ó con la demanda de catsup importada ó con ambas.
A fin de determinar exactamente con cuales variables se relaciona la variable Y,
realizaremos pruebas de hipótesis sobre coeficientes individuales.
Para determinar si la demanda de catsup nacional tiene efecto o no sobre las
utilidades, planteamos los siguiente.
0
0
1
10
:
:
aH
H
el estadístico de prueba es:
98
250333353
532
0
0
11
10
.
..
.
ˆ
t
t
CMSEt
El valor de tablas de la distribución t-student con = 0.025 y v = 3 grados de libertad es 3.182.
Comparando el valor absoluto del estadístico de prueba con el valor de las tablas,
notamos que t0 es mayor que t, 3 por lo que rechazamos la hipótesis nula.
Concluiremos entonces que la demanda de catsup nacional sí tiene efecto
significativo sobre las utilidades del restaurante. La siguiente prueba de hipótesis nos permitirá determinar si la demanda de catsup importada tiene o no efecto sobre las utilidades:
0
0
2
20
:
:
aH
H
el estadístico de prueba es:
30
530
00066660333353
10
0
0
22
20
.
..
.
ˆ
t
t
CMSEt
El valor de tablas de la distribución t-student con = 0.025 y v = 3 grados de libertad
es 3.182.
Al comparar el valor absoluto del estadístico de prueba con el valor de las tablas,
vemos que t0 es menor que t, 3 por lo que no se puede rechazar la hipótesis nula.
Lo anterior nos lleva a concluir que no existen los elementos suficientes para afirmar
que la demanda de catsup importada tenga efecto sobre las utilidades del
restaurante.
En el inciso 3 se pide calcular intervalos de confianza del 95 % para los parámetros
del modelo (0, 1 y 2)
Como el intervalo de confianza es del 95 %, el valor de es igual a 0.05.
El valor de tablas de la distribución t-student con 0.025 y 3 grados de libertad es de
3.182
El intervalo de confianza del 95% para 0 queda de la siguiente manera:
49.1154β29.1154 0
83333323333531823108333332333353182310 0
002
00002
0
......
ˆˆ,,
CMSEtCMSEtpnpn
Como conclusión, se afirmar con un 95% de certeza que la ordenada en el origen
será por los menos -29.1154 y a lo mucho 49.1154. Este es el rango de valores por
donde cortará el plano al eje Y.
El intervalo de confianza del 95% para 1 lo calculamos de la siguiente manera:
44.1190β20.8809 1
25033335318235322503333531823532 1
112
11112
1
........
ˆˆ,,
CMSEtCMSEtpnpn
31
Como los dos valores del intervalo resultaron positivos, se puede afirmar con un 95%
de certeza que por cada incremento en la demanda de catsup nacional, las
utilidades se incrementarán por lo menos 20.8809 y a lo mucho 44.1190 veces, en
promedio; siempre y cuando la demanda de catsup importada permanezca
constante.
Por último, para calcular el intervalo de confianza del 95 % para 2:
.4997β.6997 2
0006660333353182310000666333353182310 2
222
22222
2
........
ˆˆ,,
CMSEtCMSEtpnpn
En el resultado anterior se tienen un valor negativo y uno positivo a la izquierda y a la
derecha, respectivamente; simplemente no se puede afirmar que la demanda de
catsup importada tenga efecto sobre las utilidades.
En el inciso 4 se requiere calcular intervalos de confianza del 90% para la respuesta
media y para una observación futura de la utilidad del restaurante cuando la
demanda de castup nacional es de 4 y la de catsup importada sea de 50.
Aquí el intervalo de confianza solicitado es de 90%, por lo que el valor de será igual a 0.10
El valor de tablas de la distribución t-student con 0.05 y 3 grados de libertad es: 2.353.
Primero se tiene que calcular la utilidad estimada cuando X1 = 4 y X2 = 50.
En forma matricial:
135
10
532
10
5041
0
0
0
Y
Y
Y
ˆ
.
.ˆ
ˆˆ βX!0
Cuando la demanda de catsup nacional sea de 4 y la demanda de catsup
importada sea de 50, las utilidades esperadas del restaurante serán de 135 unidades.
32
El intervalo de confianza del 90% para la utilidad esperada está dado por:
153.55μ116.45
XXXX
Y
0
1!0
50
4
1
00066600033330
025050
03333050833332
50413333533532135
20
..
..
...
..
ˆ,
Y
pnY MSEtY
Se puede afirmar con un 90% de certeza que cuando la demanda de catsup
nacional sea de 4 y la de catsup importada sea de 50, la utilidad esperada del
restaurante será por lo menos 116.45 y a lo mucho 153.55 unidades.
El intervalo de confianza del 90 % para la observación futura de la utilidad del
restaurante bajo las mismas condiciones de X1 y X2 está dado por:
160.2861Y109.7139
XXXX
0
0
1!0
50
4
1
00066600033330
025050
03333050833332
504113333533532135
1
0
200
..
..
...
..
ˆ,
Y
MSEtYYpn
Se puede Afirmar con un 90% de certeza que cuando la demanda de catsup
nacional sea de 4 y la de catsup importada de 50, la utilidad del restaurante será por
lo menos 109.7139 y a lo mucho 160.2861 unidades.
Por último, en el inciso 5 se pide calcular e interpretar el coeficiente de determinación
múltiple:
9636
4400
4240
2
2
2
.
R
R
Syy
SSRR
esto indica que el 96.36 % de la variabilidad de la utilidad del restaurante se explica
mediante el modelo de regresión lineal múltiple:
21 1053210 XXY ..ˆ
33
cuando se utilizan la demanda de catsup nacional y la demanda de catsup
importada como variables regresoras.
A continuación se muestran los resultados del ejercicio anterior calculados en una
hoja de cálculo diseñada para resolver los problemas de regresión lineal múltiple (con
2 variables independientes).
35
BIBLIOGRAFÍA
Alicia Vil, M. S. (enero de 2014).
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf. Obtenido
de Secretaría de Estado.
Pesca, D. d. (s.f.). Algunos métodos simples para la evaluación de recursos
pesqueros tropicales.
http://www.fao.org/docrep/003/X6845S/X6845S02.htm.
http://www.uoc.edu/in3/emath/docs/T01_Reg_Lineal_Multiple.pdf
http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal