REGRESION LINEAL SIMPLE
Se dispone de una muestra de observaciones formadas por pares de variables: (x1, y1)(x2, y2) ..(xn, yn)
A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e Y.
Es posible representar estas observaciones mediante un grfico de dispersin, como el anterior.
Tambin se puede expresar el grado de asociacin mediante algunos indicadores, que se vern a continuacin.
MEDIDAS DE ASOCIACION DE VARIABLES
Covarianza entre las variables X e Y. Es una medida de la variacin conjunta. Se define como
Puede tomar valores positivos o negativos.
Covarianza positiva, significa que ambas variables tienden a variar de la misma forma, hay una asociacin positiva.
Negativa, significa que si una aumenta, la otra tiende a disminuir, y vice versa.
Covarianza cercana a cero indica que no hay asociacin entre las variables.
Ejemplo 1
DATOS DEL CLUB DE SALUD
Datos correspondientes a 20 empleados del club de salud de una empresa
X
pulsasiones or minuto en reposo
Y
tiempo en correr 1 milla ( reg)
Fuente:
S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression"
obs
X
Y
1
67
481
2
52
292
3
56
357
4
66
396
5
65
345
6
80
469
7
77
425
8
65
393
9
68
346
10
66
401
11
70
267
12
59
368
13
58
295
14
52
391
15
64
487
16
72
481
17
57
374
18
59
367
19
70
469
20
63
252
Promedios:
64,3
382,8
Calcularemos de la covarianza entre estas dos variables.
Covarianza
Valores centrados y productos:
obs
X-64,3
Y-382,8
prod
1
2,7
98,2
265,14
2
-12,3
-90,8
1116,84
3
-8,3
-25,8
214,14
4
1,7
13,2
22,44
5
0,7
-37,8
-26,46
6
15,7
86,2
1353,34
7
12,7
42,2
535,94
8
0,7
10,2
7,14
9
3,7
-36,8
-136,16
10
1,7
18,2
30,94
11
5,7
-115,8
-660,06
12
-5,3
-14,8
78,44
13
-6,3
-87,8
553,14
14
-12,3
8,2
-100,86
15
-0,3
104,2
-31,26
16
7,7
98,2
756,14
17
-7,3
-8,8
64,24
18
-5,3
-15,8
83,74
19
5,7
86,2
491,34
20
-1,3
-130,8
170,04
Promedio :
239,41
La covarianza entre las
variables X e Y es igual a
239,41
Coeficiente de correlacin lineal.
La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir de l es dificil juzgar si es grande o pequea.
Se define la correlacin, que es una medida de asociacin lineal independiente de las unidades de medida.
Es igual a la covarianza dividida por las desviaciones standard:
Coeficiente de correlacin lineal.
La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir de l es dificil juzgar si es grande o pequea.
Se define la correlacin, que es una medida de asociacin lineal independiente de las unidades de medida:
Es igual a la covarianza dividida por las desviaciones estandar:
El valor de la correlacin entre cualquier par de variables es un nmero entre -1 y 1. n valor alto de correlacin no indica que existe alguna relacin de causa-efecto entre las variables.
Ejemplo (continuacin)
Coeficiente de Correlacin
Se deben calcular las desviaciones standard.
Para ello se deben elevar al cuadrado las observaciones centradas
y promediar, obtenindose las varianzas.
Las desviaciones standard son las races cuadradas de stas.
cuadrados de
obs
X-64,3
Y-382,8
1
7,3
9643,2
2
151,3
8244,6
3
68,9
665,6
4
2,9
174,2
5
0,5
1428,8
6
246,5
7430,4
7
161,3
1780,8
8
0,5
104,0
9
13,7
1354,2
10
2,9
331,2
11
32,5
13409,6
12
28,1
219,0
13
39,7
7708,8
14
151,3
67,2
15
0,1
10857,6
16
59,3
9643,2
17
53,3
77,4
18
28,1
249,6
19
32,5
7430,4
20
1,7
17108,6
Promedios :
54,11
4896,46
(varianzas)
Las desviaciones standard son
dsX =
7,36
ds Y =
69,97
Para obtener las correlaciones se debe
dividir la covarianza por las desviaciones standard:
corr(X,Y) = 239.41 / ( 7.36 * 69.97 ) =
0,465
El siguiente es un grfico de dispersin que muestra estos datos.
Grfico3
481
292
357
396
345
469
425
393
346
401
267
368
295
391
487
481
374
367
469
252
Pulsaciones por minuto
Tiempo en recorrer 1 milla
Club de Salud
tmp6150
DATOS DEL CLUB DE SALUD
Datos correspondientes a 20 empleados del club de salud de una empresa
Xpulsasiones or minuto en reposo
Ytiempo en correr 1 milla ( reg)
Fuente:S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression" pg. 129
obsXY
167481
252292
356357
466396
565345
680469
777425
865393
968346
1066401
1170267
1259368
1358295
1452391
1564487
1672481
1757374
1859367
1970469
2063252
Promedios:64.3382.8
Covarianza
Valores centrados y productos:
obsX-64,3Y-382,8prod
12.798.2265.14
2-12.3-90.81116.84
3-8.3-25.8214.14
41.713.222.44
50.7-37.8-26.46
615.786.21353.34
712.742.2535.94
80.710.27.14
93.7-36.8-136.16
101.718.230.94
115.7-115.8-660.06
12-5.3-14.878.44
13-6.3-87.8553.14
14-12.38.2-100.86
15-0.3104.2-31.26
167.798.2756.14
17-7.3-8.864.24
18-5.3-15.883.74
195.786.2491.34
20-1.3-130.8170.04
Promedio :239.41
La covarianza entre las
variables X e Y es igual a239.41
Coeficiente de Correlacin
Se deben calcular las desviaciones standard.
Para ello se deben elevar al cuadrado las observaciones centradas
y promediar, obtenindose las varianzas.
Las desviaciones standard son las races cuadradas de stas.
cuadrados de
obsX-64,3Y-382,8
17.39643.2
2151.38244.6
368.9665.6
42.9174.2
50.51428.8
6246.57430.4
7161.31780.8
80.5104.0
913.71354.2
102.9331.2
1132.513409.6
1228.1219.0
1339.77708.8
14151.367.2
150.110857.6
1659.39643.2
1753.377.4
1828.1249.6
1932.57430.4
201.717108.6
Promedios :54.114896.46
(varianzas)
Las desviaciones standard son
dsX =7.36ds Y =69.97
Para obtener las correlaciones se debe
dividir la covarianzza por las desviaciones standard:
corr(X,Y) =0.465
tmp6150
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Pulsaciones por minuto
Tiempo en recorrer 1 milla
Club de Salud
La interpretacin del coeficiente de correlacin puede ilustrarse mediante los siguientes grficos.
REGRESION LINEAL SIMPLE
Ahora asumiremos que si hay una relacin de causalidad de la variable X (causa) hacia la variable Y (efecto).
Adems, se sabe que esa relacin es de tipo lineal, dentro del rango de los datos.
Estableceremos un modelo para explicar la causa (Y) en trminos del efecto (X), del tipo siguiente:
para i = 1,2,..., n
en que a y b son dos cantidades fijas (parmetros del modelo) y los ei son cantidades aleatorias que representan las diferencias entre lo que postula el modelo y lo que realmente se observa, y.
Por esa razn a los e los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor esperado 0 y desviacin estndar comn .
Ejemplo 2
Representacin de los datos en un grfico de dispersin:
Se puede apreciar la relacin lineal existente entre ambas variables observadas.
Nuestro problema es estimar los parmetros a, b y para poder identificar el modelo.
Para estimar a y b se utiliza el mtodo de Mnimos cuadrados, que consiste en encontrar aquellos valores de a y de b que hagan mnima la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta que representa el modelo, en el sentido vertical.
En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe minimizar, para determinar a y b.
Estos segmentos representan los errores e del modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto sobre el eje vertical.
La solucin est dada por las siguientes frmulas:
Ejemplo 2 (continuacin)Calculamos los promedios de ambas variables y se las restamos a los valores.
El modelo, para estos datos, es para i=1,2,.. 15
Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisin X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos.
Grfico de los datos:
VALORES AJUSTADOS AL MODELO.
El modelo de regresin lineal se puede utilizar para obtener valores de Y ajustados al modelo.
Los valores puntuales se obtienen mediante la frmula
en que a y b son los valores estimados por el procedimiento indicado anteriormente, y Xi toma los valores de la muestra.
Los puntos que representan estos valores en el grfico de dispersin, yacen sobre la recta.
Ejemplo 2 (continuacin)La tabla siguiente contiene los valores de Y ajustados , para cada valor de X, adems de los valores de Y observados, a modo de comparacin. Los ajustados se obtienen por la frmula.
Se puede observar que el promedio de los valores ajustados es igual al promedio de los valores observados, y que el promedio de las diferencias es cero.
La raz cuadrada del promedio de los cuadrados de las diferencias entre los valores observados y ajustados, es una estimacin de la varianza del error, s .
En el ejemplo, la suma de las diferencias al cuadrado es 19.8, luego la estimacin de la desviacin estndar del error es igual a Millones de pesos
Coeficiente de determinacin.
Es una medida de bondad de ajuste del modelos de regresin lineal a los datos.
Es deseable que los valores de Y ajustados al modelo, sean lo ms parecidos posible a los valores observados.
Una medida de lo parecido que son, es el coeficiente de correlacin. Se define el coeficiente de determinacin, R2, como el cuadrado del coeficiente de correlacin entre los valores de Y observados y los valores de Y ajustados.
Sin embargo se puede demostrar que es igual a la siguiente expresin:
El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en un lnea recta).
Ejemplo 2 (continuacin)Ms arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes valores: Sxx = 39.6 , Syy = 488.3 ,Sxy = 126.1
Entonces el coeficiente de determinacin es
que seala que el ajuste del modelo a los datos es bueno.
Ejemplo 3Los datos siguientes corresponde al Indice de Produccin Fsica de la Industria Manufacturera, por agrupacin, de los meses de mayo de 2002 y mayo de 2003, entregado por el Instituto Nacional de Estadsticas.
Es un ndice cuya base 100 es el promedio de produccin de cada agrupacin, en el ao 1989.
El grfico de dispersin es el siguiente:
Grfico1
133.5
133.7
140.5
70.3
30.5
56.7
45.3
141.6
132.4
205.3
108
231.4
209.6
165.2
156.2
177.4
399.7
61.1
266.4
186.5
167.1
108.7
153.5
289.7
83
73.4
64.1
67.5
Indice mayo 2002
Indice mayo 2003
Prod. Fsica Industria Manufacturera
Hoja1
Venta de automviles
Estudio sobre 15 concesionarios similares
XComisiones pagadas a vendedores de autos en un mes (%)
YGanancias netas por ventas, en el mismo mes (Millones de $)
obsXYYajust.difdif2
13.610.7811.69-0.910.8262694891
25.215.1216.57-1.452.0952435749
35.318.2016.871.331.7625164661
47.321.6922.97-1.281.6397556353
55.014.6815.96-1.281.6324735356
65.216.1516.57-0.420.1743025942
73.011.009.861.141.300613804
83.110.1610.16-0.000.0000199077
93.211.9510.471.482.1922705865
107.525.1623.581.582.4953188292
118.326.2626.020.240.0577954504
126.118.6319.31-0.680.4646507722
134.915.5515.65-0.100.0105630101
145.816.9818.40-1.422.0077015473
157.124.1322.361.773.1303634262
promedio5.417.117.1-0.00suma:19.8
prom:1.3193239086
raiz:1.1486182606
Promedio de la X :5.4
Promedio de la Y :17.1
Desviaciones respecto de las medias, sus cuadrados y productos:
obsX-5.4Y-17.1cuadradosprod.
1-1.8-6.33.139.911.2
2-0.2-2.00.03.90.3
3-0.11.10.01.2-0.1
41.94.63.721.18.9
5-0.4-2.40.15.80.9
6-0.2-0.90.00.90.2
7-2.4-6.15.637.214.5
8-2.3-6.95.248.115.8
9-2.2-5.14.726.511.2
102.18.14.565.017.1
112.99.28.684.026.8
120.71.50.52.41.1
13-0.5-1.50.22.40.7
140.4-0.10.20.0-0.0
151.77.03.049.512.1
sumas0.00.039.6387.8120.7
SxxSyySxy
Entonces utilizando las frmulas de arriba,
b =3.05a =0.71
XYajust
13.611.7
25.216.6
35.316.9
47.323.0
55.016.0
65.216.6
73.09.9
83.110.2
93.210.5
107.523.6
118.326.0
126.119.3
134.915.7
145.818.4
157.122.4
0.00.7
9.028.2
Hoja1
comisin (%)
Ganancias (MM$)
Ganancias netas versus comisiones
Hoja2
comisin (%)
Ganancias (MM$)
Ganancias netas versus comisiones
Hoja3
Regresin
INDICE DE PRODUCCION FISICA DE LA INDUSTRIA MANUFACTURERA, POR AGRUPACION
AgrupacionesMayo 02Mayo 03
Fabricac. de productos alimenticios140.2133.5
Industrias de bebidas134.6133.7
Industria del tabaco151.1140.5
Fabricac. de textiles70.970.3
Fabricac. prendas de vestir, excepto calzado34.730.5
Industria del cuero; produc. de cuero y sucedneos59.356.7
Fabricac. de calzado, exc. de caucho o plstico52.645.3
Industria de madera y sus productos exc. muebles132.3141.6
Fabricac. de muebles y accesorios, exc. metlicos114.0132.4
Fabricac. de papel y productos de papel189.5205.3
Imprentas, editoriales e industrias conexas107.5108.0
Fabricac. de sustancias qumicas industriales229.4231.4
Fabricac. de otros productos qumicos212.4209.6
Refineras de petrleo136.0165.2
Fabricac. prod. derivados de petrleo y carbn143.2156.2
Fabricac. de productos de caucho141.4177.4
Fabricac. de productos plsticos305.8399.7
Fabricac. de objetos de loza y porcelana68.261.1
Fabricac. de vidrio y productos de vidrio268.6266.4
Fabricac. otros productos minerales no metlicos185.6186.5
Industrias bsicas de hierro y acero123.1167.1
Industrias bsicas de metales no ferrosos119.8108.7
Fabricac. prod. metlicos exc. maquinaria y equipo153.6153.5
Construccin de maquinaria, exc. la elctrica282.5289.7
Construccin mq., aparatos y acces. elctricos87.083.0
Construccin de material de transporte103.473.4
Fabricac. equipo profesional y artculos oftlmicos67.764.1
Otras industrias manufactureras66.067.5
Hoja3
Indice mayo 2002
Indice mayo 2003
Prod. Fsica Industria Manufacturera
Clculos parciales, en que X es el ndice mayo 2002, Y el ndice mayo 2003:Estimacin de los parmetros del modelo:
Bondad de ajuste:que indica un muy buen ajuste.
El siguiente grfico muestra de recta de regresin estimada:
Grfico1
133.5142.111825218
133.7135.7272370005
140.5154.5389701413
70.363.1025460269
30.521.8307436212
56.749.8773275764
45.342.2386238163
141.6133.1049954112
132.4112.2410732006
205.3198.3190036324
108104.8303904482
231.4243.8091946818
209.6224.4274090217
165.2137.3233840549
156.2145.5321403345
177.4143.4799512646
399.7330.9132196486
61.160.024262422
266.4288.5013122041
186.5193.872593981
167.1122.6160290539
108.7118.8536824258
153.5157.3892327383
289.7304.3487722438
8381.4582371521
73.4100.1559597889
64.159.4542099026
67.557.5160313366
-17.7309012263
438.3111143066
Indice mayo 2002
Indice mayo 2003
Prod. Fsica Industria Manufacturera
Hoja1
Venta de automviles
Se piensa que si aumentan el porcentaje de comisin pagada
al vendedor de automviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
XComisiones pagadas a vendedores de autos en un mes (%)
YGanancias netas por ventas, en el mismo mes (Millones de $)
obsXYYajust.difdif2
13.611.2810.500.780.60391345080.621093931810.780.6211.28
25.214.7415.59-0.850.7211132755-0.468702410215.12-0.4714.74
35.318.4615.912.546.47408433830.320736148818.200.3218.46
47.320.0122.28-2.275.1504306044-2.104980012521.69-2.120.01
55.012.4314.96-2.526.3725754995-2.807234977814.68-2.8112.43
65.215.3715.59-0.230.0516125189-0.976797309716.15-0.9815.37
73.09.598.591.001.0069764255-1.762833790111.00-1.769.59
83.111.268.912.365.55586496761.38222162610.161.3811.26
93.28.059.23-1.181.390761867-4.879416337611.95-4.888.05
107.527.9122.925.0024.95757964293.43895862925.163.4427.91
118.324.6225.46-0.840.7113153339-2.04613002126.26-2.0524.62
126.118.8018.460.340.11510475360.212060058418.630.2118.80
134.913.8714.64-0.770.5898273108-2.101165819115.55-2.113.87
145.812.1117.50-5.4029.1119312365-6.094887794516.98-6.0912.11
157.123.6821.642.044.1588742172-0.55718487624.13-0.5623.68
promedio5.416.116.1-0.00suma:87.0
prom:5.7981310295
raiz:2.4079308606
Promedio de la X :5.4
Promedio de la Y :16.1
Desviaciones respecto de las medias, sus cuadrados y productos:
obsX-5.4Y-16.1cuadradosprod.
1-1.8-4.93.123.78.6
2-0.2-1.40.02.00.2
3-0.12.30.05.3-0.2
41.93.93.714.97.4
5-0.4-3.70.113.81.4
6-0.2-0.80.00.60.1
7-2.4-6.65.642.915.6
8-2.3-4.95.223.811.1
9-2.2-8.14.765.617.6
102.111.84.5138.525.0R2=0.8218910172
112.98.58.671.824.8
120.72.70.57.01.9
13-0.5-2.30.25.21.1
140.4-4.00.216.3-1.7
151.77.53.056.813.0
sumas0.0-0.039.6488.3126.1
SxxSyySxy
Entonces utilizando las frmulas de arriba,
b =3.18a =-0.96
XYajust
13.610.5
25.215.6
35.315.9
47.322.3
55.015.0
65.215.6
73.08.6
83.18.9
93.29.2
107.522.9
118.325.5
126.118.5
134.914.6
145.817.5
157.121.6
0.0-1.0
9.027.7
Hoja1
11.276
14.744
18.456
20.01
12.432
15.366
9.592
11.264
8.046
27.912
24.62
18.798
13.87
12.108
23.682
comisin (%)
Ganancias (MM$)
Ganancias netas versus comisiones
Hoja2
comisin (%)
Ganancias (MM$)
Ganancias netas versus comisiones
Hoja3
Regresin
INDICE DE PRODUCCION FISICA DE LA INDUSTRIA MANUFACTURERA, POR AGRUPACION
XY
AgrupacionesMayo 02Mayo 03XcentYcentXc2Yc2XcYcY ajust
Fabricac. de productos alimenticios140.2133.5-2.5-11.46.2130.928.4142.111825218
Industrias de bebidas134.6133.7-8.1-11.265.3126.390.8135.7272370005
Industria del tabaco151.1140.58.4-4.470.919.7-37.4154.5389701413
Fabricac. de textiles70.970.3-71.8-74.65152.45571.05357.663.1025460269
Fabricac. prendas de vestir, excepto calzado34.730.5-108.0-114.411659.713096.412357.221.8307436212
Industria del cuero; produc. de cuero y sucedneos59.356.7-83.4-88.26952.27786.27357.449.8773275764
Fabricac. de calzado, exc. de caucho o plstico52.645.3-90.1-99.68114.49928.08975.542.2386238163
Industria de madera y sus productos exc. muebles132.3141.6-10.4-3.3107.711.234.7133.1049954112
Fabricac. de muebles y accesorios, exc. metlicos114.0132.4-28.7-12.5822.5157.2359.6112.2410732006
Fabricac. de papel y productos de papel189.5205.346.860.42192.13643.42826.1198.3190036324
Imprentas, editoriales e industrias conexas107.5108.0-35.2-36.91237.61364.51299.5104.8303904482
Fabricac. de sustancias qumicas industriales229.4231.486.786.57520.47475.57497.9243.8091946818
Fabricac. de otros productos qumicos212.4209.669.764.74860.94181.04508.1224.4274090217
Refineras de petrleo136.0165.2-6.720.344.6410.5-135.3137.3233840549
Fabricac. prod. derivados de petrleo y carbn143.2156.20.511.30.3126.85.9145.5321403345
Fabricac. de productos de caucho141.4177.4-1.332.51.61053.7-41.5143.4799512646
Fabricac. de productos plsticos305.8399.7163.1254.826608.164903.041556.6330.9132196486
Fabricac. de objetos de loza y porcelana68.261.1-74.5-83.85547.37029.06244.460.024262422
Fabricac. de vidrio y productos de vidrio268.6266.4125.9121.515855.814752.715294.3288.5013122041
Fabricac. otros productos minerales no metlicos185.6186.542.941.61842.11727.31783.8193.872593981
Industrias bsicas de hierro y acero123.1167.1-19.622.2383.4491.1-433.9122.6160290539
Industrias bsicas de metales no ferrosos119.8108.7-22.9-36.2523.51313.3829.2118.8536824258
Fabricac. prod. metlicos exc. maquinaria y equipo153.6153.510.98.6119.273.393.5157.3892327383
Construccin de maquinaria, exc. la elctrica282.5289.7139.8144.819549.620955.720240.4304.3487722438
Construccin mq., aparatos y acces. elctricos87.083.0-55.7-61.93100.33836.53448.881.4582371521
Construccin de material de transporte103.473.4-39.3-71.51542.95117.92810.1100.1559597889
Fabricac. equipo profesional y artculos oftlmicos67.764.1-75.0-80.85622.06535.06061.359.4542099026
Otras industrias manufactureras66.067.5-76.7-77.45879.85996.85938.057.5160313366
0.0-142.720357.6-17.7309012263
400.0257.366213.6438.3111143066
n =30
X =142.7
Y =144.9
Sxx =135382.9
Syy =187813.7
Sxy =154350.8
b=Sxy/Sxx =1.1401050388
a=Y-bX =-17.7309012263
R2 = Sxy2/SxxSyy0.9369713354
bandas
Mayo 02Mayo 03Mayo 02fitinfsup
140.2133.5140.20146.79140.09153.49
134.6133.7134.60140.38133.67147.09
151.1140.5151.10159.26152.45166.06
70.970.370.9067.5058.1576.86
34.730.534.7026.0914.0338.14
59.356.759.3054.2344.0664.40
52.645.352.6046.5735.9057.23
132.3141.6132.30137.75131.02144.47
114.0132.4114.00116.81109.71123.92
189.5205.3189.50203.19194.88211.49
107.5108.0107.50109.38102.04116.71
229.4231.4229.40248.84237.81259.87
212.4209.6212.40229.39219.61239.16
136.0165.2136.00141.98135.28148.68
143.2156.2143.20150.22143.51156.93
141.4177.4141.40148.16141.46154.86
305.8399.7305.80336.24318.78353.71
68.261.168.2064.4154.8773.95
268.6266.4268.60293.68279.46307.91
185.6186.5185.60198.73190.64206.82
123.1167.1123.10127.22120.36134.08
119.8108.7119.80123.45116.51130.39
153.6153.5153.60162.12155.26168.97
282.5289.7282.50309.59294.17325.00
87.083.087.0085.9277.5894.27
103.473.4103.40104.6897.18112.19
67.764.167.7063.8454.2773.41
66.067.566.0061.9052.2171.59
0.00.00-13.61-28.571.34
400.0400.00444.02417.92470.11
Hoja3
Indice mayo 2002
Indice mayo 2003
Prod. Fsica Industria Manufacturera
Prediccin por bandas de confianza.
Se pueden hacer predicciones de valores Y para valores X que no estn en el conjunto de observaciones, dentro o fuera de su rango, utilizando la frmula de la regresin lineal, con los parmetros a y b estimados.
Tambin se pueden hacer predicciones por intervalos de confianza verticales, que tienen la ventaja de proporcionar una cuantificacin del error de prediccin.
Los intervalos tienen la propiedad de ser de diferente ancho, segn el valor de X, siendo ms angostos cuando X es igual al promedio, ensanchndose a medida que nos alejamos del promedio.
Cuando se sale del rango de los datos, se ensanchan ms fuertemente.
Esto significa que mientras ms nos alejamos del centro de los valores de la variable X, ms imprecisas sern nuestras estimaciones del valor de la variable Y, lo que parece razonable.
Si unimos los extremos superiores (o los inferiores) de todos los intervalos de confianza, se obtienen dos curvas con forma de hiprbola, como se muestra en la figura:
El grfico siguiente muestra las bandas de confianza de coeficiente 95%, para el ejemplo de la produccin fsica manufacturera.
Mientras mayor es el coeficiente de determinacin R2, ms angostas son las bandas de confianza; lo mismo mientras mayor es la desviacin estndar de las X, y lo mismo si el tamao muestral aumenta. Y a medida que nos alejamos del promedio de las X, se ensanchan las bandas.
ESTUDIO DE CASORelacin entre poblacin y nmero de nacimientos.
El objetivo del estudio es explorar el valor predictivo de la poblacin de cada uno de los tramos etarios sobre el nmero de nacimientos, de las comunas.
En particular, determinar cul tramo etario (su poblacin) tiene mayor poder predictivo sobre el nmero de nacimientos.
Se tiene una muestra de 40 comunas comunas elegidas al azar, en que se midieron las siguientes variables :Poblacin por tramo etario (del censo de 2002):1 menos de 1 ao2entre 1 y 4 aos3entre 5 y 9 aos4entre 19 y 19 aos5entre 20 y 44 aos6entre 45 y 64 aos7entre 65 y 79 aos880 aos o ms9 Nacimientos en el ao (correspondientes a 2006)
Comunamenos 1e 1 - 4e 5-9e 10-19e 20-44e 45-64e 65-79mas 80 Nacimientos1Huasco1164866771,501273518026241241012Las Cabras3051,2991,7943,87279954661163937810663El Monte5082,0792,6345,63411082546717004643924Alto Biobo1405446171,10841462038387741765San Nicols1325387611,736368422167791651186San Fernando9604,0905,75612,9112562714007444610989657Aisn4271,6822,1214,7909951453512342714098Llanquihue2801,1551,5813,3276619344610782342189Victoria4711,7602,5476,500117686995275170746210Arauco6132,6783,5737,521151477119214051752811El Bosque2,65510,64713,25731,2496660235983117952547257312San Vicente5681,3923,4627,955154589518320278556113Yerbas Buenas2449781,3623,18962653512105024021614Pemuco1015077941,692329518446911539015Chiguayante1,5376,1528,61220,445396502050052391552114516Porvenir6727136699422751157382778017Combarbal1616619342,01042252962152139516818Conchal1,6866,6768,28618,9774476725540113772842195819Tucapel1907451,0582,39146092787120530517520Camarones1874100255546346106264
Comunamenos 1e 1 - 4e 5-9e 10-19e 20-44e 45-64e 65-79mas 80 Nacimientos21Quinta de Tilcoco1606358942,1794279255681320316222Ovalle1,6616,7129,14020,281388402084377501833165323Pica75304354746721824873381005924Ninhue60310455939173812725501344925Taltal1777359501,9394075233665514319926Molina5382,2973,2247,218155398832280366652127Arica2,84211,63015,54533,7756798138405124872767307928Navidad54263369752165813967091844529Graneros4291,7572,4065,48010809565916342178630Coronel1,4716,2488,68120,287398602078457921130150931Caldera2499661,2662,9415512281083713826432Mejillones1776828301,836395419434088113933Colchane26101120249620347140471434Chilln2,2839,54913,43730,8486647535890112162527247935Lago Verde13536813939025869131236Futrono2781,1501,5413,2115420288697620821437Mfil1113685211,516247214365691608638Canela1215157161,43728181986110126110339Freire4021,6672,3375,13495255416209354231140Valdivia2,1738,47011,33628,18459713309861017625392192
Se presentan los grficos de los nacimientos versus poblacin, de cada tramo.
Se observa que persistentemente una comuna tiene un nmero de nacimientos mayor que el resto, segn su poblacin, en todos los tramos. Es la Comuna de Las Cabras.Las comunas con ambos nmeros ms grandes son Arica, El Bosque y Chilln.Para los grficos y los clculos siguientes se us el software MINITAB.,
Hay una correlacin muy fuerte entre las poblaciones de los distintos tramos de edad, siendo un poco menos entre el tramo ms de 80 y las dems.
Esto se puede apreciar en la siguiente figura, en que grafican las variables de a pares.
Se ajustaron modelos de regresin lineal simple a los nacimientos, con la poblacin de cada uno de los tramos etarios, como regresor.
La respuesta (y) siempre fue el nmero de nacimientos.
La salida de MINITAB es la siguiente (en el primer caso):
Regression Analysis: Nac versus menos 1
The regression equation isNac = - 14.2 + 1.03 (menos 1)
Predictor Coef SE Coef T PConstant -14.17 33.63 -0.42 0.676menos 1 1.02732 0.03418 30.06 0.000
(cont.)S = 166.564 R-Sq = 96.0% R-Sq(adj) = 95.9%
Analysis of Variance
Source DF SS MS F PRegression 1 25065853 25065853 903.49 0.000Residual Error 38 1054251 27743Total 39 26120104
De las pruebas t de hiptesis, se concluye que el interceptoa = - 14.2 no es significativo, mientras que la pendiente b = 1.03 si lo es.
Por lo tanto la relacin entre nacimientos y el tamao de la poblacin de menores de 1 ao esNac = 1.03 (menos 1)
Relaciones similares se puede obtener para las otras variables poblacionales y su efecto sobre el nmero de nacimientos.Eso queda para el lector.
FIN
***********************************************************