Estudio de los supuestos del modelo

27
Supuestos del modelo de regresión lineal 1.- Introducción .................................................................................................................................... 2 2.- Regresión simple. Gráficos ............................................................................................................. 3 3.- Ecuación de regresión, bondad de ajuste y validez del modelo ................................................... 11 4.- Estudio de los supuestos del modelo ............................................................................................ 13 4.1.- Linealidad .................................................................................................................................. 13 4.2.- Normalidad ................................................................................................................................ 16 4.3.- Homocedasticidad...................................................................................................................... 18 5.- Datos alejados ............................................................................................................................... 20 6.- Otro tipo de ajustes no lineales ..................................................................................................... 24 Carlos Camacho Universidad de Sevilla

Transcript of Estudio de los supuestos del modelo

Page 1: Estudio de los supuestos del modelo

Supuestos del modelo de regresión lineal

1.- Introducción .................................................................................................................................... 2

2.- Regresión simple. Gráficos ............................................................................................................. 3

3.- Ecuación de regresión, bondad de ajuste y validez del modelo ................................................... 11

4.- Estudio de los supuestos del modelo ............................................................................................ 13

4.1.- Linealidad .................................................................................................................................. 13

4.2.- Normalidad ................................................................................................................................ 16

4.3.- Homocedasticidad...................................................................................................................... 18

5.- Datos alejados ............................................................................................................................... 20

6.- Otro tipo de ajustes no lineales ..................................................................................................... 24

Carlos Camacho

Universidad de Sevilla

Page 2: Estudio de los supuestos del modelo

2

1.-Introducción

En este capítulo retomamos el modelo de regresión simple, pero esta vez desde la perspectiva de los

supuestos matemáticos que debe cumplir este tipo de modelo para su correcta aplicación. Lo haremos

con SPSS, que nos facilitará los cálculos, y referido a datos transversales, para más adelante tratar

datos longitudinales, donde añadiremos el tema de la autocorrelación. Aparte de ello, en este capítulo

le añadiremos un par de apartados, como son la cuestión de los valores alejados, así como la

posibilidad de trabajar con modelos no lineales.

Trabajaremos con el siguiente fichero, y que hace referencia a distintos indicadores correspondientes a

26 países europeos tomados del anuario de EL PAIS 2000. Las variables consideradas son:

PAÍS País

SUPERFI Superficie

POBLACIÓ Población

DENSIDAD Densidad de población

ESPERANZ Esperanza de vida

TASA Tasa de fecundidad

RENTA Renta per cápita

EXPORTA Exportaciones

IMPORTA Importaciones

INFLACIO Inflación

INGTURI Ingresos por turismo

GASTOEDU Gasto en educación %

GASTOSAL Gasto en salud %

TELÉFONO Teléfonos por 1000 habitantes

ORDENADO Ordenadores por 1000 habitantes

ENERELEC Energía eléctrica per cápita en kw/h

ENERGIA Energía per cápita en kilos

Figura 1.- Relación de variables

Page 3: Estudio de los supuestos del modelo

3

Una imagen parcial de este fichero de datos aparece en el siguiente cuadro:

2.- Regresión simple. Gráficos

Los gráficos nos proporcionan la forma más sencilla e intuitiva de estudiar la relación entre dos

variables. Nos ofrece una cierta idea de la naturaleza de la relación; si es lineal o no, su intensidad, así

como el sentido (negativa o positiva). En el ejemplo que estamos tratando, además, como se conocen

los sujetos de las observaciones –países- tendremos la facilidad de situar los mismos en relación a los

restantes países.

Seleccionemos gráficos/dispersión. Obtendremos el cuadro de diálogo de la siguiente figura. A

continuación elijamos Simple y Definir.

Page 4: Estudio de los supuestos del modelo

4

Obtendremos el siguiente cuadro de diálogo:

Deseamos ver el efecto de la Renta per cápita sobre Ordenadores por 1000 habitantes. Además

deseamos que lo puntos del diagrama de dispersión se identifiquen por el país correspondiente. Para

ello, marcamos Opciones y dentro de este cuadro de diálogo, Mostrar el gráfico con las etiquetas de

caso:

La salida será:

Page 5: Estudio de los supuestos del modelo

5

0,0 10000,0 20000,0 30000,0 40000,0

Renta per cápita

0,00

100,00

200,00

300,00

400,00

Ord

en

ad

ore

s p

or

1000

hab

itan

tes

Alemania

Austria

Bélgica

Bulgaria

Croacia

Dinamarca

Eslovaquia

Eslovenia

España

Finlandia

Francia

Grecia

Holanda

Hungría

Irlanda

Italia

LituaniaMoldavia

Noruega

Polonia

Portugal

Reino Unido

R. Checa

Suecia

Suiza

Aparte de algunas superposiciones, se observa una relación lineal, positiva y de cierta intensidad. Si

deseamos profundizar algo más en estos últimos aspectos, haremos doble clic sobre el gráfico

obtenido, y obtendremos este otro gráfico:

Page 6: Estudio de los supuestos del modelo

6

Llevando el cursor a cualquiera de los círculos que indican los países, y pulsando doble clic, se activa

la pestaña que nos permitirá ajustar una línea:

Page 7: Estudio de los supuestos del modelo

7

Marcamos, y nos encontramos con el siguiente cuadro de dialogo:

Page 8: Estudio de los supuestos del modelo

8

Marcamos Lineal y Aplicar, obteniendo:

0,0 10000,0 20000,0 30000,0 40000,0

Renta per cápita

0,00

100,00

200,00

300,00

400,00

Ord

enad

ores

por

100

0 ha

bita

ntes

Alemania

Austria

Bélgica

Bulgaria

Croacia

Dinamarca

Eslovaquia

Eslovenia

España

Finlandia

Francia

Grecia

Holanda

Hungría

Irlanda

Italia

LituaniaMoldavia

Noruega

Polonia

Portugal

Reino Unido

R. Checa

Suecia

Suiza

R2 lineal = 0,773

Page 9: Estudio de los supuestos del modelo

9

Podemos complicar algo estos resultados definiendo el intervalo de confianza al 95% alrededor de las

puntuaciones medias. Resolvemos así problemas de predicción. En el cuadro de diálogo en Intervalo

de confianza marcamos Media, y luego Aplicar:

Obtendremos:

Page 10: Estudio de los supuestos del modelo

10

0,0 10000,0 20000,0 30000,0 40000,0

Renta per cápita

0,00

100,00

200,00

300,00

400,00

Ord

en

ad

ore

s p

or

1000

hab

itan

tes

Alemania

Austria

Bélgica

Bulgaria

Croacia

Dinamarca

Eslovaquia

Eslovenia

España

Finlandia

Francia

Grecia

Holanda

Hungría

Irlanda

Italia

LituaniaMoldavia

Noruega

Polonia

Portugal

Reino Unido

R. Checa

Suecia

Suiza

R2 lineal = 0,773

R2 lineal = 0,773

Algunos países quedan fuera, como Eslovaquia, con muchos ordenadores para su renta per cápita, o el

caso de Italia, que ocurre al revés. Ya trataremos más adelante este aspecto, cuando tratemos los

residuos. Por otro lado, vemos que la renta per cápita da cuenta del 77.29% de la variabilidad en la

adquisición de ordenadores

Page 11: Estudio de los supuestos del modelo

11

3- Ecuación de regresión, bondad de ajuste y validez del modelo

Los procedimientos gráficos son convenientes para una primera aproximación, pero si queremos ser

rigurosos hemos de recurrir a aspectos más formales A este respecto, entramos en el comando

Regresión/lineal y rellenamos el cuadro de diálogo de la siguiente manera:

En primer lugar se nos ofrece una información que ya conocíamos, pero algo más completada:

Resumen del modelo

,879a ,773 ,763 62,2186

Modelo

1

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), Renta per cápitaa.

Page 12: Estudio de los supuestos del modelo

12

La correlación es 0.879. Su cuadrado, 0.773, lo que nos indica una proporción de variación explicada

de 77.3%. Para compensar los efectos del tamaño de la muestra sobre R cuadrado, se suele hacer un

pequeño ajuste con lo que obtenemos un valor más aproximado de 0.763. Por otro lado, el error típico

de la estimación no es más que la raíz cuadrada de la varianza residual, que veremos en la próxima

tabla:

Se observa una F de 81.687, cuya probabilidad asociada según las expectativas de la Hipótesis nula es

inferior a 0.0001. Altamente significativo, aunque no hay que olvidar que aquí estamos trabajando con

colectivos -países- en lugar de individuos, lo que conlleva una R cuadrado sobrevalorada.

En cuanto a la ecuación de regresión, sus valores son:

Coeficientesa

18,084 20,840 ,868 ,394

9,487E-03 ,001 ,879 9,038 ,000

(Constante)

Renta per cápita

Modelo

1

B Error típ.

Coef icientes no

estandarizados

Beta

Coef icient

es

estandari

zados

t Sig.

Variable dependiente: Ordenadores por 1000 habitantesa.

De aquí se deduce que la ecuación de regresión en directas es:

Prescindiendo de la ordenada en el origen, que aquí carece de significado puesto que no hay ningún

país con cero dólares de renta per cápita, tenemos que por cada dólar per cápita hay 0.00948

ordenadores por cada mil habitantes, o mejor dicho, por cada incremento de mil dólares hay

aproximadamente 9 ordenadores más cada mil habitantes.

En estandarizadas, tendremos:

ANOVAb

316220,909 1 316220,909 81,687 ,000a

92907,657 24 3871,152

409128,566 25

Regresión

Residual

Total

Modelo

1

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), Renta per cápitaa.

Variable dependiente: Ordenadores por 1000 habitantesb.

XY 00948.0084.18ˆ

xZZ 879.0ˆ

Page 13: Estudio de los supuestos del modelo

13

4.- Estudio de los supuestos del modelo

Como se sabe, el modelo de regresión lineal ha de cumplir una serie de supuestos que garanticen su

correcta aplicación, a saber, a) linealidad, b) normalidad, c) homocedasticidad y d) independencia de

errores. Una última condición de ausencia de multicolinealidad hace referencia a la regresión múltiple

y será vista más adelante.

Todos estos supuestos pueden ser estudiados mediante el recurso de las puntuaciones residuales, que

indican la diferencia entre las puntuaciones observadas y predichas por el modelo. Aparte de ello, una

simple ojeada a los gráficos nos permitirá grosso modo detectar algunas anomalías.

Para un primer análisis de residuales entraremos en guardar y en el cuadro de diálogo correspondiente

marcaremos en Valores pronosticados No tipificados y Residuos No tipificados

Generaremos con ello dos variables pre_1 y err_1. Con ellos procederemos a iniciar el estudio de los

supuestos del modelo.

4.1.- Linealidad

El gráfico del diagrama de dispersión constituye una primera aproximación no muy rigurosa al estudio

de la linealidad. Aparentemente lo es. Podemos completarlo mediante un gráfico en el que se

comparan las puntuaciones residuales y predichas. Recurrimos a gráficos/dispersión y hacemos la

siguiente selección:

Page 14: Estudio de los supuestos del modelo

14

Obteniendo el siguiente resultado:

0,00000 100,00000 200,00000 300,00000 400,00000

Unstandardized Predicted Value

-100,00000

-50,00000

0,00000

50,00000

100,00000

150,00000

200,00000

Un

sta

nd

ard

ized

Resid

ua

l

Page 15: Estudio de los supuestos del modelo

15

Si la relación o fuera lineal habría alguna configuración manifiesta. No lo parece, así que

corroboramos la supuesta linealidad. Además esto mismo lo podemos hacer de una manera más directa

recurriendo a gráficos dentro del comando Regresión. Aquí los resultados están en estandarizadas, que

ofrece la ventaja de que todas las variables están en la misma escala. Así pues, en Regresión

lineal/gráficos elijamos:

Obteniendo:

-1 0 1 2

Regresión Valor pronosticado tipificado

-2

-1

0

1

2

3

4

Re

gre

sió

n R

es

idu

o t

ipif

ica

do

Variable dependiente: Ordenadores por 1000 habitantes

Gráfico de dispersión

Page 16: Estudio de los supuestos del modelo

16

4.2- Normalidad

Para facilitar la estimación por intervalo del modelo de regresión es exigible la normalidad de la

distribución de los errores. Aquí vamos a utilizar dos procedimientos, uno gráfico y otro analítico. El

gráfico hace referencia simplemente al histograma de los residuales estandarizados (ZRESID) así

como al gráfico P-P normal. En el subcuadro anterior añadimos las siguientes marcas en Histograma

y Gráfico de probabilidad normal:

Los resultados en cuanto al histograma son:

Y en relación al gráfico de probabilidad normal:

-2 -1 0 1 2 3 4

Regresión Residuo tipificado

0

2

4

6

8

10

Fre

cu

en

cia

Mean = -4,35E-16

Std. Dev. = 0,98

N = 26

Variable dependiente: Ordenadores por 1000 habitantes

Histograma

Page 17: Estudio de los supuestos del modelo

17

Se observa en ambos casos una buena aproximación a la normalidad. No obstante, si deseamos ser más

rigurosos podemos recurrir a procedimiento analíticos. Aquí, como se sabe, disponemos de la prueba

Kolmogorov-Smirnov para la normalidad. Así pues, como hemos generado la variable err_1, iremos a

Pruebas no paramétricas y seleccionamos K-S de 1 muestra, tal como se indica en el siguiente cuadro

de diálogo:

0,0 0,2 0,4 0,6 0,8 1,0

Prob acum observada

0,0

0,2

0,4

0,6

0,8

1,0

Pro

b a

cu

m e

sp

era

da

Variable dependiente: Ordenadores por 1000 habitantes

Gráfico P-P normal de regresión Residuo tipificado

Page 18: Estudio de los supuestos del modelo

18

El resultado será:

Obsérvese que la probabilidad asociada desde la perspectiva de la hipótesis nula (de normalidad) es

0.733. Es alta, luego aceptamos dicha hipótesis.

4.3- Homocedasticidad

El supuesto de homocedasticidad exige que para todo el recorrido de la variable X la varianza del

error sea constante. Esto es importante de cara a la predicción de valores en los cuales la desviación

tipo de los residuos forma parte del cálculo del intervalo de confianza.

El recurso gráfico para comprobar la homocedasticidad es el ya conocido de Residuos frente a Valores

predichos. Si queremos librarnos de la escala, ZRESID frente a ZPRED. Habrá heterocedasticidad si la

configuración de la nube de puntos tiene forma de "embudo", bien a la derecha o a la izquierda, lo que

es indicativo que la magnitud de los residuos varía en un sentido o en otro. Así, en el siguiente gráfico,

ya conocido:

Prueba de Kolmogorov-Smirnov para una muestra

26

.0000000

60.96151476

.135

.135

-.076

.687

.733

N

Media

Desv iación t ípica

Parámetros normales a,b

Absoluta

Positiva

Negativ a

Dif erencias más

extremas

Z de Kolmogorov-Smirnov

Sig. asintót. (bilateral)

Unstandardiz

ed Residual

La distribución de contraste es la Normal.a.

Se han calculado a partir de los datos.b.

Page 19: Estudio de los supuestos del modelo

19

-1 0 1 2

Regresión Valor pronosticado tipificado

-2

-1

0

1

2

3

4

Re

gre

sió

n R

es

idu

o t

ipif

ica

do

Variable dependiente: Ordenadores por 1000 habitantes

Gráfico de dispersión

Se observa que no hay una apariencia de un mayor grosor de la nube de puntos en una dirección u otra,

aunque hay que decir que con tan pocos individuos no hay mucha fundamentación para afirmarlo. De

todas formas, si queremos ser más rigurosos también aquí disponemos de recursos analíticos;

calcularemos la correlación entre las puntuaciones residuales en valores absolutos y las puntuaciones

predichas. Decimos en valores absolutos porque si no la correlación sería de cero. Para ello,

previamente hemos de calcular los valores absolutos de la variable err_1. Vamos a

Transformar/Calcular:

A continuación nos dirigimos a Correlaciones/bivariadas:

Page 20: Estudio de los supuestos del modelo

20

Y obtendremos:

Con lo que se confirma que no hay ningún tipo de relación entre los residuos y los valores predichos.

5.- Datos alejados

Frecuentemente se dan casos que parecen no conformarse con el modelo. Son valores especialmente

distanciados de aquellos que predice el modelo, aquí la recta de regresión. Tienen especial interés

porque de su consistencia/inconsistencia derivará nuestro comportamiento con el modelo, si interesa

mantenerse en él o por el contrario merece ser modificado.

La magnitud de la distancia de un caso determinado respecto al promedio de la variable independiente

nos lo proporciona la distancia de Mahalanobis. Un valor alejado, además, puede ser especialmente

influyente, en el sentido que su presencia modifique sustancialmente la ecuación de regresión. Para

Correlaciones

-,070

,732

26

Correlación de Pearson

Sig. (bilateral)

N

Correlación de Pearson

Sig. (bilateral)

N

Unstandardized

Predicted Value

ABSRES1

Unstandardiz

ed Predicted

Value ABSRES1

Page 21: Estudio de los supuestos del modelo

21

saber esto último existe la distancia de Cook que muestra la cuantía del cambio que se produciría en

los residuales si el caso en cuestión fuera eliminado. También el denominado valor de influencia, cuyo

valor oscila entre 0 y (n-1)/n, siendo n el número de observaciones, y que nos indica la importancia

que tiene la variable dependiente de un determinado caso sobre la predicción del valor ajustado.

Para detectar los caso alejados, una primera visual del diagrama del dispersión puede ser suficiente. En

el ejemplo que estamos tratando, Eslovenia, con poco renta per cápita y muchos ordenadores es un

caso de ellos. Si queremos profundizar un poco en ello y detectar la magnitud de la distancia e

desviaciones típicas recurriremos al subcuadro de Estadísticos en Diagnóstico por caso. Elegimos

todos los casos.

Page 22: Estudio de los supuestos del modelo

22

Diagnósticos por casoa

Alemania -,126 255,50 263,3105 -7,8105

Austria -,998 210,70 272,7970 -62,0970

Bélgica -,379 235,30 258,8518 -23,5518

Bulgaria -,001 29,70 29,7528 -5,28E-02

Croacia -,626 22,00 60,9634 -38,9634

Dinamarc

a,427 360,20 333,6054 26,5946

Eslovaqui

a3,028 241,60 53,1844 188,4156

Eslovenia 1,257 188,90 110,6726 78,2274

España -,475 122,10 151,6543 -29,5543

Finlandia 1,027 310,70 246,8039 63,8961

Francia -1,290 174,40 254,6777 -80,2777

Grecia -1,347 44,80 128,6021 -83,8021

Holanda ,439 280,30 252,9702 27,3298

Hungría -,191 49,00 60,8685 -11,8685

Irlanda ,791 241,30 192,0668 49,2332

Italia -1,562 113,00 210,1860 -97,1860

Lituania -,558 6,50 41,2314 -34,7314

Moldav ia -,292 3,80 21,9738 -18,1738

Noruega ,274 360,80 343,7560 17,0440

Polonia -,303 36,20 55,0817 -18,8817

Portugal -,725 74,40 119,4951 -45,0951

Reino

Unido,342 242,40 221,0955 21,3045

R. Checa ,267 82,50 65,8963 16,6037

Rumania -,360 8,90 31,2706 -22,3706

Suecia 1,433 350,30 261,1286 89,1714

Suiza -,055 394,90 398,3034 -3,4034

Número de caso

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

PAÍS Residuo t ip.

Ordenadores

por 1000

habitantes

Valor

pronosticado Residual

Variable dependiente: Ordenadores por 1000 habitantesa.

Se observa Eslovaquia, que se encuentra a más de 3 desviaciones típicas, con una dotación de 241

ordenadores por 1000 habitantes, cuando lo previsto son 53.

Además podemos conocer algunos otros indicadores interesantes en diagnóstico por caso, tales como

la distancia de Mahalanobis y la distancia de Cook (y algunos otros). Pero no todas las posibilidades de

SPSS se consiguen a través de las distintas ventanas. Algunas veces, como ahora, habremos de recurrir

a la sintaxis, que ya contiene toda la potencialidad del SPSS. Aquí para no complicarnos la vida

seguiremos un procedimiento un tanto híbrido; por un lado, con la opción de pegar guardaremos en la

sintaxis las distintas instrucciones, para ampliarlas posteriormente mediante teclado:

Page 23: Estudio de los supuestos del modelo

23

REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT ordenado

/METHOD=ENTER pnb

/RESIDUALS ID( país )

/CASEWISE PLOT(ZRESID) ALL PRED ADJPRED MAHAL COOK.

El resultado correspondiente a CASEWISE PLOT (el resto es conocido) será:

Diagnósticos por casoa

Alemania -,126 255,50 263,3105 263,8582 ,677 ,001

Austria -,998 210,70 272,7970 277,5698 ,823 ,041

Bélgica -,379 235,30 258,8518 260,4351 ,613 ,005

Bulgaria -,001 29,70 29,7528 29,7587 1,572 ,000

Croacia -,626 22,00 60,9634 64,1954 ,953 ,018

Dinamarc

a,427 360,20 333,6054 329,8995 2,096 ,015

Eslovaqui

a3,028 241,60 53,1844 36,3117 1,093 ,447

Eslovenia 1,257 188,90 110,6726 106,5653 ,286 ,044

España -,475 122,10 151,6543 152,8735 ,029 ,005

Finlandia 1,027 310,70 246,8039 242,9604 ,457 ,034

Francia -1,290 174,40 254,6777 259,8675 ,557 ,057

Grecia -1,347 44,80 128,6021 132,4671 ,141 ,044

Holanda ,439 280,30 252,9702 251,2311 ,534 ,007

Hungría -,191 49,00 60,8685 61,8539 ,955 ,002

Irlanda ,791 241,30 192,0668 190,0211 ,036 ,014

Italia -1,562 113,00 210,1860 214,5924 ,123 ,058

Lituania -,558 6,50 41,2314 44,7308 1,327 ,017

Moldav ia -,292 3,80 21,9738 24,1853 1,751 ,006

Noruega ,274 360,80 343,7560 341,1395 2,366 ,007

Polonia -,303 36,20 55,0817 56,7413 1,058 ,004

Portugal -,725 74,40 119,4951 121,7081 ,208 ,014

Reino

Unido,342 242,40 221,0955 220,0573 ,200 ,003

R. Checa ,267 82,50 65,8963 64,5841 ,870 ,003

Rumania -,360 8,90 31,2706 33,7564 1,539 ,008

Suecia 1,433 350,30 261,1286 255,0032 ,645 ,075

Suiza -,055 394,90 398,3034 399,1658 4,093 ,000

Número de caso

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

PAÍS Residuo t ip.

Ordenadores

por 1000

habitantes

Valor

pronosticado

Valor

pronosticado

corregido

Dist . de

Mahalanobis

Distancia

de Cook

Variable dependiente: Ordenadores por 1000 habitantesa.

Page 24: Estudio de los supuestos del modelo

24

Se observa que, por ejemplo, Eslovaquia es un valor muy alejado (más de 3 desviaciones tipo). Si

este país no hubiera estado presente en la estimación de los parámetros del modelo su valor predicho

hubiera sido de 36 ordenadores por 1000 habitantes. Su renta per cápita es bastante baja en relación a

la media, luego la distancia de Mahalanobis es alta. Es además un valor bastante influyente, al ser su

valor pronosticado muy diferente del real. Por el contra, un país como Noruega, que también estaba

bastante alejado de la media de la variable independiente (esta vez por exceso), lo que implica una alta

distancia de Mahalanobis, sin embargo, al ser su valor predicho muy próximo al real, su presencia no

altera mucho la recta de regresión; la distancia de Cook será pequeña, y en consecuencia será poco

influyente.

Estas mismas variables que hemos expresado el listado anterior, pueden ser guardadas en el fichero de

datos por si fuera necesario trabajar con ellas posteriormente. De esta forma, podemos seleccionar la

opción de guardar:

6.- Otro tipo de ajustes no lineales

4

Aunque estamos acostumbrados siempre que trabajamos con la regresión, a hacerlo con la regresión

lineal, hay que decir que ésta es tan sólo un caso de los posibles. Aunque por razones de simplicidad el

modelo lineal es muy conveniente no hay razones de peso para mantenerlo en exceso. Bien es cierto

que podemos mantenerlo si linealizamos la relación mediante algunas transformaciones, aunque lo

más conveniente es encontrar el modelo que realmente encaje con los datos en cuestión.

Por ejemplo, si quisiéramos relacionar la renta per cápita con la esperanza de vida, tendríamos (opción

gráficos/dispersión) la siguiente salida:

Page 25: Estudio de los supuestos del modelo

25

Renta per cápita

50000400003000020000100000-10000

Espera

nza d

e v

ida

80

78

76

74

72

70

68

66 R² = 0,6546

SuizaSuecia

Rumania

R. Checa

Reino Unido

Portugal

Polonia

Noruega

Moldavia

Lituania

Italia

Irlanda

Hungría

HolandaGrecia Francia

Finlandia

España

Eslovenia

Eslovaquia

Dinamarca

Croacia

Bulgaria

BélgicaAustriaAlemania

Obsérvese que no hay un mal ajuste. Hay una proporción de variabilidad explicada de 65.46%, lo que

es bastante. Sin embargo una visual al gráfico nos indica que las cosas quizás puedan ir mejor con otro

tipo de ajuste. Vamos para ello a la opción de Regresión/estimación curvilínea. Después de algunos

tanteos comprobamos que la función potencial es la que mejor se ajusta. Su ecuación es:

Vamos al cuadro de diálogo correspondiente:

1

0ˆ b

XbY

Page 26: Estudio de los supuestos del modelo

26

El resultado numérico es:

Dependent variable.. ESPERANZ Method.. POWER

Listwise Deletion of Missing Data

Multiple R ,93539

R Square ,87496

Adjusted R Square ,86975

Standard Error ,01618

Analysis of Variance:

DF Sum of Squares Mean Square

Regression 1 ,04397012 ,04397012

Residuals 24 ,00628354 ,00026181

F = 167,94398 Signif F = ,0000

-------------------- Variables in the Equation --------------------

Variable B SE B Beta T Sig T

PNB ,034646 ,002673 ,935395 12,959 ,0000

(Constant) 54,537758 1,354327 40,269 ,0000

Page 27: Estudio de los supuestos del modelo

27

Cuya proporción de variabilidad explicada (0.8749) es muy superior a la del modelo lineal. Si

queremos ver el gráfico:

Se observan los datos mucho mejor ajustados. Es razonable suponer que la renta per cápita mejora las

condiciones sanitarias y por tanto la esperanza de vida, pero no siempre de forma lineal, proporcional a

los recursos económicos. Lógicamente la naturaleza humana tiene un límite a partir del cual las

condiciones económicas dejan de tener efecto.

Esperanza de vida

Renta per cápita

50000400003000020000100000-10000

80

78

76

74

72

70

68

66

Observada

Potencia