regresion variables cuantitativas
-
Author
geert-smold -
Category
Documents
-
view
15 -
download
1
Embed Size (px)
description
Transcript of regresion variables cuantitativas
-
3. Regresin con variables cualitativas
45
3
___________________
Regresin con variables cualitativas
1. Introduccin
Hasta ahora hemos abordado el tema de la correlacin y la regresin con variables
cuantitativas. Sin embargo, un estudio de regresin similar puede desarrollarse si
contamos con una variable -la variable X- que sea cualitativa de dos o ms categoras.
En esta circunstancia se trata de conocer la regresin de X (una variable que adopta
valores cualitativamente diferentes) sobre una variable Y cuya escala de medida es al
menos de intervalo.
El anlisis estadstico del contraste de medias (mediante el anlisis de la varianza)
puede ser interpretado como un anlisis de la regresin en el que la variable X es
cualitativa. Es ms, enfocar el anlisis de la varianza desde el punto de vista de la
regresin puede ser una ventaja que proporcione a dicho anlisis una mayor
generalidad.
2. Regresin con una variable dicotmica.
Supongamos que deseamos conocer en qu medida se relacionan sexo y habilidad
manual para realizar una tarea. La variable sexo es una variable cualitativa de dos
categoras dicotmica- y puede codificarse de forma arbitraria con los valores 0 y 1;
por ejemplo, 0 mujer y 1 varn. La variable habilidad se cuantifica a travs de un
instrumento determinado de forma cuantitativa. Supongamos que se obtienen los
siguientes resultados teniendo una muestra total de 8 sujetos, 4 varones y 4 mujeres:
Sujetos Sexo (X) Habilidad (Y) XY 1
2
3
4
5
6
7
8
0
0
0
0
1
1
1
1
20
36
26
22
49
40
47
48
0
0
0
0
49
40
47
48
Sumas 4 288 184
-
3. Regresin con variables cualitativas
46
2.1. Correlacin y recta de regresin.
Como en el estudio de una correlacin ordinaria, calculamos los estadsticos
descriptivos que nos van a servir para este fin:
53.01
)(5.0
8
4 1 =
===
N
XXSX
N
X
96.111
)(36
8
288 1 =
===
N
YYSY
N
Y
Y con estos datos calculamos la correlacin entre X e Y:
894.096.1153.0
365.07
184
1
1
=
=
=
YX
N
XYSS
YXN
XY
r
A partir del valor de correlacin calculado y bajo el supuesto que se cumplan los
supuestos requeridos, puede estimarse, bajo el mismo procedimiento que en el caso en
que ambas variables eran cuantitativas, la recta de regresin que define dicha relacin:
bXaY +=
o bien:
110 XBBY +=
donde
X
YXY
S
Srb
XbYa
=
=
En nuestro caso, tendramos:
265.02036
2053.0
96.1189.0
==
==
a
b
de donde la ecuacin de regresin es:
XY 2026 +=
Ntese que dado que la variable X adopta dos posibles valores, (O para varn y 1 para
mujer), las predicciones en Y en estas circunstancias son:
-
3. Regresin con variables cualitativas
47
4612026
2602026var
=+=
=+=
mujer
n
Y
Y
La interpretacin de estas estimaciones es la siguiente: 26 es el valor esperado en Y para
un sujeto que tenga sexo varn y 46 el valor esperado para cualquiera de las mujeres.
Estos valores (26 y 46) coinciden exactamente con las medias en Y del grupo de
varones y de las mujeres, respectivamente. Recordemos los datos:
Sujetos Sexo (X) Habilidad (Y) Medias por grupo
260 =Y
1
2
3
4
5
6
7
8
0
0
0
0
1
1
1
1
20
36
26
22
49
40
47
48
461 =Y
Sumas 4 288 36=Y
Por otro lado, la diferencia entre ambas medias (46-26) coincide con el valor de b, es
decir, con el cambio esperado en Y al cambiar una unidad (de 0 a 1) el valor de X:
2001
2646=
=
=
X
Yb
Y el parmetro a coincide justamente con la media del grupo que se codifica como 0,
en nuestro caso, el de varones. Es decir, la ordenada en el origen de la recta de regresin
del modelo pasa por el punto 26 que es el promedio de la habilidad manual en dicho
grupo.
Grficamente estas ideas pueden reflejarse si se dibuja la nube de puntos (en realidad
dos series de datos alineados verticalmente ver puntos rojos en la grfica-) y la
correspondiente recta de regresin en un eje de coordenadas:
SEXO
2,01,00,0
HA
BIL
IDA
50
40
30
20
10
X
Y
0Y
1Y
-
3. Regresin con variables cualitativas
48
Obsrvese que cuando X vale 0, la recta corta el eje de la Y en el valor medio del grupo
de varones ( =0Y 26) y que el otro punto que la define es precisamente el valor medio
de Y en el grupo de mujeres ( =1Y 46 -cuando X vale 1-). Adems, como hemos
indicado, la incremento en Y al cambiar el valor de X de 0 a 1 es precisamente el valor
de inclinacin de la recta (b):
20)01(
)2646(=
=
=
X
Yb
o lo que es lo mismo:
20264601 === YYb
2.2. Supuestos del modelo.
Dado que trabajamos con el mismo modelo de regresin que cuando se trataba de dos
variables cuantitativas, los requisitos a los que deben adecuarse los datos para que dicho
modelo pueda se aplicado idneamente deben ser los mismos que en aquel caso. As
pues, debe probarse la adecuacin de la nube de puntos a una recta (linealidad), la
igualdad de varianzas del error (homocedasticidad) y su normalidad, as como la
independencia entre puntuaciones (que es un requisito supuesto de antemano).
Teniendo en cuenta la representacin grfica caracterstica cuando X adopta dos nicos
valores (dos series alineadas verticales- de puntos que representan la variabilidad de Y
para cada uno de los valores de X), puede decirse que la recta constituye una buena
representacin para unir ambas series, representando el cambio sufrido en la Y estimada
en funcin del cambio (de 0 a 1 de una categora a otra-) en X.
Por otra parte el supuesto de la homocedasticidad quedar satisfecho si la dispersin de
la serie de puntos respecto a valor predicho dentro de la condicin X=0 es semejante a
dicha dispersin en la condicin X=1. Para probar si se cumple o no este supuesto, tal y
como en el tema de la regresin anterior, hay que realizar un estudio de los errores.
Recurdese que graficando cul es la distribucin de los mismos en funcin de los
valores de Y predichos puede obtenerse, a nivel grfico, una primera aproximacin a
dicho estudio. Formas definidas o caractersticas de esta distribucin (por ejemplo, de
megfonos o tringulos en cierto grado invertidos-) apuntan a una posible violacin de
este supuesto. En ltimo trmino, si deseamos probar mediante alguna prueba
estadstica si los datos se ajustan o no al supuesto mencionado puede probarse la
significacin de la correlacin entre los errores (absolutos) y los valores de Y predichos.
La falta de significacin de dicha correlacin indica la satisfaccin de este supuesto de
la homocedasticidad aunque como sabemos este procedimiento no detecta a veces el
incumplimiento del supuesto.
Por ltimo, la normalidad de las puntuaciones se cumple si la distribucin de puntos
alrededor de cada una de las dos medias por grupos se ajustan a una distribucin tipo
campana de Gauss. Este supuesto es ms difcil de corroborar cuando existen pocos
datos; de cualquier manera la prueba de anlisis de la regresin es ms robusta al
incumplimiento de este supuesto que a la violacin de otros. La va ms cmoda y fcil
-
3. Regresin con variables cualitativas
49
de estudiarlo es pidiendo el grfico de probabilidad normal en el paquete estadstico
SPSS.
2.3. Validez del modelo y bondad de ajuste.
Para probar la validez del modelo de regresin y ajuste lineal planteado, se procede de
manera similar al caso en que ambas variables eran cuantitativas. Como se sabe, puede
abordarse esta cuestin mediante tres procedimientos alternativos y coincidentes:
a) evaluando la significacin de la correlacin b) evaluando la significacin del coeficiente b c) aplicando la prueba F que evala de manera global en qu medida la variacin
de los datos de la que da cuenta el modelo de regresin sobrepasa aquella parte
de la variacin de los datos de la que no es responsable dicho modelo.
Como decimos, estas tres vas o trayectorias conducen a una misma conclusin.
Probemos, por ejemplo, en primer lugar, la validacin a travs del ndice F para los
datos anteriores. Recurdese que:
)1/()1(
/2
2
=
kNR
kRF
Entonces, para nuestros datos:
7.236/)894.01(
1/894.02
2
=
=F
Por otra parte, la prueba de significacin para la correlacin:
2
1
0
2
=
N
r
rt
XY
XY
En nuestro caso:
87.4
6
894.01
894.0
2=
=t
Y para el coeficiente b:
=
N
res
XX
S
bt
1
2
2
)(
0
que sustituyendo:
87.4
2
67.33
20==t
-
3. Regresin con variables cualitativas
50
Comprubese la igualdad de los tres resultados teniendo en cuenta que tF =
Buscando en las tablas pertinentes el valor de p para estos estadsticos, se concluye que
la probabilidad de que la explicacin de los datos a partir del modelo lineal estimado sea
irrelevante es del .003. Es decir, aceptamos el modelo de regresin estimado como una
buena aproximacin de la explicacin de los datos, ya que la probabilidad de que no lo
sea es muy pequea (menor a .05). Por lo tanto, existe relacin significativa entre X e Y.
A nivel terico diremos que el sexo explica de forma relevante la diferencia existente en
la habilidad manual. El sentido de dicha relacin (atendiendo a los promedios
correspondiente a cada grupo) es el de que las mujeres muestran significativamente un
nivel de habilidad manual superior al de los varones en este tipo de tarea.
Por ltimo, resulta conveniente calcular la bondad de ajuste del modelo, esto es, la
valoracin de la proporcin de variacin explicada por el mismo respecto a la variacin
total de los datos. Como se sabe, nos estamos refiriendo a 2R que es:
22
XYrR =
Es decir:
80.0894.0 22 ==R
O bien.
80.01002
800
)(
)(
1
2
1
2
exp2==
==
N
i
N
total
li
YY
YY
SC
SCR
lo que indica que el 80% de la variacin manifiesta en las puntuaciones de la habilidad
manual (Y) se explica por la variable sexo (X), una porcentaje bastante alto.
2.4. Aplicacin con el SPSS.
Para estimar los diferentes estadsticos y significaciones anteriormente analizados
mediante este paquete basta aplicar los mismos comandos que se utilizaban para el caso
de dos variables cuantitativas. As, la sucesin de comandos y salidas correspondientes
se exponen a continuacin.
En primer lugar, el fichero de datos ser similar al cuadro que presentamos al principio
de estas pginas:
-
3. Regresin con variables cualitativas
51
Si pedimos Analizar/regresin/lineal donde Y funciona como variable dependiente y X
como variable independiente, obtenemos.
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida
Error tp. de la estimacin
1 ,894(a) ,798 ,765 5,80230
a Variables predictoras: (Constante), SEXO
ANOVA(b)
Modelo
Suma de cuadrados
gl Media
cuadrtica F Sig.
Regresin 800,000 1 800,000 23,762 ,003(a)
Residual 202,000 6 33,667
1
Total 1002,000 7
a Variables predictoras: (Constante), SEXO b Variable dependiente: HABILIDA
Coeficientes(a)
Coeficientes no estandarizados Coeficientes
estandarizados
Modelo B Error tp. Beta t Sig.
(Constante) 26,000 2,901 8,962 ,000 1
SEXO 20,000 4,103 ,894 4,875 ,003
a Variable dependiente: HABILIDA
Como puede observarse, los coeficientes a y b de la ltima tabla coinciden plenamente
con los previamente estimados, al igual que la correlacin entre X e Y (que es lo mismo
que el coeficiente Beta de la ecuacin de la recta o su valor estandarizado 0..894-).
La validez del modelo se prueba reparando en el valor de p correspondiente a la F de la
tabla de ANOVA o bien por el de la t correspondiente al coeficiente b o de Beta (iguales
a .003) (vase en la segunda y tercera tablas presentadas).
-
3. Regresin con variables cualitativas
52
Para obtener el grfico de dispersin y recta correspondiente mediante SPSS (de forma
similar a como representamos arriba) aplicamos: Grficos/dispersin/lineal/simple, Una
vez dibujada la nube de puntos se pulsa dos veces sobre la misma y se pide al cuadro de
dilogo que nos proporcione la recta ajustada total.
2.5. Anlisis de la regresin versus contraste de medias.
Tal y como hemos indicado al principio, el anlisis de la regresin para el caso en que la
variable X es de tipo cualitativo es un anlisis anlogo al de contraste de medias usado
tan frecuentemente en el mbito de la experimentacin. El referido contraste de medias
se desarrolla en la paquete estadstico SPSS activando el comando ANOVA. A partir de
idntico archivo de datos como el de antes, podramos ejecutar dicho comando para los
datos que nos ocupan aplicando las siguientes rdenes: Analizar/Comparar
medias/ANOVA de un factor (especificando cul es la variable dependiente y cul la
independiente). Los resultados de dicho anlisis deben coincidir exactamente con
aquellos proporcionados por el anlisis de la regresin desarrollado antes. Solicitando
algunos estadsticos descriptivos adicionales a dicho comando ANOVA que nos sirven
para interpretar y concluir sobre los resultados, las salidas proporcionadas son las
siguientes:
Estadsticos descriptivos
N Mnimo Mximo Suma Media Desv. tp.
SEXO 8 ,00 1,00 4,00 ,5000 ,53452
HABILIDA 8 20,00 49,00 288,00 36,0000 11,96423
N vlido (segn lista) 8
ANOVA
Suma de
cuadrados gl Media
cuadrtica F Sig.
Inter-grupos 800,000 1 800,000 23,762 ,003
Intra-grupos 202,000 6 33,667
Total 1002,000 7
Como observamos, obtenemos un cuadro de resultados idntico al presentado
anteriormente en el caso de la regresin. Adems, si dentro de esta va de anlisis
hacemos la peticin de evaluar el supuesto de la igualdad de varianzas (dentro del
comando opciones), la prueba de Levene nos ofrece la confirmacin o no del
cumplimiento de este supuesto, tan importante como sabemos para la utilizacin de los
anlisis que estamos llevando a cabo (recurdese que dentro del comando regresin el
estudio de dicho supuesto se haca mediante la graficacin de la relacin entre los
valores predichos y los errores). Pues bien, la peticin de la prueba de Levene para
nuestros datos nos informa lo siguiente: Prueba de homogeneidad de varianzas
Estadstico de Levene Gl1 gl2 Sig.
,727 1 6 ,426
Dados estos resultados, concluimos que efectivamente la homogeneidad de las
varianzas de error (homocedasticidad) se cumple puesto que la diferencia entre la
-
3. Regresin con variables cualitativas
53
varianza de los datos en el grupo de mujeres respecto a la de los varones puede
explicarse por azar en una proporcin alta (.426).
3. Regresin con variable politmica.
Cuando la variable X en un anlisis de la regresin es cualitativa de ms de dos
categoras, el anlisis es similar al realizado con anterioridad. Sin embargo, puede
resultar til desarrollar a continuacin un ejemplo que muestre algunas de sus
particularidades.
3.1. Codificacin.
Supongamos que se desea conocer si el tipo de asistencia que reciben los nios de 2
aos durante la jornada matinal incide en alguna medida en su nivel evolutivo. Se
identifican tres tipos de asistencia diferentes: En guardera (X1), en casa asistido por un
cuidador no familiar (X2) y en casa asistido por uno de sus padres (X3). Los resultados
obtenidos se ofrecen en la siguiente tabla:
Sujeto Tipo de asistencia Nivel evolutivo Medias por grupo
1 Guardera 100
2 Guardera 120
3 Guardera 140
4 Guardera 130
5 Guardera 90
116
6 C. no familiar 96
7 C. no familiar 87
8 C. no familiar 97
9 C. no familiar 100
10 C. no familiar 100
96
11 Progenitor 130
12 Progenitor 130
13 Progenitor 140
14 Progenitor 110
15 Progenitor 105
123
Las puntuaciones medias obtenidas permiten realizar una primera interpretacin de los
datos a nivel descriptivo respecto al nivel evolutivo de los nios afectados por cada tipo
de cuidado. Observamos que la media del grupo de nios cuidado por el progenitor es la
ms alta seguida por la del grupo de nios cuidados en guardera; por ltimo, los nios
de nivel evolutivo inferior parecen ser aquellos cuidados por una persona ajena a la
familia. Si existen o no diferencias significativas entre dichos niveles es algo de lo que
se encargar de responder los anlisis que siguen.
Recurdese que en el caso de una X de tipo dicotmico el archivo de datos contena una
sola columna para dicha X mediante la cual se conoca, utilizando los cdigos 1 y 0, la
categora a la que perteneca cada uno de los sujetos (la condicin de X por la que
estaba afectado). Ahora con tres valores de X no es posible agotar todas las
posibilidades de asociacin sujetos-valores mediante este sistema pues tenemos tres
alternativas de pertenencia. Sin embargo, utilizando dos columnas para representar dos
de las tres categoras de que consta la variable X es suficiente para conocer toda esta
-
3. Regresin con variables cualitativas
54
informacin necesaria1. En general, podemos decir que se necesitan K-1 columnas de
identificacin de la variable cualitativa para tener toda la informacin sobre qu
condicin concreta de X afecta a cada sujeto (siendo K el nmero de categoras que
adopta la variable X). As, por ejemplo, la codificacin siguiente para cada una de las
dos categoras de X (X1 = guardera) (X2 = cuidador no familiar) sera suficiente para
plasmar toda la informacin sobre la categora a la que pertenece cada uno de los 15
sujetos que compone la muestra:
Sujetos X1
(guardera)
X2
(no familiar) Y
Medias
por
grupo
1 1 0 100
2 1 0 120
3 1 0 140
4 1 0 130
5 1 0 90
116
6 0 1 96
7 0 1 87
8 0 1 97
9 0 1 100
10 0 1 100
96
11 0 0 130
12 0 0 130
13 0 0 140
14 0 0 110
15 0 0 105
123
La lectura de la tabla anterior sera la siguiente: Un valor 1 en la primera columna y un
0 en la segunda indica que el sujeto pertenece a la primera categora; un valor 0 en la
primera y un 1 en la segunda que el sujeto pertenece a esta segunda; por ltimo, ceros
en ambas columnas identifica a un sujeto que no pertenece ni a la primera categora ni a
la segunda sino a la tercera (no existente en el archivo que es el cuidado por el
progenitor).
3.2. Aplicacin con SPSS.
A partir del siguiente archivo de datos, tal y como ha quedado justificado en el apartado
de la codificacin anterior, en formato SPSS:
1 Tngase en cuenta que la introduccin de una tercera columna para representar la ltima de las
categoras de X contempladas, supondra una redundancia sobre la informacin precedente, es decir,
constituira una columna colineal (de informacin totalmente redundante) con las anteriores por lo que los
clculos de las estimaciones del modelo de regresin seran imposibles.
-
3. Regresin con variables cualitativas
55
se activa el comando regresin/lineal de dicho paquete para estimar la ecuacin de
regresin del modelo as como su significacin estadstica. En dicho comando se
especifica que la variable dependiente es el nivel evolutivo y las independientes las dos
X representadas en las columnas del archivo de datos (guardera y cuidado no familiar),
obteniendo los siguientes resultados:
Resumen del modelo
,648a ,420 ,323 15,03884
Modelo
1
R R cuadradoR cuadradocorregida
Error tp. de laestimacin
Variables predictoras: (Constante), casanfamiliar, guarderaa.
Como ya sabemos, este cuadro (resumen del modelo) informa que la proporcin de
variacin del nivel evolutivo de los nios por cuenta del tipo de cuidado que reciben en
periodo laboral es del .420. Adems, la relacin analizada es significativa (=.05),
puesto que la tabla de ANOVA siguiente proporciona un valor de F = 4.34, con una p =
.038
-
3. Regresin con variables cualitativas
56
Coeficientesa
123,000 6,726 18,288 ,000
-7,000 9,511 -,187 -,736 ,476
-27,000 9,511 -,721 -2,839 ,015
(Constante)
guardera
casanfamiliar
Modelo
1
B Error tp.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: nivela.
As pues, tenemos que la ecuacin de regresin es:
21 00.2700.700.123 XXY =
La interpretacin de cada uno de estos coeficientes es la siguiente:
- 123 es el nivel evolutivo esperado para los nios que puntan 0 tanto en X1 como en X2. Es decir, cuando no han sido cuidados ni en guardera ni por una
persona no familiar, por tanto para aquellos que han sido cuidados por el
progenitor:
123)0(00.27)0(00.700.123 ==progenitorY
- (-7) es el efecto que se espera se produzca sobre 123 cuando el sujeto punta 1
en X1 y 0 en X2, es decir, cuando el nio ha sido cuidado en la guardera. De
otra forma, es el valor esperado del nivel evolutivo para aquellos nios cuidados
en guardera presentando una puntuacin en 7 puntos inferior a la esperada en
aquellos nios cuidados por el progenitor:
116)0(00.27)1(00.700.123 ==guarderaY
- (-27) es el efecto que se espera se produzca sobre 123 cuando el sujeto punta 0 en X1 y 1 en X2., es decir, cuando el nio ha sido cuidado por una persona no
familiar. Por lo tanto, el valor esperado del nivel evolutivo para estos nios es:
96)1(00.27)0(00.700.123 ==nofamiliarY
Obsrvese que estas puntuaciones estimadas coinciden con los promedios por grupo
calculados arriba en el archivo de datos.
Las significaciones que acompaan a cada uno de los coeficientes en la ecuacin nos
indican (=.05) que:
a) el coeficiente de X1 no resulta significativo (p=.476>.05) por lo que podemos afirmar que cuidar a los nios en la guardera (X1) respecto a hacerlo con el
progenitor )7123( 10 == bbY no conlleva una diferencia sustancial en su
nivel evolutivo a pesar de la disminucin de 7 puntos en su efecto estimado.
b) por su parte, el coeficiente de X2 (p=.015
-
3. Regresin con variables cualitativas
57
hacerlo con el progenitor hace disminuir significativamente su nivel evolutivo
esperado en una cantidad de 27 puntos )27123( 20 == bbY .