UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE ESTADÍSTICA
Desnutrición crónica : estudio de las características, conocimientos y aptitudes de la madre sobre nutrición infantil Capítulo II. Modelo de regresión logística
TRABAJO MONOGRÁFICO
Para optar el Título Profesional de Licenciado en Estadística
AUTOR
Alicia Carla Herrera Garrido
LIMA – PERÚ
2003
9
CAPITULO II
MODELO DE REGRESION LOGISTICA
2.1 INTRODUCCION
El termino regresión fue introducido por Francis Galton. En un famoso articulo
Galton planteo que, a pesar de la presencia de una tendencia en la que los
padres de estatura alta tenían hijos altos y los padres de estatura baja tenían
hijos bajos, la estatura promedio de los niños nacidos de padres de estatura
dada tendían a moverse o ¨regresar¨ hacia la estatura promedio de la población
total. En otras palabras, la estatura de los hijos inusualmente altos o de padres
inusualmente bajos tiende a moverse hacia la estatura promedio de la
población. La ley de regresión universal de Galton fue confirmada por su amigo
Karl Pearson, quien reunió mas de mil registros de estaturas de miembros de
grupos familiares. Pearson encontró que la estatura promedio de los hijos de
un grupo de padres de estatura alta era menor que la estatura de sus padres y
la estatura promedio de los hijos de un grupo de padres de estatura baja era
mayor que la estatura de sus padres, generándose un fenómeno mediante el
cual los hijos altos e hijos bajos, ¨regresaban¨ en forma similar hacia la estatura
promedio de todos los hombres. En palabras de Galton, se trataba de una
regresión hacia la mediocridad
Cuando se pretende explicar, mediante un modelo de regresión, el
comportamiento de una variable dependiente en función de variables
explicativas, suele utilizarse un modelo de regresión lineal múltiple, como
veremos en este trabajo, el modelo lineal presenta ciertos problemas cuando la
variable dependiente es categórica, lo cual nos llevara a usar modelos de
regresión no lineal.
La técnica de la regresión logística se origino en la década de los 60 con el
trabajo de Cornfield, Gordon y Smith en 1967 Walter y Duncan la utilizan ya en
la forma que la conocemos actualmente, o sea para estimar la probabilidad de
ocurrencia de un proceso en función de ciertas variables. Su uso se incrementa
10
desde principios de los 80 como consecuencia de los adelantos ocurridos en el
campo de la computación.
El objetivo de esta técnica estadística es expresar la probabilidad de que ocurra
un hecho como función de ciertas variables, para ( )1⟩K k variables. Que se
consideran influyentes. La regresión logística, al igual que otras técnicas
estadísticas multivariadas, da la probabilidad de evaluar la influencia de cada
una de las variables explicativas sobre la variable dependiente y controlar el
efecto del resto. Tendremos, por tanto, una variable dependiente, llamándola Y,
que puede ser binomial o multinomial (en este trabajo nos referimos solamente
al primer caso) y una o mas variables independientes, llamándolas X.
Al ser la variable Y binomial, podrá tomar el valor ¨0¨ si el hecho no ocurre y ¨1¨
si el hecho ocurre; el asignar los valores de esta manera o a la inversa es
intrascendente, pero es muy importante tener en cuenta la forma en que se ha
hecho llegado el momento de interpretar los resultados. Las variables
explicativas pueden ser de cualquier naturaleza: categóricas o cuantitativas;
cuando todas son categóricas entonces se usa el modelo log lineal.
2.2 OBJETIVOS DE LA REGRESION LOGISTICA
Sistemáticamente tiene dos objetivos:
1. Investigar que factores de una determinada característica de la
población modificará la probabilidad de ocurrencia de un determinado
evento.
2. Determinar el modelo más parsimonioso y mejor ajustado que siendo
razonable describa la relación entre la variable respuesta y un
conjunto de variables regresoras.
11
2.3 REGRESION LOGISTICA Y OTROS METODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de un
evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
Se pueden usar varios métodos multivariantes para predecir una variable
respuesta de naturaleza dicotómica a partir de un grupo de variables
regresoras.
El Análisis de Regresión Lineal Múltiple (ARLM) y el Análisis Discriminante
(AD) son dos métodos eficaces pero plantean problemas cuando la variable
respuesta es binaria.
En el ARLM cuando la variable respuesta toma solo dos valores, se violan los
supuestos necesarios para efectuar inferencias, los problemas que se plantean
son:
1. La distribución de los errores aleatorios no es normal.
2. Los valores predictados no pueden ser interpretados como
probabilidades como en la RL, por que toman valores dentro del
intervalo.
El AD permite la predicción de pertenencia de la unidad de análisis a uno de los
2 grupos pre-establecidos, pero se requiere que se cumplan los supuestos de
multinormalidad de las variables regresoras y la igualdad de matrices de
covarianzas de los dos grupos, pueden ser diferentes también; para que la
regla de predicción sea óptima., Johnson (1982), Anderson (1999).
La RL requiere mucho menos supuestos que el AD, por ello cuando satisfacen
los supuestos requeridos para el AD, la RL trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y la
Regresión Logística, debido a que ambos tiene el mismo objetivo, predecir la
variable respuesta a partir de las variables regresoras.
12
2.4 REVISION DEL MODELO DE REGRESION LINEAL MULTIPLE
La diferencia básica entre los modelos del ARLM y de la RL es la naturaleza de
la relación entre la variable respuesta y las variables regresoras.
Para el ARLM, consideremos y una variable respuesta cuantitativa y
kxxx ,....,, 21 variables regresoras o llamadas también explicativas; y se desea
describir la relación que hay entre la variable respuesta y las variables
explicativas, si entre la variable respuesta y las regresoras hay una relación
lineal se espera que:
( ) ikkiii xxxyE ββββ ++++= ......22110 , para i=1, 2, ..., n (2.1)
donde:
iy es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.
jβ ; j = 0, 1, 2,....,k son los parámetros.
Siendo n el número de objetos u observaciones.
Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las
variables regresoras, esto es:
( ) ikkiiii xxxxyE ββββ ++++= ......| 22110
r, para i=1, 2, ..., n (2.2)
siendo ( )ikiii
T
i xxxxx ,...,,, 210=r la i-ésima observación, con 10 =ix , toma
valores reales y en forma vectorial es:
( ) βrrr T
iii xxyE =| (2.3)
donde ( )k
T βββββ ,...,,, 210=r
es el vector de parámetros.
Pero en (2.3) hay otras variables regresoras que pueden influir linealmente
sobre iy , por tanto cada valor de iy está variando alrededor de ( )iyE a esa
variación lo denotamos con iε , esto es:
13
( )β
εrr
r
T
ii
iiii
xy
xyEy
−=
−= |(2.4)
de (2.4):
i
T
ii xy εβ +=rr
(2.5)
iikkiii xxxy εββββ +++++= ......22110 , para i=1, 2, ..., n (2.6)
llamado MRLM poblacional, a iε se le llama error aleatorio y tiene las
siguientes propiedades:
( )( )( )( ) 0,
0,
02
=
≠∀==
=
ji
ji
i
i
XCov
jiCov
V
E
ε
εεσε
ε
(2.7)
las variables regresoras no son variables aleatorias y el comportamiento de y
es la respuestas a aquellas, así mismo iε es una variable aleatoria no
observable.
Generalizando el MRLM, (2.6), mediante el álgebra matricial está dada por:
εβ rrr += Xy (2.8)
donde:
( )n
T yyyy ,....,, 21=r, vector de variables respuestas observadas
( )kxxxX rrr ,.....,,,1 21= matriz de rango completo y con
( )ikii
T
i xxxx ,...,,,1 21=r
( )k
T ββββ ,.....,, 10=r
( )n
T εεεε ,....,, 21=r
así mismo (2.1) en forma matricial es:
( ) βrr XyE = (2.9)
el objetivo es estimar los parámetros del modelo (2.6), los mismos que son
estimados mediante el método de mínimos cuadrados, Searle (1971).
14
Sea iy la estimación de iy , entonces:
ikkiii xxxy ββββ ˆ......ˆˆˆˆ 22110 ++++= , para i=1, 2, ..., n (2.10)
o equivalentemente:
βˆrrT
ii xy = (2.11)
siendo:
( )k
T ββββ ˆ,.....,ˆ,ˆˆ10=
r, el vector de parámetros estimados. (2.10) en su forma
matricial es:
βˆrr Xy = (2.12)
los residuos ordinarios ir es la contraparte muestral de iε y está dado por:
iii yyr ˆ−= para i=1, 2, ...., n (2.13)
en forma vectorial es:
yyr rrr −= (2.14)
El estimador de βr
se obtiene usando el método de mínimos cuadrados, que
consiste en minimizar la suma de cuadrados del error y está dada por:
( ) ( )yyyyeeeSCETn
i
T
iˆˆ
1
2 rrrrrr −−=== ∑=
con respecto a βr
, esta suma de cuadrados se expresa en forma cuadrática
como:
( ) ( )ββrrrr XyXy
T −− (2.15)
al minimizarlo se obtiene que:
( ) yXXX TT rr=β (2.16)
llamada ecuaciones normales.
Como ( )XX T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y de
rango completo, entonces la solución del sistema lineal es:
( ) yXXX TT rr 1ˆ −=β (2.17)
que es sensible a observaciones pobremente ajustados y a los puntos
extremos de X , Montgomery y Peck (1992).
15
El vector (2.12) de valores estimados para el vector de variables respuestas es:
βˆrr Xy =
( ) yXXXXy TT rr 1ˆ −= (2.18)
a la matriz ( ) TT XXXX1−
, se le llama matriz de cambio o de proyección
denotada por H , entonces (2.18) es:
yHy rr =ˆ (2.19)
El vector de residuos es:
yyr rrr −=
yHyr rrr −= (2.20)
( )yHIr rr −= (2.21)
yMr rr = (2.22)
El vector rr describe las desviaciones de los valores observados de los
ajustados y la matriz M es el subespacio en el cual cae rr .
El vector residual es importante para detectar puntos “extraños”. A la matriz H
se le llama matriz sombrero o de proyección, ver Cook y Weisberg (1982).
Ahora veamos como queda expresado la suma de cuadrados de los residuos,
denotada por SCE :
( ) ( )yyyySCE T ˆˆ rrrr −−= (2.23)
Reemplazando yr
por βr
X : (2.23) es:
( ) ( )ββ ˆˆ rrrr −−= yXySCET
(2.24)
Y reemplazando βr
por ( ) yXXX TT r1−:
( ) yXXXXyyySCE TTTT rrrr 1−−= (2.25)
La matriz ( ) TT XXXXH1−= , entonces:
yHyyySCE TT rrrr −= (2.26)
( )yHIySCE T rr −= (2.27)
Sea HIM −= , entonces (2.27) es:
16
yMySCE T rr= (2.28)
Bajo el supuesto que ( )nIN 2,0~ σεrr
. , las observaciones nyyy ,...,, 21 son
independientes y distribuidas como una Normal n-variada con ( ) βrr XyE = con
matriz de varianzas y covarianzas. nI2σ .
En la RL, se estima la probabilidad de que un evento ocurra; es decir, el valor
esperado de y dado las variables regresoras, debe tomar valores entre 0 y 1.
La relación entre las variables regresoras y la dependiente no es lineal. Las
estimaciones de probabilidad estarán siempre entre 0 y 1, así, el valor de la
variable respuesta se puede definir como una probabilidad de que ocurra o no
un evento sujeto a control.
En la RL, se seleccionan los coeficientes, del modelo, que hacen que los
resultados sean los más “probables”. Como el modelo de RL no es lineal, se
requiere de un algoritmo iterativo para estimar los parámetros.
En las secciones siguientes se detallarán los aspectos teóricos y la aplicación
de la RL.
2.5 EL MODELO DE PROBABILIDAD LINEAL Y SUS PROBLEMAS
Consideremos el caso de una variable dependiente binaria, Y, la cual viene
explicada por un conjunto de variables explicativas .,.......,, 21 kxxx
Observar que, por ser Y una variable binaria (es decir sólo podrá tomar los
valores 0 y 1), siempre se cumplirá que:
E(Y) = 0.P(Y=0) + 1.P(Y= 1)= P(Y=1)
Por otra parte, podemos pensar en utilizar un modelo de regresión lineal
múltiple para explicar el comportamiento de la variable Y, es decir:
ikkii xxxy εββββ +++++= ....2210
17
Bajo el supuesto habitual de que 0)( =εE , y suponiendo conocidos los
valores que toman las variables explicativas (observaciones), tendremos que:
kki xxxYE ββββ ++++= ....)( 2210
Igualando las dos expresiones obtenidas para E(Y) llegamos al resultado que le
da nombre al modelo de probabilidad lineal:
εββββ −=++++== YxxxYP kki ....)1( 2210
Observar que esta expresión nos viene a decir que podemos expresar la
variable dependiente binaria Y como la probabilidad de “éxito” más un término
de perturbación, es decir:
εε +=+== )()1( YEYPY
Sin embargo, este modelo inicial será válido para explicar el comportamiento
de variables dependientes binarias, pues presenta varios problemas:
1. No normalidad de los errores
El termino error )....( 2210 kki xxxY ββββε ++++−= ya no será una
variable aleatoria continua (como ocurría en el modelo de regresión lineal
múltiple, MRML), sino que será una variable aleatoria discreta –puesto que,
conocidos los valores de las variables explicativas, ε sólo puede tomar dos
valores determinados. Por tanto, ε ya no se distribuirá de forma normal (uno
de los supuestos básicos del MRLM). Si bien este supuesto no resulta
estrictamente necesario para aplicar Mínimos cuadrados ordinarios, sí es
fundamental a la hora de realizar cualquier tipo de inferencia posterior sobre el
modelo (intervalos de confianza para los parámetros estimados, contrastes de
hipótesis, etc.).
2. Varianzas heteroscedásticas de los errores
El término error ε no cumple la hipótesis de homocedasticidad (es decir la
varianza de dicho término no es constante). Debido a este problema, los
estimadores Mínimos cuadrados ordinarios no serán suficientes, por lo que
resultará necesario recurrir a la estimación por MCG.
18
3. No cumplimiento de 1)/(0 ≤≤ ii XYE
Como la variable dependiente Y sólo puede tomar los valores 0 y 1, si
representamos gráficamente la nube de puntos formada por los pares de
observaciones de Y con una de las variables explicativas X, obtendremos
puntos situados sobre las rectas Y=1 e Y=0:
Y P(Y=1)
1
0 iX
Al estimar los parámetros del modelo de probabilidad lineal, estaremos
ajustando una recta a la nube de puntos anterior. El uso de dicha recta para
predecir nuevos valores de Y, es decir valores de ε−== YYP )1( a partir de
valores dados de X puede proporcionar valores mayores que 1 o menores que
0 (lo cual está en contradicción con la definición de probabilidad).
4. Finalmente, la expresión kki xxxYP ββββ ++++== ....)1( 2210 nos
dice que la probabilidad del suceso “éxito” viene determinada por una
combinación lineal de variables explicativas. De ello se deduce que
i
iX
YPβ=
∂=∂ )1(
, ki ,..1=∀ . En otras palabras, la variación en P(Y=1) causada
por cambios en alguna de las variables explicativas es constante (y, por tanto,
independiente del valor actual de dicha variable explicativa), lo cual es una
hipótesis muy poco realista.
19
2.6 ASPECTOS A TENER EN CUENTA PARA EL USO DE REGRESION
LOGISTICA
• Tamaño de la muestra y número de variables independientes. Una de las
ventajas de la regresión logística es que permite el uso de múltiples
variables con relativamente pocos casos, sin embargo, hay que tener en
cuenta algunas precauciones. Se ha sugerido que el número de sujetos
para poder usar este método multivariante sin problemas debe ser superior
a 10(K+1) donde K es el número de variables explicativas; por tanto, si se
introducen interacciones o variables dummy, el número de elementos en la
muestra debe aumentar. Además se ha sugerido que si una de las variables
dicotómicas (en especial si es la de respuesta) no tiene al menos 10 casos
en cada uno de sus 2 valores posibles, entonces las estimaciones, la
inclusión de un gran número de ellas en el modelo (ejemplo K mayor a 15),
puede indicar que no se ha reflexionado suficientemente sobre el problema.
• Es necesario tener en cuenta el efecto sobre el riesgo de que ocurra el
evento, de los cambios de las variables explicativas cuando son
cuantitativas, en ocasiones es necesario categorizarlas, ya que los cambios
que se producen de una unidad a otra pueden resultar intrascendentes o no
ser constantes a lo largo del rango de valores de la variable.
• Cuando algunas de las variables independientes analizadas están
altamente correlacionadas, los resultados que se obtienen pueden no ser
satisfactorios, por esta razón debe realizarse un análisis previo univariado
entre las distintas variables explicativas.
20
2.7 REGRESION LOGISTICA SIMPLE
Este modelo tiene la forma:
iii xy εββ ++= 10 para ni ,,2,1= (2.29)
De esto se deduce que:
Si 1=y , ii x101 ββε −−= (2.30)
Si 0=y , ii x10 ββε −−= (2.31)
Por tanto iε , no puede tener distribución normal debido a que toma valores
discretos, entonces el Modelo de Regresión Lineal Simple (MRLS) no es
aplicable para el caso de variable respuesta de tipo dicotómico.
En el ARL simple, el punto inicial del proceso de estimación del modelo es un
gráfico de dispersión de los valores de la variable respuesta versus los valores
de la regresora, pero este gráfico resulta limitado cuando sólo hay dos valores
posibles para la variable respuesta, por tanto se debe usar otros gráficos, éstos
resultan de la suavización de los valores de la variable respuesta,
representando después los valores de la variable respuesta versus la
regresora.
La notación que se usará en el presente trabajo para la RL es la misma que
emplea Hosmer y Lemeshow (2000).
Sea ( ) ( )xyEx =π (2.32)
Que representa la media condicional de 1=y dado x , donde ( )xπ representa
la probabilidad de que ocurra 1=y , ciertamente no se espera que (2.32) tenga
relación lineal dentro del rango de la variable regresora.
¿Qué hay de la relación entre ( )xπ y x para valores intermedios de x ? Se
espera una relación curvilínea. Para cualquier valor grande de x , ( )xπ tomará
21
valores cercanos a 1 y para valores pequeños de x , ( )xπ tomará valores
cercanos a cero. El gráfico que muestra el comportamiento de ( )xπ versus x
es:
FIGURA Nº 1
La curva en forma de S o sigmoide que tiene propiedades requeridas para
( )xπ y tiene las propiedades de una función de distribución de probabilidad
acumulada, para esta probabilidad se usa la función de distribución acumulada
de la distribución logística dada por:
( )x
x
e
ex
10
10
1 ββ
ββ
π+
+
+= (2.33)
(2.33) tiene un gráfico similar a la Figura Nº 1, cuando 00 <β y 01 >β ,
además este modelo toma valores en el intervalo [ ]1,0 .
Cuando , [ ] 5.01 ==yP el valor de x es: 1
0
ββ−
, que brinda información muy
útil.
Una transformación de ( )xπ que es lo central del estudio de la RL es la
transformación logit, transformación que se define en términos ( )xπ como:
( ) ( )( )
x
x
xLnxg
10
1
ββ
ππ
+=
−
=(2.34)
22
Lo importante de esta transformación es que tiene muchas propiedades
semejantes al MRL simple, por ejemplo es lineal en sus parámetros, puede ser
continua y puede tomar cualquier valor real dependiendo de x .
Para el MRL simple, la variable respuesta, de (2.4) se expresa como:
( ) ε+= xyEy (2.35)
para la variable respuesta dicotómica lo expresamos como:
( ) επ += xy (2.36)
veamos que ocurre con este modelo:
Si 1=y , ( )xi πε −=1 y tiene probabilidad ( )xπ
Si 0=y , ( )xi πε −= y tiene probabilidad ( )xπ−1
Entonces iε tiene distribución binomial con media cero y varianza
( ) ( )[ ]x1x ππ − . Por tanto la distribución condicional de la variable respuesta
tiene distribución de probabilidad binomial con media ( )xπ .
El lado izquierdo de (2.34) se llama también logaritmo de ODDS RATIO o razón
de probabilidades de 1=y contra 0=y , específicamente:
( )( )x
xRATIOODDS
ππ−
=1
(2.37)
o también llamado razón de ventaja a favor de éxito.
Para interpretar los parámetros consideremos (2.37) que da el siguiente
resultado:
En este caso no se trata del cambio (incremento o disminución) de la
probabilidad de la variable dependiente por cada unidad de cambio en las
independientes, sino del incremento o disminución que se produce en el
cociente entre la probabilidad de éxito y la probabilidad de fracaso.
( )( ) (2.38)
11010 xx eee
x
xRATIOODDS ββββ
ππ
==−
= +
23
Más aún, están expresados en logaritmos, por lo que sería necesario
transformarlos (tomando los valores del antilogaritmo) de tal forma que se
evalúe más fácilmente su efecto sobre la probabilidad. Los programas de
computador lo hacen automáticamente calculando tanto el coeficiente real
como el transformado. Utilizar este procedimiento no cambia en modo alguno
la forma de interpretar el signo del coeficiente. Un coeficiente positivo aumenta
la probabilidad, mientras que un valor negativo disminuye la probabilidad.
Así pues si 1β es positivo, su transformación (antilog) será mayor a 1, y el
odds ratio aumentará. Este aumento se produce cuando la probabilidad
prevista de ocurrencia de un evento aumenta y la probabilidad prevista de su
no ocurrencia disminuye. Por lo tanto, el modelo tiene una elevada probabilidad
de ocurrencia. De la misma forma, si 1β es negativo, el antilogaritmo es menor
que 1 y el odds ratio disminuye. Un valor de cero equivale a un valor de 1, lo
que no produce cambio en el odds ratio.
2.8 REGRESION LOGISTICA MULTIPLE
En esta sección se generaliza el Modelo de Regresión Logística Simple tratado
en la sección anterior, es decir consideraremos más de una variable regresora,
en donde por lo menos una es de tipo cuantitativo.
2.8.1 MODELO DE REGRESION LOGISTICA MULTIPLE
Sea el vector de variables regresoras ( )k
T xxxx ,....,, 21=r por el momento
asumiremos que están medidas por lo menos bajo escala intervalar. Sea la
probabilidad condicional para que la variable respuesta sea igual a 1, denotado
por:
( ) ( )xxyP rr π==1 (2.39)
el logaritmo del Modelo de Regresión Logística Múltiple (MRL_M) está dado
por:
( ) ikkiii xxxxg ββββ ++++= ......22110
r, para i=1, 2, ..., n (2.40)
24
entonces el MRL_M es:
( )( )
( )xg
xg
e
ex r
r
r
+=
1π (2.41)
Al igual que en el caso de MRLM si es necesario usar variables regresoras
categóricas, por ejemplo si una tiene c niveles será necesario incorporar c-1
variables ficticias o llamadas dummy; así entonces el logit para un modelo con
k variables regresoras y una variable categórica, por ejemplo la j-ésima es:
( ) ikk
c
ljljli xDxxg ββββ ∑
−
=++++=
1
1110 ......r
, para i=1, 2, ..., n (2.42)
2.8.2 MODELO DE REGRESION LOGISTICA MULTIPLE Y BONDAD DE
AJUSTE
El ajuste se efectúa a través del uso de los métodos de máxima verosimilitud,
los mismos que se encuentran en los softwares estadísticos que permiten
analizar datos mediante este método.
Asumiremos que disponemos de una muestra n observaciones independientes
( )ii yx ,r , i=1,2, ..., n ; donde iy toma valores 0 ó 1, para estimar
( )k
T ββββ ,...,, 10=r
que es el vector de parámetros desconocidos.
Para el M.R.L.M se usa el método de Mínimos Cuadrados para estimar βr
, el
cual minimiza la suma de cuadrados del error, pero cuando la variable
respuesta es binaria aplicar este método no provee las mismas propiedades
cuando es usado en variables respuestas continuas.
Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos
parámetros estimados que maximizan la probabilidad de obtener un conjunto
de datos observados.
La función de verosimilitud expresa la probabilidad de los datos observados
como una función de parámetros desconocidos. Los Estimadores de Máxima
25
Verosimilitud de esos parámetros son aquellos que están en concordancia con
los datos observados.
Consideremos el MRL_M con mayor detalle, supongamos que se dispone de n
objetos u observaciones donde para cada uno de ellos existe una respuesta
que puede ser:
10 == ii yoy
Sea ( )n
T yyyy ,...,, 21=v donde ( )ii By π,1~ y sea
( )kii
T
i xxx .,....,,1 1=r la i-ésima observación para las k variables explicativas.
Así el Modelo de Regresión Logística está dada por la expresión (2.40):
[ ] ( )( )
( )i
i
xg
xg
ii e
exyP r
r
rr
+===
1x|1 iπ (2.43)
equivalentemente
[ ]
++
+
==∑
∑
=
=
k
jijj
k
jijj
ii
xExp
xExpxyP
10
10
1|1
ββ
ββr
(2.44)
y la probabilidad de que iy sea igual a cero es:
[ ] [ ][ ]
++
==
=−==
∑=
k
jijj
ii
iiii
xExpxyP
xyPxyP
101
10
:entonces,110
ββ
r
rr
(2.45)
para facilitar la notación usaremos la variable indicadora
nixi ,...,2,1,10 == .
Entonces (3.44) y (3.45) son respectivamente:
[ ] ( ) Ti
Ti
x
x
iiie
exxyP rr
rr
rrβ
β
π+
===1
|1 (2.46)
[ ] ( ) Tixiii
exxyP rrrr
βπ
+=−==
1
11|0 (2.47)
26
donde: ( )ikii
T
i xxxx ,....,, 10=r, es el vector que contiene los valores de las
variables explicativas
( )k
T ββββ ,...,, 10=r
es el vector de parámetros a ser estimado.
El i-ésimo logito es:
∑=
=
−
=k
jijj
i
ii xLn
01β
ππ
λ (2.48)
como vemos, (2.48) es una función lineal simple del vector de observaciones
ixr llamada transformación logística de la probabilidad iπ o simplemente Logit
o Logito de la ecuación, a la expresión (2.48) también se le llama Modelo
Logístico Lineal.
A fin de obtener la estimación máximo verosímil para el vector βr
, escribimos la
función de densidad de probabilidad del vector yr
el cual es proporcional a n
funciones ( )iB π,1 , esto es:
( ) ( )
( )
( )
( )
−
−=
−
−=
−
−
=
−=
∑∏
∏∏
∏
∏
==
==
=
=
−
n
i i
ii
n
ii
n
i
y
i
in
ii
n
ii
y
i
i
n
i
y
i
y
iii
LnyExp
LnExp
yf
i
i
ii
11
11
1
1
1
11
11
11
1;
ππ
π
ππ
π
ππ
π
πππ
(2.49)
Reemplazando (2.48) en (2.49), se obtiene:
( ) ( )
( )
=
=
∑ ∑∏
∑ ∑∏
= ==
= ==
k
jj
n
iiji
n
i
k
ijj
n
ii
xyExp
xyf
0 11ii
n
1 0ji
1ii
-1
yExp-1;
βπ
βππ(2.50)
El logaritmo natural de la función (2.50), llamado función soporte es:
27
( ) ( )
( )[ ]( ) ( )[ ]
( ) )52.2(1-1Ln
1-1Ln
entonces ,1-1 :(2.49) pero
)51.2(1ln;
0
1
i
0 11
+−=
+−=
+=
−+
=
∑
∑ ∑∑
=
−
= ==
ij
k
jji
i
T
i
i
T
k
j
n
iij
n
iijiii
xExpLn
xExpLn
xExp
xyyl
βπ
βπ
βπ
πβπ
rr
rr
reemplazando (2.52) en (2.51), se obtiene:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijjj
k
j
n
iijii xExpLnxyy
1 00 1i 1;l ββπ (2.53)
como vemos (2.53) es una función que ya no depende de iπ sino de jβ
solamente, entonces lo denotamos como:
( ) ∑ ∑∑ ∑= == =
+−
=
n
i
k
jijj
k
jj
n
iiji xExpLnxyL
1 00 1
1 βββr
(2.54)
es una función que depende exclusivamente del vector βr
.
Definamos como:
∑=
=n
iijij xyt
1
(2.55)
entonces reemplazando (2.55) en (2.54) se tiene:
( ) ∑ ∑∑= ==
+−=
n
i
k
jijj
k
jjj xExpLntL
1 00
1 βββr
(2.56)
Como (2.56) es una función exclusiva del vector de parámetros βr
, por el
Teorema de Factorización de Fisher-Neyman, Bickel y Doksum (1976), se tiene
que k0,1,....,j para =jt son estadísticas suficientes para los parámetros ,jβ
para j = 0,1,...,k.,
La variable aleatoria jt dada en la expresión (2.56) es la suma de algunos de
los términos de la matriz de diseño X , es decir se incluyen en la suma
solamente los elementos que corresponden a una respuesta del tipo 1=y .
28
Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto a
los elementos de βr
e igualando a cero:
∑ ∑∑
∑
= =
=
=
+
−=∂∂ n
i
n
ik
jijj
k
jijj
ijiji
j xExp
xExp
xxyL
1 1
0
0
1 β
β
β(2.57)
las ecuaciones de verosimilitud de (2.57) son:
kjxxyn
iiij
n
iiji .....,2,1,00ˆ
11
==− ∑∑==
π (2.58)
siendo 10 =ix , equivalentemente (2.58) es:
( ) kjyxn
iiiij .....,2,1,00ˆ
1
==−∑=
π (2.59)
donde:
ˆ1
ˆ
ˆ
0
0
+
=∑
∑
=
=
k
jijj
k
jijj
i
xExp
xExp
β
βπ ; para i=1,2,...,n
es el estimador máximo verosímil de iπ y se obtiene mediante jβ y el vector
ixr
La expresión (2.58) en su forma matricial es:
( ) 0ˆrrrr ==− SXyX T π (2.60)
Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para
estimar el MRLM, pero son no lineales en βr
, lo cual hace que se use un
método iterativo para determinar los valores del vector βr
.
La obtención de jβ mediante métodos iterativos; para kj ,...,1,0= se
tratará en la siguiente sección, ahora obtendremos la varianza y covarianza de
βr
.
Sea )(nxpX la matriz de diseño, con p=k+1, con elementos:
29
=
nknn
k
k
xxx
xxx
xxx
X
..1
........
........
....1
....1
21
22221
11211
Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):
πXyX TT rr= (2.61)
donde ( )nππππ ˆ,...,ˆ,ˆˆ21
T =r
( ) 01
=−∑=
n
iiiij yx π (2.62)
El método de estimación de las varianzas y covarianzas lo obtendremos de la
matriz de segunda derivada parcial de (2.62): y tiene la forma:
( )ii
n
iij
j
xL
ππβ
−−=∂∂
∑=
11
2
2
2
para j=0, 1, 2, ....., k (2.63)
reemplazando: la ecuación para iπ en (2.63)
∑∑
∑
=
=
=
+
−=∂∂ n
i k
jijj
k
jijjij
j
xExp
xExpxL
12
0
0
2
2
2
1 β
β
β para j=0,1,2,....K (2.64)
( )∑=
−−=∂∂
∂ n
iiiilij
lj
xxL
1
2
1 ππββ (2.65)
reemplazando:
∑∑
∑
=
=
=
+
−=∂∂
∂ n
i k
jijj
k
jijj
ilij
ljxExp
xExp
xxL
12
0
02
1 β
β
ββ(2.66)
30
Tanto (2.64) como (2.65) no son funciones de iy entonces la matriz de
observación y la matriz de segunda derivada esperada son idénticas.
Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y (2.66)
se denota con ( )βrΙ , llamada Matriz de Información; las varianzas y
covarianzas de jβ se obtienen tomando la inversa de esta matriz, esto es:
( ) ( )ββrr
1−Ι=Cov (2.67)
ver Cordeiro (1992).
Los estimadores de la varianza y covarianza, denotada por
( ) ( ) .ˆen evaluando obtiene se ,ˆˆ βββrrr
CovovC
Entonces la matriz de información estimada, matricialmente tiene la forma:
( ) VXX 'ˆˆ =Ι βr
(2.68)
V es una matriz diagonal, esto es:
( )[ ]iiDiagV ππ ˆ1ˆ −=
de tamaño nxn, además (2.68) es:
( ) ( ) 1'ˆˆ −= VXXovC βr
(2.69)
y es de tamaño (k+1)(k+1)
escribiremos los elementos de la matriz (2.69)
( )
( ) ( ) ( )( ) ( )
( )
=
k
k
k
ovC
βσ
ββσβσ
ββσββσβσ
β
ˆˆ.......
........
........
ˆ,ˆˆ......ˆˆ.
ˆ,ˆˆ.....ˆ,ˆˆˆˆ
ˆˆ
2
11
0100
2
r
donde:
( )jβσ 2ˆ es la varianza estimada de jβ
( )lββσ ˆ,ˆˆ j es la covarianza estimada de jβ y lβ
31
( )jβσ ˆˆ es el error estandar de jβ
La matriz (2.69) será muy útil cuando se discuta el ajuste y la evaluación del
Modelo de Regresión Logística.
2.8.3 METODO DE NEWTON – RAPHSON PARA ESTIMAR LOS
PARAMETROS DEL MODELO DE REGRESION LOGISTICA.
Este es un método para resolver ecuaciones no lineales, como las obtenidas en
(2.55) o equivalentemente en (2.58), y requieren una solución mediante
métodos iterativos para hallar la estimación de los parámetros que es el
máximo de la función (2.54).
Uno de los métodos más usados para resolver ecuaciones de este tipo, es el
de Newton-Raphson, porque converge rápidamente. En el gráfico Nº2 se ilustra
el método.
Tomando como estimación inicial 1x , se prolonga la tangente a la curva en
este punto hasta interceptar con el eje de las abscisas al cual llamaremos
punto 2x , entonces se toma a 2x como la siguiente aproximación.
Este proceso continua hasta que un valor de 2x haga que la función sea nula o
suficientemente cercana a cero.
Para la estimación del vector βr
se quiere hallar el máximo de una función;
entonces usa la primera derivada, porque se anula en el punto máximo y la
segunda derivada para calcular las tangentes. En nuestro caso es necesario
hallar la segunda derivada para obtener la matriz de varianzas y covarianzas
de los parámetros estimados.
32
Gráfico Nº2 Interpretación Geométrica del Método Iterativo de Newton
Raphson.
F(x)
Entonces se usa el siguiente esquema iterativo:
( ) ( ) ( )( )[ ] ( )( )tttt S ββββ ˆˆˆˆ 11
rrrr −+ Ι+= (2.70)
donde:
( )βrS y ( )βrΙ son las funciones de Score y de Información respectivamente.
La función Score es un vector de tamaño k+1, donde el j-ésimo elemento de
acuerdo a (2.65) es:
( )( )∑=
−=∂∂ n
iij
t
ii
j
xyL
1
πβ
(2.71)
La cual es similar a la expresión (2.59):
( ) kjyxi
iiij ...,,2,10ˆ ==−∑ π
La Función de información es una matriz de tamaño (k+1)(k+1) donde el i-j
ésimo elemento (l,j) es:
( )
−
∂∂
−=∂∂
∂ ∑=
n
iiiij
llj
yxl
1
2
πβββ
f(x2)
f(x1)
x2 x1 x
33
+−
∂∂
−= ∑ ∑= =
n
ix
xn
iijiij
li
T
iT
e
exyx
1 1 1rr
rr
β
β
β
+
−
+
∑=
=2
1
1
1i
xT
e
ixT
eil
xixT
eixT
eil
xixT
en
iij
xrr
rrrrrrrr
β
ββββ
( )∑= +
=n
i x
xilij
iT
iT
e
exx
12
1rr
rr
β
β
( )∑=
−=n
iiiilij xx
1
1 ππ j=0,1,....,k ; l =0,1,....,k (2.72)
donde ( )tπr , es la t-ésima aproximación para πr , obtenida de ( )tβr
mediante:
( )
( )
( )
+
=
∑
∑
=
=
ij
k
j
t
j
ij
k
j
t
jt
i
xExp
xExp
0
0
1 β
βπ (2.73)
Entonces el próximo valor reemplazando en (2.70) es:
( ) ( ) ( ){ } ( )( )tTtTtt yXXVX πββ rrrr−−= −+ 11 (2.74)
donde ( ) ( ) ( )( )[ ]t
i
t
i
t DiagV ππ −= 1
La expresión (2.70) se usa para obtener ( )1+tπr y así sucesivamente. Después
de dar un valor inicial ( )0βr
, se usa (2.70) para obtener ( )0πr y para t>0 las
iteraciones siguientes se efectúan usando (2.70) y (2.71).
En el límite, ( )tπr y ( )tβr
converge a los EMV de πr y converge en general en 5
o 6 iteraciones.
34
Existen software estadísticos como el SAS y el SPSS con programas para
estimar una regresión logística usando el método descrito. Una ventaja de este
método es que en el paso final del proceso iterativo se obtiene la inversa de la
función de información, que es asintóticamente la matriz de varianzas y
covarianzas del vector βv
y permiten efectuar inferencias sobre los parámetros
basado en la teoría normal.
2.8.4 PRUEBA DE HIPOTESIS PARA LOS COEFICIENTES DEL MODELO
DE REGRESION LOGISTICA.
Usualmente en la estimación del Modelo de Regresión Logística, como en el
Modelo de Regresión Lineal Múltiple se efectúan pruebas con objetivos
diferentes, siendo estos:
1. Determinar si una variable explicativa tiene coeficiente igual a cero.
2. Determinar si un conjunto de variables explicativas tienen coeficientes
igual a cero.
3. Determinar la calidad del ajuste global del modelo.
Veamos para cada objetivo, como se efectúa el análisis.
2.8.4.1 PRUEBA DE WALD
Wald (1943) estudio una prueba asintótica para estimaciones máximos
verosímiles, y aseveró que los parámetros estimados en los modelos logísticos
tiene una Distribución Normal para muestras grandes.
Esta prueba se usa para evaluar la significancia estadística de cada variable
explicativa o regresora.
Sea ( )tπr que converge a los EMV de πr y. nyyy ,,........., 21 variables respuesta
binaria independientes cuyas probabilidades satisfacen.
( ) βπrrT
ii xLogit =
donde [ ]iii xyP r1==π
35
Siendo ixr una observación que contiene los valores de las k variables
explicativas con ( )ikii
T
i xxxx ,......,,,1 21=r.
Sin perdida de generalidad, seleccionaremos jβ como el parámetro de interés.
Supóngase que las hipótesis son:
01
00
:
:
jj
jj
H
H
ββ
ββ
≠
=(2.75)
sea jβ un EMV de jβ y sea:
( ) 11 −− = VXXI T la inversa de la matriz de información muestral, entonces la
estadística de Wald para dócimar (2.75) es:
( )( )j
jjWβσββˆˆ
ˆ2
2
0−= (2.76)
donde ( )jβσ ˆˆ es la estimación del error estándar de jβ .
Bajo ( )2
10 ~, χWH , y para n suficientemente grande se tiene que:
( ) ( )
−−= 1,
ˆˆ
ˆ~
ˆˆ
ˆ00
j
jj
j
jj Nzβσββ
βσββ
(2.77)
por tanto:
( )2
1,
2 ~ ξχz , es 2χ con parámetro de no centralización:
( )( )j
jj
βσββ
ξˆˆ
2
0−= (2.78)
ver Hanck y Donner (1977)
Pero la estadística W , tiene la propiedad que cuando el valor absoluto del
coeficiente de Regresión es grande, el error estándar también lo es; esta
situación hace que la estadística W sea pequeña y por tanto se puede
rechazar jβ igual a cero, cuando en realidad no debería rechazarse.
36
Por tanto, cuando se encuentra que un coeficiente es grande, es preferible no
usar la estadística de Wald para efectuar dócima individual. Sino se
recomienda construir un modelo con y sin esa variable y basarse en la prueba
de hipótesis de la diferencia entre los dos modelos, ver Hanck y Donner (1977).
Para las hipótesis estadísticas:
0:
0:
1
0
≠
=
j
j
H
H
β
β (2.79)
La estadística (2.76) es:
( )( )j
jWβσ
βˆˆ
ˆ2
2
= (2.80)
Bajo ( )2
10 ~, χWH y para n suficientemente grande se tiene que:
( ) ( )
= 1,
ˆˆ
ˆ~
ˆˆ
ˆ
j
j
j
j Nzβσβ
βσβ
(2.81)
por tanto:
( )2
1,
2 ~ ξχz
2z se distribuye como una 2
)1,(ξχ con parámetro de no centralización:
( )( )j
j
βσβ
ξˆˆ 2
2
= (2.82)
si la variable explicativa es categórica, los grados de libertad es igual al número
de categorías o niveles de la variable menos uno.
2.8.4.2 PUNTUACION EFICIENTE DE RAO
Si el estadístico de Wald en la regresión logística juega el mismo papel que el
estadístico T en la regresión lineal múltiple para las variables incluidas en la
ecuación, la Puntuación eficiente de Rao juega el de la T para las variables no
incluidas. Supongamos que jβ es el parámetro asociado a la variable jX ,
supuesto que entrara en la ecuación de regresión en el siguiente paso. El
37
estadístico de Puntuación eficiente de Rao permite constrastar la hipótesis
nula:
0:0 =jH β
La interpretación de dicha hipótesis es que, si la variable jX fuera
seleccionada en el siguiente paso, la información que aportaría no sería
significativa. Si el p-valor asociado al estadístico de Puntuación eficiente de
Rao es menor que α se rechazará la hipótesis nula a nivel de significación α .
Bajo este punto de vista, en cada etapa del proceso de selección de variables,
la candidata a ser seleccionada será la que presente el mínimo p-valor
asociado al estadístico de Puntuación eficiente de Rao. Será seleccionada si
dicho mínimo es menor que un determinado valor crítico prefijado (si no se
indica lo contrario, 0.05).
2.8.4.3 PRUEBA CHI-CUADRADO
Esta prueba sirve para lograr el segundo objetivo propuesto al iniciarse la
sección 2.8.4 y sirve para docimar los coeficientes del modelo logístico.
Para elegir un modelo, se usa la prueba de razón de verosimilitud, Bickel y
Docksum (1977), para probar la hipótesis de que los coeficientes jβ
correspondientes a las variables explicativas retiradas, digamos q variables
explicativas, del modelo son iguales a cero, siendo la hipótesis estadísticas:
qjunmenosloporparaH
H
j
q
,...,2,1,0:
0....:
1
210
=≠
====
β
βββ
Esta prueba se basa en la siguiente estadística:
[ ]pqpq LLnLLn −−= −22χ (2.83)
bajo la hipótesis de que los coeficientes de las variables retiradas son iguales a
cero, la estadística (2.83) tiene una distribución asintótica )(2
qχ valores altos
38
para esta estadística indican que una o más de las q variables retiradas tienen
coeficiente de regresión diferente de cero.
2.8.5 SELECCIÓN DE VARIABLES
Aunque existen diferentes procedimientos para escoger el modelo sólo hay tres
mecanismos básicos para ello:
1. El método de selección Forward, que parte de un modelo sencillo,
añadiendo parámetros mientras que estos no sean significativamente
iguales a cero, según su nivel de significación fijado de antemano.
2. El método de selección Backward, supone un análisis en sentido
contrario al caso anterior, puesto que normalmente se parte de un modelo
saturado, simplificándolo, según se pueda, de aquellos parámetros que no
sean estadísticamente significativos.
3. El método de selección Stepwise, combina los dos anteriores y en cada
paso se puede tanto añadir una variable como eliminar otra que ya estaba
en la ecuación.
A continuación detallaremos la selección de variables con el Método Forward:
Si el proceso comienza con el método ajustado considerando únicamente el
término independiente, entonces:
1. En el primer caso se introduce la variable que presente el mínimo p valor
asociado al estadístico Puntuación eficiente de Rao, siempre y cuando
verifique el criterio de selección. En caso contrario, el proceso finalizará sin
que ninguna variable sea seleccionada y, en consecuencia, no será posible
construir la función Z a partir de la información de las variables
independientes.
2. En el segundo paso se introduce la variable que presente el mínimo p-valor
asociado al estadístico Puntuación de Rao, siempre que se verifique el valor
de selección. En caso contrario, el proceso finalizará, y la función Z se
construirá a partir de la información de la variable independiente introducida
en el primer paso.
39
3. En el siguiente paso se introduce la variable que presente el mínimo p-valor
asociado al estadístico Puntuación eficiente de Rao, siempre que verifique
el criterio de selección. Sí, al introducir una variable, al máximo p-valor
asociado al estadístico de Wald para las previamente incluidas verifica el
criterio de eliminación, antes de proceder a la selección de una nueva
variable, se eliminará la variable correspondiente.
4. Cuando ninguna variable verifique el criterio de eliminación, se vuelve a la
etapa 3. La etapa 3 se repite hasta que ninguna variable no seleccionada
satisfaga el criterio de selección y ninguna de las seleccionadas satisfaga el
de eliminación.
2.8.6 EVALUACION DE LA BONDAD DE AJUSTE DEL MODELO
Comprobar la bondad de ajuste del modelo, es analizar cuan probable son los
resultados a partir del modelo ajustado, es decir que tan efectivamente
describe el modelo los resultados de la variable en estudio.
A continuación las estadísticas que evalúan la bondad de ajuste del modelo:
2.8.6.1 PRUEBA CHI-CUADRADO PEARSON
Esta estadística sirve para evaluar la bondad de ajuste del modelo en forma
global, la estadística se basa en la comparación de los valores observados iY y
sus respectivas probabilidades estimadas, iπ ,
0,...kjun menos lopor ,0:
..:
1
100
=≠===
j
k
H
H
ββββ
Se basa en la estadística
∑=
∧∧
∧
−
−
=n
iii
iiY
1
2
2
1 ππ
πχ (2.84)
40
bajo la hipótesis que el modelo se ajusta bien a los valores observados, la
estadística (2.84) tiene una distribución asintótica ))1((2
+− knχ , valores altos 2χ
indican discrepancias con el modelo teórico.
2.8.6.2 DESVIANZA
Esta estadística se usa para evitar la inestabilidad de la estadística chi-
cuadrado. La desvianza esta dado por:
∑=
=n
iip dD
1
2
bajo la hipótesis, asintóticamente, es la misma que la distribución chi-cuadrado
de pearson, es decir se distribuye ))1((2
+− knχ y mide la discrepancia o el desvío
entre el modelo bajo investigación o actual y el modelo saturado.
La estadística ( )pD para el modelo, esta dado por:
( )∑=
∧∧
−−+−=
n
i
iiii YYD1
1log1)log(2 ππ (2.86)
cuando el modelo bajo estudio es verdadero se compara el valor D con el valor
crítico )(2
pn −χ de una distribución chi-cuadrado a un nivel de significancia
igual a α , por lo tanto:
si )(2
pnD −⟩χ el modelo se rechaza y
si )(2
pnD −≤ χ el modelo no se rechaza, donde p=k+1
2.8.6.3 PRUEBA DE HOSMER-LEMESHOW
Hosmer y Lemeshow (1980,1982) propusieron una prueba para evaluar la
bondad del ajuste de un modelo de regresión logística.
Una formula definida de la estadística del modelo
∧
C es la siguiente:
41
∑=
−
∧
−−
−
=−
g
k
kk
kkk
n
nOC
1
´
'
1 π
π
π
(2.87)
Donde:
kn ' = es el numero total de sujetos en el thK grupo
∑=
=kC
jjk YO
1
es el número de respuestas
∑=
∧
−
=kC
j k
jjk
n
m
1'
ππ , es el promedio de las probabilidades estimadas
Hosmer y Lemeshow demostraron que nJ ≈ y el modelo de regresión
ajustado es el modelo correcto, la distribución de la estadística ∧
C esta
aproximado a la distribución chi-cuadrado con (g-2) grados de libertad,
)2(2
−gχ . Mientras no específicamente examinado siendo probable que
)2(2
−gχ se aproxime a la distribución cuando nJ ≈ .
En conclusión, la idea es si el ajuste es bueno, un valor alto de la p predicha se
asociará (con una frecuencia parecida a la p) con el resultado 1 de la variable
binomial. Se trata de calcular para cada observación del conjunto de datos las
probabilidades de la variable dependiente que predice el modelo, agruparlas y
calcular, a partir de ellas, las frecuencias esperadas y compararlas con las
observadas mediante la prueba chi-cuadrado.
2.8.7 EVALUACION DE LA CAPACIDAD PREDICTIVA DEL MODELO
Además de las medidas de bondad de ajuste, resulta interesante conocer la
calidad predictiva del modelo. A continuación se detalla dos técnicas para
realizar dicha evaluación.
2.8.7.1 TABLA DE CLASIFICACION
42
Es otra medida para evaluar el ajuste del modelo, no es tan objetiva pero se
usa como indicador de bondad de ajuste.
Se presenta como una tabla 2x2 en el cual muestra la distribución de las
observaciones que pertenecen a las categorías 1 y 2, es decir Y=0 y cuando
Y=1, conjuntamente con la clasificación a cualquiera 2 categorías de acuerdo
a la probabilidad estimada.
Para interpretar se hace el porcentaje de observaciones bien clasificadas, esto
es, aquellos que mediante la probabilidad estimada permanecen en su
respectiva categoría. También se interpreta mediante el porcentaje de
observaciones mal clasificadas, esto es aquellas mediante la probabilidad
estimada se asignan a categorías diferentes del cual fueron observadas.
GRUPO ESTIMADOGRUPOACTUAL 0 1
TOTALMARGINAL
0 11n 12n 11n + 12n
1 21n 22n 21n + 22n
TOTALMARGINAL
11n + 21n 12n + 22n n
%1002211 xn
nn +, es el porcentaje de observaciones bien clasificadas
mediante el modelo de regresión logística estimado; por tanto se debe esperar
que este porcentaje sea el más alto posible a fin de concluir que el modelo
obtenido clasifica bien las observaciones en estudio y;
%1002112 xn
nn +, es el porcentaje de observaciones mal clasificadas mediante
el modelo de regresión logística estimado.
A partir de esta tabla se definen además:
43
• La sensibilidad, que es igual a la proporción entre el número de casos
positivos del grupo 0 entre el número total de positivos observados
( )2111
11
nn
n
+.
• La especificidad, que es igual a la proporción entre el número de casos
negativos del grupo 1 entre el número total de negativos observados
( )2212
22
nn
n
+.
2.8.7.2 AREA BAJO LA CURVA (ROC)
El área bajo la curva (ROC) es la medida que evalúa la discriminación (grado
en que el modelo distingue entre individuos en los que ocurre el evento y los
que no).
ROC, construida para la probabilidad predicha por el modelo, que representa,
para todos los pares posibles de observaciones formados, por una observación
en el que ocurrió el evento y otro en el que no, la proporción de los que el
modelo predice una mayor probabilidad para el que tuvo el evento.
Como regla general:
Si ROC = 0.5 Indica que el modelo no esta discriminando
Si 8.07.0 ⟨≤ ROC se considera aceptable la discriminación
Si 9.08.0 ⟨≤ ROC Se considera excelente la discriminación
Si 9.0≥ROC Se considera sobresaliente la discriminación
En la practica es inusual observar que área bajo la curva mayor a 0.90.
El gráfico del área bajo la curva se construye por sensibilidad vs 1-especificidad
para todos los puntos de corte del evento, donde:
Sensibilidad = %2111
11
nn
n
+ y Especificidad = %
2212
22
nn
n
+
44
Donde sensibilidad y especificidad podría describirse en un solo punto de corte
para clasificar una prueba final como positiva.
Top Related