GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no...

GoBack

1 / 22

Regresion logıstica

Guillermo Ayala GallegoUniversidad de Valencia

4 de febrero de 2009

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados


Test de Hosmer yLemeshow (1980)


Modelos logit conpredictorescategoricos

2 / 22

Puede que sea el procedimiento estadıstico masutilizado.Con aplicaciones frecuentes en Medicina yBiologıa, Ciencias Sociales, Marketing, . . .El 11 de enero de 2009 salıa en 93919 artıculos enla base de datos PubMed.

Modelo de regresion logıstica

3 / 22

Y es una respuesta binaria.X (una sola) variable explicativa y

π(x) = P (Y = 1|X = x) = 1 − P (Y = 0|X = x).

El modelo de regresion logıstica asume

π(x) =exp{α + βx}

1 + exp{α + βx}

o equivalentemente

logit(π(x)) = logπ(x)

1 − π(x)= α + βx

Interpretacion del parametro β

4 / 22

eβ es un cociente de los odds de X = x + 1 dividido por losodds de X = x.El parametro α no suele tener un interes especial.

¿Es apropiado el modelo?

5 / 22

Una posibilidad es considerar para cada x el numero deobservaciones que comparten la covariable.Si yi es el numero de unos y ni el numero de pruebas entonces

logyi + 1

2

ni − yi + 1

2

ha de ser aproximadamente lineal.Si x es muy numerica (muchos valores distintos) entoncesalguna tecnica de suavizado parece mejor.

Inferencia




Inferencia

Inferencia






6 / 22

La basamos en la distribucion asintotica de losestimadores maximo verosımiles.En un modelo con un solo predictor el contrastebasico serıa

H0 : β = 0; H1 : β 6= 0

Podemos usar los tres tests ya considerados:cociente de verosimilitudes, Wald y el score test.

Inferencia




Inferencia

Inferencia






7 / 22

Para obtener el intervalo de confianza para π(x0)tenemos que, puesto que logit(π(x0)) = α + βx0,entonces

var(α+βx0) = var(α)+x2

0var(β)+2x0cov(α, β).

De donde el intervalo de confianza para α + βx0

serıaα + βx0 ± 1,96SE,

y el intervalo para π(x0) lo obtenemos mediante latransformacion inversa

π(x0) = exp(logit)/(1 + exp(logit)).




Inferencia

Inferencia






8 / 22

Los cangrejos herradura hembra: ¿depende el quetenga satelite de la anchura del caparazon?notaR/notaR022.pdf.Unos datos del IBV: notaR/notaR032.pdf.

notaR/notaR022.pdf

notaR/notaR032.pdf

Bondad de ajuste: datos agrupados y no

agrupados

9 / 22

Una posibilidad es comparar nuestro modelo con modelos mascomplejos (con interacciones o terminos cuadraticos).Si el modelo mas complejo no ajusta sensiblemente mejor puedeque nuestro modelo no sea demasiado malo.Si todas los predictores son categoricos entonces podemosestimar la probabilidad de uno y cero, lo multiplicamos por elnumero de sujetos en este setting y tenemos los valores

ajustados. Podemos comparar lo ajustado y lo observado con eltest ji-cuadrado de Pearson o el test del cociente deverosimilitud. Si el numero de settings se mantiene fijo yaumentamos la muestra la distribucion nula asintotica es unaji-cuadrado donde el numero de grados de libertad es ladiferencia entre el numero de setting menos el numero deparametros del modelo.

Bondad de ajuste: datos agrupados y no

agrupados




Inferencia

Inferencia






10 / 22

¿Y si los predictores son continuos, esto es,tenemos datos no agrupados?Una posibilidad es categorizar los predictores.Asignamos el valor medio de los predictores a losindividuos de la categorıa.Estimamos la probabilidad de uno y cero usandoen estos valores medios y reproducimos lo quehacemos para datos agrupados.

Test de Hosmer y Lemeshow (1980)

11 / 22

El procedimiento anterior con muchos predictores produce tablascon muchas celdas.Vamos a agrupar usando las probabilidades de exito utilizandodatos no agrupados.Formamos grupos aproximadamente iguales: el primer grupotendrıa los que tienen mayor probabilidad de exito, el segundogrupo los siguientes y ası sucesivamente.El valor observado es el numero de individuos en el grupo.El valor esperado es la suma de las probabilidades estimadaspara todas las observaciones del grupo.

Test de Hosmer y Lemeshow (1980)

12 / 22

Si yij denota el resultado binario para la observacion j del grupoi (i = 1, . . . , g, j = 1, . . . , ni y πij denota su probabilidadajustada entonces el estadıstico del test de Hosmer Lemeshowserıa

g∑

i=1

(

∑

j yij −∑

j πij

)2

∑

j πij(1 −∑

j πij)/ni

La distribucion asintotica no es una ji-cuadrado ya que notenemos pruebas de Bernoulli.Si el numero de settings es igual al tamano muestral entonces ladistribucion nula es aproximadamente ji-cuadrado con g − 1grados de libertad.notaR/notaR035.pdf

notaR/notaR035.pdf

Modelos logit con predictores

categoricos




Inferencia

Inferencia






Representacion tipoANOVAUna formulacionalternativa convariables dummy

Regresion logısticamultiple

Modelos logit paratablas decontingencia

13 / 22

Representacion tipo ANOVA




Inferencia

Inferencia









14 / 22

Supongamos un solo factor X con I categorıas.Tendrıamos una tabla I × 2 donde el conteo de laprimera columna yi es el numero de exitos de lasni pruebas.Tenemos yi con distribucion binomial conparametros πi y ni e independientes.El modelo logit con un solo factor serıa

logπi

1 − πi

= α + βi.

Un valor mayor de βi supone un mayor valor de laprobabilidad πi.




Inferencia

Inferencia









15 / 22

Tenemos un parametro redundante.Las opciones habituales son

•∑

i βi = 0.• βI = 0. En este caso:

◦ α es el logit de la categorıa I.◦ βi es la diferencia de los logit entre la

categorıa i y la categorıa I, el logaritmodel odds ratio.

Es un modelo con I parametros, tantos comoobservaciones binomiales. Es un modelo saturado.




Inferencia

Inferencia









16 / 22

Si el factor (X) no tiene efecto:

β1 = . . . = βI = 0,

o equivalentemente

π1 = . . . = πI .

Una formulacion alternativa con variables

dummy

17 / 22

Consideramos xi = 1 para las observaciones de la fila i en latabla I × 2 y cero en otro caso para i = 1, . . . , I − 1El modelo logit lo formulamos como

logit(πi) = α + β1x1 + . . . + βI−1xI−1.

Esta formulacion es equivalente con la hipotesis βI = 0.La categorıa que elegimos para asumir que su β es nulo esarbitraria.Independientemente de la restriccion α + βi y por lo tanto πi

son los mismos.notaR/notaR026.pdf.

notaR/notaR026.pdf

Regresion logıstica multiple

18 / 22

Si π(x) = P (Y = 1|x) con x = (x1, . . . , xp) asumimos

logit[π(x)] = α + β1x1 + . . . + βpxp.

O equivalentemente

π(x) =exp(α + β1x1 + . . . + βp)

1 + exp(α + β1x1 + . . . + βp).

Fijadas todas las demas variables, un cambio en una unidad dexi se traduce en un cambio en el logaritmo de los odds de βi obien un cambio multiplicativo en los odds de exp(βi).

Modelos logit para tablas de contingencia

multiples

19 / 22

Consideremos X,Z predictores binarios e Y la respuesta binaria:x1 = z1 = 1 y x2 = z2 = 0.Consideremos el modelo

logit(P (Y = 1)) = α + β1xi + β2Z

donde estan los efectos principales pero no hay interaccion.El modelo indicado corresponde con una asociacion homogeneaentre X e Y, esto es, no depende del valor de Z.Si β1 = 0 ademas X e Y son independientes en cada tablaparcial, esto es, son condicionalmente independientes dado ZLa escala logit es la aceptada genericamente para no interaccionentre variables categoricas.Podemos trabajar en otra escala y la no interaccion en unaescala no implica la no interaccion en la otra.

Modelos logit para tablas de contingencia

multiples

20 / 22

Consideremos X,Z predictores categoricos e Y la respuestabinaria.El modelo de no interaccion, de independencia condicional o deasociacion homogenea corresponde con

logit(P (Y = 1)) = α + βXi + βZ

k

donde estamos representando los efectos de X mediante los(I − 1) parametros βX

i y los efectos de Z mediante los βZk .

La independencia condicional se corresponde con

H0 : βX1

= βX2

= . . . = βXI .

SIDA Y AZT

21 / 22

Tenemos una muestra de personas afectadas de sida en dondecomo respuesta consideramos si desarrollan sıntomas de SIDA ycomo predictores la raza y si se les administra AZT de modoinmediato o cuando las celulas T muestran debilidad inmune.

logit(P (Y = 1)) = α + βAZTSi + βRaza

Blanco

α es el log odds de desarrollar sıntomas de SIDA para negrosque no se les administro inmediatamente AZT.βAZT

Si es el incremento en los log odds para los que usaninmediatamente AZT.βRaza

Blanco es el incremento de los odds para los blancos.notaR/notaR027.pdf.

notaR/notaR027.pdf

Los cangrejos herradura atacan de nuevo




Inferencia

Inferencia









22 / 22

Consideramos el modelo

logit(π) = α + β1c1 + β2c2 + β3c3 + β4x,

π = P (Y = 1),x= anchura en centımetros,c1 = 1 para color medio claro y 0 en otro caso,c2 = 1 para color medio y 0 en otro caso,c3 = 1 para color medio oscuro y 0 en otro caso.notaR/notaR028.pdf.

notaR/notaR028.pdf

GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no...

Documents

Transcript of GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no...