GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no...

23
GoBack

Transcript of GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no...

Page 1: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

GoBack

Page 2: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

1 / 22

Regresion logıstica

Guillermo Ayala GallegoUniversidad de Valencia

4 de febrero de 2009

Page 3: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

2 / 22

Puede que sea el procedimiento estadıstico masutilizado.Con aplicaciones frecuentes en Medicina yBiologıa, Ciencias Sociales, Marketing, . . .El 11 de enero de 2009 salıa en 93919 artıculos enla base de datos PubMed.

Page 4: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelo de regresion logıstica

3 / 22

Y es una respuesta binaria.X (una sola) variable explicativa y

π(x) = P (Y = 1|X = x) = 1 − P (Y = 0|X = x).

El modelo de regresion logıstica asume

π(x) =exp{α + βx}

1 + exp{α + βx}

o equivalentemente

logit(π(x)) = logπ(x)

1 − π(x)= α + βx

Page 5: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Interpretacion del parametro β

4 / 22

eβ es un cociente de los odds de X = x + 1 dividido por losodds de X = x.El parametro α no suele tener un interes especial.

Page 6: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

¿Es apropiado el modelo?

5 / 22

Una posibilidad es considerar para cada x el numero deobservaciones que comparten la covariable.Si yi es el numero de unos y ni el numero de pruebas entonces

logyi + 1

2

ni − yi + 1

2

ha de ser aproximadamente lineal.Si x es muy numerica (muchos valores distintos) entoncesalguna tecnica de suavizado parece mejor.

Page 7: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Inferencia

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

6 / 22

La basamos en la distribucion asintotica de losestimadores maximo verosımiles.En un modelo con un solo predictor el contrastebasico serıa

H0 : β = 0; H1 : β 6= 0

Podemos usar los tres tests ya considerados:cociente de verosimilitudes, Wald y el score test.

Page 8: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Inferencia

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

7 / 22

Para obtener el intervalo de confianza para π(x0)tenemos que, puesto que logit(π(x0)) = α + βx0,entonces

var(α+βx0) = var(α)+x2

0var(β)+2x0cov(α, β).

De donde el intervalo de confianza para α + βx0

serıaα + βx0 ± 1,96SE,

y el intervalo para π(x0) lo obtenemos mediante latransformacion inversa

π(x0) = exp(logit)/(1 + exp(logit)).

Page 9: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

8 / 22

Los cangrejos herradura hembra: ¿depende el quetenga satelite de la anchura del caparazon?notaR/notaR022.pdf.Unos datos del IBV: notaR/notaR032.pdf.

Page 10: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Bondad de ajuste: datos agrupados y no

agrupados

9 / 22

Una posibilidad es comparar nuestro modelo con modelos mascomplejos (con interacciones o terminos cuadraticos).Si el modelo mas complejo no ajusta sensiblemente mejor puedeque nuestro modelo no sea demasiado malo.Si todas los predictores son categoricos entonces podemosestimar la probabilidad de uno y cero, lo multiplicamos por elnumero de sujetos en este setting y tenemos los valores

ajustados. Podemos comparar lo ajustado y lo observado con eltest ji-cuadrado de Pearson o el test del cociente deverosimilitud. Si el numero de settings se mantiene fijo yaumentamos la muestra la distribucion nula asintotica es unaji-cuadrado donde el numero de grados de libertad es ladiferencia entre el numero de setting menos el numero deparametros del modelo.

Page 11: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Bondad de ajuste: datos agrupados y no

agrupados

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

10 / 22

¿Y si los predictores son continuos, esto es,tenemos datos no agrupados?Una posibilidad es categorizar los predictores.Asignamos el valor medio de los predictores a losindividuos de la categorıa.Estimamos la probabilidad de uno y cero usandoen estos valores medios y reproducimos lo quehacemos para datos agrupados.

Page 12: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Test de Hosmer y Lemeshow (1980)

11 / 22

El procedimiento anterior con muchos predictores produce tablascon muchas celdas.Vamos a agrupar usando las probabilidades de exito utilizandodatos no agrupados.Formamos grupos aproximadamente iguales: el primer grupotendrıa los que tienen mayor probabilidad de exito, el segundogrupo los siguientes y ası sucesivamente.El valor observado es el numero de individuos en el grupo.El valor esperado es la suma de las probabilidades estimadaspara todas las observaciones del grupo.

Page 13: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Test de Hosmer y Lemeshow (1980)

12 / 22

Si yij denota el resultado binario para la observacion j del grupoi (i = 1, . . . , g, j = 1, . . . , ni y πij denota su probabilidadajustada entonces el estadıstico del test de Hosmer Lemeshowserıa

g∑

i=1

(

j yij −∑

j πij

)2

j πij(1 −∑

j πij)/ni

La distribucion asintotica no es una ji-cuadrado ya que notenemos pruebas de Bernoulli.Si el numero de settings es igual al tamano muestral entonces ladistribucion nula es aproximadamente ji-cuadrado con g − 1grados de libertad.notaR/notaR035.pdf

Page 14: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelos logit con predictores

categoricos

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

Representacion tipoANOVAUna formulacionalternativa convariables dummy

Regresion logısticamultiple

Modelos logit paratablas decontingencia

13 / 22

Page 15: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Representacion tipo ANOVA

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

Representacion tipoANOVAUna formulacionalternativa convariables dummy

Regresion logısticamultiple

Modelos logit paratablas decontingencia

14 / 22

Supongamos un solo factor X con I categorıas.Tendrıamos una tabla I × 2 donde el conteo de laprimera columna yi es el numero de exitos de lasni pruebas.Tenemos yi con distribucion binomial conparametros πi y ni e independientes.El modelo logit con un solo factor serıa

logπi

1 − πi

= α + βi.

Un valor mayor de βi supone un mayor valor de laprobabilidad πi.

Page 16: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

Representacion tipoANOVAUna formulacionalternativa convariables dummy

Regresion logısticamultiple

Modelos logit paratablas decontingencia

15 / 22

Tenemos un parametro redundante.Las opciones habituales son

•∑

i βi = 0.• βI = 0. En este caso:

◦ α es el logit de la categorıa I.◦ βi es la diferencia de los logit entre la

categorıa i y la categorıa I, el logaritmodel odds ratio.

Es un modelo con I parametros, tantos comoobservaciones binomiales. Es un modelo saturado.

Page 17: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

Representacion tipoANOVAUna formulacionalternativa convariables dummy

Regresion logısticamultiple

Modelos logit paratablas decontingencia

16 / 22

Si el factor (X) no tiene efecto:

β1 = . . . = βI = 0,

o equivalentemente

π1 = . . . = πI .

Page 18: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Una formulacion alternativa con variables

dummy

17 / 22

Consideramos xi = 1 para las observaciones de la fila i en latabla I × 2 y cero en otro caso para i = 1, . . . , I − 1El modelo logit lo formulamos como

logit(πi) = α + β1x1 + . . . + βI−1xI−1.

Esta formulacion es equivalente con la hipotesis βI = 0.La categorıa que elegimos para asumir que su β es nulo esarbitraria.Independientemente de la restriccion α + βi y por lo tanto πi

son los mismos.notaR/notaR026.pdf.

Page 19: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Regresion logıstica multiple

18 / 22

Si π(x) = P (Y = 1|x) con x = (x1, . . . , xp) asumimos

logit[π(x)] = α + β1x1 + . . . + βpxp.

O equivalentemente

π(x) =exp(α + β1x1 + . . . + βp)

1 + exp(α + β1x1 + . . . + βp).

Fijadas todas las demas variables, un cambio en una unidad dexi se traduce en un cambio en el logaritmo de los odds de βi obien un cambio multiplicativo en los odds de exp(βi).

Page 20: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelos logit para tablas de contingencia

multiples

19 / 22

Consideremos X,Z predictores binarios e Y la respuesta binaria:x1 = z1 = 1 y x2 = z2 = 0.Consideremos el modelo

logit(P (Y = 1)) = α + β1xi + β2Z

donde estan los efectos principales pero no hay interaccion.El modelo indicado corresponde con una asociacion homogeneaentre X e Y, esto es, no depende del valor de Z.Si β1 = 0 ademas X e Y son independientes en cada tablaparcial, esto es, son condicionalmente independientes dado ZLa escala logit es la aceptada genericamente para no interaccionentre variables categoricas.Podemos trabajar en otra escala y la no interaccion en unaescala no implica la no interaccion en la otra.

Page 21: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Modelos logit para tablas de contingencia

multiples

20 / 22

Consideremos X,Z predictores categoricos e Y la respuestabinaria.El modelo de no interaccion, de independencia condicional o deasociacion homogenea corresponde con

logit(P (Y = 1)) = α + βXi + βZ

k

donde estamos representando los efectos de X mediante los(I − 1) parametros βX

i y los efectos de Z mediante los βZk .

La independencia condicional se corresponde con

H0 : βX1

= βX2

= . . . = βXI .

Page 22: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

SIDA Y AZT

21 / 22

Tenemos una muestra de personas afectadas de sida en dondecomo respuesta consideramos si desarrollan sıntomas de SIDA ycomo predictores la raza y si se les administra AZT de modoinmediato o cuando las celulas T muestran debilidad inmune.

logit(P (Y = 1)) = α + βAZTSi + βRaza

Blanco

α es el log odds de desarrollar sıntomas de SIDA para negrosque no se les administro inmediatamente AZT.βAZT

Si es el incremento en los log odds para los que usaninmediatamente AZT.βRaza

Blanco es el incremento de los odds para los blancos.notaR/notaR027.pdf.

Page 23: GoBack - Universitat de València · 2020-02-28 · Bondad de ajuste: datos agrupados y no agrupados Bondad de ajuste: datos agrupados y no agrupados Test de Hosmer y Lemeshow (1980)

Los cangrejos herradura atacan de nuevo

Modelo de regresionlogıstica

Interpretacion delparametro β

¿Es apropiado elmodelo?

Inferencia

Inferencia

Bondad de ajuste:datos agrupados yno agrupados

Bondad de ajuste:datos agrupados yno agrupados

Test de Hosmer yLemeshow (1980)

Test de Hosmer yLemeshow (1980)

Modelos logit conpredictorescategoricos

Representacion tipoANOVAUna formulacionalternativa convariables dummy

Regresion logısticamultiple

Modelos logit paratablas decontingencia

22 / 22

Consideramos el modelo

logit(π) = α + β1c1 + β2c2 + β3c3 + β4x,

π = P (Y = 1),x= anchura en centımetros,c1 = 1 para color medio claro y 0 en otro caso,c2 = 1 para color medio y 0 en otro caso,c3 = 1 para color medio oscuro y 0 en otro caso.notaR/notaR028.pdf.