Estadística III. Regresión logística. Ángela Segura

Post on 23-Mar-2016

230 views 1 download

description

Estadística III. Regresión logística. Ángela Segura. Universidad CES.

Transcript of Estadística III. Regresión logística. Ángela Segura

Ángela María Segura C.

Angela María Segura Cardona asegura@ces.edu.co

Docente

Medellín, marzo 12 a abril 04 de 2013

MAESTRIA EN SALUD PÚBLICA IV

ESTADÍSTICA III

Ángela María Segura C.

ANÁLISIS DE REGRESIÓN LOGÍSTICA

Ángela María Segura C.

Y(Cualitativa)

X3

X6

X4

X1

X2

X5

Londoño, JL. Notas de Clase, 2005

Ángela María Segura C.

P(Y=1) 0,50

Z 0

1

• •

• •

• •

Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.

( ) 1 1 Y P = =

1 + exp -(0+1X1)

Ángela María Segura C.

Ventajas que tiene la definición de la probabilidad de enfermar

por medio de la función logística

• P(Y=1) es función de múltiples factores:

– De riesgo

– De confusión

– De interacción

• Se obtienen OR’s ajustadas

Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.

P(Y=1)

0,50

Z

1

• • •

• • •

Ángela María Segura C.

Expresa(n) la probabilidad de que ocurra el hecho en cuestión como

función de cierta(s) variable(s)

Término independiente o constante

Coeficientes de regresión logística

0

i,i=1...k

( ) 1 1 Y P = = 1 + exp -(0 + 1X1)

( ) 1 1 Y P = =

1 + exp -(0 + 1X1+2X2 +....+ kXk)

Grisales H. Notas de clase

Ángela María Segura C.

Pasos para la construcción del modelo predictivo

PASO 1: SELECCIÓN PRELIMINAR DE LAS VARIABLES X QUE HAN DE SER CONSIDERADAS

Criterio: Se descartan las variables que en un análisis bivariado presentan un valor de p > 0,25. Cuantitativas: Si se tiene conocimiento de que el riesgo aumenta exponencialmente se pueden tratar como cuantitativas; de lo contrario, categorizarlas. Interacciones: Definición basada en conocimiento o hipótesis. PASO 2: CONSTRUCCIÓN DEL MODELO (método Forward,

Backward, Stepwise) Prueba: Prueba de Wald Hipótesis: Ho: La v. independiente no influye en la dependiente Ha: La v. independiente influye sobre la dependiente

Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.

Ángela María Segura C.

Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.

PASO 2: Construcción del modelo

Método de construcción

Todas las variables entran al modelo.

Es un método de selección paso a paso que inicia la modelación considerando únicamente la constante, en el primer paso entra aquella

variable que presentó mayor SCORE, siempre y cuando este sea significativo, y así sucesivamente.

Es otro método de selección de variables paso a paso, inicialmente incluye todas las variables, eliminando a continuación aquellas que no son

significativas para el modelo, usando el estadístico de Wald.

Enter

Forward

Backward

Ángela María Segura C.

Significado de los coeficientes

SIGNIFICADO DE LOS i

Xi Aumenta la Probabilidad de

ocurrencia del evento

Xi No tendría peso en el modelo

Xi Disminuye la probabilidad de

ocurrencia del evento i 0

i>0

i<0

Grisales H. Notas de clase

PASO 2: Construcción del modelo

Ángela María Segura C.

Variables artificiales

Características totales representadas

Clase social

Alta Media Baja

Alta 0 0 Media 1 0 Baja 0 1

X1 X2

Grisales H. Notas de clase

PASO 2: Construcción del modelo

Ángela María Segura C.

Londoño JL. Metodología de la investigación epidemiológica, 3a. edición. Bogotá, El Manual Moderno, 2004.

PASO 3: EVALUACIÓN DEL MODELO Prueba: Prueba de Hosmer-Lemeshow Hipótesis: Ho: Los valores observados=Los valores esperados

El modelo es perfecto Ha: Los valores observados difieren de los esperados El modelo no es adecuado

PASO 4: ANALISIS DE CORRELACIÓN (R) Y COEFICIENTE DE DETERMINACIÓN (R2)

PASO 5: ANALISIS DE RESIDUOS Normalidad, varianza constante e incorrelación

Pasos para la construcción del modelo predictivo

Ángela María Segura C.

PASO 1: SELECCIÓN PRELIMINAR DE LAS VARIABLES X QUE HAN DE SER CONSIDERADAS

Criterio: Se descartan las variables que en un análisis bivariado presentan un valor de p > 0,25. Cuantitativas: Si se tiene conocimiento de que el riesgo aumenta exponencialmente se pueden tratar como cuantitativas; de lo contrario, categorizarlas. Interacciones: Definición basada en conocimiento o hipótesis. PASO 2: CONSTRUCCIÓN DEL MODELO (método Enter) Medida de asociación: OR, RR ó RP con IC 95%

Pasos para la construcción del modelo explicativo

Ángela María Segura C.

Influencia que puede tener fumar sobre padecer enfermedad coronaria.

Y=EC 0

1 X: fumar

0

1

Chi-square df Significance

10.329 1 0.0013

65.000 63 .4069

Model chi-square

Goodness of fit

VARIABLES EN LA ECUACION

Variable SE Wald df Sg R Exp()

Fuma

Constant.

1.9972

-2.2336

.6988

.6075

8.168

13.518

1

1

0.0043

0.0002

.2836 7.3683

Grisales H. Notas de clase

Ángela María Segura C.

INFLUENCIA QUE PUEDE TENER BEBER ALCOHOL, COLESTEROL BASAL CON POSIBLE

INTERACCION DE BEBER Y COLESTEROL BASAL EN LA ENFERMEDAD CORONARIA

Chi-squere df Significance

-2 Loglikelihood

Model chi-squere

Goodness of fit

13.240

63.463

57.458

61

3

61

1.000

0.000

.6050

VARIABLES EN LA ECUACION

Variable SE Wald df Signif. R Exp()

CONSTANT -20.616 8.20 6.31 1 0.0120

BEBE -412.896 27.34 0.0228 1 .88 0.00 0.000

CB 0.0769 0.331 5.389 1 .0202 .2102 1.080

CB BY BEBE 1.6643 10.99 0.029 1 .8796 .000 5.2819

Grisales H. Notas de clase