ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL

70
Dr. Christian Acosta Villegas [email protected] ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL SIMPLE APLICACIONES Bioestadística 2015 Martes 26 de mayo del 2015

description

ANÁLISIS DE CORRELACIÓNY REGRESIÓN LINEALSIMPLEAPLICACIONES

Transcript of ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL

  • Dr. Christian Acosta Vil legas

    [email protected]

    ANLISIS DE CORRELACIN

    Y REGRESIN LINEAL

    SIMPLE APLICACIONES

    Bioestadstica 2015

    Martes 26 de mayo del 2015

  • TEMAS A TRATAR

    Diagrama de dispersin

    Correlacin Coeficiente de correlacin de Pearson (r)

    Regresin Ecuacin de regresin lineal

    Coeficiente de Determinacin (R)

  • Datos Cuantitativos Datos Cualitativos

    (Dicotmica o

    Politmica) Distribucin

    Normal

    Distribucin

    Anormal (NO-

    N)

    Comparar 2 grupos

    (variable independiente:

    dicotmica)

    - T No pareada

    - T pareada

    - Mann-

    Whitney

    - Wilcoxon

    - Chi-cuadrado

    - Exacta de Fisher

    Comparar 3 o ms

    grupos (variable

    independente:

    politmica)

    - ANOVA

    - Kruskal -

    Wallis

    - Friedman

    - Chi-cuadrado

    - Exacta de Fisher

    Asociacin entre 2

    variables (variable

    independiente:

    continua)

    - Correlacin de

    Pearson

    - Correlacin

    de Spearman

    Asociacin entre 3 o

    ms (variable

    independiente:

    continua)

    - Regresin

    lineal mltiple

    - Regresin

    logstica mltiple

  • Datos Cuantitativos Datos Cualitativos

    (Dicotmica o

    Politmica) Distribucin

    Normal

    Distribucin

    Anormal (NO-

    N)

    Comparar 2 grupos

    (variable independiente:

    dicotmica)

    - T No pareada

    - T pareada

    - Mann-

    Whitney

    - Wilcoxon

    - Chi-cuadrado

    - Exacta de Fisher

    Comparar 3 o ms

    grupos (variable

    independente:

    politmica)

    - ANOVA

    - Kruskal -

    Wallis

    - Friedman

    - Chi-cuadrado

    - Exacta de Fisher

    Asociacin entre 2

    variables (variable

    independiente:

    continua)

    - Correlacin de

    Pearson

    - Correlacin

    de Spearman

    Asociacin entre 3 o

    ms (variable

    independiente:

    continua)

    - Regresin

    lineal mltiple

    - Regresin

    logstica mltiple

  • ACLARACIONES

    Las pruebas que han aprendido hasta ahora sirven para comprar dos o ms grupos entre ellos. En

    estos casos se ha tratado de determinar si existe o

    no una asociacin entre el grupo al cual se

    pertenece y la variable de interes.

    Pero tambin: muchas veces vamos a estar interesados en evaluar si es que existe una

    asociacin entre dos variables continuas.

    Ejemplo clsico: el peso de una persona est relacionado con su talla?

  • DIAGRAMA DE

    DISPERSIN

  • EJEMPLO

    La medicin ms comn del volumen del cerebro es la Fraccin Parenquimal Cerebral (FPC).

  • EJEMPLO

    (A)Paciente varn de 31 aos de edad. FPC: 0.87.

    (B)Paciente mujer de 36 aos de edad con EM con

    reacada-remisin. Tiempo de enfermedad de 2

    aos. FPC: 0.85.

    (C)Paciete mujer de 43 aos de edad con EM

    progresiva secundaria. TE: 19 aos. FPC: 0.71.

  • Se tienen datos de 30 pacientes sanos a quienes se les realiz resonancias magnticas, obteniendo de

    esta manera las fracciones del parnquima cerebral

    de cada uno de ellos. Se cuenta tambin entre los

    datos obtenidos la edad de los 30 pacientes.

    Qu se debe hacer?

    EJEMPLO

    Edad 39 48 52 56 51 54 38 29 20 ...X30

    FPC 0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30

  • EJEMPLO

    Edad 39 48 52 56 51 54 38 29 20 ...X30

    FPC 0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30

  • Existe un patrn de lnea recta o asociacin?

    El patrn o asociacin va hacia arriba o cuesta

    abajo?

    Estn los valores muy agrupados en el patrn o

    muy separados?

    Existen desviaciones notorias en el patrn?

    EJEMPLO

  • Se observa alguna relacin entre ambas variables? (asociacin)

    A la edad de 40 aos, cul ser el FPC? (prediccin)

    EJEMPLO

  • CORRELACIN

  • CORRELACIN

    Definicin: el grado en el cual dos variables continuas estn relacionadas de manera linear, y la medicin de intesidad de dicha relacin.

    Correlacin Positiva mientras una variable aumenta, la otra variable tambin aumenta (Pendiente positiva)

    Correlacin Negativa mientras una variable aumenta, la otra disminuye (Pendiente negativa)

  • No correlation (quadratic)

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    0 2 4 6 8 10

    No correlation

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    0 2 4 6 8 10 12

    Negative correlation

    0

    2

    4

    6

    8

    10

    12

    0 2 4 6 8 10 12

    Positive correlation

    0

    2

    4

    6

    8

    10

    12

    0 2 4 6 8 10 12

  • CORRELACIN

    Hay dos medidas que se usan para describir la correlacin:

    El coeficiente de correlacin: r (estadstico) , (parametro).

    El coeficiente de determinacin.

    Rangos de la Correlacin (r) van desde -1 (correlacin negativa perfecta) hasta +1 (correlacin positiva perfecta)

    Una correlacin de 0 significa que no hay una relacin linear entre las dos variables

    Una correlacin perfecta quiere decir que conociendo una variable podemos conocer de manera perfecta la otra variable

  • Por ejemplo, si se quiere conocer la relacin entre los datos de talla y peso de 30 individuos que se

    presentan a continuacin:

    Los datos pueden ser representados en un diagrama de dispersin, en el cual cada individuo es un punto

    que se ubica en el espacio segn los valores de sus

    variables talla (X) y peso (Y).

    Talla

    (cm) 162 154 180 158 171 169 166 176 163 ...X30

    Peso

    (kg) 61 60 78 62 60 60 54 84 68 ...Y30

    30

    40

    50

    60

    70

    80

    90

    100

    140 150 160 170 180 190 200

    TALLA

    PE

    SO

  • Con este diagrama se puede suponer, por observacin, que existe una relacin directa

    entre ambas variables. Sin embargo, se

    requiere de un anlisis de correlacin para comprobar y validar la suposicin.

  • CORRELACIN DE PEARSON

    El coeficiente de correlacin lineal de Pearson indica si los puntos en el diagrama tienen una tendencia a

    disponerse alineadamente (relacin lineal).

    Siendo este el caso, indica tambin el grado de relacin y el sentido (relacin directa o inversa). Este

    coeficiente se halla con la siguiente frmula:

  • Cuando se aplica a un conjunto de datos es recomendable ordenar la informacin de la

    siguiente forma e incluyendo los siguientes clculos:

    De esta forma, se obtienen ordenadamente los datos que se requieren para hallar el coeficiente de

    correlacin de Pearson (r).

    # de

    observacin Talla (cm) Peso (kg)

    X2 Y2 XY

    1 162 61 26244 3721 9882 2 154 60 23716 3600 9240

    ...n Xn Yn Xn2 Yn

    2 (Xn )(Yn) TOTAL X Y X2 Y2 XY

    Talla (cm) 162 154 180 158 171 169 166 176 163 ...X30

    Peso (kg) 61 60 78 62 60 60 54 84 68 ...Y30

  • INTERPRETACIN DEL

    COEFICIENTE DE CORRELACIN

    El valor del coeficiente de correlacin (r) va a indicar el sentido y la intensidad de la relacin entre

    variables (X e Y).

  • A) SENTIDO

  • El valor del coeficiente r es positivo, se cumple que:

    A los valores de X mayores que la media le corresponden valores de Y tambin mayores que la media.

    A los valores de X menores que la media le corresponden valores de Y tambin menores que la media.

    RELACIN DIRECTA

  • RELACIN INVERSA

    El valor del coeficiente r es negativo, se cumple que:

    A los valores de X mayores que la media le corresponden valores de Y menores que la media.

    A los valores de X menores que la media le corresponden valores de Y mayores que la media.

  • B) INTENSIDAD

  • CORRELACIN POSITIVA PERFECTA

    r= +1

    CORRELACIN POSITIVA INTENSA

    0.5 < r < 1

  • CORRELACIN POSITIVA MODERADA

    r = 0.5

    CORRELACIN POSITIVA DBIL

    0 < r < 0.5

  • CORRELACIN NEGATIVA PERFECTA

    r= -1

    CORRELACIN NEGATIVA INTENSA

    r= -1 < r < -0.5

  • CORRELACIN NEGATIVA MODERADA

    r= -0.5

    CORRELACIN NEGATIVA DBIL

    r = -0.4

    r= -0.5 < r < 0

  • Coeficiente de Correlacin de Pearson

    -1 0 0,5 0,9 1 -0,9 -0,5

    Perfecta

    Negativa

    Perfecta

    Positiva

    Fuerte

    Negativa

    Dbil

    Negativa

    Dbil

    Positiva

    Moderada

    Positiva

    Fuerte

    Positiva

    Moderada

    Negativa

    No existe correlacin

  • INCORRELACIN

    En el caso de que el coeficiente de correlacin sea cero (r=0) NO EXISTE RELACIN ENTRE

    VARIABLES.

    Es decir, para valores de X por encima de la media se tienen valores de Y por encima y por debajo en

    proporciones similares.

  • PROPIEDADES DEL

    COEFICIENTE DE RELACIN

    Es adimensional

    Slo toma valores en [ -1,1]

    Si r=0 las variables son incorrelacionadas

    Relacin lineal perfecta entre dos variables r=+1 o r=-1.

    Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.

  • SIGNIFICANCIA ESTADSTICA:

    PRUEBA DE HIPTESIS El valor del coeficiente de correlacin (r) determina si existe

    una relacin lineal entre las variables, sin embargo, no indica

    si esta relacin es estadsticamente significativa .

    Para ello se aplica la prueba de hiptesis del parmetro r (rho).

    La hiptesis nula (Ho) establece que no existe una relacin, es decir, que el coeficiente de correlacin (r) es igual a 0.

    La hiptesis alterna (H1) propone que s existe una relacin significativa por lo que r debe ser diferente a 0.

    Ho: r = 0

    H1: r 0

    Bilateral

  • El estadstico de prueba que revela si la hiptesis nula (Ho) es o no verdadera es el siguiente: (ver tabla

    T)

    ESTADSTICO DE PRUEBA

  • Se tienen 2 mtodos distintos para la medicin de la presin sistlica de 25 pacientes con hipertensin.

    Se puede establecer que existe una relacin lineal significativa entre ambos mtodos?

    EJEMPLO

    Paciente Mtodo I Mtodo II X2 Y2 XY

    1 132 130 17424 16900 17160

    2 138 134 19044 17956 18492

    3 144 132 20736 17424 19008

    4 146 140 21316 19600 20440

    ...25 220 202 48400 40804 44440

    TOTAL 4440 4172 808408 710952 757276

    X Y X2 Y2 XY

    4440 4172 808408 710952 757276

  • X Y X2 Y2 XY

    4440 4172 808408 710952 757276

    Primero se debe hallar el coeficiente de correlacin de Peason (r)

    r= 0.95

    El coeficiente de correlacin indica una relacin lineal directa intensa

    EJEMPLO

  • Teniendo un r= 0.95, se procede a plantear la prueba de hiptesis del parmetro r:

    Ho: r = 0

    H1: r 0

    El nivel de significancia no se indica, por lo tanto se considera que es 0.05.

    EJEMPLO

  • Para determinar si se rechaza o no la hiptesis nula (Ho), se compara el valor de tc con el valor hallado en la tabla (t n-2 )

    segn el nivel de significancia y el grado de libertad.

    tt = t n-2 t23 = 2.069

    tc = 14.59 vs. tt = 2.069

    Debido a que el valor de tc es mayor al valor hallado en la tabla (t 23 ) , se debe rechazar la hiptesis nula (Ho).

    Interpretacin: Hay evidencia de que existe una alta correlacin lineal positiva entre la respuesta al tratamiento

    medida con ambos mtodos para medir la presin sangunea,

    con un nivel de significacin de 0.05.

    DECISIN Y CONCLUSIN

  • REGRESIN

  • REGRESIN

    El anlisis de regresin es til para averiguar la forma probable de las relaciones entre las variables,

    y el objetivo final, cuando se emplea este mtodo de

    anlisis, es predecir o estimar el valor de una

    variable que corresponde al valor dado de otra

    variable.

  • VARIABLES X E Y

    X= variable independiente, bajo el control del investigador.

    Los valores de X son seleccionados previamente por el investigador, de modo que en la recoleccin de datos estos no

    pueden variar.

    Y= variable dependiente.

    Se habla de regresin de Y sobre X.

  • ECUACIN DE REGRESIN

    Lo que el investigador desea es encontrar una lnea que pueda predecir lo que le sucede a Y con cada cambio de X.

    Esta ecuacin describe la relacin real entre las variables X e Y.

    Como es una relacin lineal, dicha ecuacin ser la ecuacin de una recta:

    Y= a +bX

    La informacin tiene que ser presentada con un diagrama de dispersin.

  • Estudio de la relacin funcional entre dos variables.

    Establecer una relacin cuantitativa entre dos o ms variables relacionadas.

    Se trata de PREDECIR y/o EXPLICAR el valor de una variable (v. Dependiente), dado el valor de otra(s) variable(s) relacionada(s) (v. Independiente(s)).

    Las variables X e Y deben ser de naturaleza cuantitativa y de preferencia continua.

    OBJETIVO DEL ANLISIS DE

    REGRESIN

  • Es una tcnica estadstica que permite determinar la mejor ecuacin que represente la relacin entre dos variables relacionadas.

    REGRESIN LINEAL SIMPLE

  • Para poder hallar la relacin cuantitativa entre las variables, mediante la regresin lineal, se debe ajustar una lnea entre

    los puntos observados.

    Luego, ser posible usar la lnea para predecir el valor de Y (variable dependiente) a partir de un valor conocido de X (la

    variable independiente).

    En toda regresin l ineal:

    Para cada valor de X hay una subpoblacin de valores Y.

    Cada subpoblacin de los valores de Y tiene distribucin normal.

    REGRESIN LINEAL SIMPLE

  • Variable

    Dependiente

    Variable

    Independiente

    Todos los puntos no estn exactamente

    sobre una lnea recta

    X

    o

    o

    o

    o

    o o

    o o

    o Y

    En una ecuacin como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le l lama variable independiente.

    Y = a + b X

    La ecuacin general Y = a + bX se l lama ecuacin de regresin y permite estimar o predecir los valores de Y.

    ECUACIONES LINEALES

    SIMPLES

  • Si se tienen dos variables, como X e Y, que estn relacionadas, se puede expresar de la siguiente manera:

    Y = 3 + 1,5X ( Y= a +bX )

    Al conocer la ecuacin se puede:

    a) Calcular el valor de Y para cualquier valor dado de X.

    b) Conocer el cambio en Y, cuando X vara en 1.

    ECUACIONES LINEALES

    SIMPLES

  • Valor Valor Cambio

    dado de X calculado de Y de Y

    1 4,5 -

    2 6,0 1,5

    3 7,5 1,5

    4 9,0 1,5

    5 10,5 1,5

    Por ejemplo: Y = 3 + 1,5X

  • 12 11 10 9 8 7 6 5 4 3 2 1

    1 2 3 4 5

    Y

    .

    X

    . . .

    .

    (1,4.5)

    (4,9)

    (3,7.5)

    (2,6)

    (5,10.5)

    X 1 2 3 4 5

    Y 4 , 5 6 , 0 7 , 5 9 , 0 1 0 , 5

    GRFICA DE LA ECUACIN

    Ejemplo: Y = 3 + 1,5X

    Los cinco pares de valores se diagraman de

    la forma siguiente.

  • El aumento en Y, cuando X vara en una unidad, est dado por el coeficiente de X.

    Ejemplo:

    En Y = 10 + 2X

    cuando X aumenta en 1, Y aumenta en 2

    En Y = 5 - 0,8X

    cuando X aumenta en 1, Y disminuye en 0,8

    ECUACIONES LINEALES

    SIMPLES

  • X

    o

    o

    o

    o

    o

    o

    o

    o

    o Y

    Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables

    estn directamente relacionadas. Se observa el

    signo +.

    Ejemplo:

    Y = 30 + 5X

    TIPOS DE RELACIONES

  • o

    o

    o

    o

    o

    o

    o

    o

    X

    Y

    Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o

    viceversa), las variables estn inversamente

    relacionadas. Se observa en la ecuacin el signo -.

    Ejemplo:

    Y = 20 - 3X

    TIPOS DE RELACIONES

  • . b0 = 3

    Y

    X

    FORMA GENERAL

    La ecuacin simple de primer grado tiene la siguiente forma general

    Y = a + b X

    Donde:

    b: pendiente, o sea, el cambio en Y cuando X = 1.

    a: el valor autnomo intercepto, es decir, Y = a cuando X =

    0. En la grfica es la interseccin con el eje Y.

    Ejemplo:

    Y = 3 + 1.5X

  • Los valores constantes de la ecuacin son a y b . El primer paso para determinar la ecuacin es hallar la

    pendiente b con la frmula:

    Conociendo b es posible hallar el valor del intercepto a con la ecuacin:

    Sin embargo, an con la ecuacin, como todos los puntos no estn exactamente sobre una lnea recta, se cometen errores en el ajuste.

    PASOS

  • # de

    observacin

    X Y X2 Y2 XY

    1 X1 Y1 X12 Y1

    2 (X1 )(Y1)

    2 X2 Y2 X22 Y2

    2 (X2 )(Y2)

    ...n Xn Yn Xn2 Yn

    2 (Xn )(Yn)

    TOTAL X Y X2 Y2 XY

    Debido a la complejidad de la frmula para hallar b y a, es recomendable ordenar los datos observados y

    los respectivos clculos en un cuadro igual al

    propuesto en el anlisis de correlacin:

    PASOS

  • Tiempo

    de sueo

    (horas)

    4 6 5 9 8 7 13 11 9

    Dosis

    (mM/ kg) 3 3 3 10 10 10 15 15 15

    EJEMPLO

    Una compaa farmacutica conduce un estudio piloto para evaluar la relacin entre tres dosis en un

    nuevo agente hipntico y tiempo de sueo. Los

    resultados de este estudio son presentados de la

    siguiente manera.

  • 02

    4

    6

    8

    10

    12

    14

    16

    0 2 4 6 8 10 12 14

    Dosis (mM/ kg)

    SOLUCIN

    El diagrama de dispersin que se construye a partir de estos datos es el siguiente:

  • Segn el diagrama de dispersin, se espera una relacin positiva o directa entre ambas variables. Se puede aplicar el

    modelo de regresin para ajustar los puntos y establecer una

    relacin lineal que permita conocer la relacin cuantitativa

    entre ambas variables.

    Modelo de regresin y = a + b x

    EJEMPLO

  • Esta organizacin de los datos facilita la estimacin

    de la recta de regresin, debido a que proporciona

    todos los datos requeridos para hallar b y a.

    Sujeto Dosis Tiempo

    de

    sueo

    X2 Y2 XY

    1 3 4 9 16 12

    2 3 6 9 36 18

    3 3 5 9 25 15

    4 10 9 100 81 90

    5 10 8 100 64 80

    6 10 7 100 49 70

    7 15 13 225 169 195

    8 15 11 225 121 165

    9 15 9 225 81 135

    TOTAL 84 72 1002 642 780

  • Conociendo los valores de b y a , se tiene el modelo de regresin estimado que sera:

    Y = 3.33 + 0.5X

    Interpretacin:

    Por cada incremento de dosis del agente hipntico, el tiempo de sueo

    promedio aumenta en 0.5 puntos.

    X Y X2 Y2 XY

    84 72 1002 642 780

  • COEFICIENTE DE

    DETERMINACIN

  • Es una medicin que nos permite determinar la certeza de las predicciones hechas usando la recta de regresion.

    Mide la proporcin de la variabilidad en la variable dependiente que es explicada por el modelo de la recta de

    regression a traves de la variable independiente.

    Es obtenido al elevar al cuadrado el valor del Coeficiente de correlacin de Pearson.

    COEFICIENTE DE

    DETERMINACIN

    = ( r )2 R2

  • Tener en cuenta que: 0 R2 1.

    Donde: Valores de R2 cercanos a 1 implicaran que el modelo explica

    la mayor parte de la variacin en la variable dependiente y que podra ser un modelo muy til.

    Valores de R2 cercanos a 0 implicaran que el modelo explica poco sobre la variacin de la variable dependiente y que no podra ser un modelo til.

    Cuanto mayor sea R2, ms cerca estn todos los puntos a la recta.

    COEFICIENTE DE

    DETERMINACIN

  • EJEMPLO

    Si: r = 0.95, cul sera el Coeficiente de Determinacin?

    R2 = 0.9025

    Interpretacin: 90% de las variaciones Y, pueden explicarse por X.

  • CORRELACIN NO IMPLICA

    CAUSALIDAD

  • Diagrama de Dispersin. Utilidad e interpretacin.

    Correlacin.

    Coeficiente de correlacin de Pearson. Como calcularlo. Interpretacin de Sentido e Intensidad.

    Regresin.

    Ecuacin de regresin lineal. Como calcular la pendiente y el intercepto. Interpretacin.

    Coeficiente de Determinacin.

    Como calcularlo. Interpretacin.

    RESUMEN DE LA CLASE

  • Aqu es donde nuestros caminos se bifurcanpor ahora

    GRACIAS POR SU ATENCIN!

    XITOS EN SUS CARRERAS!