estadistica 01

11
Capítulo 5 Análisis de regresión INTRODUCCIÓN OBJETIVO DE LA REGRESIÓN Determinar una función matemática sencilla que describa el comportamiento de una variable dados los valores de otra u otras variables. DIAGRAMA DE DISPERSIÓN Figura1 Figura1: Diagrama de dispersión que relaciona la variable longitud  ( y)  con una variable altura  (x)  de la concha Patelloida Pygmatea 47

Transcript of estadistica 01

  • Captulo 5

    Anlisis de regresin

    INTRODUCCIN

    OBJETIVO DE LA REGRESIN

    Determinar una funcin matemtica sencillaque describa el comportamiento de una variabledados los valores de otra u otras variables.

    DIAGRAMA DE DISPERSIN

    Figura1

    Figura1: Diagrama de dispersin que relaciona la variable longitud (y) con unavariable altura (x) de la concha Patelloida Pygmatea

    47

  • 48 Anlisis de regresin

    Investigador

    Especificacin de la forma funcional de la funcin de regresin

    REGRESIN LINEAL SIMPLE

    Suponemos un modelo en la forma

    yi = 0 + 1xi + i ; i = 1, . . . , n

    yi : v.a. que representa la observacin isima de la variable respuesta,correspondiente al isimo valor xi de la variable predictiva X

    i : Error aleatorio no observable asociado a yi .

    EJEMPLOS DE MODELOS DE REGRESIN SIMPLE

    1) El consumo de gasolina de un vehculo, cuya variacin puede ser explicadapor la velocidad media del mismo. Podemos incluir en el trmino del erroraleatorio el efecto del conductor, del tipo de carretera, las condicionesambientales, etc.

    2) El presupuesto de una universidad, cuya variacin puede ser predicha porla variable explicativa nmero de alumnos. En el trmino del error aleatoriopueden incluirse el efecto del nmero de profesores, del nmero de labora-torios, de la superficie disponible de instalaciones, del nmero de personalde administracin, etc.

  • Anlisis de regresin 49

    ESTIMACIN POR MNIMOS CUADRADOS

    b1 = b1 = Cov(x, y)S2x ; b0 = b0 = y b1xRECTA DE REGRESIN ESTIMADA

    byi = b0 + b1xi o byi = y + b1(xi x) b1 : la variacin que se produce en by por cada unidad de incremento en x

    COEFICIENTE DE CORRELACIN LINEAL

    Es una medida de la asociacin lineal de las variables x e y

    r =Cov(x, y)SxSy

    , 1 r 1

    Si r = 1 relacin lineal negativa perfecta entre x e y

    Si r = 1 asociacin lineal positiva perfecta entre x e y

    Si r = 0 no existe ninguna relacin lineal entre x e y

  • 50 Anlisis de regresin

    ANLISIS DE LA VARIANZA

    Si byi son estimadores de yi

    yi y = (yi byi) + (byi y)ECUACIN BSICA DEL NLISIS DE LA VARIANZA

    X(yi y)2 =

    X(yi byi)2 +X (byi y)2

    SCT = SCE + SCReg

    SCT : Suma de cuadrados totalSCE : Suma de cuadrados residualSCReg : Suma de cuadrados de la regresin

    Tabla ANOVAFuentes de Sumas de Cuadrados Grados de Cuadrados FVariacin libertad medios

    Regresin SCReg =P(byi y)2 1 MCReg MCRegMCE

    Error SCE =P(yi byi)2 n 2 MCE = SCEn 2

    Total SCT =P(yi y)2 n 1

    SCTn 1

  • Anlisis de regresin 51

    COEFICIENTE DE DETERMINACIN

    Estadstico que representa la proporcin de variacinexplicada por la regresin

    Es una medida relativa del grado de asociacin lineal entre x e y

    R2 =SCRegSCT

    = 1 SCESCT

    ; 0 R2 1

    Si R2 = 0 SCReg = 0 El modelo no explica nada de y a partir de x.

    Si R2 = 1 SCReg = SCT Ajuste perfecto: y depende funcionalmentede x .

    F Un valor de R2 cercano a 0 Baja capacidad explicativa de la recta.

    F Un valor de R2 prximo a 1 Alta capacidad explicativa de la recta.

    EL CONTRASTE DE REGRESIN

    H0 : 1 = 0H1 : 1 6= 0

    Fijado un nivel de significacin , se rechaza H0 si Fexp > F,1,n2

  • 52 Anlisis de regresin

    EJEMPLO

    La Patelloida Pygmatea es una lapa pegada a las rocas y conchas a lo largo delas costas protegidas en el rea Indo-Pacfica. Se realiza un experimento paraestudiar la influencia de la altura (x) de la Patelloida Pygmatea en su longitud(y ) medidas ambas en milmetros. Se tienen los siguientes datos:

    x y x y x y x y0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.81.5 3.6 1.9 5.3 2.1 5.7 2.3 6.21.6 4.3 1.9 5.7 2.1 5.8 2.3 6.31.7 4.7 2.0 4.4 2.2 5.2 2.3 6.41.7 5.5 2.0 5.2 2.2 5.3 2.4 6.41.8 5.7 2.0 5.3 2.2 5.6 2.4 6.31.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3

    SOLUCIN

    Figura1

    Figura1: Diagrama de dispersin que relaciona la variable longitud (y) con unavariable altura (x) de la concha Patelloida Pygmatea

  • Anlisis de regresin 53

    Recta de regresin estimada

    by = 1.36 + 1.99 xCoeficiente de correlacin lineal

    r = 0.8636

    Coeficiente de determinacin

    r2 = R2 = 0.74

    El 74% de la variabilidad de y puede atribuirse a una relacin lineal con x

    Contraste de regresin

    H0 : 1 = 0H1 : 1 6= 0

    A un nivel de significacin del 5%,

    Fexp = 76.42 > F,1,n2 = F0.05;1.26 = 4.23

    Ntese adems que el valor p < .

    Rechazamos la hiptesis nula de no linealidad del modelo

  • 54 Anlisis de regresin

    REGRESIN LINEAL MLTIPLE

    La v.a. y se relaciona con k variables explicativas x1, . . . , xk

    y = 0 + 1x1 + 2x2 + . . .+ kxk +

    Los parmetros 0, 1, . . . , k son estimados por mnimos cuadrados.

    Para n observaciones podemos escribir:

    y1 = 0 + 1x11 + 2x12 + . . .+ kx1k + 1... ... ... ... ... ...yn = 0 + 1xn1 + 2xn2 + . . .+ kxnk + n

    En notacin matricial

    Y = X +

    donde

    X =

    1 x11 . . . x1k1 x21 . . . x2k1

    ... ... ...

    1 xn1... xnk

    ; =

    0...k

    y

    =

    1...n

    ; Y =

    y1...yn

  • Anlisis de regresin 55

    El vector de coeficientes es estimado por mnimos cuadrados por:

    B = (X tX)1XtY

    La ecuacin ajustada de regresin resultante es:

    bY = XBANLISIS DE LA VARIANZA

    yi y = (yi byi) + (byi y)ECUACIN BSICA DEL NLISIS DE LA VARIANZA

    X(yi y)2 =

    X(yi byi)2 +X (byi y)2

    SCT = SCE + SCReg

    SCT : Suma de cuadrados totalSCE : Suma de cuadrados residualSCReg : Suma de cuadrados de la regresin

    Tabla ANOVAFuentes de Sumas de Grados de Cuadrados FexpVariacin Cuadrados libertad Medios

    Regresin BtXtY t 1n(P

    yi)2 k CMReg =

    SCRegk

    CMRegCME

    Error Y tY BtX tY n k 1 CME = SCEn k 1

    Total Y tY 1n(P

    yi)2 n 1

  • 56 Anlisis de regresin

    COEFICIENTE DE DETERMINACIN MLTIPLE

    R2 =SCRegSCT

    = 1 SCESCT

    ; 0 R2 1.

    Representa la proporcin de variacin de y explicada por la regresin

    Si R2 = 0 SCReg = 0 El modelo no explica nada de la variacinde y a partir de su relacin lineal con x1, . . . , xk .

    Si R2 = 1 SCReg = SCT Toda la variacin de y es explicada porlos trminos presentes en el modelo.

    F Un valor de R2 cercano a 1 Mayor cantidad de variacin total es expli-cada por el modelo de regresin.

    COEFICIENTE DE DETERMINACIN CORREGIDO

    R2= 1

    Xe2i

    n k 1X(yi y)2

    n 1

    ei = yi byi

  • Anlisis de regresin 57

    EL CONTRASTE DE REGRESIN

    H0 : 1 = 2 = . . . = k = 0H1 : j 6= 0 para algn j = 1, . . . , k

    Fijado un nivel de significacin , se rechaza H0 si Fexp > F,k,nk1

    Bibliografa utilizada:

    F Canavos, George C. (1988). "Probabilidad y Estadstica. Aplicaciones y Mtodos".Ed.: Mc Graw Hill.

    F Lara Porras A.M. (2002). "Estadstica para Ciencias Biolgicas y Ciencias Ambien-tales. Problemas y Exmenes Resueltos". Ed.: Proyecto Sur.

    F Milton, Susan (2002). "Estadstica para Biologa y Ciencias de la Salud". Ed.: McGraw-Hill.

    F Pea, Daniel (2002). Regresin y diseo de experimentos". Ed.:Alianza Editorial.

    Temporalizacin: Dos horas