MUESTRAS VIVARIADAS

6
PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL Ing. Luis Rodríguez Ojeda, MSC. 1.12 MUESTRAS BIVARIADAS Es común tener que estudiar muestras con datos que miden dos características, siendo de interés determinar si hay alguna relación entre ellas. Para visualizar la relación entre las variables de una muestra bivariada, es útil graficar los datos en una representación que se denomina Diagrama de Dispersión. Introducimos este importante concepto mediante un ejemplo Ejemplo 2.1 Se tiene una muestra con las calificaciones de 10 estudiantes de sus exámenes parcial y final. Examen Parcial 60 74 66 34 60 66 57 71 39 57 Examen Final 72 82 75 46 73 74 70 82 60 61 Dibuje el Diagrama de Dispersión. Sean X: Calificación del primer parcial (variable independiente) Y: Calificación del examen final (variable dependiente) Se observa que los datos están relacionados con una tendencia lineal con pendiente positiva En la siguiente sección se definen los instrumentos matemáticos para cuantificar el nivel y el tipo de correlación. X Y

description

ss

Transcript of MUESTRAS VIVARIADAS

  • PROBABILIDAD Y ESTADSTICA BSICA PARA INGENIEROS ICM ESPOL

    Ing. Luis Rodrguez Ojeda, MSC.

    1.12 MUESTRAS BIVARIADAS Es comn tener que estudiar muestras con datos que miden dos caractersticas, siendo de inters determinar si hay alguna relacin entre ellas. Para visualizar la relacin entre las variables de una muestra bivariada, es til graficar los datos en una representacin que se denomina Diagrama de Dispersin. Introducimos este importante concepto mediante un ejemplo Ejemplo 2.1 Se tiene una muestra con las calificaciones de 10 estudiantes de sus exmenes parcial y final.

    Examen Parcial 60 74 66 34 60 66 57 71 39 57

    Examen Final 72 82 75 46 73 74 70 82 60 61

    Dibuje el Diagrama de Dispersin. Sean X: Calificacin del primer parcial (variable independiente) Y: Calificacin del examen final (variable dependiente)

    Se observa que los datos estn relacionados con una tendencia lineal con pendiente positiva

    En la siguiente seccin se definen los instrumentos matemticos para cuantificar el nivel y el tipo de correlacin.

    X

    Y

  • PROBABILIDAD Y ESTADSTICA BSICA PARA INGENIEROS ICM ESPOL

    Ing. Luis Rodrguez Ojeda, MSC.

    1.12.1 CORRELACIN Se usa el trmino correlacin para describir la relacin entre los datos de muestras bivariadas.

    Los siguientes grficos son casos tpicos para observar la correlacin entre dos variables:

    Se puede decir que los datos en el Ejemplo 2.1 tienen correlacin lineal positiva 1.12.2 COVARIANZA MUESTRAL Esta definicin permite cuantificar el nivel de correlacin lineal que existe entre dos variables. Primero anotamos algunas definiciones conocidas para muestras univariadas: Sean X, Y: Variables muestrales n: Tamao de la muestra X, Y : Medias aritmticas de X, Y, respectivamente 2XS ,

    2YS : Varianzas muestrales de X, Y, respectivamente

    2 2X X Y YS S , S S= = : Desviaciones estndar muestrales de X, Y respectivamente Medias aritmticas muestrales

    n

    ii 1

    1X Xn =

    = , n ii 1

    1Y Yn =

    = Varianzas muestrales

    n

    2 2X i

    i 1

    1S (x x)n 1 =

    = , n

    2 2Y i

    i 1

    1S (y y)n 1 =

    =

    Ahora se proporciona una definicin de variablidad conjunta para muestras con dos variables. Note que si la variable X es igual a Y, esta frmula se reduce a la frmula de varianza:

    Definicin: Covarianza muestral SXY: Covarianza muestral

    n

    XY i ii 1

    1S (x x)(y y)n 1 =

    =

  • PROBABILIDAD Y ESTADSTICA BSICA PARA INGENIEROS ICM ESPOL

    Ing. Luis Rodrguez Ojeda, MSC.

    1.12.3 SIGNOS DE LA COVARIANZA MUESTRAL

    La covarianza es una medida del nivel de correlacin entre las variables muestrales X, Y. La covarianza tiene significado si la relacin entre las variables es lineal.

    Si valores grandes de X estn asociados con valores grandes de Y, y si valores pequeos de X estn asociados con valores pequeos de Y entonces la covarianza tiene signo positivo. En este caso los datos tienen una tendencia lineal con pendiente positiva. Si valores grandes de X estn asociados con valores pequeos de Y, y si valores pequeos de X estn asociados con valores grandes de Y entonces la covarianza tiene signo negativo. En este caso los datos tienen una tendencia lineal con pendiente negativa Para entender este comportamiento debemos referirnos a la definicin de covarianza:

    n

    XY i ii 1

    1S (x x)(y y)n 1 =

    = Si en las parejas xi, yi ambos valores son mayores que su media o ambos valores son menores que su media respectiva, entonces el producto de las diferencias i i(x x)(y y) tendr signo positivo, y la suma tendr signo positivo. Pero si en las parejas xi, yi, un valor es mayor que su media y el otro valor es menor que su media, entonces el producto de las diferencias

    i i(x x)(y y) tendr signo negativo y por lo tanto la suma tendr signo negativo.

    Es importante que se mida la correlacin entre variables cuya asociacin tenga algn significado de inters. Asimismo, si las variables no estn correlacionadas linealmente, pudiera ser que tengan algn otro tipo de correlacin, pero no lineal

    Es necesario distinguir entre correlacin y causalidad. Si dos variables estn correlacionadas, esto no implica necesariamente que una sea causa de la otra pues ambas pueden depender de una tercera variable. An en el caso de que la correlacin represente una causalidad, la estadstica solamente permite detectarla y medirla, pero no demostrarla pues esto cae en el mbito de la ciencia en la que se aplica la estadstica 1.12.4 COEFICIENTE DE CORRELACION LINEAL MUESTRAL Es una definicin para cuantificar el grado de correlacin lineal entre dos variables en forma adimensional y normalizada. Definicin: Coeficiente de Correlacin Lineal

    XYX Y

    SrS S

    = , -1 r 1 Valores referenciales

    Valor de r X y Y Cercano a 1 Tienen correlacin lineal positiva fuerte Cercano a -1 Tienen correlacin lineal negativa fuerte Cercano a 0 Tienen correlacin lineal muy dbil o no estn correlacionadas linealmente. El valor que puede tomar r, matemticamente representa la pendiente de la tendencia de los puntos en el Diagrama de Dispersin. Consideremos el caso en el que X, Y son variables con componentes idnticos, tales que: X = Y

  • PROBABILIDAD Y ESTADSTICA BSICA PARA INGENIEROS ICM ESPOL

    Ing. Luis Rodrguez Ojeda, MSC.

    n n

    2 2XY i i i XX X

    i 1 i 1

    1 1S (x x)(y y) (x x) S Sn 1 n 1= =

    = = = =

    2XY XX X

    2X Y X X X

    S S Sr 1S S S S S

    = = = = 1.12.5 MATRIZ DE VARIANZAS Y COVARIANZAS Es una matriz simtrica con la que se pueden representar ordenadamente las varianzas y las covarianzas entre las variables. Para definirla se puede usar la notacin:

    11 X XX X, S S= =

    22 X YX Y, S S= = Definicin: Matriz de Varianzas y Covarianzas

    1 1 2i j

    2 1 2

    2X X X

    X X 2X X X

    S SS

    S S

    =

    1.12.6 MATRIZ DE CORRELACION Es una representacin ordenada de los coeficientes de correlacin de cada variable con la otra variable y consigo misma. Para definirla se puede usar la notacin:

    11 X XX X, S S= =

    22 X YX Y, S S= = Coeficiente de Correlacin lineal entre Xi y Xj

    i j

    i j

    X Xij

    X X

    Sr

    S S=

    Definicin: Matriz de Correlacin

    1,1 1,2ij2,1 2,2

    r rr r r

    =

    Es una matriz simtrica. Los valores en la diagonal principal son iguales a 1 Las definiciones establecidas para la Matriz de Varianzas-Covarianzas y Matriz de Correlacin con dos variables, pueden extenderse directamente a ms variables

  • PROBABILIDAD Y ESTADSTICA BSICA PARA INGENIEROS ICM ESPOL

    Ing. Luis Rodrguez Ojeda, MSC.

    Ejemplo 2.2 Se tiene una muestra con las calificaciones de 10 estudiantes del primer parcial y del segundo parcial.

    Primer Parcial 60 74 66 34 60 66 57 71 39 57

    Segundo Parcial 72 82 75 46 73 74 70 82 60 61

    Encuentre el Coeficiente de Correlacin Lineal e interprete el resultado Solucin Sean: X: Calificacin del primer parcial Y: Calificacin del segundo parcial

    n

    ii 1

    1 1x x (60 74 66 34 60 66 57 71 39 57) 58.4n 10=

    = = + + + + + + + + + =

    n2 2 2 2 2X i

    i 1

    1 1s (x x) [(60 58.4) (74 58.4) ... (57 58.4) ] 166.4889n 1 9=

    = = + + + = 2x Xs s 166.4889 12.9031= = =

    n

    ii 1

    1 1y y (72 82 75 46 73 74 70 82 60 61) 69.5n 10=

    = = + + + + + + + + + =

    n2 2 2 2 2Y i

    i 1

    1 1s (y y) [(72 69.5) (82 69.5) ... (61 69.5) ] 121.8333n 1 9=

    = = + + + = 2Y Ys s 121.8333 11.0378= = =

    n

    XY i ii 1

    1S (x x)(y y)n 11 [(60 58.4)(72 69.5) (74 58.4)(82 69.5) ...9

    (57 58.4)(61 69.5)] 134.1111

    == = + +

    + =

    Coeficiente de Correlacin

    XYX Y

    S 134.1111r 0.9416S S (12.9031)(11.0378)

    = = = El resultado indica que la correlacin es fuertemente positiva

  • PROBABILIDAD Y ESTADSTICA BSICA PARA INGENIEROS ICM ESPOL

    Ing. Luis Rodrguez Ojeda, MSC.

    Escriba las matrices de Varianzas-Covarianzas y de Correlacin. Sean

    11 X XX X, S S= =

    22 X YX Y, S S= = Matriz de Varianzas-Covarianzas

    1 1 2i j

    2 1 2

    2X X X

    X X 2X X X

    S S 166.4889 134.1111S

    134.1111 121.8333S S

    = =

    Matriz de Correlacin Con la definicin:

    i j

    i j

    X Xij

    X X

    Sr

    S S=

    Sustituyendo los valores calculados respectivos se obtiene

    1,1 1,2ij

    2,1 2,2

    r r 1 0.9416r r r 0.9416 1

    = =