Variables bidimensionales: regresión y...

28
Variables bidimensionales: regresión y correlación Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 1 VARIABLES ESTADÍSTICAS BIDIMENSIONALES 1. Introducción.............................................................. 2 2. Distribuciones marginales........................................ 4 3. Momentos.................................................................. 7 3.1 Momentos respecto al origen................... 7 3.2 Momentos respecto a la media................. 8 4. Matriz de covarianzas.............................................. 9 5. Conceptos de ajuste y regresión.............................12 6. El método de los mínimos cuadrados....................13 6.1 Regresión lineal........................................13 6.2 Regresión parabólica...............................19 6.3 Regresión polinomica...............................20 7. Análisis de la correlación........................................20 7.1 La varianza residual.................................21 7.2 Coeficiente de correlación lineal.............22 ANEXO: El método de los mínimos cuadrados en forma matricial….26

Transcript of Variables bidimensionales: regresión y...

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 1

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

1. Introducción.............................................................. 2

2. Distribuciones marginales........................................ 4

3. Momentos.................................................................. 7

3.1 Momentos respecto al origen................... 7

3.2 Momentos respecto a la media................. 8

4. Matriz de covarianzas.............................................. 9

5. Conceptos de ajuste y regresión.............................12

6. El método de los mínimos cuadrados....................13

6.1 Regresión lineal........................................13

6.2 Regresión parabólica...............................19

6.3 Regresión polinomica...............................20

7. Análisis de la correlación........................................20

7.1 La varianza residual.................................21

7.2 Coeficiente de correlación lineal.............22

ANEXO:

El método de los mínimos cuadrados en forma matricial….26

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 2

VARIABLES ESTADÍSTICAS BIDIMENSIONALES

1. INTRODUCCIÓN

Hasta ahora hemos estudiado una sola característica de cada población. Si esa

característica era cuantitativa a cada individuo le hacíamos corresponder un número y

obteníamos las variables estadísticas unidimensionales.

Ahora vamos a estudiar conjuntamente dos características de una población.

Los dos caracteres observados no tienen porqué ser de la misma clase. Así, se nos

puede presentar:

- Dos caracteres cualitativos.

Ej.: El sexo y el color del pelo de una persona.

- Uno cualitativo y otro cuantitativo.

Ej.: La profesión y los años de servicio.

- Dos caracteres cuantitativos.

Ej.: El peso y la edad de una persona.

A cada individuo le vamos a hacer corresponder dos números y así obtenemos las

variables estadísticas bidimensionales.

Si llamamos E a la población, una variable estadística bidimensional es una

aplicación de E --->R2 .

A los caracteres les vamos a llamar x e y, cada uno de ellos presentará varias

modalidades e respectivamente.

Las parejas de valores, así obtenidas por observación conjunta, pueden representar

valores discretos, continuos de distinto tipo y podrán también repetirse un número

determinado de veces, dando lugar de esta forma a los conceptos de frecuencia absoluta

conjunta, paralelos a los ya estudiados para variables estadísticas unidimensionales.

x xr1,....., y ys1,.....,

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 3

Se acostumbra a disponer los resultados en una tabla de doble entrada, donde en la

primera columna se colocan los valores de la variable "x" y en la primera fila los

valores de la variable "y". En la confluencia de la fila de xi con la columna yj se

coloca la frecuencia conjunta nij referida al resultado (xi,yj) correspondiente, es decir, nij es el

número de individuos que poseen conjuntamente las modalidades xi e yj , y que llamaremos

frecuencia absoluta conjunta del par (xi,yj).

Notaremos por la frecuencia relativa correspondiente al par , que vendrá

dada por la expresión ijij

nf

n , siendo n el número total de pares observados.

Por consiguiente, definimos distribución de frecuencias como el conjunto de valores

que toma la variable bidimensional con sus respectivas frecuencias absolutas o relativas. Esta

distribución se representa mediante la siguiente tabla:

y1 y

2 .......... yj .......... ys

x1

n11

n12

.......... n1j

.......... n1s

n1.

x2

n21

n22

.......... n2j

.......... n2s

n2.

... ... ... ... ... ... ... ...

xi ni1

ni2

.......... nij .......... nis ni.

... ... ... ... ... ... ... ...

xr nr1

nr2

.......... nrj .......... nrs nr.

n.1

n.2

.......... n.j .......... n.s n

donde xi e yj son los valores de las variables x e y, o las marcas de clase si están agrupadas, y,

verificándose, r s r s

i. . j iji 1 j 1 i 1 j 1

n n n n

Análogamente, las frecuencias relativas:

s ri.

i. ij i.j 1 i 1

nf f ; f 1

n

x xr1,...,

y ys1,...,

fij ( , )x yi j

n n n ni ijj

s

j iji

r

. . ;

1 1

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 4

r s. j

. j ij . ji 1 j 1

nf f ; f 1

n

r sij

ij . ji=1 j 1

nf ; f 1

n

Las estadísticas de dos variables suelen representarse en un sistema de ejes

cartesianos, tomándose los valores de la variable "x" en el eje de abscisas y los de la variable

"y" en el de ordenadas y señalándose la confluencia en el plano con un punto. El conjunto de

puntos así obtenidos, en un número igual al de observaciones conjuntas efectuadas, recibe el

nombre de diagrama de dispersión o nube de puntos.

55

Diagrama de dispersión

x

y

xi

y

j

Como en un diagrama de dispersión no puede quedar reflejado las veces que se repite

un par o un intervalo, hemos de recurrir a una representación en tres dimensiones de (x,y).

Dos son para la variable bidimensional y una para expresar las frecuencias.

2. DISTRIBUCIONES MARGINALES

EJEMPLO 1:

Consideremos 150 alumnos a los que se les ha preguntado las calificaciones

obtenidas en Física y Matemáticas. Así se han obtenido pares de resultados (x=nota en

Física, y=nota en Matemáticas), cuya información recogemos en la siguiente tabla de

doble entrada:

Física\Matemáticas Suspenso Aprobado

Suspenso 65 15

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 5

Aprobado 10 60

Podemos responder a las siguientes preguntas: 1) ¿Cuántos alumnos han

aprobado Física? ¿Cuántos han suspendido? 2) ¿Cuántos alumnos han suspendido

Matemáticas? ¿Cuántos han aprobado?

Solucion:

Física\Matemáticas Suspenso Aprobado

Suspenso 65 15 80

Aprobado 10 60 70

75 75 150

Para la primera pregunta hemos de tener en cuenta solamente la variable x (Física).

x

Suspensos 80

Aprobados 70

n ni ijj

s

.

1

frecuencia marginal del valor xi

Distribución marginal de la variable "x" son los valores que toma dicha variable con

sus respectivas frecuencias.

x ni..

x1 n1.

x2 n2.

.... ....

xi ni.

.... ....

xr nr.

Para la segunda pregunta hemos de proceder de manera análoga para la variable "y".

y jy . jn n

Suspensos 75

Aprobados 75

n nx ii .

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 6

n nj iji

r

.

1

.frecuencia marginal del valor yj.

La tabla representada con la variable "y" con sus frecuencias marginales, recibe el

nombre de distribución marginal de la variable "y".

y n.j

y1 n.1

y2 n.2

.... ....

yj n.j

.... ....

ys n.s

A partir de las frecuencias absolutas marginales se obtienen las frecuencias relativas

marginales.

. ji.i. . j

nnf f

n n

Naturalmente, para cada una de las distribuciones marginales pueden hallarse las

medias, las varianzas, las desviaciones típicas y cualquier otra medida de las ya consideradas

para las estadísticas de una sola variable.

Medias marginales:

r r s s

i i. i i. j . j j . ji 1 i 1 j 1 j 1

1 1X x n x f ; Y y n y f

n n

El punto (X, Y) se llama centro de gravedad de la distribución bidimensional o

vector de medias.

Varianzas marginales:

r r2 2 2x i i. i i.

i 1 i 1

1(x X) n (x X) f

n

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 7

s s2 2 2y j . j j . j

j 1 j 1

1(y Y) n (y Y) f

n

por tanto, las desviaciones típicas marginales, serán:

r r2 2

x i i. i i.i 1 i 1

1(x X) n (x X) f

n

s s2 2

y j . j j . jj 1 j 1

1(y Y) n (y Y) f

n

Si en vez de dividir por n se divide por n-1 obtenemos las cuasivarianzas marginales

.

3. MOMENTOS

3.1. Momentos respecto al origen

r s

h kh,k i j ij

i 1 j 1

1m x y n

n

Algunos momentos particulares:

r s

1,0 i ij i i. i i.i 1 j 1 i i

1 1m x n x n x f X

n n

r s

0,1 j ij j . j j . ji 1 j 1 j j

1 1m y n y n y f Y

n n

r s

1,1 i j ij i j iji 1 j 1 i j

1m x y n x y f

n

r s

2 2 22,0 i ij i i. i i.

i 1 j 1 i i

1 1m x n x n x f

n N

r s

2 2 20,2 j ij j . j j . j

i 1 j 1 j j

1 1m y n y n y f

n n

Sx2 y Sy

2

m00 1

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 8

3.2. Momentos respecto a la media

r sh k

h,k i j iji 1 j 1

1(x X) (y Y) n

n

Casos particulares interesantes:

r s

1,0 i iji 1 j 1

1(x X) n X X 0

n

r s 22 2 2

2,0 i ij i i. x 2,0i 1 j 1 i

1 1(x X) n (x X) n m X

n n

r s 22 2 2

0,2 j ij j . j y 0,2i 1 j 1 j

1 1(y Y) n (y Y) n m Y

n n

r s

1,1 i j ij i j ij j ij i iji 1 j 1 i j i j i j

ij i j ij 1,1 xyi j i j

1 1 1 1(x X) (y Y) n x y n X y n Y x n

n n n n

1 1XY n x y n XY m XY

n n

xy recibe el nombre de covarianza, de gran importancia práctica, se define como la

media aritmética de los productos de las desviaciones de la variable x con respecto a su media

aritmética, , por las desviaciones de la variable y con respecto a la media aritmética, .

De la misma forma que en el caso de la varianza, se define la covarianza muestral por

r si j ij

xy xy xyi 1 j 1

(x X)(y Y)n nS siendo S

n 1 n 1

.

Cuando las variables x e y son independientes se cumple que la covarianza es nula, en cuyo

caso se dice que son incorreladas. El reciproco no es cierto.

Si la covarianza es distinta de cero, entonces las variables son dependientes.

0 0 1,

0 1 0, Y Y

X Y

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 9

4. MATRIZ DE COVARIANZAS

Llamamos matriz de covarianzas, a la matriz cuadrada simétrica que tiene en la

diagonal principal las varianzas marginales, y fuera de la diagonal principal las covarianzas,

es decir 2x xy

2yx y

S S

S S

; que es simétrica, pues xy yxS S . O bien

x xy

xy y

2

2

Se llama varianza generalizada al valor 2 2 2x y xyS S S 0 (semidefinida positiva) y

mide aproximadamente el área ocupado por el conjunto de datos.

EJEMPLO 2:

Las calificaciones obtenidas por 30 alumnos en los exámenes cuatrimestral (x) y

final (y) de Matemáticas fueron las siguientes:

x 0 0 1 2 1 3 4 9 2 5

y 2 0 0 5 3 6 8 10 3 7

x 6 1 3 5 0 6 4 4 6 4

y 9 1 6 9 1 9 8 6 10 7

x 3 2 7 2 8 4 6 6 6 7

y 5 4 10 4 9 4 8 10 5 8

Se pide: a) Formar una tabla de doble entrada sin agrupar los datos en intervalos. b)

Hallar las distribuciones marginales. Media y varianza de las mismas. c) Determinar la

covarianza .

Solución: a)

x\y 0 1 2 3 4 5 6 7 8 9 10 ni.

0 1 1 1 0 0 0 0 0 0 0 0 3

1 1 1 0 1 0 0 0 0 0 0 0 3

2 0 0 0 1 2 1 0 0 0 0 0 4

3 0 0 0 0 0 1 2 0 0 0 0 3

4 0 0 0 0 1 0 1 1 2 0 0 5

5 0 0 0 0 0 0 0 1 0 1 0 2

6 0 0 0 0 0 1 0 0 1 2 2 6

7 0 0 0 0 0 0 0 0 1 0 1 2

8 0 0 0 0 0 0 0 0 0 1 0 1

9 0 0 0 0 0 0 0 0 0 0 1 1

n.j 2 2 1 2 3 3 3 2 4 4 4 30

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 10

b) Distribuciones marginales

xi ni. xini. xi2 ni. yj n.j yjn.j yj2n.j

0 3 0 0 0 2 0 0

1 3 3 3 1 2 2 2

2 4 8 16 2 1 2 4

3 3 9 27 3 2 6 18

4 5 20 80 4 3 12 48

5 2 10 50 5 3 15 75

6 6 36 216 6 3 18 108

7 2 14 98 7 2 14 98

8 1 8 64 8 4 32 256

9 1 9 81 9 4 36 324

30 117 635 10 4 40 400

30 177 1333

Medias Marginales:

i i.i

1 117X x n

n 30 3.9

j . jj

1 177Y y n

n 30 5.9

Varianzas marginales:

22 2 2x i i.

i

1 635x n X 3.9

n 30 5.96

22 2 2y j . j

j

1 1333y n Y 5.9

n 30 9.62

c) Los calculos correspondientes se detallan en la tabla de doble entrada, añadiendo las dos

filas siguientes

x\y 0 1 2 3 4 5 6 7 8 9 10 ni.

0 1 1 1 0 0 0 0 0 0 0 0 3

1 1 1 0 1 0 0 0 0 0 0 0 3

2 0 0 0 1 2 1 0 0 0 0 0 4

3 0 0 0 0 0 1 2 0 0 0 0 3

4 0 0 0 0 1 0 1 1 2 0 0 5

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 11

5 0 0 0 0 0 0 0 1 0 1 0 2

6 0 0 0 0 0 1 0 0 1 2 2 6

7 0 0 0 0 0 0 0 0 1 0 1 2

8 0 0 0 0 0 0 0 0 0 1 0 1

9 0 0 0 0 0 0 0 0 0 0 1 1

n.j 2 2 1 2 3 3 3 2 4 4 4 30

x ni iji

1 1 0 3 8 11 10 9 21 25 28

y x nj i iji

0 1 0 9 32 55 60 63 168 225 280 893j

Otra forma de calculo sería :

i j ijx y n 0 0 1 1 0 1 0 1 1 1 1 1 0 2 1 1 3 1 2 3 1 2 4 2 4 4 1 2 5 1 3 5 1 6 5 1 3 6 2 4 6 1 4 7 1 5 7 1 4 8 2 6 8 1 7 8 1+

5 9 1 6 9 2 8 9 1 6 10 2 7 10 1 9 10 1 893

con lo cual , 1,1 i j ij j i iji j j i

1 1 893m x y n y x n 29.767

n n 30

La covarianza 1,1 xy 1,1m XY 29.767 3.9 5.9 6.76

La matriz de covarianzas :

x xy

xy y

2

2

596 6 76

6 76 9 62

. .

. .

En las distribuciones bidimensionales se presentan dos problemas que dan origen a dos

teorías:

1.- Teoría de la regresión: que trata de predecir los valores de una variable para valores

prefijados de la otra.

2.- Teoría de la correlación: que trata de medir la interdependencia estadística entre dos

variables.

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 12

5. CONCEPTOS DE AJUSTE Y REGRESIÓN

Entre las variables marginales de una distribución estadística bidimensional, puede

haber diversos tipos de dependencia. Puede haber una dependencia funcional, como por

ejemplo entre tiempo y espacio recorrido por un móvil, ya que existe una expresión

matemática que los relaciona. Pero puede haber, también, otra dependencia aleatoria en la

que conocida una variable no es posible saber exactamente el valor de la otra, pero sí tener

una idea aproximada de la misma, como por ejemplo la relación entre talla y peso de un

individuo.

El procedimiento a seguir es la observación de una variable estadística bidimensional

(x,y) y su representación en una nube de puntos o diagrama de dispersión y observar si se

distribuyen alrededor de una linea o tendencia.

Desde un punto de vista gráfico, diremos que un ajuste es la sustitución de un

diagrama de dispersión por una línea, que, sin que deba pasar por todos los puntos, (*), se

adapte lo mejor posible a todos ellos; y, desde un punto de vista analítico, un ajuste es la

sustitución de la dependencia de tipo funcional o exacto, que implica la determinación de los

parámetros que caracterizan a tal función analítica.

(*) Obsérvese que la interpolación consiste en obtener una curva que pase por los puntos.

La función que pretendemos obtener será una línea que llamaremos línea de

regresión, cuya ecuación puede ser de las formas siguientes:

y a bx , recta.

, parábola.

, polinómica.

, exponencial.

, hipérbola.

Dependiendo de la función elegida para el ajuste, la regresión será lineal, parabólica,

etc.

y a bx cx 2

y a a x a xnn 0 1 .....

y c akx

ya bx

1

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 13

El interés de la línea de regresión radica en poder predecir los valores de una variable

para los valores prefijados de la otra, lo que constituye el problema general de la teoría de la

regresión o del ajuste.

Si tratamos de predecir y conocida x, habremos de calcular la línea de regresión de y

sobre x, que será y=f(x). Recíprocamente x=g(y) será la línea de regresión de x sobre y.

6. EL MÉTODO DE LOS MÍNIMOS CUADRADOS

Dependiendo de la forma que adopte la nube de puntos sabremos en principio si

hemos de emplear una recta, una parábola, etc.

Una vez elegida la línea hemos de estimar los parámetros correspondientes a la misma

a partir de los datos observados. La estimación o cuantificación de los parámetros viene

determinada por las distintas condiciones que se establezcan previamente. La condición más

usual y de mayor utilidad práctica es la denominada de mínimos cuadrados.

Este método de ajuste se fundamenta en considerar como la mejor adaptación, la de

una línea tal que sea mínima la suma de los cuadrados de las diferencias entre los valores

observados o empíricos y los ajustados o teóricos, correspondientes a los distintos valores de

la función analítica elegida para los mismos valores de la variable explicativa.

6.1. Regresión lineal (Ajuste por mínimos cuadrados, a una recta).

Recta de regresión de y sobre x.

Consideremos los datos conseguidos experimentalmente:

( , ) , ( , ) ,....,( , )x y x y x yn n1 1 2 2

Se quiere adaptarlos a una recta y=a+bx

Por consiguiente;

1 1

2 2

n n

y a bx

y a bx

y a bx

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 14

Si los puntos no están sobre una recta y=a+bx. Escogeremos a y b de tal forma que

i i i iy y * y (a bx ) sea mínimo.

De todas las rectas y=a+bx buscaremos la recta que hace mínima la suma de los cuadrados de

las desviaciones que representan la distancia vertical de los datos (xi,yi) a los puntos (xi,yi*)

n n

2 2

i i i ii 1 i 1

min y y * y a bx

Al depender de dos parámetros sus derivadas parciales deben ser nulas:

n n n2

i i i i i ii 1 i 1 i 1

n n n2

i i i i i i i ii 1 i 1 i 1

y a bx 0 2 y a bx ( 1) 0 y a bx 0a

y a bx 0 2 y a bx ( x ) 0 y a bx x 0b

n n n

i ii 1 i 1 i 1

n n n2

i i i ii 1 i 1 i 1

y a b x 0

x y a x b x 0

n n

i ii 1 i 1

n n n2

i i i ii 1 i 1 i 1

y an b x

x y a x b x

Que reciben el nombre de Ecuaciones normales de la recta de regresión de y sobre x

Al dividir por n:

n n

i ii 1 i 1

n n n n n2 2

i i i i i i ii 1 i 1 i 1 i 1 i 1

y xa b Y a bX

n n

x y x x x y xa b aX b

n n n n n

Al despejar a en la primera ecuación y sustituir en la segunda

n

n n n n i i2 2 2 i 1

i i i i ixyi 1 i 1 i 1 i 1

n 22 xi

2i 1

x yx y x x x X Y

naX b Y bX b bn n n n x

Xn

Nos indica que el parámetro b de una recta de regresión puede calcularse mediante el cociente

entre la covarianza y la varianza de la variable que actúa como independiente.

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 15

Este parámetro xyx 2

xyb

recibe el nombre de coeficiente de regresión de la variable

y con respecto a la variable x, y es la pendiente de la recta de y sobre x, por consiguiente, el

sentido de crecimiento o decrecimiento, así como el grado de variación, viene determinado

por el signo y el valor del coeficiente de regresión b.

La expresión del parámetro "a" una vez conocido el valor b, será:

a Y bX Y Xxy

x

2

Sustituyendo los valores obtenidos en , se tiene:

y Y X xxy

x

xy

x

2 2 de donde xy

2x

y Y x X

que es la ecuación de la recta de

regresión de y sobre x. Esta recta permite calcular, aproximadamente, los valores de y dados

los de x.

Nota: anulando las derivadas se obtiene el mínimo (y no el máximo) como se puede

comprobar con el Hessiano.

Interpretación geométrica.

n n

2 2

i i i ii 1 i 1

min y y * y a bx

2 2 2 21 1 n n 1 n(y a bx ) ...... (y a bx ) e ...... e

como error vertical o distancia vertical

eiyi

yi*

xi

y=a+bx

y a bx

e y a bx y yi i i i i ( )y teóricoi

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 16

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los

puntos (0,1), (1,3), (2,4) y (3,4).

Solución:

x y xy x2 y2

0 1 0 0 1

1 3 3 1 9

2 4 8 4 16

3 4 12 9 16

6 12 23 14 42

ii

1 6X x 1,5

n 4 ;

22 2 2x i

i

1 14x X 1,5 1, 25

n 4

jj

1 12Y y 3

n 4 ;

22 2 2y j

j

1 42y Y 3 1,5

n 4

xy i ji j

1 23x y XY 1,5 3 1,25

n 4

La recta de regresión de y sobre x:

xy

2x

1, 25y Y x X y 3 x 1.5

1, 25

y= 1.5 + x

Existe otra recta de regresión que podemos obtener con los mismo datos.

Recta de regresión de x sobre y:

La recta de regresión de x sobre y no se obtiene despejando la x de la ecuación

anterior, sino repitiendo un proceso análogo. En lugar de tomar las distancias sobre las

verticales, se toman sobre las horizontales, .

eij

( )e x xij j i

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 17

xxj*xi

yj

y

Se demuestra que xy

2y

x X y Y

es la recta de regresión de x sobre y, que

permite calcular aproximadamente los valores de x dados los de y. Donde 1

2

by

xy

es la

pendiente de la recta de regresión de x sobre y, cuyo coeficiente de regresión es b.

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los

puntos (0,1), (1,3), (2,4) y (3,4).

Solución:

La recta de regresión de x sobre y:

xy

2y

1, 25x X y Y x 1.5 y 3

1,5

x= 5/6 y - 1

Propiedades de las rectas de regresión:

Las dos rectas de regresión y Y b x X x X b y Yyx xy ( ) , ( ) se cortan en

un punto, que es precisamente el , llamado, por su naturaleza de promedio, centro de

gravedad de la distribución.

Por otra parte, es claro que x2 y y

2 son siempre positivos y, en consecuencia, las

pendientes de ambas rectas tienen el mismo signo que la covarianza xy y aparecen

íntimamente ligadas, lo que justifica la denominación de covarianza (varianza conjunta).

Una vez construidas las rectas de regresión, la pendiente de la de x sobre y es mayor

que la correspondiente a la recta de regresión de y sobre x.

( , )X Y

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 18

(x a ') 1x a ' b ' y y tg

b ' b 'y a bx tg b

tenemos que: 1

btg tg 1 b 'bb 'tg tg11 tg tg b ' b1 bb '

(1)

En el caso de que la dependencia lineal en estudio sea de tipo exacto o funcional, las

dos rectas son recíprocas. Esto es:

de aquí, en consecuencia, si ambas rectas son identicas:

Cuanto más pequeña sea la tangente del ángulo formado por la intersección de las

dos rectas, tanto más representativo será el ajuste lineal efectuado.

EJEMPLO 4.

Con los datos del ejemplo 2, se pide:

a) Calcular ambas rectas de regresión.

b) Estimar la nota final de un alumno que obtuvo un 6 en el parcial.

Solución:

a) Teníamos calculado:

2 2X 3.9, Y 5.9, 5.96, 9.62, 6.76x y xy

bb

1

0 0 11 tg b b bb

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 19

Así pues, las rectas de regresión son:

y sobre x: y x y x 596 76

59639 113 148.

.

.( . ) . .

x sobre y: x y x y 396 76

9 6259 0 7 0 25.

.

.( . ) . .

b) Esta estimación se hace a partir de la recta de regresión de y sobre x, y x 113 148. . .

Como x 6, se tiene que y 113 6 148 8 26. . . nota del examen final.

6.2. Regresión parabólica.

Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente

ajustar por un polinomio de grado dos (parábola), como caso más sencillo aunque el método

empleadoes válido en general para un polinomio de grado n.

Nuestro objetivo es estimar los parámetros a, b, y c a partir de los datos observados,

empleando también el método de los mínimos cuadrados.

La función a minimizar es:

y derivando con respecto a los tres parámetros se obtiene:

2i i j

i, j

2i i j i

i, j

2 2i i j i

i, j

f (a, b,c)2 (a bx cx y ) 0

a

f (a, b,c)2 (a bx cx y ) x 0

b

f (a, b,c)2 (a bx cx y ) x 0

c

que aplicando las propiedades del sumatorio y simplificando se obtienen las ecuaciones

llamadas normales de la parábola de regresión.

y a bx cx

2

f a b c a bx cx yi i ji j

( , , ) ( ),

2 2

aN b x c x y

a x b x c x x y

a x b x c x x y

ii

ii

ji j

ii

ii

ii

i ji j

ii

ii

ii

i ji j

2

2 3

2 3 4 2

,

,

,

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 20

Por último, dividiendo por N queda:

Resolviendo este sistema por la regla de Cramer, se obtienen los parámetros a,b,c de

la parábola de regresión.

6.3. Regresión polinómica.

Vamos a suponer ahora que a la vista del diagrama de dispersión, es más conveniente

ajustar por un polinomio de grado n. Por ejemplo, si es una parábola escogeremos el grado

dos.

Para un polinomio de grado n: y* = a0 + a1 x + ... +an xn

Nuestro objetivo es estimar los parámetros ai, i=0, 1,...., n, a partir de los datos

observados, empleando también el método de los mínimos cuadrados.

El procedimiento es similar al anterior planteando las ecuaciones normales y resolviendo el

sistema.

7. ANÁLISIS DE LA CORRELACIÓN.

Se hace necesario, ahora, completar el análisis de la regresión con la obtención de

unas medidas o coeficientes que permitan calibrar el grado de dependencia estadística

existente entre las dos variables, o dicho de otro modo, el grado de representatividad o bondad

del ajuste realizado.

Llamaremos correlación a la teoria que trata de estudiar la dependencia que existe

entre las dos variables que intervienen en una distribución bidimensional.

a b m c m m

a m b m c m m

am b m c m m

10 20 01

10 20 30 11

20 30 40 21

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 21

7.1. La varianza residual

Una vez ajustada la línea de regresión y* a una nube de puntos, observamos que se

obtienen unas diferencias entre los distintos valores ajustados o teóricos yi*, y los

correspondientes valores observados o empíricos yj.

eij=yi*-yj

La varianza residual se define como la varianza de los errores o residuos

2 2r i j ij

i, j

1(y * y ) n

n

En el caso lineal:

2 2

xy xy2 2r i j ij i j ij i j ij2 2

i, j i, j i, jx x

22xy xy

j ij i ij i j ij2 2i, j i, j i, jx x

2 22xy xy

j ij i ij4 2i, j i, jx x

1 1 1(y * y ) n Y x X y n x X y Y n

n n n

1 1 1y Y n x X n 2 x X y Y n

n n n

1 1y Y n x X n 2

n n

i j iji, j

2 2xy xy xy2 2 2

y x xy y4 2 2x x x

1x X y Y n

n

2

Como 2xy 2 2

r y2x

0

y es una medida de dispersión de los datos respecto a la media. Se

puede interpretar como la suma de los errores que cometariamos si estimaramos cada valor yj

por y .

También se dice varianza no explicada representa, la parte de la variación de Y que no es

capaz de explicar el modelo elegido, puede interpretarse como una medida de la bondad del

ajuste, valores grandes de la varianza no explicada indican que el modelo no es adecuado. Sin

embargo, 2r no es válida para juzgar la bondad del ajuste, ya que, depende de las unidades de

medida. Una forma de evitar este problema es dividir la varianza no explicada por la varianza

total de Y ( 2y ), así pues, utilizaremos el cociente

2r

2y

que representa la proporción de

varianza de Y no explicada por el modelo de regresión.

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 22

Así, la medida que usaremos para juzgar la bondad del ajuste es la razón de correlación,

también llamada coeficiente de determinación 2

2 r2y

R 1

que representa la proporción de la

variación de Y explicada por el modelo de regresión.

2 2y r2

2y

varianza explicada varianza residualR 1

varianza de Y varianza de Y

7.2. Coeficiente de correlación lineal.

Una medida de proporción de la variación total nos la da el coeficiente de

determinación.

2 2 2 2y r2 r r

2 2 2y y y

R 1 R 1

Como 2 2 2r y R 1 1 R 1

R nos mide (en tanto por uno) lo que hemos mejorado nuestrapredicción al estimar y.

por medio de la línea de regresión en vez de por la media marginal y .

La raíz cuadrada del coeficiente de determinación se denomina coeficiente de

correlación lineal y es igual a la media geométrica de los coeficientes de regresión byx y

bxy.

yx xyr b b

lo que da lugar a:

r b b ryx xy

xy

x

xy

y

xy

x y

xy

x y

22 2

2

2 2

El coeficiente de correlación lineal es un número abstracto y es independiente de las

unidades utilizadas en las variables, cuyo signo es el de la covarianza, ya que las varianzas

son positivas, y comprendido entre -1 y +1.

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 23

En efecto:

Como

Interpretación del coeficiente de correlación lineal.

Recordemos que se vio en el epígrafe 5.6.1. al hablar del ángulo que formaban las

rectas de regresión, la expresión (1) :

PRIMER CASO:

Si r=1 la covarianza xy será positiva, las pendientes de las rectas de regresión son

positivas; a valores crecientes de x corresponde valores crecientes de y. Es la correlación

perfecta y directa.

Si r=-1 la covarianza xy será negativa, las pendientes de las rectas de regresión son

negativas; a valores crecientes de x corresponde valores decrecientes de y. La correlación es

perfecta e inversa.

El ángulo que forman ambas rectas será de y en ambos casos las rectas son

coincidentes. Hay dependencia funcional recíproca.

SEGUNDO CASO:

Supongamos que r xy 0 0 , no hay correlación, es decir, a cualquier valor de x

corresponde el mismo y, lo que indica la falta absoluta de dependencia entre las variables, se

dice que son incorreladas.

Las rectas de regresión serán:

tg tg r b btg

tgr ryx xy

2 1 1 1 1,

tgb b

b bxy yx

xy yx

1

0

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 24

x

y

obviamente perpendiculares.

TERCER CASO:

Si 0 < r < 1, hay correlación positiva. El signo viene caracterizado por la covarianza

xy que consideraremos positiva y por tanto las pendientes de las rectas de regresión son

positivas.

Si -1 < r < 0, hay correlación negativa xy <0. Las pendientes son negativas y, al

aumentar los valores de una variable, disminuyen los de la otra. La correlación será “buena“

para valores de r próximos a -1 y “mala” si son próximos a 0.

Señalemos, por último, que el coeficiente de correlación lineal no es propiamente una

medida de tipo cuantitativo, sino una medida de tipo cualitativo que indica únicamente el

grado de la intensidad de la relación lineal existente entre las variables.

EJEMPLO 5:

Calculemos el coeficiente de correlación para el ejemplo 4.

Solución:

rxy

x y

6 76

5 96 9 620 89

.

. ..

Existe una fuerte dependencia aleatoria directa entre las dos variables. Las

estimaciones hechas a partir de las rectas de regresión serán fiables.

y Y

x X

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 25

Observaciones: El que dos variables tengan una correlación lineal alta (sea positiva o

negativa) puede no significar una relación de causa-efecto entre ellas.

Observando la matriz de covarianza 2 2x xy x x y

2 2xy y x y y

r

r

y por tanto

2 2 2x y (1 r ) 0 . Si las variables no están correlacionadas entre sí, el determinante toma

su valor máximo.

http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.mp4

http://asignaturas.topografia.upm.es/matematicas/videos/RegresionyCorrelacion.wmv

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 26

ANEXO

EL MÉTODO DE LOS MÍNIMOS CUADRADOS EN FORMA MATRICIAL

Consideremos los datos conseguidos experimentalmente:

( , ) , ( , ) ,....,( , )x y x y x yn n1 1 2 2 ( , ) , ( , ) ,....,( , )x y x y x yn n1 1 2 2

Se quiere adaptarlos a una recta y=a+bx

Por consiguiente;

1 1

2 2

n n

y a bx

y a bx

y a bx

en forma matricial:

1 1

n n

y 1 x

. 1 .a

. 1 .b

. 1 .

y 1 x

o bien y = M v donde

1 1

n n

y 1 x

. 1 .a

y , M , v. 1 .b

. 1 .

y 1 x

Si los puntos no están sobre una recta y M v 0. Escogeremos a y b de tal forma que

y M v sea mínimo.

Sea a

vb

el vector que minimiza la diferencia a la línea y a b x "RECTA DE

REGRESIÓN" y y M son fijos, al variar v los vectores Mv forman un subespacio de Rn, espacio de

la columna de M. Gráficamente,

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 27

y-Mv

Mv

Mv *

y

y-Mv*

La solución mínima y M v debe ser ortogonal al subespacio

t

t t

t t t

t t

y Mv Mv v

Mv y Mv 0

v M y Mv 0

v M y M Mv 0 v

M y M Mv 0

1t tv M M M y

donde 1t t1 n M M r M M 2 x ,..., x

no están sobre la vertical.

1

it2

i i1 n

n

1 x

. .n x1 . . . 1

M M . .x xx . . . x

. .

1 x

1 21 i i it

2 22i i ii i

n x x x1M M

x x x nn x x

t

1 1

it

i i

n n

1 x y

. . .y

M y . . .x y

. . .

1 x y

Por último,

Variables bidimensionales: regresión y correlación

Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. 28

21 ii it t

22i iii i

2i i i i i

22i i i ii i

yx x1M M M y

x yx nn x x

x y x x y1

x y n x yn x x

2i i i i i

2 22i i i i i i i 20 1122 2

i i x

i i i i i i i i 11222xi i 22

i i

x y x x y

n n n nx y x x y x x m Y Xmn x x n n

n x y x y x y x y m XY

n n nn x xx x

n n

m Y YX X Y Xm Y Xa

bx

xy

x

x xy

x

xy

x

20

2 2

112

2

2

2

2

EJEMPLO 3: Obtener la recta de ajuste por mínimos cuadrados que se adapta a los

puntos (0,1), (1,3), (2,4) y (3,4).

Solución:

M

1 0

1 11 2

1 3

, Y =

1

3

4

4

, Mt.M = 4 6

6 14

, (Mt.M)-1 =

1

10

7 3

3 2

,

1t t

1

a 7 3 1 1 1 1 3 1.51M M M y =

b 3 2 0 1 2 3 4 110

4

y= 1.5 + x