TEMA III: DESCRIPCIÓN BI-VARIANTE III.1.- Notación y tabulación. … · 2008. 11. 11. · Tema...

ESTADÍSTICA I

Tema III 1

TEMA III: DESCRIPCIÓN BI-VARIANTE

III.1.- Notación y tabulación.

III.2.- Distribuciones marginales y condicionadas.

III.3.- La relación entre variables. Dependencia e independencia. III.4.- Planteamiento general de la Regresión

III.4.1.- Introducción III.4.2.- Ajuste por el Método de los Mínimos Cuadrados Ordinarios

III.5.- Planteamiento general de la Correlación

ESTADÍSTICA I

Tema III 2

III.1.- Notación y tabulación.

En el capítulo anterior, estudiamos las distribuciones de

frecuencias refiriéndolas únicamente a una sola

característica. Sin embargo, en ocasiones, sobre una misma

población se hace necesario el estudio de dos o más

características diferentes.

En este punto, si lo que queremos conocer es la influencia

de cada una de estas características por separado, bastaría

con conocer cada una de las distribuciones de la forma ya

vista en el tema anterior, pero si lo que se pretende es

analizar la interacción entre todas las características,

tendremos que recurrir a una estadística de más de una

dimensión.

Vamos a centrarnos en la estadística bi-variante o, también

llamada bidimensional. Por ejemplo: podemos estar

interesados en estudiar sobre los balances mensuales de una

empresa a la vez el volumen de ventas y los gastos en

publicidad; o sobre un colectivo de enfermos, el número de

enfermedades que padecen y la edad de los mismos.

En general, si sobre una misma población se estudian dos

caracteres X e Y, se obtienen dos series estadísticas de

las variables, que denominaremos X e Y. Pero si

consideramos simultáneamente las dos series, es decir, para

cada unidad estadística el par de valores (xi,yj) decimos

que estamos ante una estadística de dos dimensiones o

variable estadística bidimensional o bi-variante.

Sea una distribución caracterizada por dos variables

estadísticas X e Y, donde, X tiene k modalidades denotadas

por:

x1,x2,...,xk

e Y tiene p modalidades denotadas por:

y1,y2,...,yp

ESTADÍSTICA I

Tema III 3

Llamaremos frecuencia absoluta conjunta y la denotamos por

nij al número de individuos que tienen conjuntamente la

modalidad i de X y la j de Y, es decir, las modalidades xi e yj .

La forma habitual de tabular una variable bi-variante es

mediante lo que se denomina tabla de doble entrada; en este

punto distinguimos dos tipos de tabla en función del tipo

de caracteres con los que trabajamos: a.- Carácter

cuantitativo: "tabla de correlación"; b.- Carácter

cualitativo: "tabla de contingencia".

En la práctica, la única diferencia que existe entre la

tabla de contingencia y la tabla de correlación es el tipo

de carácter que resume, y evidentemente, la cantidad de

medidas que podemos obtener a partir de la propia

naturaleza de cada uno de ellos.

Una tabla estadística de doble entrada tiene la siguiente

forma genérica

Y

X

y1 y2 y3 ... yp ni.

x1 n11 n12 n13 ... n1p n1.

x2 n21 n22 n23 ... n2p n2.

x3 n31 n32 n33 ... n3p n3.

... ... ... ... ... ... ...

xk nk1 nk2 nk3 ... nkp nk.

n.j n.1 n.2 n.3 ...

n.p N

donde por ejemplo n11 nos dice el número de veces que se ha

presentado x1 conjuntamente con y1. N es el número total de

individuos, y se corresponde con la suma de todas las

ESTADÍSTICA I

Tema III 4

frecuencias absolutas conjuntas de la tabla. Es decir,

∑∑= =

=k

i

p

jijnN

1 1

Como se puede ver es una tabla que en la primera fila

contiene las modalidades de la variable Y, y en la primera

columna las modalidades de la variable X. En el interior de

la tabla se sitúan las correspondientes frecuencias

absolutas conjuntas da cada para de valores posibles de la

variable bi-variante (X,Y).

A partir de esta tabla podemos definir nuevos conceptos de

frecuencia.

* FRECUENCIA ABSOLUTA TOTAL DE xi:

Son todos los individuos que presentan la modalidad xi.

* FRECUENCIA ABSOLUTA TOTAL DE yj:

Son todos los individuos que presentan la modalidad yj.

Es inmediato demostrar

y por tanto,

n=.n ijp

1=ji ∑

n=.n ijk

1=ij ∑

N=.nA) ik

1=i∑

N=.nB) jp

1=j∑

N=.nn jp

1=ji

k

1=i

=. ∑∑

ESTADÍSTICA I

Tema III 5

en donde N recordemos que es el número total de individuos

con el que estamos trabajando.

*FRECUENCIA RELATIVA CONJUNTA DE xi e yj .

nos da la proporción de individuos que presentan

conjuntamente la modalidad xi e yj .

*FRECUENCIA RELATIVA TOTAL DE LA MODALIDAD xi.

nos da la proporción de individuos que presentan la

modalidad xi.

*FRECUENCIA RELATIVA TOTAL DE LA MODALIDAD yj.

nos da la proporción de individuos que presentan la

modalidad yj.

En función de estas definiciones podemos demostrar:

1)

DEMOSTRACION:

Nn=f ijij

N

.n=.f ii

N.n=.f jj

1=f ijp

1=j

k

1=i∑∑

ESTADÍSTICA I

Tema III 6

2)

DEMOSTRACION:

3)

4)

DEMOSTRACION:

5)

1=NN=.

=

=+...++=

nN1

=N

.n=

=Nn

+...+Nn+

Nn

ffff

i

k

1=i

ik

1=i

ipi2i1k

1=i

ipi2i1

k

1=iij

p

1=j

k

1=i

∑∑

∑

∑∑∑

f=.f ijp

1=ji ∑

fnN1=

N.n=.f ij

p

1=jij

p

1=j

ii = ∑∑

f=.f ijk

1=ij ∑

1=.f ik

1=i∑

1=NN=.=. n

N1=

N.nf i

k

1=i

ik

1=ii

k

1=i∑∑∑

ESTADÍSTICA I

Tema III 7

Veamos un ejemplo. Supongamos que queremos estudiar un

colectivo de profesionales estadounidenses según su edad y

los ingresos brutos, en dólares. Disponemos de la siguiente

información: de las personas de 25 años, 15 ingresan 500$,

y 12 ingresan 600$; de las personas de 40 años, 8 ingresan

700$ y 12 ingresan 600$; de las personas de 35 años, 18

ingresan 500$ y 7 ingresan 700$; y, finalmente, de las

personas de 30 años, 3 ingresan 700$, 11 ingresan 500$ y 14

ingresan 600$. Se pide la tabulación y la comprobación

numérica de los resultados vistos anteriormente.

Lo que intentamos hacer es estudiar conjuntamente la edad y

el nivel de ingresos. Son dos variables y en consecuencia

su tabulación mediante una tabla de doble entrada, da lugar

a una tabla de correlación, que vendrá dada por

Ingresos en dólares

Edad 500 600 700 25 15 12 0 30 11 14 3 35 18 0 7 40 0 12 8

De esta tabla se pueden derivar:

• Las frecuencias absolutas totales de ambas variables

Ingresos en dólares Edad 500 600 700 ni.

25 15 12 0 27 30 11 14 3 28 35 18 0 7 25 40 0 12 8 20 n.j 44 38 18 N=100

• Las frecuencias relativas conjuntas y totales

Ingresos en dólares Edad 500 600 700 ni.

25 0.15 0.12 0 0.27 30 0.11 0.14 0.3 0.28 35 0.18 0 0.7 0.25 40 0 0.12 0.8 0.20

1=.f jp

1=j∑

ESTADÍSTICA I

Tema III 8

n.j 0.44 0.38 0.18 1

Dejamos para el alumno la comprobación de los distintos

resultados que hemos visto.

ESTADÍSTICA I

Tema III 9

III.2.- DISTRIBUCIONES MARGINALES Y CONDICIONADAS

III.2.1.-DISTRIBUCIONES MARGINALES

Llamaremos distribución marginal de X a aquella

distribución que tiene como modalidades las modalidades de

X y como frecuencias absolutas, las frecuencias absolutas

totales de X. La distribución marginal de X nos permite

estudiar el comportamiento de la variable X con

independencia de cómo se comporte con respecto a Y.

Así, por ejemplo, el número de veces que se repite en total

x1, con independencia de los valores de Y será:

que se lee "n subíndice uno punto" y que es la frecuencia

marginal de x1. En consecuencia, la distribución marginal

de X es la distribución que viene definida por el par

(xi,ni.)

xi x1 x2 x3 ... xk

ni. n1. n2. n3. ... nk.

Obsérvese que la distribución marginal no es más que una

distribución univariante y en consecuencia se le pueden

realizar todos los cálculos estudiados en el tema II. Es

decir, podemos hablar de la media aritmética de una

distribución marginal, de la varianza de una distribución

marginal, de la frecuencia relativa acumulada de una

distribución marginal, etc... Evidentemente, todo ello

calculado a partir de la distribución de frecuencias

definida por el par (xi,ni.).

n+...+n+...+n+n=.n 1p1j12111

N=.ni∑

ESTADÍSTICA I

Tema III 10

De la misma manera que definimos la distribución marginal

de X podemos definir la distribución marginal de Y.

Llamaremos distribución marginal de Y a aquella

distribución que tiene como modalidades las modalidades

de Y, y como frecuencia absoluta, las frecuencias absolutas

totales de Y. Es decir, la distribución marginal de Y

es aquella distribución que viene definida por el par

(yj,n.j).

yj y1 y2 y3 ... yp

n.j n.1 n.2 n.3 ... n.p

Por tanto:

Es decir, cuando estudiamos distribuciones marginales

tenemos en cuenta a todos los individuos con los que

estamos trabajando, pero centramos nuestro análisis

únicamente en un subconjunto de caracteres del conjunto

total de los estudiados. En el caso de distribución

bidimensional, solamente podemos encontrar distribuciones

marginales unidimensionales.

Con los datos del ejemplo anterior, la distribución

marginal de X (edad) vendrá dada por la siguiente

distribución de frecuencias

Edad ni.

25 27

30 28

35 25

40 20

N=.n j∑

N==. n=.nn ijp

1=j

k

1=ij

p

1=ji

k

1=i∑∑∑∑

ESTADÍSTICA I

Tema III 11

Como puede verse es una distribución de frecuencias como la

que estudiamos en el tema II y, en consecuencia, se le

puede aplicar todo lo visto en el tema II. Dejamos para el

alumno el cálculo de todas las frecuencias y de todos los

estadísticos estudiados en el tema II.

De la misma manera, la distribución marginal de Y, es

decir, la distribución marginal de los ingresos viene dad

por la siguiente distribución de frecuencias

Ingresos n.j

500 44

600 38

700 18

III.2.2.- DISTRIBUCIONES CONDICIONADAS

Llamaremos distribución condicionada de la variable

estadística X condicionada a la modalidad yj de Y, y la

denotamos por (X/yj) a la variable estadística cuyas

modalidades son las modalidades de X y cuyas frecuencias

absolutas son las frecuencias absolutas conjuntas de xi e

yj.

Por tanto, (X/yj) viene definido por la siguiente

distribución de frecuencias:

xi nij fij=nij/n.j

X1 n1j f1j=n1j/n.j

X2 n2j f2j=n2j/n.j

... ... ...

Xk nkj fkj=nkj/n.j

ESTADÍSTICA I

Tema III 12

n.j

Denotaremos por fij a la frecuencia relativa de xi

condicionada a yj, que vendrá dada por:

interpretándose como la proporción de individuos que

presentan la modalidad xi dentro del conjunto de individuos

que presentan la modalidad yj.

Por tanto, existen p posibles distribuciones condicionadas

(existen tantas distribuciones condicionadas de X como

modalidades tenga Y).

Análogamente, podemos obtener la distribución de la

variable Y condicionada a la modalidad xi de X y lo

denotamos por (Y/xi).

yj nij fji=nij/ni.

y1 ni1 f1i=ni1/ni.

y2 ni2 f2i=ni2/ni.

... ... ...

yp nip fpi=nip/ni.

ni.

Denotaremos por fji a la frecuencia relativa de yj

condicionada a xi.

Por tanto, existen k posibles distribuciones condicionadas

(existen tantas distribuciones condicionadas de Y como

modalidades tenga X).

Obsérvese que al analizar una distribución condicional no

tenemos en cuenta a todos los individuos en estudio.

Unicamente consideramos a aquellos que cumplen una

determinada condición. Por ejemplo, si estamos estudiando a

una población de empresas y nos interesan dos caracteres,

.n

n=fj

ijji

ESTADÍSTICA I

Tema III 13

n� de empleados y volumen de ventas, la distribución del

número de empleados condicionada a tener unas ventas

comprendidas entre 20 y 35 millones de pesetas, únicamente

estudia a aquellas empresas con dicho nivel de ventas y las

estudia en función del número de empleados.

De lo dicho, podemos demostrar

fij = fi. fji = f.j fij

La demostración la haremos en dos partes.

1.- Demostraremos que fij = fi. fji

2.- Demostraremos que fij = f.j fij

Con la notación utilizada podemos definir los distintos

estadísticos:

MEDIDAS DE POSICION Y DISPERSION

A.- DISTRIBUCIONES MARGINALES

a.-DE X:

-MEDIA DE LA MARGINAL DE X:

-VARIANZA MARGINAL DE X:

b.-DE Y:

-MEDIA DE LA MARGINAL DE Y:

f*.f=.n

n*N

.n=Nn=f iji

i

ijiijij

f*.f=.n

n*N.n=

Nn=f jij

j

ijjijij

xnxf=X iik

1=iii

k

1=i

.N1=. ∑∑

)xf=S 2iik

1=i

2X X-.(∑

ESTADÍSTICA I

Tema III 14

y.nN1=y.f=Y jj

p

1=jjj

p

1=j∑∑

-VARIANZA MARGINAL DE Y:

B.-DISTRIBUCIONES CONDICIONADAS

a.-DISTRIBUCION DE X CONDICIONADA A a yj : (x/yj)

-MEDIA DE X CONDICIONADA A yj:

-VARIANZA DE X CONDICIONADA A yj:

b.-DISTRIBUCION DE Y CONDICIONADA A a xi : (y/xi)

-MEDIA DE Y CONDICIONADA A xi:

-VARIANZA DE Y CONDICIONADA A xi:

EJEMPLO. En la siguiente tabla aparecen representadas las

ventas, en millones de pesetas mensuales (X), de un cierto

producto que comercializan 70 empresas, frente al número de

distribuidores (Y) de éstas, que trabajan con dicho

producto.

)Y-y(.f=S2

jj

p

1=j

2Y ∑

xf=X iji

k

1=ij ∑

)xxf=(x)S2

jiji

k

1=i

2j -(∑

yf=Y jij

p

1=ji *∑

)Yyf=(y)S2

ijij

p

1=j

2i -(∑

ESTADÍSTICA I

Tema III 15

X \Y

1 2 3 ni.

5 - 7 20 20

7 - 11 6 9 15

11 - 15 5 8 15 28

15 - 25 1 2 4 7

n.j 32 19 19 70

DISTRIBUCIONES MARGINALES:

A.- DE X:

xi Ci ni. fi.

5 - 7 6 20 20/70=0.286

7 - 11 9 15 15/70=0.214

11 - 15 13 28 28/70=0.4

15 - 25 20 7 7/70=0.1

N=70 1

B.-DE Y:

yj n.j f.j

1 32 32/70=0.458

2 19 19/70=0.271

3 19 19/70=0.271

ESTADÍSTICA I

Tema III 16

70 1

DISTRIBUCIONES CONDICIONADAS:

A.-Distribución de ingresos de las empresas condicionada a

tener un sólo distribuidor:

xi Ci nij fij

5-7 6 20 20/32

7-11 9 6 6/32

11-15 13 5 5/32

15-25 20 1 1/32

32 1

B.-Distribución condicionada del número de distribuidores

de la empresa a que los ingresos de ésta estén entre 11 y

15 millones de ptas.

yj nij

fji

1 5 5/28

2 8 8/28

3 15 15/28

28 1

Ejercicio. En la siguiente tabla de correlación se

representan los ingresos en miles de pesetas mensuales (X)

de las familias, así como el número de miembros que aportan

regularmente algún tipo de ingreso (Y).

Y

X 1 2 3

ESTADÍSTICA I

Tema III 17

50-70 20 0 0

70-100 10 5 0

100-150 5 15 8

150-250 1 4 2

Calcular:

• Distribuciones marginales de los ingresos y del número de personas que aportan ingresos.

• Distribución condicionada de X condicionada por y1. Calcular su media aritmética y su varianza.

• Distribución condicionada de Y condicionada por x50-70. Calcular su media aritmética y varianza.

ESTADÍSTICA I

Tema III 18

III.3.- La relación entre variables. Dependencia e independencia.

III.3.1.- Definición de Independencia. Sean X e Y dos variables estadísticas, decimos que X e Y

son independientes estadísticamente entre sí, si y sólo si:

es decir; cuando la frecuencia relativa conjunta es igual

al producto de las frecuencias relativas marginales.

O también:

Si esta relación no se cumple para todos los valores de i,

j, las variables X e Y son dependientes.

Partiendo de la definición de independencia, podemos

demostrar que si X e Y son independientes se verifica que:

fij=fi.

fji = f.j

Es decir, las frecuencias relativas condicionadas son

iguales a las correspondientes frecuencias relativas

marginales.

La demostración es inmediata. Como vimos anteriormente, la

condición de independencia es:

Por otra parte, se cumple que:

De las dos expresiones anteriores deducimos que:

ji, .f*.f=f jiij ∀

ji, N.n*

N.n=

Nn jiij ∀


f*.f=.n

n*N

.n=Nn=f iji

i

ijiijij

ESTADÍSTICA I

Tema III 19

De forma análoga, podemos demostrar:

ya que:

y por la condición de independencia:

con lo cual concluimos:

.f=f f*.f=.f*.f jij

ijiji ⇒

.f=f iji

f*.f=.n

n*N.n=

Nn=f jij

j

ijjijij


.f=f f*.f=.f*.f iji

jijji ⇒

ESTADÍSTICA I

Tema III 20

III.4.- Planteamiento general de la Regresión III.4.1.- Introducción. Las teorías científicas no hacen más que enunciar la

existencia de unas relaciones causa-efecto entre fenómenos,

fenómenos que en lenguaje estadístico se convierten en

características de los elementos que componen una

población. Cuando estas características son susceptibles de

medición, se denominan variables: así, con mucha

frecuencia, las teorías científicas tratan, en último

término, de relaciones entre variables.

La Estadística permite determinar mediante procedimientos

matemáticos si existe o no relación entre dos o más

variables y proporciona medidas del grado de relación en el

caso de que ésta exista. El conjunta de técnicas que

permiten obtener aquellas relaciones matemáticas que mejor

expliquen una variable a partir de otra(s) recibe el nombre

de regresión, mientras que la correlación se ocupa del

estudio del grado de relación.

De esta manera, la teoría económica nos dice que el consumo

depende del nivel de renta de la siguiente manera:en donde,

Ct es el consumo en el período t, Yt es la renta en el

período t, ut es lo que llamaremos perturbación aleatoria y

α y ß son los parámetros.

Estudiemos más a fondo la expresión (1). Estamos

interesados en estudiar el comportamiento del consumo. La

teoría económica nos dice que para explicar el consumo una

variable de interés es el nivel de renta, pero

evidentemente no es la única. Es decir, el consumo no solo

depende del nivel de renta, sino que depende de otras

muchas variables (nivel de consumo anterior, de las

expectativas futuras sobre obtención de rentas, etc...). es

por ello que aparece en (1) la variable ut, la que hemos

denominado perturbación aleatoria. Esta variable se

Ecuación 1

u+Y*+=C ttt βα

ESTADÍSTICA I

Tema III 21

caracteriza por el hecho de no ser observable y se puede

interpretar como que en ella se recogen todas aquellas

variables que influyen en la variable consumo pero que no

están especificadas en el modelo debido a que la

importancia de cada una de ellas individualmente es muy

pequeña con respecto al peso de la variable renta.

Además de Yt, Ct y ut en el modelo tenemos un elemento más

que son los parámetros α y ß. Estos parámetros son los que

miden cuantitativamente la relación que existe entre el

consumo y la renta. El parámetro α nos mide cuanto vale el

consumo cuanto no se dispone de ninguna renta (Yt=0), ß nos

mide en cuanto se incrementa el consumo al incrementarse el

nivel de renta en una unidad. Gráficamente en una

representación cartesiana del consumo y la renta, α nos da

la ordenada en el origen y ß nos da la pendiente de la

recta

Los valores de α y ß son desconocidos.

El problema se plantea por la necesidad de obtener un valor

estimado para los parámetros del modelo con el fin de

estimar valores del consumo para cualquier valor de la

renta, para realizar análisis estructural, para predecir el

comportamiento futuro del consumo, etc...

Consumo

Renta"

ß

ESTADÍSTICA I

Tema III 22

III.4.2.- El modelo de regresión lineal simple.Hipótesis

Llamaremos modelo de regresión lineal simple a un modelo en

donde se liga a dos variables y a un término de

perturbación aleatoria mediante una relación lineal. De

forma genérica, el modelo de regresión simple es de la

forma

Ecuación 2

u+X*+=Y ttt βα

en donde t toma valores desde t={1,2,3,...,T}, Yt es la

variable que queremos explicar, y que llamaremos variable

endógena, Xt es una variable genérica, que denominaremos

variable exógena y es la encargada de explicar el

comportamiento de la variable endógena, α y ß son los

parámetros del modelo y ut es la perturbación aleatoria del

modelo. A la expresión (2) se le denomina recta de

regresión poblacional

En consecuencia, el volumen de datos con los que vamos a

trabajar viene dado por los datos correspondientes a las

variables Yt y Xt cuya representación gráfica se puede

realizar mediante en diagrama de dispersión.

El diagrama de dispersión de dos variables no es más que la

representación gráfica en un sistema de coordenadas de los

puntos (xt, yt), en donde t puede indicar distintos

instantes del tiempo, en cuyo caso Xt e Yt serían series

temporales, o t puede indicar distintos individuos, en cuyo

caso se dice que las variables Xt e Yt contienen datos de

corte transversal.

El problema que se nos plantea es el de estimar el valor de

α y ß del modelo (2) a partir de los datos de la tabla 1

ESTADÍSTICA I

Tema III 23

Tabla 1

Xt

x1

x2

x3

...

xT

Yt

y1

y2

y3

...

yT

Para ello es necesario, en una primera fase, especificar

una serie de hipótesis sobre el comportamiento del modelo

(2) y de los elementos que lo componen. Estas son las

hipótesis básicas del modelo de regresión lineal.

Hipótesis primera: El modelo está bien especificado. Es

decir, la única variable relevante en la explicación de la

variable endógena es la variable X, además, la relación que

existe entre la variable endógena y exógena es del tipo

lineal tal y como indica el modelo (2).

Hipótesis segunda: La variable exógena es una variable no

aleatoria, es determinista.

Hipótesis tercera: No existen errores de medida en los

datos de las variables Y y X.

Hipótesis cuarta: Los parámetros del modelo son fijos, y no

existe cambio estructural en el período en estudio

III.4.3.- Obtención de los estimadores por Mínimos Cuadrados Ordinarios.

Sean X e Y dos variables que mantienen una dependencia

estadística de la forma

f(X)Y ≈

ESTADÍSTICA I

Tema III 24

El principio de mínimos cuadrados ordinarios pretende

encontrar una ecuación funcional, de la forma

que verifique que la media de los cuadrados de las

diferencias tomadas paralelamente al eje de ordenadas entre

los distintos puntos observados (xt, yt) y dicha función

sea mínimo.

Es decir, si partimos del siguiente diagrama de dispersión

podemos definir et como

y-y=e ttt ˆ

Es decir, et es la diferencia que existe entre el verdadero

valor de Y en el instante t y el valor que toma la forma

funcional, que denominaremos Y estimada. et en realidad es

el error que cometemos si usamos Y estimada en vez de Y

real. Por tanto, a et le llamaremos error de estimación o

residuo de la regresión, y si observamos la expresión (2)

(ecuación 2) vemos que et es una forma de estimar el

término de perturbación aleatoria ut.

f(x)=Ŷ

ESTADÍSTICA I

Tema III 25

Por consiguiente el principio de mínimos cuadrados

consistirá en minimizar la expresión

La idea que encierra el principio de mínimos cuadrados

ordinarios es muy simple. Una vez determinada que tipo de

relación funcional es la que mejor se ajusta a la nube de

puntos, el principio de mínimos cuadrados ordinarios (MCO)

lo que hace es buscar aquellos valores de los parámetros α

y ß que hacen que los et sean más pequeños. Cuanto más

pequeños son, es evidente, que la forma funcional se ajusta

mejor a la nube de puntos. Como los residuos pueden ser

positivos y negativos, si utilizamos directamente sus

valores en la expresión de A tendríamos sumandos positivos

y negativos con lo cual su suma tendería a tomar el valor

0. Por ello es por lo que se utilizan los residuos al

cuadrado.

El estimador mínimo cuadrático ordinario del modelo de regresión

simple.

Sean X e Y dos variables cuya relación viene dada por la

ecuación 2. Aplicando el principio de mínimos cuadrados

ordinarios estimaríamos una función dada por

en donde a es el estimador del parámetro αα, y b es el

estimador del parámetro ββ. A la ecuación anterior se le

denomina recta de regresión estimada.

En este caso, por tanto la ecuación a estimar viene dada

por

x*b +a = y ttˆ

e=A 2tT

1=t∑

X*b +a = Y ttˆ

ESTADÍSTICA I

Tema III 26

y aplicando el principio de mínimos cuadrados,

minimizaríamos

Para el caso concreto de relación lineal, y teniendo en

cuenta que

x*b -a - y = y - y = e ttttt ˆ

minimizaremos la expresión

)x*b-a-y(e = A 2ttT

1=t

2t

T

1=t

= ∑∑

Para ello, las dos condiciones necesarias vienen dadas por

e=A 2tT

1=t∑

1) MSMa

'0 2) MSMb

'0

1) MSMa

'&2jT

t'1(yt&a&b(xt)'0

jT

t'1(y t&a&b(x t)'0

jT

t'1yt&j

T

t'1a&bj

T

t'1xt'0

a ' 1T

(jT

t'1yt&bj

T

t'1x t)

2) MSMb

'&2jT

t'1(yt&a&b(x t)(xt'0

jT

t'1yt(x t&a(j

T

t'1xt&b(j

T

t'1x 2t '0

ESTADÍSTICA I

Tema III 27

sustituyendo el valor de a obtenemos

Por tanto, los estadísticos a través de los cuales

estimaremos los valores de α y β vienen dados por las

expresiones de a y b determinadas en las líneas anteriores.

Ejemplo. Ajustar por mínimos cuadrados ordinarios una recta

de regresión a la siguiente distribución bidimensional,

siendo Y la variable dependiente, y por tanto, a explicar

Xi

27

27

30

30

33

33

Yi

100

110

110

120

120

130

)xx

xyxy

x*b-)xxyxy

xxxyxy

2t

T

1=t

2t

T

1=t

t

T

1=tt

T

1=ttt

T

1=t

2t

T

1=t

2t

T

1=tt

T

1=tt

T

1=ttt

T

1=t

2t

T

1=tt

T

1=tt

T

1=tt

T

1=ttt

T

1=t

(*T1

-

**T1-*

= b

0=(*b*T1+)(

T1-*

0=*b-*)]*b-(*T1[-*

∑∑

∑∑∑

∑∑∑∑∑

∑∑∑∑∑

ESTADÍSTICA I

Tema III 28

Solución.

xi

yi

xiyi

xi2

27

100

2.700,00

729,00

27

110

2.970,00

729,00

30

110

3.300,00

900,00

30

120

3.600,00

900,00

33

120

3.960,00

1.089,00

33

130

4.290,00

1.089,00

180

690

20.820,00

5.436,00

por tanto, la recta de regresión viene dada por

x*3.33 + 15.1 = ŷ

Observar que para cada valor de la variable X obtenemos un

15.1=180]*3.33-[69061 =a

3.33=)(180

61-5436

(690)(180)61-20820

=b2

ESTADÍSTICA I

Tema III 29

valor estimado de la variable Y.

La interpretación del 15.1 y 3.33 es la siguiente. Si la

variable X toma el valor cero, el valor estimado de Y es

15.1, es decir, el valor estimado del parámetro α. Si la

variable X se incrementa en una unidad, la variable Y se

incrementará en 3.33 unidades.

III.4.4.- Estudio de la bondad del ajuste.

Hasta ahora hemos partido de unos datos que eran utilizados

para definir una relación funcional entre dos variables. De

forma implícita se suponía que había una relación entre las

variables X e Y, y la regresión lo que hacía era buscar la

relación que mejor explicase el comportamiento de la

variable Y en función de la variable X. Esta era la recta

de regresión estimada. Es decir, supongamos que nuestro

trabajo consiste en abrir una zanja de treinta metros

cúbicos. Las herramientas con las que contamos son un

bolígrafo y una pala pequeña de jardinería. La regresión lo

que nos diría es cual de las dos herramientas es la mejor

para realizar el trabajo, aunque ello no significa que sea

la adecuada para el mismo. Esto es, la regresión nos diría

que utilizásemos la pala de jardinería, ya que entre las

dos opciones es la mejor, lo cual no elimina que ambas sean

malas herramientas.

Por tanto, lo que hemos hecho hasta ahora es buscar la

recta que mejor se ajusta a la nube de puntos

correspondiente al diagrama de dispersión, entendiendo por

mejor ajuste a aquel que hace que la suma de los errores al

cuadrado es más pequeña. Pero esta recta, que es la mejor

posible, puede no ser lo suficientemente buena.

Por tanto, la regresión por si sola no es suficiente, ya

que, es verdad que busca la mejor relación, pero esta puede

ser muy mala. Para estudiar la bondad del ajuste, se

utiliza el Coeficiente de Determinación.

ESTADÍSTICA I

Tema III 30

El coeficiente de determinación es una medida que nos

informan si, en términos globales, el ajuste es bueno o

malo.

La Bondad del ajuste nos informará de la representatividad

de una curva (sea lineal o no) para la explicación de una

relación entre dos variables.

Lo que haremos es usar la variable error de regresión, o

residuo MCO, esto es, lo que hemos denotado por ei. Es

lógico pensar que cuanto más pequeños sean los ei, mayor

será la representativadad de la función f(x).

Llamaremos por tanto Bondad del ajuste al grado de

representatividad de una curva a una nube de puntos.

Para el estudio de la bondad del ajuste podemos

encontrarnos con distintos estadísticos.

ESTADÍSTICA I

Tema III 31

Varianza residual.

Llamaremos varianza residual, y la denotaremos por Se2, a

la varianza de la variable residuo. Es decir,

Si tenemos en cuenta que la media de los errores MCO es

cero, la varianza residual viene expresada como

Por tanto, si la varianza residual tiende a cero ello

significa que cada valor de los ei tiende a tomar el valor

de su media, esto es, cero. Pero si cada ei tiende a cero,

ello significa que la nube de puntos está muy próxima a la

función estimada.

)e - e( * T1

= S 2tT

1=t

2e ∑

e * T1

= S 2tT

1=t

2e ∑

ESTADÍSTICA I

Tema III

32

Por otra parte, recordemos que si X e Y son dos variables

estadísticas incorrelacionadas, la varianza de la variable

suma de ambas es igual a la suma de las varianzas de cada una

de ellas. Es decir,

Ejercicio: Demostrar el resultado anterior.

También se puede demostrar que los errores MCO y los valores

de yi estimada están incorrelacionados. Esto es,


Y dado que

e+y=y ttt ˆ

la varianza de Y (Sy2) se puede descomponer en la varianza de Y

estimada más la varianza residual. Es decir,


Por tanto, podemos decir que las variaciones de Y vienen

explicadas, bien por la regresión, esto es, por las

variaciones de Y estimada, o bien por los errores. Es evidente

que cuanto mayor sea la parte explicada por los errores, la

bondad del ajuste tiende a ser peor. Por el contrario, cuanto

S + S = S 2y2x2 y+x

0 = S yeˆ

S + S = S 2e2y2y ˆ

ESTADÍSTICA I

Tema III

33

menor sea la varianza de los residuos, ello implica que la

varianza de la regresión tiende a ser igual a la varianza de

la variable Y, y por tanto, la bondad del ajuste será mejor.

Coeficiente de Determinación.

La varianza residual tiene problemas de interpretación

similares a los que presenta la covarianza. Esto es, está

afectado por las unidades de medida, es variante antes cambios

de variable y no tiene límites fijos para todas las variables.

Por todo ello se define un nuevo estadístico que no presente

los problemas mencionados. Este estadístico es el coeficiente

de determinación.

Llamaremos coeficiente de determinación y lo representaremos

por R2 a

SS - 1 =

SS = R 2

y

2e

2y

2y2

El coeficiente de determinación presenta las siguientes

propiedades:

1.- R2 toma valores en el intervalo [0,1].

niendo en cuenta que Se

2 es menor o igual a Sy2 podemos escribir

0=1-1= SS - 1

SS -1 = R 2

y

2y

2y

2e2 ≥

Por tanto R2 es siempre mayor o igual a 0, y podemos demostrar

(ejercicio para los alumnos) que es menor o igual a 1.

2.- Como se puede deducir de la definición del coeficiente de

determinación, este mide la proporción de variabilidad de la

variable endógena que viene explicada por la regresión. De

ESTADÍSTICA I

Tema III

34

esta manera, si R2 = 0.81, significa que el 81% de las

variaciones de la variable endógena vienen explicadas por la

regresión.

En base a ello, la interpretación genérica del coeficiente de

determinación es la siguiente:

2.1.- Si R2 tiende a 0, la bondad del ajuste es mala puesto que

la regresión tiende a explicar el 0% de las variaciones de la

variable endógena.

2.2.- Si R2 tiende a 1, la bondad del ajuste es óptima, puesto

que la totalidad de las variaciones de la variable endógena

vienen explicadas por la regresión.

ESTADÍSTICA I

Tema III

35

III.5.- PLANTEAMIENTO GENERAL DE LA CORRELACION

A través de la regresión hemos estudiado la forma funcional de

la relación entre dos variables pero no se ha tratado el grado

o la intensidad de esa relación. Corresponde a la teoría de la

correlación el medir la intensidad de la dependencia entre

las mismas.

Veamos algunas medidas que tiene como finalidad cuantificar el

grado de relación existente entre dos variables. Estas son:

Covarianza y el Coeficiente de correlación lineal simple.

III.5.1.- La covarianza. Sean dos variables aleatorias X e Y. Definimos la covarianza

de X e Y y la denotamos por Sxy a:

Obsérvese que si dos variables son independientes, su

covarianza es cero. La demostración es rápida y sencilla.

Si X e Y son independientes se cumple:

y podemos expresar la covarianza como

)y-)(x-(N1

=

=)y-)(x-(

yxn

yxf=S

jiij

p

1=j

k

1=i

jiij

p

1=j

k

1=ixy

∑∑

∑∑

.f*.f=f jiij

ESTADÍSTICA I

Tema III

36

(1) )]y-y(.fxf

yx.f

yxf=S

jj

p

1=jii

k

1=i

jiji

p

1=j

k

1=i

jiij

p

1=j

k

1=ixy

)][x-.([=

=)y-)(x-(.f=

=)y-)(x-(

∑∑

∑∑

∑∑

Desarrollando el primer corchete obtenemos

0=x-x=

=.x-.=)x-.( fxfxf ik

1=iii

k

1=iii

k

1=i∑∑∑

y en consecuencia, la expresión del segundo corchete también

tomará valor 0 por lo que sustituyendo en (1) tenemos:

Sxy= 0 * 0 = 0

En consecuencia una primera medida que estudia la dependencia

entre variables es la covarianza.

Veamos ahora un análisis gráfico de la covarianza. Para ello

haremos uso de una representación gráfico denominada diagrama

de dispersión. Un diagrama de dispersión no es más que la

representación cartesiana de dos variables. En el eje de

abcisas representamos a la variable X y en el eje de ordenadas

representamos la variable Y. En consecuencia, cada punto del

gráfico corresponde a un par (xi,yj). Es decir, un diagrama de

dispersión tiene la forma del gráfico siguiente

ESTADÍSTICA I

Tema III

37

Como se puede observar se ha realizado una traslación de los

ejes originales (X,Y) con origen en o al origen o' situados

sobre los valores medios de las variables originales,

obteniendo unos nuevos ejes (X',Y'). La traslación viene dada

por

y - y = y

x - x = x

tt

tt

′

′

pudiendo expresar la covarianza como

denotamos por I, II, III y IV los nuevos cuadrantes referidos

al origen o'.

Todos los puntos del cuadrante I son positivos, tanto en la

yx*T1

= S ttT

1=txy * ′′∑

ESTADÍSTICA I

Tema III

38

ordenada como en la abcisa, por lo tanto, su producto será

positivo. También serán positivos los productos de las

componentes del cuadrante III al ser, tanto las ordenadas como

las abcisas, negativas. Por el contrario, los productos

correspondientes a los cuadrantes II y IV tienen signo

negativo.

Por otra parte, la nube de puntos expuesta en la gráfica

anterior coresponde a una tendencia monótona creciente. Es

decir, al irse incrementado X, Y tiende a crecer. En este caso

se dice que X e Y mantienen una relación positiva.

Teorema: Si X e Y tienen una relación positiva, entonces Sxy es

mayor que cero. Cuanto mayor sea la relación positiva, la

covarianza tenderá a tomar valores mayores.

La demostración es inmediata a partir del análisis del gráfico

y teniendo en cuenta que la covarianza la podemos dividir en

dos partes

Si la relación es positiva habrá más puntos en los cuadrantes

IVy II IIIy I

cuadrantes cuadrantes

los de puntos los de puntos

B+A=y*x + y*x = S ttttxy

⇓⇓

∑∑ ′′′′

ESTADÍSTICA I

Tema III

39

I y III que en el II y IV, por tanto A será mayor que B1 y por

consiguiente Sxy será positiva.

El siguiente gráfico muestra el diagrama de dispersión de dos

variables cuando su relación es negativa, esto es, es monótona

decreciente, al incrementar la variable X, Y tiende a

incrementarse.

Como se puede observar se han realizado las mismas

transformaciones que para el caso previo trasladando el origen

de coordenadas del punto o al punto o'.

Teorema: Si X e Y tienen una relación negativa, entonces su

covarianza será menor que cero. Cuanto mayor sea la relación

negativa, más se alejará su covarianza de cero por la

1 Recordemos que A contiene únicamente elementos con signo positivo y B contiene elementos todos ellos de signo negativo.

ESTADÍSTICA I

Tema III

40

izquierda (valores negativos).

En el siguiente gráfico se muestra el diagrama de dispersión

de dos variables entre las que no hay relación lineal. Como se

puede observar para el valor medio de X, Y puede tomar el

valor mínimo o el valor máximo del rango posible de valores.

Sobre los datos originales, y su correspondiente gráfico, se

realizó una traslación al punto definido por el vector de

medias.

Teorema: Si la relación existente entre X e Y tiende a ser

nula, su covarianza tiende a tomar el valor cero.

ESTADÍSTICA I

Tema III

41

Teorema: La covarianza está acotada:

Por lo tanto, simpre hablando en términos de relación lineal:

óptima es relaciónLa fuerte.y positiva es

Y e X entre relaciónLa S*S SSi yxxy ⇒⇒

óptima es relaciónLa fuerte.y negativa es

Y e X entre relaciónLa S*S- SSi yxxy ⇒⇒

nula.a ser tiende Y e X entre relaciónLa 0 SSi xy ⇒⇒

En consecuencia, una primera medida para determinar si existe

correlación o no, y en que grado, puede ser la covarianza.

Sin embargo, la covarianza tiene dos problemas importantes

para esta finalidad:

1.- No tiene unos límites iguales para todas las

distribuciones. Es decir, está acotada pero sus límites

dependen de las desviaciones típicas de las variables y por

tanto varian con las mismas.

2.- La covarianza es variable ante cambios de variable.

Por tanto, debemos seguir buscando una medida que reúna las

siguientes características:

S*S S S*S - yxxyyx ≤≤

ESTADÍSTICA I

Tema III

42

a.- Dará información sobre la existencia o no de una relación

entre las variables.

b.- Dirá que tipo de relación es esta, positiva o negativa.

c.- Esta medida será invariante ante cambios de variable.

d.- Tomará valores entre uno

s extremos fijos sean cuales sean las variables estudiadas.

III.5.2.- Coeficiente de correlación lineal simple.

Esta medida se ha definido como el cociente entre la

covarianza entre dos variables y el producto de sus

correspondientes desviaciones típicas.

Sean X e Y dos variables, llamaremos coeficiente de

correlación lineal de X e Y, y lo denotaremos por r a:

S * SS =r

yx

xy

en donde Sxy es la covarianza entre la variable X y la variable

Y, Sx es la desviación típica de X y Sy es la desviación típica

de Y.

Veamos si cumple las propiedades anteriormente citadas:

Los extremos de r son iguales para todas las variables.

Sabemos que

Dividiendo por un número positivo, las desigualdades no

cambian. Por tanto si dividimos por el producto de las

desviaciones típicas obtenemos:

S * S S S * S - yxxyyx ≤≤

ESTADÍSTICA I

Tema III

43

S * SS * S

S * SS

S * S S * S -

yx

yx

yx

xy

yx

yx ≤≤

con lo que

1 r 1- ≤≤

Por lo tanto r siempre toma valores en el intervalo [-1,1],

para todo par de variables.

r nos da información sobre el nivel de relación entre las

variables.

óptimapositiva Relación S * S S 1 r Si yxxy ⇒→⇒→

óptimanegativa Relación S * S- S 1- r Si yxxy ⇒→⇒→

nula Relación 0 S 0 r Si xy ⇒→⇒→

r es invariante ante cambios de variable (demostrar).

ESTADÍSTICA I

Tema III

44

EJERCICIOS

EJEMPLO: Dada la siguiente distribución de frecuencias

conjuntas de las variables X e Y:

10 20 30 40 ni.

5 4 1 3 2 10

10 7 2 6 4 19

15 - 5 4 2 11

n.j 11 8 13 8 40

se pide:

A.- Obtener las distribuciones marginales.

B.- Decir si son o no variables independientes.

C.- Calcular el coeficiente de correlación.

SOLUCION:

A.-DISTRIBUCIONES MARGINALES.

ni. xini. xi2ni.

5 10 50 250

10 19 190 1900

15 11 165 2475

40 405 4625

ESTADÍSTICA I

Tema III

45

n.j yjn.j yj2n.j

10 11 110 1100

20 8 160 3200

30 13 390 11700

40 8 320 12800

40 980 28800

B.-INDEPENDENCIA

las variables X e Y no son independientes.

C.-COEFICIENTE DE CORRELACION:

ααα 011011xy *-=S

N.n*

N.n=

Nn jiij

4011*

4010

404 ≠

SS

S=ryx

xy

ESTADÍSTICA I

Tema III

46

253.75=40

10150=

=40

40*2*15+...+20*1*5+4*10*5=N

nyx=

ijji

p

1=j

k

1=i11

∑∑α

10.125=40405=

N

.nx=x=

ii

k

1=i10

∑α

24.5=40980=

N

n .y=y=

jj

p

1=j01

∑α

115.6=40

4625=N

.nx=

i2i

k

1=i20

∑α

720=40

28800=N

n .y=

j2j

p

1=j02

∑α

119.75=)(24.5-720= 202µ

αα

µ

21020i

2i

k

1=i

0j

2iij

p

1=j

k

1=i20

-=.f)x-x(

)y)xf=

=

=y-(x-(

∑

∑∑

14.0=SS

S=ryx

xy

ESTADÍSTICA I

Tema III

47

Por tanto existe una correlación positiva muy débil.

EJEMPLO: Las variables x e y, observadas conjuntamente, han

presentado los siguientes valores:

xi yj nij

10 4 10

16 4 10

24 6 30

26 6 45

28 8 5

100

a) Calcular las medias y varianzas marginales.

b)Calcular las medias y varianzas marginales para la

distribución de xi condicionada a yj=6.

c) Calcular la covarianza y el coeficiente de correlación.

SOLUCION:

1.-Medias y varianzas marginales.

A.-De X:

xi ni. fi. xifi. xi2 xi2fi.

10 10 0.1 1 100 10

16 10 0.1 1.6 256 25.6

24 30 0.3 7.2 576 172.8

26 45 0.45 11.7 676 304.2

28 5 0.05 1.4 784 39.2

100 1 22.9 551.8

ESTADÍSTICA I

Tema III

48

Por tanto:

B.-De Y:

yj nj. fj. yjf.j yj2 yj2f.j

4 20 0.2 0.8 16 3.2

6 75 0.75 4.5 36 27

8 5 0.05 0.4 64 3.2

100 1 5.7 33.4

Por tanto:

2.-Distribución de xi para yj=6.

xi nij fij xifij xi

2 xi2fij

24 30 0.4 9.6 576 230.4

26 45 0.6 15.6 676 405.6

22.9=x

27.39=)(22.9-551.8=-=S 2210202x αα

5.7=y

0.91=)(5.7-33.4=-=S22

01022y αα

ESTADÍSTICA I

Tema III

49

75 1 25.2 636

3.-Covarianza y coeficiente de correlación.

xi yj fij xiyjfij

10 4 0.1 4

16 4 0.1 6.4

24 6 0.3 43.2

26 6 0.45 70.2

28 8 0.05 11.2

1 135

COVARIANZA:

0.96=)(25.2-636=]fx[-fx=-= 22jiik

1=i

ji

2i

k

1=i

2102020 ∑∑ααµ

25.2=fx=Xjii

k

1=ij ∑

=4.475.7)*(22.9-135=

=)f .y.)(fx(-fyx=-= jjp

1=jii

k

1=iijji

p

1=j

k

1=i01101111 ∑∑∑∑αααµ

ESTADÍSTICA I

Tema III

50

COEFICIENTE DE CORRELACION:

coeficiente de correlación cercano a 1; variables muy

correlacionadas.

0.895=0.9127.39

4.47==r

0220

11

µµµ

ESTADÍSTICA I

Tema III

51

TEMA III: DESCRIPCIÓN BI-VARIANTE III.1.- Notación y tabulación. … · 2008. 11. 11. · Tema...

Documents

Transcript of TEMA III: DESCRIPCIÓN BI-VARIANTE III.1.- Notación y tabulación. … · 2008. 11. 11. · Tema...