TEMA III: DESCRIPCIÓN BI-VARIANTE III.1.- Notación y tabulación. … · 2008. 11. 11. · Tema...
Transcript of TEMA III: DESCRIPCIÓN BI-VARIANTE III.1.- Notación y tabulación. … · 2008. 11. 11. · Tema...
-
ESTADÍSTICA I
Tema III 1
TEMA III: DESCRIPCIÓN BI-VARIANTE
III.1.- Notación y tabulación.
III.2.- Distribuciones marginales y condicionadas.
III.3.- La relación entre variables. Dependencia e independencia. III.4.- Planteamiento general de la Regresión
III.4.1.- Introducción III.4.2.- Ajuste por el Método de los Mínimos Cuadrados Ordinarios
III.5.- Planteamiento general de la Correlación
-
ESTADÍSTICA I
Tema III 2
III.1.- Notación y tabulación.
En el capítulo anterior, estudiamos las distribuciones de
frecuencias refiriéndolas únicamente a una sola
característica. Sin embargo, en ocasiones, sobre una misma
población se hace necesario el estudio de dos o más
características diferentes.
En este punto, si lo que queremos conocer es la influencia
de cada una de estas características por separado, bastaría
con conocer cada una de las distribuciones de la forma ya
vista en el tema anterior, pero si lo que se pretende es
analizar la interacción entre todas las características,
tendremos que recurrir a una estadística de más de una
dimensión.
Vamos a centrarnos en la estadística bi-variante o, también
llamada bidimensional. Por ejemplo: podemos estar
interesados en estudiar sobre los balances mensuales de una
empresa a la vez el volumen de ventas y los gastos en
publicidad; o sobre un colectivo de enfermos, el número de
enfermedades que padecen y la edad de los mismos.
En general, si sobre una misma población se estudian dos
caracteres X e Y, se obtienen dos series estadísticas de
las variables, que denominaremos X e Y. Pero si
consideramos simultáneamente las dos series, es decir, para
cada unidad estadística el par de valores (xi,yj) decimos
que estamos ante una estadística de dos dimensiones o
variable estadística bidimensional o bi-variante.
Sea una distribución caracterizada por dos variables
estadísticas X e Y, donde, X tiene k modalidades denotadas
por:
x1,x2,...,xk
e Y tiene p modalidades denotadas por:
y1,y2,...,yp
-
ESTADÍSTICA I
Tema III 3
Llamaremos frecuencia absoluta conjunta y la denotamos por
nij al número de individuos que tienen conjuntamente la
modalidad i de X y la j de Y, es decir, las modalidades xi e yj .
La forma habitual de tabular una variable bi-variante es
mediante lo que se denomina tabla de doble entrada; en este
punto distinguimos dos tipos de tabla en función del tipo
de caracteres con los que trabajamos: a.- Carácter
cuantitativo: "tabla de correlación"; b.- Carácter
cualitativo: "tabla de contingencia".
En la práctica, la única diferencia que existe entre la
tabla de contingencia y la tabla de correlación es el tipo
de carácter que resume, y evidentemente, la cantidad de
medidas que podemos obtener a partir de la propia
naturaleza de cada uno de ellos.
Una tabla estadística de doble entrada tiene la siguiente
forma genérica
Y
X
y1 y2 y3 ... yp ni.
x1 n11 n12 n13 ... n1p n1.
x2 n21 n22 n23 ... n2p n2.
x3 n31 n32 n33 ... n3p n3.
... ... ... ... ... ... ...
xk nk1 nk2 nk3 ... nkp nk.
n.j n.1 n.2 n.3 ...
n.p N
donde por ejemplo n11 nos dice el número de veces que se ha
presentado x1 conjuntamente con y1. N es el número total de
individuos, y se corresponde con la suma de todas las
-
ESTADÍSTICA I
Tema III 4
frecuencias absolutas conjuntas de la tabla. Es decir,
∑∑= =
=k
i
p
jijnN
1 1
Como se puede ver es una tabla que en la primera fila
contiene las modalidades de la variable Y, y en la primera
columna las modalidades de la variable X. En el interior de
la tabla se sitúan las correspondientes frecuencias
absolutas conjuntas da cada para de valores posibles de la
variable bi-variante (X,Y).
A partir de esta tabla podemos definir nuevos conceptos de
frecuencia.
* FRECUENCIA ABSOLUTA TOTAL DE xi:
Son todos los individuos que presentan la modalidad xi.
* FRECUENCIA ABSOLUTA TOTAL DE yj:
Son todos los individuos que presentan la modalidad yj.
Es inmediato demostrar
y por tanto,
n=.n ijp
1=ji ∑
n=.n ijk
1=ij ∑
N=.nA) ik
1=i∑
N=.nB) jp
1=j∑
N=.nn jp
1=ji
k
1=i
=. ∑∑
-
ESTADÍSTICA I
Tema III 5
en donde N recordemos que es el número total de individuos
con el que estamos trabajando.
*FRECUENCIA RELATIVA CONJUNTA DE xi e yj .
nos da la proporción de individuos que presentan
conjuntamente la modalidad xi e yj .
*FRECUENCIA RELATIVA TOTAL DE LA MODALIDAD xi.
nos da la proporción de individuos que presentan la
modalidad xi.
*FRECUENCIA RELATIVA TOTAL DE LA MODALIDAD yj.
nos da la proporción de individuos que presentan la
modalidad yj.
En función de estas definiciones podemos demostrar:
1)
DEMOSTRACION:
Nn=f ijij
N
.n=.f ii
N.n=.f jj
1=f ijp
1=j
k
1=i∑∑
-
ESTADÍSTICA I
Tema III 6
2)
DEMOSTRACION:
3)
4)
DEMOSTRACION:
5)
1=NN=.
=
=+...++=
nN1
=N
.n=
=Nn
+...+Nn+
Nn
ffff
i
k
1=i
ik
1=i
ipi2i1k
1=i
ipi2i1
k
1=iij
p
1=j
k
1=i
∑∑
∑
∑∑∑
f=.f ijp
1=ji ∑
fnN1=
N.n=.f ij
p
1=jij
p
1=j
ii = ∑∑
f=.f ijk
1=ij ∑
1=.f ik
1=i∑
1=NN=.=. n
N1=
N.nf i
k
1=i
ik
1=ii
k
1=i∑∑∑
-
ESTADÍSTICA I
Tema III 7
Veamos un ejemplo. Supongamos que queremos estudiar un
colectivo de profesionales estadounidenses según su edad y
los ingresos brutos, en dólares. Disponemos de la siguiente
información: de las personas de 25 años, 15 ingresan 500$,
y 12 ingresan 600$; de las personas de 40 años, 8 ingresan
700$ y 12 ingresan 600$; de las personas de 35 años, 18
ingresan 500$ y 7 ingresan 700$; y, finalmente, de las
personas de 30 años, 3 ingresan 700$, 11 ingresan 500$ y 14
ingresan 600$. Se pide la tabulación y la comprobación
numérica de los resultados vistos anteriormente.
Lo que intentamos hacer es estudiar conjuntamente la edad y
el nivel de ingresos. Son dos variables y en consecuencia
su tabulación mediante una tabla de doble entrada, da lugar
a una tabla de correlación, que vendrá dada por
Ingresos en dólares
Edad 500 600 700 25 15 12 0 30 11 14 3 35 18 0 7 40 0 12 8
De esta tabla se pueden derivar:
• Las frecuencias absolutas totales de ambas variables
Ingresos en dólares Edad 500 600 700 ni.
25 15 12 0 27 30 11 14 3 28 35 18 0 7 25 40 0 12 8 20 n.j 44 38 18 N=100
• Las frecuencias relativas conjuntas y totales
Ingresos en dólares Edad 500 600 700 ni.
25 0.15 0.12 0 0.27 30 0.11 0.14 0.3 0.28 35 0.18 0 0.7 0.25 40 0 0.12 0.8 0.20
1=.f jp
1=j∑
-
ESTADÍSTICA I
Tema III 8
n.j 0.44 0.38 0.18 1
Dejamos para el alumno la comprobación de los distintos
resultados que hemos visto.
-
ESTADÍSTICA I
Tema III 9
III.2.- DISTRIBUCIONES MARGINALES Y CONDICIONADAS
III.2.1.-DISTRIBUCIONES MARGINALES
Llamaremos distribución marginal de X a aquella
distribución que tiene como modalidades las modalidades de
X y como frecuencias absolutas, las frecuencias absolutas
totales de X. La distribución marginal de X nos permite
estudiar el comportamiento de la variable X con
independencia de cómo se comporte con respecto a Y.
Así, por ejemplo, el número de veces que se repite en total
x1, con independencia de los valores de Y será:
que se lee "n subíndice uno punto" y que es la frecuencia
marginal de x1. En consecuencia, la distribución marginal
de X es la distribución que viene definida por el par
(xi,ni.)
xi x1 x2 x3 ... xk
ni. n1. n2. n3. ... nk.
Obsérvese que la distribución marginal no es más que una
distribución univariante y en consecuencia se le pueden
realizar todos los cálculos estudiados en el tema II. Es
decir, podemos hablar de la media aritmética de una
distribución marginal, de la varianza de una distribución
marginal, de la frecuencia relativa acumulada de una
distribución marginal, etc... Evidentemente, todo ello
calculado a partir de la distribución de frecuencias
definida por el par (xi,ni.).
n+...+n+...+n+n=.n 1p1j12111
N=.ni∑
-
ESTADÍSTICA I
Tema III 10
De la misma manera que definimos la distribución marginal
de X podemos definir la distribución marginal de Y.
Llamaremos distribución marginal de Y a aquella
distribución que tiene como modalidades las modalidades
de Y, y como frecuencia absoluta, las frecuencias absolutas
totales de Y. Es decir, la distribución marginal de Y
es aquella distribución que viene definida por el par
(yj,n.j).
yj y1 y2 y3 ... yp
n.j n.1 n.2 n.3 ... n.p
Por tanto:
Es decir, cuando estudiamos distribuciones marginales
tenemos en cuenta a todos los individuos con los que
estamos trabajando, pero centramos nuestro análisis
únicamente en un subconjunto de caracteres del conjunto
total de los estudiados. En el caso de distribución
bidimensional, solamente podemos encontrar distribuciones
marginales unidimensionales.
Con los datos del ejemplo anterior, la distribución
marginal de X (edad) vendrá dada por la siguiente
distribución de frecuencias
Edad ni.
25 27
30 28
35 25
40 20
N=.n j∑
N==. n=.nn ijp
1=j
k
1=ij
p
1=ji
k
1=i∑∑∑∑
-
ESTADÍSTICA I
Tema III 11
Como puede verse es una distribución de frecuencias como la
que estudiamos en el tema II y, en consecuencia, se le
puede aplicar todo lo visto en el tema II. Dejamos para el
alumno el cálculo de todas las frecuencias y de todos los
estadísticos estudiados en el tema II.
De la misma manera, la distribución marginal de Y, es
decir, la distribución marginal de los ingresos viene dad
por la siguiente distribución de frecuencias
Ingresos n.j
500 44
600 38
700 18
III.2.2.- DISTRIBUCIONES CONDICIONADAS
Llamaremos distribución condicionada de la variable
estadística X condicionada a la modalidad yj de Y, y la
denotamos por (X/yj) a la variable estadística cuyas
modalidades son las modalidades de X y cuyas frecuencias
absolutas son las frecuencias absolutas conjuntas de xi e
yj.
Por tanto, (X/yj) viene definido por la siguiente
distribución de frecuencias:
xi nij fij=nij/n.j
X1 n1j f1j=n1j/n.j
X2 n2j f2j=n2j/n.j
... ... ...
Xk nkj fkj=nkj/n.j
-
ESTADÍSTICA I
Tema III 12
n.j
Denotaremos por fij a la frecuencia relativa de xi
condicionada a yj, que vendrá dada por:
interpretándose como la proporción de individuos que
presentan la modalidad xi dentro del conjunto de individuos
que presentan la modalidad yj.
Por tanto, existen p posibles distribuciones condicionadas
(existen tantas distribuciones condicionadas de X como
modalidades tenga Y).
Análogamente, podemos obtener la distribución de la
variable Y condicionada a la modalidad xi de X y lo
denotamos por (Y/xi).
yj nij fji=nij/ni.
y1 ni1 f1i=ni1/ni.
y2 ni2 f2i=ni2/ni.
... ... ...
yp nip fpi=nip/ni.
ni.
Denotaremos por fji a la frecuencia relativa de yj
condicionada a xi.
Por tanto, existen k posibles distribuciones condicionadas
(existen tantas distribuciones condicionadas de Y como
modalidades tenga X).
Obsérvese que al analizar una distribución condicional no
tenemos en cuenta a todos los individuos en estudio.
Unicamente consideramos a aquellos que cumplen una
determinada condición. Por ejemplo, si estamos estudiando a
una población de empresas y nos interesan dos caracteres,
.n
n=fj
ijji
-
ESTADÍSTICA I
Tema III 13
n� de empleados y volumen de ventas, la distribución del
número de empleados condicionada a tener unas ventas
comprendidas entre 20 y 35 millones de pesetas, únicamente
estudia a aquellas empresas con dicho nivel de ventas y las
estudia en función del número de empleados.
De lo dicho, podemos demostrar
fij = fi. fji = f.j fij
La demostración la haremos en dos partes.
1.- Demostraremos que fij = fi. fji
2.- Demostraremos que fij = f.j fij
Con la notación utilizada podemos definir los distintos
estadísticos:
MEDIDAS DE POSICION Y DISPERSION
A.- DISTRIBUCIONES MARGINALES
a.-DE X:
-MEDIA DE LA MARGINAL DE X:
-VARIANZA MARGINAL DE X:
b.-DE Y:
-MEDIA DE LA MARGINAL DE Y:
f*.f=.n
n*N
.n=Nn=f iji
i
ijiijij
f*.f=.n
n*N.n=
Nn=f jij
j
ijjijij
xnxf=X iik
1=iii
k
1=i
.N1=. ∑∑
)xf=S 2iik
1=i
2X X-.(∑
-
ESTADÍSTICA I
Tema III 14
y.nN1=y.f=Y jj
p
1=jjj
p
1=j∑∑
-VARIANZA MARGINAL DE Y:
B.-DISTRIBUCIONES CONDICIONADAS
a.-DISTRIBUCION DE X CONDICIONADA A a yj : (x/yj)
-MEDIA DE X CONDICIONADA A yj:
-VARIANZA DE X CONDICIONADA A yj:
b.-DISTRIBUCION DE Y CONDICIONADA A a xi : (y/xi)
-MEDIA DE Y CONDICIONADA A xi:
-VARIANZA DE Y CONDICIONADA A xi:
EJEMPLO. En la siguiente tabla aparecen representadas las
ventas, en millones de pesetas mensuales (X), de un cierto
producto que comercializan 70 empresas, frente al número de
distribuidores (Y) de éstas, que trabajan con dicho
producto.
)Y-y(.f=S2
jj
p
1=j
2Y ∑
xf=X iji
k
1=ij ∑
)xxf=(x)S2
jiji
k
1=i
2j -(∑
yf=Y jij
p
1=ji *∑
)Yyf=(y)S2
ijij
p
1=j
2i -(∑
-
ESTADÍSTICA I
Tema III 15
X \Y
1 2 3 ni.
5 - 7 20 20
7 - 11 6 9 15
11 - 15 5 8 15 28
15 - 25 1 2 4 7
n.j 32 19 19 70
DISTRIBUCIONES MARGINALES:
A.- DE X:
xi Ci ni. fi.
5 - 7 6 20 20/70=0.286
7 - 11 9 15 15/70=0.214
11 - 15 13 28 28/70=0.4
15 - 25 20 7 7/70=0.1
N=70 1
B.-DE Y:
yj n.j f.j
1 32 32/70=0.458
2 19 19/70=0.271
3 19 19/70=0.271
-
ESTADÍSTICA I
Tema III 16
70 1
DISTRIBUCIONES CONDICIONADAS:
A.-Distribución de ingresos de las empresas condicionada a
tener un sólo distribuidor:
xi Ci nij fij
5-7 6 20 20/32
7-11 9 6 6/32
11-15 13 5 5/32
15-25 20 1 1/32
32 1
B.-Distribución condicionada del número de distribuidores
de la empresa a que los ingresos de ésta estén entre 11 y
15 millones de ptas.
yj nij
fji
1 5 5/28
2 8 8/28
3 15 15/28
28 1
Ejercicio. En la siguiente tabla de correlación se
representan los ingresos en miles de pesetas mensuales (X)
de las familias, así como el número de miembros que aportan
regularmente algún tipo de ingreso (Y).
Y
X 1 2 3
-
ESTADÍSTICA I
Tema III 17
50-70 20 0 0
70-100 10 5 0
100-150 5 15 8
150-250 1 4 2
Calcular:
• Distribuciones marginales de los ingresos y del número de personas que aportan ingresos.
• Distribución condicionada de X condicionada por y1. Calcular su media aritmética y su varianza.
• Distribución condicionada de Y condicionada por x50-70. Calcular su media aritmética y varianza.
-
ESTADÍSTICA I
Tema III 18
III.3.- La relación entre variables. Dependencia e independencia.
III.3.1.- Definición de Independencia. Sean X e Y dos variables estadísticas, decimos que X e Y
son independientes estadísticamente entre sí, si y sólo si:
es decir; cuando la frecuencia relativa conjunta es igual
al producto de las frecuencias relativas marginales.
O también:
Si esta relación no se cumple para todos los valores de i,
j, las variables X e Y son dependientes.
Partiendo de la definición de independencia, podemos
demostrar que si X e Y son independientes se verifica que:
fij=fi.
fji = f.j
Es decir, las frecuencias relativas condicionadas son
iguales a las correspondientes frecuencias relativas
marginales.
La demostración es inmediata. Como vimos anteriormente, la
condición de independencia es:
Por otra parte, se cumple que:
De las dos expresiones anteriores deducimos que:
ji, .f*.f=f jiij ∀
ji, N.n*
N.n=
Nn jiij ∀
ji, .f*.f=f jiij ∀
f*.f=.n
n*N
.n=Nn=f iji
i
ijiijij
-
ESTADÍSTICA I
Tema III 19
De forma análoga, podemos demostrar:
ya que:
y por la condición de independencia:
con lo cual concluimos:
.f=f f*.f=.f*.f jij
ijiji ⇒
.f=f iji
f*.f=.n
n*N.n=
Nn=f jij
j
ijjijij
ji, .f*.f=f jiij ∀
.f=f f*.f=.f*.f iji
jijji ⇒
-
ESTADÍSTICA I
Tema III 20
III.4.- Planteamiento general de la Regresión III.4.1.- Introducción. Las teorías científicas no hacen más que enunciar la
existencia de unas relaciones causa-efecto entre fenómenos,
fenómenos que en lenguaje estadístico se convierten en
características de los elementos que componen una
población. Cuando estas características son susceptibles de
medición, se denominan variables: así, con mucha
frecuencia, las teorías científicas tratan, en último
término, de relaciones entre variables.
La Estadística permite determinar mediante procedimientos
matemáticos si existe o no relación entre dos o más
variables y proporciona medidas del grado de relación en el
caso de que ésta exista. El conjunta de técnicas que
permiten obtener aquellas relaciones matemáticas que mejor
expliquen una variable a partir de otra(s) recibe el nombre
de regresión, mientras que la correlación se ocupa del
estudio del grado de relación.
De esta manera, la teoría económica nos dice que el consumo
depende del nivel de renta de la siguiente manera:en donde,
Ct es el consumo en el período t, Yt es la renta en el
período t, ut es lo que llamaremos perturbación aleatoria y
α y ß son los parámetros.
Estudiemos más a fondo la expresión (1). Estamos
interesados en estudiar el comportamiento del consumo. La
teoría económica nos dice que para explicar el consumo una
variable de interés es el nivel de renta, pero
evidentemente no es la única. Es decir, el consumo no solo
depende del nivel de renta, sino que depende de otras
muchas variables (nivel de consumo anterior, de las
expectativas futuras sobre obtención de rentas, etc...). es
por ello que aparece en (1) la variable ut, la que hemos
denominado perturbación aleatoria. Esta variable se
Ecuación 1
u+Y*+=C ttt βα
-
ESTADÍSTICA I
Tema III 21
caracteriza por el hecho de no ser observable y se puede
interpretar como que en ella se recogen todas aquellas
variables que influyen en la variable consumo pero que no
están especificadas en el modelo debido a que la
importancia de cada una de ellas individualmente es muy
pequeña con respecto al peso de la variable renta.
Además de Yt, Ct y ut en el modelo tenemos un elemento más
que son los parámetros α y ß. Estos parámetros son los que
miden cuantitativamente la relación que existe entre el
consumo y la renta. El parámetro α nos mide cuanto vale el
consumo cuanto no se dispone de ninguna renta (Yt=0), ß nos
mide en cuanto se incrementa el consumo al incrementarse el
nivel de renta en una unidad. Gráficamente en una
representación cartesiana del consumo y la renta, α nos da
la ordenada en el origen y ß nos da la pendiente de la
recta
Los valores de α y ß son desconocidos.
El problema se plantea por la necesidad de obtener un valor
estimado para los parámetros del modelo con el fin de
estimar valores del consumo para cualquier valor de la
renta, para realizar análisis estructural, para predecir el
comportamiento futuro del consumo, etc...
Consumo
Renta"
ß
-
ESTADÍSTICA I
Tema III 22
III.4.2.- El modelo de regresión lineal simple.Hipótesis
Llamaremos modelo de regresión lineal simple a un modelo en
donde se liga a dos variables y a un término de
perturbación aleatoria mediante una relación lineal. De
forma genérica, el modelo de regresión simple es de la
forma
Ecuación 2
u+X*+=Y ttt βα
en donde t toma valores desde t={1,2,3,...,T}, Yt es la
variable que queremos explicar, y que llamaremos variable
endógena, Xt es una variable genérica, que denominaremos
variable exógena y es la encargada de explicar el
comportamiento de la variable endógena, α y ß son los
parámetros del modelo y ut es la perturbación aleatoria del
modelo. A la expresión (2) se le denomina recta de
regresión poblacional
En consecuencia, el volumen de datos con los que vamos a
trabajar viene dado por los datos correspondientes a las
variables Yt y Xt cuya representación gráfica se puede
realizar mediante en diagrama de dispersión.
El diagrama de dispersión de dos variables no es más que la
representación gráfica en un sistema de coordenadas de los
puntos (xt, yt), en donde t puede indicar distintos
instantes del tiempo, en cuyo caso Xt e Yt serían series
temporales, o t puede indicar distintos individuos, en cuyo
caso se dice que las variables Xt e Yt contienen datos de
corte transversal.
El problema que se nos plantea es el de estimar el valor de
α y ß del modelo (2) a partir de los datos de la tabla 1
-
ESTADÍSTICA I
Tema III 23
Tabla 1
Xt
x1
x2
x3
...
xT
Yt
y1
y2
y3
...
yT
Para ello es necesario, en una primera fase, especificar
una serie de hipótesis sobre el comportamiento del modelo
(2) y de los elementos que lo componen. Estas son las
hipótesis básicas del modelo de regresión lineal.
Hipótesis primera: El modelo está bien especificado. Es
decir, la única variable relevante en la explicación de la
variable endógena es la variable X, además, la relación que
existe entre la variable endógena y exógena es del tipo
lineal tal y como indica el modelo (2).
Hipótesis segunda: La variable exógena es una variable no
aleatoria, es determinista.
Hipótesis tercera: No existen errores de medida en los
datos de las variables Y y X.
Hipótesis cuarta: Los parámetros del modelo son fijos, y no
existe cambio estructural en el período en estudio
III.4.3.- Obtención de los estimadores por Mínimos Cuadrados Ordinarios.
Sean X e Y dos variables que mantienen una dependencia
estadística de la forma
f(X)Y ≈
-
ESTADÍSTICA I
Tema III 24
El principio de mínimos cuadrados ordinarios pretende
encontrar una ecuación funcional, de la forma
que verifique que la media de los cuadrados de las
diferencias tomadas paralelamente al eje de ordenadas entre
los distintos puntos observados (xt, yt) y dicha función
sea mínimo.
Es decir, si partimos del siguiente diagrama de dispersión
podemos definir et como
y-y=e ttt ˆ
Es decir, et es la diferencia que existe entre el verdadero
valor de Y en el instante t y el valor que toma la forma
funcional, que denominaremos Y estimada. et en realidad es
el error que cometemos si usamos Y estimada en vez de Y
real. Por tanto, a et le llamaremos error de estimación o
residuo de la regresión, y si observamos la expresión (2)
(ecuación 2) vemos que et es una forma de estimar el
término de perturbación aleatoria ut.
f(x)=Ŷ
-
ESTADÍSTICA I
Tema III 25
Por consiguiente el principio de mínimos cuadrados
consistirá en minimizar la expresión
La idea que encierra el principio de mínimos cuadrados
ordinarios es muy simple. Una vez determinada que tipo de
relación funcional es la que mejor se ajusta a la nube de
puntos, el principio de mínimos cuadrados ordinarios (MCO)
lo que hace es buscar aquellos valores de los parámetros α
y ß que hacen que los et sean más pequeños. Cuanto más
pequeños son, es evidente, que la forma funcional se ajusta
mejor a la nube de puntos. Como los residuos pueden ser
positivos y negativos, si utilizamos directamente sus
valores en la expresión de A tendríamos sumandos positivos
y negativos con lo cual su suma tendería a tomar el valor
0. Por ello es por lo que se utilizan los residuos al
cuadrado.
El estimador mínimo cuadrático ordinario del modelo de regresión
simple.
Sean X e Y dos variables cuya relación viene dada por la
ecuación 2. Aplicando el principio de mínimos cuadrados
ordinarios estimaríamos una función dada por
en donde a es el estimador del parámetro αα, y b es el
estimador del parámetro ββ. A la ecuación anterior se le
denomina recta de regresión estimada.
En este caso, por tanto la ecuación a estimar viene dada
por
x*b +a = y ttˆ
e=A 2tT
1=t∑
X*b +a = Y ttˆ
-
ESTADÍSTICA I
Tema III 26
y aplicando el principio de mínimos cuadrados,
minimizaríamos
Para el caso concreto de relación lineal, y teniendo en
cuenta que
x*b -a - y = y - y = e ttttt ˆ
minimizaremos la expresión
)x*b-a-y(e = A 2ttT
1=t
2t
T
1=t
= ∑∑
Para ello, las dos condiciones necesarias vienen dadas por
e=A 2tT
1=t∑
1) MSMa
'0 2) MSMb
'0
1) MSMa
'&2jT
t'1(yt&a&b(xt)'0
jT
t'1(y t&a&b(x t)'0
jT
t'1yt&j
T
t'1a&bj
T
t'1xt'0
a ' 1T
(jT
t'1yt&bj
T
t'1x t)
2) MSMb
'&2jT
t'1(yt&a&b(x t)(xt'0
jT
t'1yt(x t&a(j
T
t'1xt&b(j
T
t'1x 2t '0
-
ESTADÍSTICA I
Tema III 27
sustituyendo el valor de a obtenemos
Por tanto, los estadísticos a través de los cuales
estimaremos los valores de α y β vienen dados por las
expresiones de a y b determinadas en las líneas anteriores.
Ejemplo. Ajustar por mínimos cuadrados ordinarios una recta
de regresión a la siguiente distribución bidimensional,
siendo Y la variable dependiente, y por tanto, a explicar
Xi
27
27
30
30
33
33
Yi
100
110
110
120
120
130
)xx
xyxy
x*b-)xxyxy
xxxyxy
2t
T
1=t
2t
T
1=t
t
T
1=tt
T
1=ttt
T
1=t
2t
T
1=t
2t
T
1=tt
T
1=tt
T
1=ttt
T
1=t
2t
T
1=tt
T
1=tt
T
1=tt
T
1=ttt
T
1=t
(*T1
-
**T1-*
= b
0=(*b*T1+)(
T1-*
0=*b-*)]*b-(*T1[-*
∑∑
∑∑∑
∑∑∑∑∑
∑∑∑∑∑
-
ESTADÍSTICA I
Tema III 28
Solución.
xi
yi
xiyi
xi2
27
100
2.700,00
729,00
27
110
2.970,00
729,00
30
110
3.300,00
900,00
30
120
3.600,00
900,00
33
120
3.960,00
1.089,00
33
130
4.290,00
1.089,00
180
690
20.820,00
5.436,00
por tanto, la recta de regresión viene dada por
x*3.33 + 15.1 = ŷ
Observar que para cada valor de la variable X obtenemos un
15.1=180]*3.33-[69061 =a
3.33=)(180
61-5436
(690)(180)61-20820
=b2
-
ESTADÍSTICA I
Tema III 29
valor estimado de la variable Y.
La interpretación del 15.1 y 3.33 es la siguiente. Si la
variable X toma el valor cero, el valor estimado de Y es
15.1, es decir, el valor estimado del parámetro α. Si la
variable X se incrementa en una unidad, la variable Y se
incrementará en 3.33 unidades.
III.4.4.- Estudio de la bondad del ajuste.
Hasta ahora hemos partido de unos datos que eran utilizados
para definir una relación funcional entre dos variables. De
forma implícita se suponía que había una relación entre las
variables X e Y, y la regresión lo que hacía era buscar la
relación que mejor explicase el comportamiento de la
variable Y en función de la variable X. Esta era la recta
de regresión estimada. Es decir, supongamos que nuestro
trabajo consiste en abrir una zanja de treinta metros
cúbicos. Las herramientas con las que contamos son un
bolígrafo y una pala pequeña de jardinería. La regresión lo
que nos diría es cual de las dos herramientas es la mejor
para realizar el trabajo, aunque ello no significa que sea
la adecuada para el mismo. Esto es, la regresión nos diría
que utilizásemos la pala de jardinería, ya que entre las
dos opciones es la mejor, lo cual no elimina que ambas sean
malas herramientas.
Por tanto, lo que hemos hecho hasta ahora es buscar la
recta que mejor se ajusta a la nube de puntos
correspondiente al diagrama de dispersión, entendiendo por
mejor ajuste a aquel que hace que la suma de los errores al
cuadrado es más pequeña. Pero esta recta, que es la mejor
posible, puede no ser lo suficientemente buena.
Por tanto, la regresión por si sola no es suficiente, ya
que, es verdad que busca la mejor relación, pero esta puede
ser muy mala. Para estudiar la bondad del ajuste, se
utiliza el Coeficiente de Determinación.
-
ESTADÍSTICA I
Tema III 30
El coeficiente de determinación es una medida que nos
informan si, en términos globales, el ajuste es bueno o
malo.
La Bondad del ajuste nos informará de la representatividad
de una curva (sea lineal o no) para la explicación de una
relación entre dos variables.
Lo que haremos es usar la variable error de regresión, o
residuo MCO, esto es, lo que hemos denotado por ei. Es
lógico pensar que cuanto más pequeños sean los ei, mayor
será la representativadad de la función f(x).
Llamaremos por tanto Bondad del ajuste al grado de
representatividad de una curva a una nube de puntos.
Para el estudio de la bondad del ajuste podemos
encontrarnos con distintos estadísticos.
-
ESTADÍSTICA I
Tema III 31
Varianza residual.
Llamaremos varianza residual, y la denotaremos por Se2, a
la varianza de la variable residuo. Es decir,
Si tenemos en cuenta que la media de los errores MCO es
cero, la varianza residual viene expresada como
Por tanto, si la varianza residual tiende a cero ello
significa que cada valor de los ei tiende a tomar el valor
de su media, esto es, cero. Pero si cada ei tiende a cero,
ello significa que la nube de puntos está muy próxima a la
función estimada.
)e - e( * T1
= S 2tT
1=t
2e ∑
e * T1
= S 2tT
1=t
2e ∑
-
ESTADÍSTICA I
Tema III
32
Por otra parte, recordemos que si X e Y son dos variables
estadísticas incorrelacionadas, la varianza de la variable
suma de ambas es igual a la suma de las varianzas de cada una
de ellas. Es decir,
Ejercicio: Demostrar el resultado anterior.
También se puede demostrar que los errores MCO y los valores
de yi estimada están incorrelacionados. Esto es,
Ejercicio: Demostrar el resultado anterior.
Y dado que
e+y=y ttt ˆ
la varianza de Y (Sy2) se puede descomponer en la varianza de Y
estimada más la varianza residual. Es decir,
Ejercicio: Demostrar el resultado anterior.
Por tanto, podemos decir que las variaciones de Y vienen
explicadas, bien por la regresión, esto es, por las
variaciones de Y estimada, o bien por los errores. Es evidente
que cuanto mayor sea la parte explicada por los errores, la
bondad del ajuste tiende a ser peor. Por el contrario, cuanto
S + S = S 2y2x2 y+x
0 = S yeˆ
S + S = S 2e2y2y ˆ
-
ESTADÍSTICA I
Tema III
33
menor sea la varianza de los residuos, ello implica que la
varianza de la regresión tiende a ser igual a la varianza de
la variable Y, y por tanto, la bondad del ajuste será mejor.
Coeficiente de Determinación.
La varianza residual tiene problemas de interpretación
similares a los que presenta la covarianza. Esto es, está
afectado por las unidades de medida, es variante antes cambios
de variable y no tiene límites fijos para todas las variables.
Por todo ello se define un nuevo estadístico que no presente
los problemas mencionados. Este estadístico es el coeficiente
de determinación.
Llamaremos coeficiente de determinación y lo representaremos
por R2 a
SS - 1 =
SS = R 2
y
2e
2y
2y2
El coeficiente de determinación presenta las siguientes
propiedades:
1.- R2 toma valores en el intervalo [0,1].
niendo en cuenta que Se
2 es menor o igual a Sy2 podemos escribir
0=1-1= SS - 1
SS -1 = R 2
y
2y
2y
2e2 ≥
Por tanto R2 es siempre mayor o igual a 0, y podemos demostrar
(ejercicio para los alumnos) que es menor o igual a 1.
2.- Como se puede deducir de la definición del coeficiente de
determinación, este mide la proporción de variabilidad de la
variable endógena que viene explicada por la regresión. De
-
ESTADÍSTICA I
Tema III
34
esta manera, si R2 = 0.81, significa que el 81% de las
variaciones de la variable endógena vienen explicadas por la
regresión.
En base a ello, la interpretación genérica del coeficiente de
determinación es la siguiente:
2.1.- Si R2 tiende a 0, la bondad del ajuste es mala puesto que
la regresión tiende a explicar el 0% de las variaciones de la
variable endógena.
2.2.- Si R2 tiende a 1, la bondad del ajuste es óptima, puesto
que la totalidad de las variaciones de la variable endógena
vienen explicadas por la regresión.
-
ESTADÍSTICA I
Tema III
35
III.5.- PLANTEAMIENTO GENERAL DE LA CORRELACION
A través de la regresión hemos estudiado la forma funcional de
la relación entre dos variables pero no se ha tratado el grado
o la intensidad de esa relación. Corresponde a la teoría de la
correlación el medir la intensidad de la dependencia entre
las mismas.
Veamos algunas medidas que tiene como finalidad cuantificar el
grado de relación existente entre dos variables. Estas son:
Covarianza y el Coeficiente de correlación lineal simple.
III.5.1.- La covarianza. Sean dos variables aleatorias X e Y. Definimos la covarianza
de X e Y y la denotamos por Sxy a:
Obsérvese que si dos variables son independientes, su
covarianza es cero. La demostración es rápida y sencilla.
Si X e Y son independientes se cumple:
y podemos expresar la covarianza como
)y-)(x-(N1
=
=)y-)(x-(
yxn
yxf=S
jiij
p
1=j
k
1=i
jiij
p
1=j
k
1=ixy
∑∑
∑∑
.f*.f=f jiij
-
ESTADÍSTICA I
Tema III
36
(1) )]y-y(.fxf
yx.f
yxf=S
jj
p
1=jii
k
1=i
jiji
p
1=j
k
1=i
jiij
p
1=j
k
1=ixy
)][x-.([=
=)y-)(x-(.f=
=)y-)(x-(
∑∑
∑∑
∑∑
Desarrollando el primer corchete obtenemos
0=x-x=
=.x-.=)x-.( fxfxf ik
1=iii
k
1=iii
k
1=i∑∑∑
y en consecuencia, la expresión del segundo corchete también
tomará valor 0 por lo que sustituyendo en (1) tenemos:
Sxy= 0 * 0 = 0
En consecuencia una primera medida que estudia la dependencia
entre variables es la covarianza.
Veamos ahora un análisis gráfico de la covarianza. Para ello
haremos uso de una representación gráfico denominada diagrama
de dispersión. Un diagrama de dispersión no es más que la
representación cartesiana de dos variables. En el eje de
abcisas representamos a la variable X y en el eje de ordenadas
representamos la variable Y. En consecuencia, cada punto del
gráfico corresponde a un par (xi,yj). Es decir, un diagrama de
dispersión tiene la forma del gráfico siguiente
-
ESTADÍSTICA I
Tema III
37
Como se puede observar se ha realizado una traslación de los
ejes originales (X,Y) con origen en o al origen o' situados
sobre los valores medios de las variables originales,
obteniendo unos nuevos ejes (X',Y'). La traslación viene dada
por
y - y = y
x - x = x
tt
tt
′
′
pudiendo expresar la covarianza como
denotamos por I, II, III y IV los nuevos cuadrantes referidos
al origen o'.
Todos los puntos del cuadrante I son positivos, tanto en la
yx*T1
= S ttT
1=txy * ′′∑
-
ESTADÍSTICA I
Tema III
38
ordenada como en la abcisa, por lo tanto, su producto será
positivo. También serán positivos los productos de las
componentes del cuadrante III al ser, tanto las ordenadas como
las abcisas, negativas. Por el contrario, los productos
correspondientes a los cuadrantes II y IV tienen signo
negativo.
Por otra parte, la nube de puntos expuesta en la gráfica
anterior coresponde a una tendencia monótona creciente. Es
decir, al irse incrementado X, Y tiende a crecer. En este caso
se dice que X e Y mantienen una relación positiva.
Teorema: Si X e Y tienen una relación positiva, entonces Sxy es
mayor que cero. Cuanto mayor sea la relación positiva, la
covarianza tenderá a tomar valores mayores.
La demostración es inmediata a partir del análisis del gráfico
y teniendo en cuenta que la covarianza la podemos dividir en
dos partes
Si la relación es positiva habrá más puntos en los cuadrantes
IVy II IIIy I
cuadrantes cuadrantes
los de puntos los de puntos
B+A=y*x + y*x = S ttttxy
⇓⇓
∑∑ ′′′′
-
ESTADÍSTICA I
Tema III
39
I y III que en el II y IV, por tanto A será mayor que B1 y por
consiguiente Sxy será positiva.
El siguiente gráfico muestra el diagrama de dispersión de dos
variables cuando su relación es negativa, esto es, es monótona
decreciente, al incrementar la variable X, Y tiende a
incrementarse.
Como se puede observar se han realizado las mismas
transformaciones que para el caso previo trasladando el origen
de coordenadas del punto o al punto o'.
Teorema: Si X e Y tienen una relación negativa, entonces su
covarianza será menor que cero. Cuanto mayor sea la relación
negativa, más se alejará su covarianza de cero por la
1 Recordemos que A contiene únicamente elementos con signo positivo y B contiene elementos todos ellos de signo negativo.
-
ESTADÍSTICA I
Tema III
40
izquierda (valores negativos).
En el siguiente gráfico se muestra el diagrama de dispersión
de dos variables entre las que no hay relación lineal. Como se
puede observar para el valor medio de X, Y puede tomar el
valor mínimo o el valor máximo del rango posible de valores.
Sobre los datos originales, y su correspondiente gráfico, se
realizó una traslación al punto definido por el vector de
medias.
Teorema: Si la relación existente entre X e Y tiende a ser
nula, su covarianza tiende a tomar el valor cero.
-
ESTADÍSTICA I
Tema III
41
Teorema: La covarianza está acotada:
Por lo tanto, simpre hablando en términos de relación lineal:
óptima es relaciónLa fuerte.y positiva es
Y e X entre relaciónLa S*S SSi yxxy ⇒⇒
óptima es relaciónLa fuerte.y negativa es
Y e X entre relaciónLa S*S- SSi yxxy ⇒⇒
nula.a ser tiende Y e X entre relaciónLa 0 SSi xy ⇒⇒
En consecuencia, una primera medida para determinar si existe
correlación o no, y en que grado, puede ser la covarianza.
Sin embargo, la covarianza tiene dos problemas importantes
para esta finalidad:
1.- No tiene unos límites iguales para todas las
distribuciones. Es decir, está acotada pero sus límites
dependen de las desviaciones típicas de las variables y por
tanto varian con las mismas.
2.- La covarianza es variable ante cambios de variable.
Por tanto, debemos seguir buscando una medida que reúna las
siguientes características:
S*S S S*S - yxxyyx ≤≤
-
ESTADÍSTICA I
Tema III
42
a.- Dará información sobre la existencia o no de una relación
entre las variables.
b.- Dirá que tipo de relación es esta, positiva o negativa.
c.- Esta medida será invariante ante cambios de variable.
d.- Tomará valores entre uno
s extremos fijos sean cuales sean las variables estudiadas.
III.5.2.- Coeficiente de correlación lineal simple.
Esta medida se ha definido como el cociente entre la
covarianza entre dos variables y el producto de sus
correspondientes desviaciones típicas.
Sean X e Y dos variables, llamaremos coeficiente de
correlación lineal de X e Y, y lo denotaremos por r a:
S * SS =r
yx
xy
en donde Sxy es la covarianza entre la variable X y la variable
Y, Sx es la desviación típica de X y Sy es la desviación típica
de Y.
Veamos si cumple las propiedades anteriormente citadas:
Los extremos de r son iguales para todas las variables.
Sabemos que
Dividiendo por un número positivo, las desigualdades no
cambian. Por tanto si dividimos por el producto de las
desviaciones típicas obtenemos:
S * S S S * S - yxxyyx ≤≤
-
ESTADÍSTICA I
Tema III
43
S * SS * S
S * SS
S * S S * S -
yx
yx
yx
xy
yx
yx ≤≤
con lo que
1 r 1- ≤≤
Por lo tanto r siempre toma valores en el intervalo [-1,1],
para todo par de variables.
r nos da información sobre el nivel de relación entre las
variables.
óptimapositiva Relación S * S S 1 r Si yxxy ⇒→⇒→
óptimanegativa Relación S * S- S 1- r Si yxxy ⇒→⇒→
nula Relación 0 S 0 r Si xy ⇒→⇒→
r es invariante ante cambios de variable (demostrar).
-
ESTADÍSTICA I
Tema III
44
EJERCICIOS
EJEMPLO: Dada la siguiente distribución de frecuencias
conjuntas de las variables X e Y:
10 20 30 40 ni.
5 4 1 3 2 10
10 7 2 6 4 19
15 - 5 4 2 11
n.j 11 8 13 8 40
se pide:
A.- Obtener las distribuciones marginales.
B.- Decir si son o no variables independientes.
C.- Calcular el coeficiente de correlación.
SOLUCION:
A.-DISTRIBUCIONES MARGINALES.
ni. xini. xi2ni.
5 10 50 250
10 19 190 1900
15 11 165 2475
40 405 4625
-
ESTADÍSTICA I
Tema III
45
n.j yjn.j yj2n.j
10 11 110 1100
20 8 160 3200
30 13 390 11700
40 8 320 12800
40 980 28800
B.-INDEPENDENCIA
las variables X e Y no son independientes.
C.-COEFICIENTE DE CORRELACION:
ααα 011011xy *-=S
N.n*
N.n=
Nn jiij
4011*
4010
404 ≠
SS
S=ryx
xy
-
ESTADÍSTICA I
Tema III
46
253.75=40
10150=
=40
40*2*15+...+20*1*5+4*10*5=N
nyx=
ijji
p
1=j
k
1=i11
∑∑α
10.125=40405=
N
.nx=x=
ii
k
1=i10
∑α
24.5=40980=
N
n .y=y=
jj
p
1=j01
∑α
115.6=40
4625=N
.nx=
i2i
k
1=i20
∑α
720=40
28800=N
n .y=
j2j
p
1=j02
∑α
119.75=)(24.5-720= 202µ
αα
µ
21020i
2i
k
1=i
0j
2iij
p
1=j
k
1=i20
-=.f)x-x(
)y)xf=
=
=y-(x-(
∑
∑∑
14.0=SS
S=ryx
xy
-
ESTADÍSTICA I
Tema III
47
Por tanto existe una correlación positiva muy débil.
EJEMPLO: Las variables x e y, observadas conjuntamente, han
presentado los siguientes valores:
xi yj nij
10 4 10
16 4 10
24 6 30
26 6 45
28 8 5
100
a) Calcular las medias y varianzas marginales.
b)Calcular las medias y varianzas marginales para la
distribución de xi condicionada a yj=6.
c) Calcular la covarianza y el coeficiente de correlación.
SOLUCION:
1.-Medias y varianzas marginales.
A.-De X:
xi ni. fi. xifi. xi2 xi2fi.
10 10 0.1 1 100 10
16 10 0.1 1.6 256 25.6
24 30 0.3 7.2 576 172.8
26 45 0.45 11.7 676 304.2
28 5 0.05 1.4 784 39.2
100 1 22.9 551.8
-
ESTADÍSTICA I
Tema III
48
Por tanto:
B.-De Y:
yj nj. fj. yjf.j yj2 yj2f.j
4 20 0.2 0.8 16 3.2
6 75 0.75 4.5 36 27
8 5 0.05 0.4 64 3.2
100 1 5.7 33.4
Por tanto:
2.-Distribución de xi para yj=6.
xi nij fij xifij xi
2 xi2fij
24 30 0.4 9.6 576 230.4
26 45 0.6 15.6 676 405.6
22.9=x
27.39=)(22.9-551.8=-=S 2210202x αα
5.7=y
0.91=)(5.7-33.4=-=S22
01022y αα
-
ESTADÍSTICA I
Tema III
49
75 1 25.2 636
3.-Covarianza y coeficiente de correlación.
xi yj fij xiyjfij
10 4 0.1 4
16 4 0.1 6.4
24 6 0.3 43.2
26 6 0.45 70.2
28 8 0.05 11.2
1 135
COVARIANZA:
0.96=)(25.2-636=]fx[-fx=-= 22jiik
1=i
ji
2i
k
1=i
2102020 ∑∑ααµ
25.2=fx=Xjii
k
1=ij ∑
=4.475.7)*(22.9-135=
=)f .y.)(fx(-fyx=-= jjp
1=jii
k
1=iijji
p
1=j
k
1=i01101111 ∑∑∑∑αααµ
-
ESTADÍSTICA I
Tema III
50
COEFICIENTE DE CORRELACION:
coeficiente de correlación cercano a 1; variables muy
correlacionadas.
0.895=0.9127.39
4.47==r
0220
11
µµµ
-
ESTADÍSTICA I
Tema III
51