Regrecion y correlacion
Click here to load reader
Transcript of Regrecion y correlacion
Introducción
Hemos trabajado con una sola variable aleatoria es decir unidimensional,
conoceremos como trabajar simultáneamente dos o más variables con el objetivo
de ver si existe relación
Entre ellas y si existe relación entre estos pares de variables (constituye pares
ordenados) esta posible relación o asociación lo mide la regresión y la correlación
se busca detectar la posible relación entre la variable y la diferencia en que la
refracción mide en forma funcional, a través de una ecuación, la posible relación
entre las variables y predecir una de ellas como (variables dependientes) y en
función de la otra (variable independiente)
La regresión podemos expresar funcionalmente, mediante una ecuación, la
relación entre las variables.
La correlación se dirige solo a medir la intensidad o fuerza con que están
relacionadas linealmente las variables. Si se trata de dos variables, la regresión y
la correlación es simples; si se analizan más de dos, es regresión y
correlaciónmúltiple.
Regresión y correlaciónsimple de una población bivariante (bidimensional) es la
que contiene dos medidas en cada componente elemental.
Lo importante al analizar los datos bivariantes o las series bidimensionales es
descubrir y medir la posible relación entre las variables y determinar cómovarían
juntas las variables.
Regresión lineal simple
El objetivo principal del análisis de la regresión lineal es establecer una relación
funcional entre dos variables relacionadas, tomando datos muéstrales (aleatorios),
que constituye buenos estimadores de la correspondiente relación poblacional.
Una vez que se ha establecido cuantitativamente esta relación (mediante la
correspondiente ecuación), es posible predecir o estimar el valor de una de las
variables (la dependiente) en función de la otra independiente. Como la variable
cuyo valor se estima se denomina variable dependiente y la asignaremos con la
letra Y; entonces que la variable conocida o variable de entrada, es la variable
independiente, X.
Calculo de la ecuación de regresión
Recolectada la serie bidimensional, que son pares de datos bivariados, estos se
llevan a un sistema de ejes coordenadas; la variable independiente, X se escribe
el eje de las abscisas y la variable dependiente en el eje las coordenas. Al
conjunto de puntos (x, y) que aparece en la grafica se llama “diagrama de
dispersión” de acuerdo a las formas que tomen dicho diagrama así será la función
(ecuación) que se utilizara, de tal forma que describa adecuadamente la relación
entre las variables. Ejemplos diversas relaciones, denominadas funciones o
ecuaciones de predicción.
Yc = a + bx (ecuación de la línea recta)
Yc = a+bx + cx2 (ecuación 2° o cuadratica)
Yc = abx (ecuación exponencial)
Yc = axb(ecuación potencial)
Se hace primero la línea recta
Ejemplo: se desea probar un determinado abono químico en la fertilización de una
determinada parcela cultiva de café.los resultados obtenidos se presentan donde
X representa aplicaciones de abono en arrobas y representa la producción en
sacos de 46 kilogramos.
Xi 1.0 1.5 2.0 3.0 2.5 2.5 3.5 4.0 4.5 4.5 5.0 6.0 6.5 8.0 7.5
Yi 3.0 4.0 3.0 5.0 4.0 5.0 6.0 6.0 6.5 7.0 7.0 8.0 8.0 10 9.0
Se hace primero la grafica para ver la forma que toma el diagrama de dispersión:
10
9 x
8 x yc= a + bx
7 p2
6 x
5 x
4 x
3 x
2 x
1 p1 x
0 a
1 2 3 4 5 6 7 8 9 x
La forma que toma el diagrama de dispersión (nubes de puntos de la grafica),
sugiere que se puede aplicar una función lineal (línea recta)
Métodos para calcular la ecuación de regresión; aquí utilizaremos el “método de
mínimos cuadrados” por ser matemáticamente más exacto. Supongamos que
Yc = a + bx es la ecuación de la línea recta; donde
Yc representa el valor teorico de la Yi o el valor estimado Y, que corresponde a un
valor particular de X . El criterio de mínimo cuadros requiere que encontremos las
constantes “a” y “b” tales que (yi-yc)2 sea un mínimo (es decir, tiende a
cero).podemos comprobar que la suma de esas diferencias, sin elevarse al
cuadrado, se anula, es decir, (yi-yc) =0. Esto nos asegura también que la línea
que estamos ajustando a dicho valores es la de mejor ajustes. Las constantes”a” y
“b” se llaman coeficientes de regresión:
“A” es la intercesión con el eje de las ordenadas Y
“B” es la pendiente de la línea de mejor ajuste es decir, la pendiente o coeficiente
de X, indica un cambio en el valor de Y, causado por el cambio en una unidad de
X.
Calcular “a” y “b” con la condición (yi-yc)2de ser un mínimo, sustituimos en esta
relación el valor de Yc = a + bx, y tenemos entonces (Yi- a - bx)2; la condición de
minimizar las derivaciones de los valores reales de Yi con respecto a la línea
teorica, basta con derivar con respecto a “a” y con respecto a “b” e igualar a cero
las derivadas; las ecuaciones que resulten serian capases de resolverlas, de
encontrar los valores de “a”y de “b” los cuales minimizaran dichas desviaciones.
Sea: Z= (Yi – a- bx)2
Derivado con respecto a la constante a tenemos
Dz
= 2 (yi- a - bx)(-1)=0 Dz Operando tenemos
-2 yi + 2na + 2b x = 0
-2 yi =-2na - 2 x
Yi= na + b x (1)
Derivando con respecto ab
Dz
= 2 (yi- a - bx)(-1)=0 Dz
Operando tenemos
-2 xyi + 2a x + 2b x2 = 0
-2xyi =-2a x – 2b x2
xy = a x + b x2 (2)
Resolviendo simultáneamente (1) y (2) encontramos los valores de a y b
Al sistema
Y= na + b x (1)
xy = a x + b x2 (2)
Para estas ecuaciones necesitas calcular las columnas que se presentan en el
siguiente cuadro:
Xi Yi Xy X 2
1.5 1.5 2.0 3.0 2.5 2.5 3.5 4.0 4.5 4.5 5.0 6.0 6.5 8.0 7.5
3 4 3 5 4 5 6 6
6.5 7 7 8 8 10 9
3 6 6 15 10
12.5 21. 24
29.25 31.5 35 48 52 80
67.5
1 2.25
4 9
6.25 6.25
12.25 16
20.25 20.25
25 36
42.25 64
56.25
Total 62. 91.5 440.75 321
Sustituir en la ecuaciones normales
Y= na + b x
xy = a x + b x2
91.5 =15 a +62 b
440.75 = 62 a + 321 b
Resolviendo el sistema por el método de suma y resta eleminamos la constante a,
multiplicando la primera por 62 y la segunda por 15
91.5 =15 a +62 b (-62)
440.75 = 62 a + 321 b (15)
-5673 = 930 a -3844b
6,611.25 = 930 a +4815
938.75 = +971b
938.75 B= = 0.97 971 Para encontrar el valor de a sustituimos en el valor de b en cualquier ecuación
91.5 = 15 a +62(0.97)
91.5 = 15 a + 60
31.36 = 15 a
31.36 A= =2.09 15 La ecuación de regresión que así Yc = 2.09 + 0.97 La línea recta que aparece cruzando el diagrama de dispersión es trazo Calculando dos puntos, p1 (1,3) y p2 (5,7) para la grafica. Con la ecuación calculada, podemos hacer estimaciones de Y y de X
Regresióncurvilínea Caso parabólico (función de segundo grado) Calculamos la ecuación de regresión parea la siguiente información permanece en un sistema químico que reacción, después de x minutos.
Xi 1.0 1.2 1.5 2.0 2.5 2.7 3.0 3.2 3.5 4.0 4.5 5.0 5.2 5.5 6.0
Yi 34 32 26 18 18 12 14 12 15 13 18 16 22 26 35
Se llevan los datos a la grafica para ver la forma que toma el diagrama de
dispersión
Yi
35
30
25
20
15
10
5
0
1 2 3 4 5 6 xi
El diagrama de dispersión toma la forma de una parábola, por lo tanto ajustaremos
una ecuación de segundo grado:Yc = a+bx + cx2 para encontrar las ecuaciones
normales, por el método de mínimos cuadrados. Es decir (yi-yc)2sustituyendo en
yc por su valor se tiene (Yi – a- bx- cx2 )2luego se derivaa “ a,b,c” igualando las
derivas a cero y se llegara a las ecuaciones siguientes.
x x
x x
x
x
x
x
x
x
x
X x x
Y= na + b x + c X2 (1)
xy = a x + b x2 + c X3(2)
x2 y = a x2 + b X 3 + c X 4 (3)
Sustituimos en el sistema:
Y= na + b x + c X2 (1)
xy = a x + b x2 + c X 3 (2)
x2 y = a x2 + b X 3 + c X 4 (3)
311 = 15a + 50.8b + 208.26c
1038.1 = 50.8a +208.26 + 955.162c
4457.07 = 208.26a + 955.162b + 4685.55c
Sustituyendo la 1 y 2 para eliminar la constante a
311 = 15a + 50.8b + 208.26c (-50.8
1038.1 = 50.8a +208.26 + 955.162c (15
-15798.8 = -762 a – 2580.64b – 10579.608c
15571.5 = 762 a + 3123.90b + 14327.430c
-227.3 = + 543.26b + 3747.822c (4)
Resolviendo (1)y (3)
311 = 15a + 50.8b + 208.26c (-208.26
4457.07 = 208.26a + 955.162b + 4685.55c (15
-2087.19 = +3747.822b + 26911.0224c (5)
Simultáneamente (4) y (5)
-227.3 = 543.26b + 3747.822c (-3747.822
-2087.19 = 3747.822b + 26911.0224c (543.26
1985766.779 = + 573512.28c
Despejando c, tenemos
1985766.779 C= = 3.46 573512.28c Sustituyendo este valor en (4)
-227.3 = 543.26b + 3747.822c (3.46)
-227.3 = 543.26b + 12967.46412
Despejando b
-13194.76412 B= = -24.29 543.26 Despejando para a en la (1) 311 = 15a + 50.8(-24.29) + 208.26(3.46)
311 = 15 a – 1233.932 + 720.5796
Despejando
824.3524 A = = 54.96 15 Sustituyendo los valores encontrados de a, b, c, en la ecuación Yc = a+bx + cx2
Yc = 54.96 – 24.29x + 3.46x2
Que es la ecuación de regresión pedida
Caso exponencial : Yc = abx
Caso exponencial se utiliza cuando se desea calcular especialmente tasas de crecimiento. Esto implica tomar la variable tiempo como independiente; sin embargo, puede considerarse cualquier otra variable y ajustarla a la función sin hacer referencia a tasas de crecimiento.
Se le ajusta una función exponencial Yc = abx. . aplicando logaritmos a la función
Yc = abx tenemos
Log Yc = log a + x log b
Como en los casos anteriores interesa minimizar la expresión
Z = ( ( log Yi – log Yc)2
Sustituyendo Yc por su valor, tenemos
Z = ( ( log Yi – log a – X log b)2
Derivar con respecto a a, b e igualar a cero las derivadas, llegamos a las
siguientes ecuaciones normales:
log Yi = nlog a+ log b xi (1)
x. log Yi = log a xi+ log b xi2 ( 2)
Caso exponencial y tiempo como variable independiente
Esta se utiliza cundo se desea estudiar el comportamiento de una variable
económico, social o de cualquier naturaleza, en función del tiempo, tenemos una
serie histórica o cronológica. Esta variable puede acusar una determinada
tendencia en el tiempo. La cual se resuelve asiendo uso de logaritmo exponencial
Yc = abx aplicamos logaritmo
Log Yc = log a + t log b
Las ecuaciones normales para encontrar a y b son
log Y = log a+ t log b t (1)
t log Y = log a t + log b t2 ( 2)
Función exponencial o curva geométrica Yc = axb.
A esta función Yc = axb se le aplicar logaritmo, tenemos
Log Yc = log a + b log x la expresión
( log Yi – log Yc)2 es un mínimo; sustituyendo en esta expresiónLog Yc por su
valor, tenemos : ( log Yi – log a – b log x)2 es un mínimo. Al derivar tenemos al
recpesto a “ay b “ e igualar a cero las derivadas, obtenemos las ecuaciones
normales.
log Y = n log a+ b log x (1)
logx log Y = log a log x+ b (log x )2 ( 2)
Desviación estándar de regresión
La desviación estándar de regresión, se llama también “error estándar de
estimación” se define como la desviación típica de las desviaciones de los valores
de yi con respecto a yc en formula queda así
yx = (yi –yc)2
N
Se puede observar que es similar a la desviación típica o estándar de xi vista
anterior
= (xi –xc)2
N
En el cálculo de yx, yc sustituye a X. el uso de yc en lugar de X proviene de que se
quiere utilizar la línea teórica como centro o punto de referencia, en vez de usa la
media aritmética; de esta forma se mide la dispersión de los valores yi con
respecto a la línea teórica de regresión. Entre más pequeños son los valores de
yx mas cércanos están los valores originales Yi con respecto a la línea recta, y por
lo tanto menos dispersión hay entre los valores de yi con respecto yc es decir las
estimaciones que se hagan a la variable independiente Y, al variar X . en el caso
hipotético de que yi = yc el valor de el error estándar de estimación, seria cero ,
donde los valores yi caen en la línea teóricos de regrecion.
Yi= a + bx yc = a-bx
Regresión positiva regresión negativa
Entre más se alejan los puntos de yi con respecto a yc mas dispersiónpresenta el grafico y menos útiles será la ecuación de regresión para efectos de estimación de la variable dependiente Y
Otra fórmula para calcular el error de regresión estándar:
yx = y2 –a y-b xy
n
Coeficiente de correlación
La correlación mide la intensidad o la fuerza con que están relacionadas con la
variables, y será medida por el coeficiente “r” de correlación
Tipos de correlación
Atendiendo el numerador variables estudiadas, la correlación puede ser :
a) correlación simple:
cuando se estudia el grado de asociación o dependencia entre dos variables.
b) correlaciónmúltiple:
cuando se estudia el grado de asociación que puede existir entre tres o más
variables , una de ella dependiente y el resto independientes.
C) correlación parcial:
En el caso de correlaciónmúltiple es la cuantificación del grado de asociación neta
entre dos variables, y una vez eliminada estadísticamente la influencia de las otras
variables independientes.
Atendiendo la naturaleza de la función y según el tipo de ecuación de regresión, la
correlaciónpuede ser rectilínea, parabólica, exponencial, potencial.
Atendiendo la relación de las variables
a) correlación directa o positiva: cuando por aumentos en la variable dependiente;
o, si disminuye la variable independiente, ocurren disminuciones en la variable
dependiente.
b) correlación inversa o negativa: cuando por aumentos en la variable
independiente ocurren disminuciones en la variable dependiente: o si disminuye la
variable independiente, ocurren aumentos en la variable dependiente.
Calculo del coeficiente de correlación “r”
Estudiaremos tres métodos para calcular el valor del coeficiente r de correlación
(1)en términos de variable (2) en términos de varianza y (3) con el método
producto- memento de k pesaron.
Cálculos de r en términos de variaciones
Calcular la media aritmética de yi (yi= y/n)la obtenemos sin tomar en cuenta los
valores de x. la yc que representa la línea de regresión de los valores de yc = a
+bx, la obtenemos con la influencia de los valores de x si los valores de yi están
relacionados con los valore de x en algún grado; las desviaciones de los valores
de y con respecto a su media y debe ser reducido por una magnitud debida a la
introducción de los valores de x al calcular los valores de la línea teórica yc
Véase la grafica que representa el diagrama de dispersión total (yi- y
La grafica se ha trazado, entre los puntos (x,y) que constituyen el diagrama de dispersión, la línea teórica Yc de la ecuación de regresión y la línea que representa la media aritmética Y de Yi si levantamos una perpendicular desde un valor cualquiera de Xi la desviación total de Yi con respecto a su media Y se divide en dos desviación no explicada y la deviación explicada.
desviación total = desviación no explicada + deviación explicada.
(Yi -Y) = (Yi- Yc) + (Yc-Y)
Sumatoria, en la expresión y elevamos al cuadrado
(Yi -Y)2 = (Yi- Yc)2 + (Yc-Y)2
La variación total queda dividida en dos componentes : a) variación en Yc con respecto a su media Y, y se llama variación explicada; el segundo componente se refiere a otros factores que pueden influir en el comportamiento de la variable dependiente.
El coeficiente de correlación expresa en función de estas variaciones:
variación explicada r= o simbólicamente Variación total
r= (Yc-Y)2
(Yi -Y)2 Al cuadrado de r se le llama “coeficiente de determinación” o sea :
(Yc-Y)2 R2 =
(Yi -Y)2 Cálculos de r en términos de varianza.
El coeficiente de correlación r puede ser también expresado en términos de varianza con solo dividir por n en la expresión:
r= (Yc-Y)2 quedando así
(Yi -Y)2
r= (Yc-Y)2 n (Yi -Y)2 N
variación explicada r = Variación total
r= (Yc-Y)2
(Yi -Y)2
Calculo del coeficiente de correlación por el método producto – memento de Karl Pearson.
Karl Pearson. Llego a la siguiente formula abreviada para calcular el coeficiente “r” de correlación:
n xy – ( x )( y) r =
n x 2 – ( x )2 n y2- ( y)2
Regresión y correlación para datos agrupados
Hemos calculado regresión y correlación para un número pequeño de pares de
datos ( pequeñas series bidimensionales), pero si tenemos cincuenta o mas pares
de datos, calcular regresión y correlaciónsería demasiado trabajoso y nos llevaría
demasiado tiempo. Para no trabajar en las series bidimensionales simples se ha
ideado recursos abreviados para calcular regresión y correlación. Se agrupan los
valores de las variables en clase y frecuencias tal como hisimos cuando tratamos
el tema de transformar series simples en distribuciones de clases y frecuencias