Laboratorio 12 Teoria
description
Transcript of Laboratorio 12 Teoria
UNIVERSIDAD PRIVADA ANTENOR ORREGOFACULTAD DE CIENCIAS ECONOMICAS
DOCENTE: MSc. SELENE YENGLE DEL CASTILLO
ESTADÍSTICA APLICADA A LA TOMA DE DECIONES
REGRESION Y CORRELACION LINEAL
SIMPLE
Análisis de regresión
lineal En lo social:
Para predecir un amplio rango de
fenómenos
Comenzando por:
Medidas económicas,
hasta diferentes
aspectos del comportamiento humano
Se adapta a una amplia variedad de situaciones
Para estudiar:
Relación entre variables
Técnica estadística: Clases de regresión lineal
CLASES
Regresión lineal simple
Regresión lineal múltiple
utilizada
IMPORTANCIA DE LA REGRESIÓN Y CORRELACIÓN
La regresión lineal va muy de la mano de las ciencias economicas ya que sus modelos se pueden utilizar para diferentes fines: descripción de datos, estimación de parámetros por métodos de regresión al ajustar un modelo a los datos que se obtienen en un experimento, predicción y estimación de la variable respuesta útiles para la programación de actividades y correcciones en un proceso determinando; y control cuando se utiliza una ecuación de estimación.
Por ejemplo:En bastantes estudios se plantean hipótesis sobre la relación entre 2 variables (hipótesis bivariadas) y, más concretamente, sobre la existencia de influencia (o efecto) de una variable sobre otra -por ejemplo, en una investigación se podría hipotetizar la influencia de la inteligencia emocional sobre la conducta solidaria. En estos casos se habla de una variable explicativa que se conjetura que es la causa de una variable de respuesta.
En la literatura aparece cierta diversidad en la forma en que estos dos tipos de variables son nombrados, tal como: Variable explicativa Variable independiente (VI) Variable predictora Variable X
Variable de respuesta Variable dependiente (VD) Variable criterio Variable Y
REGRESIÓN LINEAL SIMPLEEs cuando una variable independiente ejerce influencia sobre otra variable dependiente.
FORMA GENERAL DE LA ECUACION DE REGRESIÒN SIMPLE
Y’=a+bx
Donde:• Y’ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionador de X.• «a» es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X=0, es decir, donde la recta de regresión cruza el eje Y.• «b» es la pendiente de la recta, o el cambio promedio en Y’ por unidad de cambio en la variable independiente X.• X es cualquier valor seleccionado de la variable independiente.
X es cualquier valor seleccionado de la variable independiente. En general, los valores de a y b en la ecuación de regresión se denominan coeficientes de regresión estimados, o también coeficientes de regresión.
• Variable dependiente: la variable que se pronostica o estima. • Variable independiente: la variable que proporciona la base para la estimación. Es la
variable predictora.
b: Pendiente de la línea de regresiónDonde:X es el valor de la variable independiente.Y es el valor de la variable dependiente.n es el numero de elementos en la muestra.
QUÉ ES UN GRAFICO DE DISPERSION?Se trata de una representación gráfica del grado de relación entre dos variables cuantitativas.
Es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.
DIAGRAMA DE
DISPERSION
IMPACTO VISUAL Un Diagrama de Dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo.
COMUNICACIÓN Simplifica el análisis de situaciones numéricas complejas.
GUÍA EN LA INVESTIGACIÓN El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos y procesos en su utilización.
CARACTERISTICAS
• El coeficiente de correlación ( r ) es una medida de la intensidad de la relación (asociación) entre dos variables.
• Requiere datos con escala de intervalo o de razón (variables).
• Puede tomar valores entre -1.00 y 1.00. • Valores de -1.00 o 1.00 indican correlación
fuerte y perfecta. • Valores cercanos a 0.0 indican correlación
débil. • Valores negativos indican una relación
inversa y valores positivos indican una relación directa.
NUBE DE PUNTOS O DIAGRAMA DE DISPERSIÓN.
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresión.
•COEFICIENTE DE CORRELACIÓN, R
La recta correspondiente a la nube del puntos de la distribución es una recta creciente.
En este caso se dice que las variables son encorraladas y la nube de puntos tiene una forma redondeada.
La recta correspondiente a la de la distribución es una recta decreciente.
Correlación directa Correlación inversa Correlación nula
Correlación negativa perfecta Correlación positiva perfecta
Correlación no lineal
TAMBIÉN SE PUEDE CALCULA EL COEFICIENTE DE CORRELACIÓN “R” UTILIZANDO LAS MEDIAS ARITMÉTICAS DE LAS VARIABLES
n = es el número de pares de observaciones.∑X = es la suma de los valores de la variable X.∑Y = es la suma de los valores de la variable Y.(∑X2) = es la suma de los cuadrados de los valores de la variable X.(∑X)2 = es el cuadrado de la suma de los valores de la variable X.(∑Y2) = es la suma de los cuadrados de los valores de la variable Y.(∑Y)2 = es el cuadrado de la suma de los valores de la variable Y.∑XY = suma de los productos de X y Y.
MODELOS
LÍNEA RECTA y= a+bx
CALCULA EL COEFICIENTE DE CORRELACIÓN “R” SIN UTILIZAR MEDIAS ARITMÉTICAS DE LAS VARIABLES
FORMULAS QUE NOS PERMITEN HALLAR EL COEFICIENTE DE CORRELACIÓN “R” DE PEARSON
614.0
)636()606,51(8)900,4(000,150,3(8)636)(900,4()200,397(8
)()(
))(()(
22
2222
YYnXXn
YXXYnR
Regla para la interpretacion del valor del coeficiente de correlacion "r":
r=0 la correlación es nula.
rϵ < 0 a 0.20> la correlación es positiva pero casi nula
rϵ < -0.20 a 0 > la correlacion es negativa (inversa) pero casi nula
rϵ < 0.20 a 0.40> la correlacion es positiva y baja
rϵ < -0.20 a -0.40 > la correlación es negativa (inversa) y baja
rϵ < 0.40 a 0.70> la correlación es positiva y buena o significativa
rϵ < -0.40 a -0.70 > la correlación es negativa (inversa) y buena o significativa
rϵ < 0.70 a 1 > la correlación es positiva y muy buena o muy significativa
rϵ < -0.70 a -1 > la correlación es negativa (inversa) y muy buena o muy significativa
r =1 la correlación es perfecta positiva
r = -1 la correlación es perfecta y negativa(inversa)
Mide la dispersión de los valores observados alrededor de la recta de regresión.
• Fórmulas usadas para calcular el error estándar:
El error de estándar de estimación sirve para mostrar la semejanza que existe en concepto y calculo entre la desviación estándar y el error estándar de estimación.
ERROR ESTÁNDAR DE LA ESTIMACION
La desviación estándar se basa es los cuadrados de las desviaciones respecto a la media, mientras que el error estándar de estimación se basa en los en los cuadrados de las desviaciones respecto a la línea de regresión. Si la suma de los cuadrados de las desviaciones es pequeña esto significa que la línea de regresión es representativa de los datos. Si los cuadrados son grandes, entonces la recta de regresión puede no representar a los datos.
n: numero de la muestraX: total de xy : total ya : ordenada de la y en la muestrab: pendiente de la muestra
SX.Y
Regresión lineal múltiple
• Este tipo se presenta cuando dos o más variables independientes influyen sobre una variable dependiente. Ejemplo: Y = f(x, w, z).
• El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal simple, con la única diferencia de que aparecen más variables explicativas.
CALCULOS NECESARIOS PARA DETERMINAR LA ECUACIÓN DE REGRESION LINEAL SIMPLE DE
MINIMOS CUADRADOS
En la empresa COPIER SALES OF AMÉRICA, la gerente de ventas recopilo información respecto al numero de llamadas telefónicas hechas y la cantidad de copiadoras vendidas, para una muestra de 10 representantes de ventas. A la señorita Madeleine, gerente de esa área, le gustaría ofrecer información especifica referente a la relación entre el numero de llamadas y la cantidad de productos vendidos. Utilice el método de mínimos cuadrados para determinar la ecuación lineal.
EJEMPLO
Representantes de ventas
Llamadas de ventas (X)
Copiadoras vendidas (Y) X² Y² XY
CINTHIA 20 30 400 900 600CAROLINA 40 60 1600 3600 2400JOSE LUIS 20 40 400 1600 800CARLOS 30 60 900 3600 1800
MILAGROS 10 30 100 900 300MALENA 10 40 100 1600 400BRYAN 20 40 400 1600 800ANGEL 20 50 400 2500 1000
BEATRIZ 20 30 400 900 600ANTONIO 30 70 900 4900 2100
TOTAL 220 450 5600 22100 10800
b=
b=
b=
b=b= 1.1842
Encontrando «b»: Luego «a»:
a=
a=
a= a= 18.9476
Por tanto, la ecuación de regresión es:
Y’ = a+b (x)
Y’ = 18.9476 + 1.1842(x)
Y’=18.9476+1.1842(X)Y’=18.9476+1.1842(20)Y’=42.6316
valor b=1.1842 , significa que para cada llamada adicional que realizan los representantes de ventas pueden esperar aumentar en casi 1.2 el numero de copiadoras vendidas.
El valor a=18.9476 es el punto donde la ecuación cruza el eje Y. Una traducción literal es que si no se hacen llamadas, esto es, X=0, se venderán 18.9476 copiadoras. Obsérvese que X=0 se encuentra fuera del intervalo de valores incluidos en la muestra, las llamadas a clientes fueron de 10 a 40, así que los cálculos deben hacerse dentro de esa gama de valores.
DE MODO QUE SI UN VENDEDOR HACE 20 LLAMADAS TELEFÓNICAS, PUEDE ESPERARSE QUE VENDA :
ANÁLISIS DE CORRELACIÓN
Sirve para medir la adecuación del modelo hallado (bondad del ajuste de la recta de regresión al conjunto de observaciones), en el caso de tener una variable dependiente y varias independientes.
Dicha medida nos la da el coeficiente de determinación R2 , que verifica 0 ≤ R2 ≤ 1.
Cuanto más cercano a uno sea su valor, mayor es el grado de asociación lineal que existe entre la variable dependiente y las independientes o predictoras.
Nos mide la proporción de la variación total de las observaciones que se explican mediante la ecuación (recta) de regresión
Ejemplo• Juan Escobedo, presidente de la Biblioteca UPAO, se ocupa de estudiar el costo de los libros
de texto para los estudiantes de Arquitectura. Él cree que hay una relación entre el número de páginas en el texto y el precio de venta del libro. Para proporcionar una prueba, selecciona una muestra de ocho libros de texto actualmente existentes en la librería. Dibujar un diagrama de dispersión. Comprobar el coeficiente de correlación.
Libro Páginas Precio ($)Intr. a la Historia de la arquitectura 500 84Análisis estructural 700 75Arte de proyectar 800 99Arquitectura. Forma, espacio y orden 600 72Arquitectura sostenible 400 69Arquitectura e Interiores En Madera 500 81La cuidad moderna 600 63Color, espacio y estilo 800 93
350 400 450 500 550 600 650 700 750 800 85060
70
80
90
100
Series1; 84
75
99
7269
81
63
93
Páginas de libros
Prec
io d
e lib
ros
(en
$)
DIAGRAMA DE DISPERSION:
Construya un diagrama de dispersión
Calcule el coeficiente de correlación
Libro Páginas Precio ($) X Y XY X2 Y2
Intr. a la Historia Arq. 500 84 42,000 250,000 7,056Ánalisis Estr. 700 75 52,500 490,000 5,625Arte de Proyectar 800 99 79,200 640,000 9,801Arq. Forma espacio y orden 600 72 43,200 360,000 5,184Arq. sostenible 400 69 27,600 160,000 4,761Arq. e interiores en madera 500 81 40,500 250,000 6,561La cuidad moderna 600 63 37,800 360,000 3,969Color, espacio y estilo 800 93 74,400 640,000 8,649 Total 4,900 636 397,200 3,150,000 51,606
Sustituyendo en la formula los valores encontrados y realizando los cálculos obtenemos:
614.0
)636()606,51(8)900,4(000,150,3(8)636)(900,4()200,397(8
)()(
))(()(
22
2222
YYnXXn
YXXYnR
El coeficiente de correlación de 0.614 indica una relación muy intensa entre la cantidad de páginas y el precio de los libros.
COEFICIENTE DE DETERMINACION
• R2 toma cualquier valor entre cero y uno.• R2 = 1: El modelo se ajusta perfectamente a los
datos.• R2 = 0 : El modelo NO se ajusta perfectamente
a los datos..
• La Bondad de Ajuste en un modelo de Regresión se mide utilizando el coeficiente R2.
• R2 mide la proporción de la variación en y que es que es explicada por la variación de x.
• Coeficiente de Determinación: Es el cuadrado del valor del coeficiente de correlación (r).
El coeficiente de determinación se simboliza por “R2” y toma valores entre 0 y 1.
R2 = ( r )2 = (0.614)2 = 0.37 37% de la variación en los precios fue debido a la variación en las páginas de los libros.
• Coeficiente de No Determinación: 1- R2 = 1-0.37 = 0.63 63% de la variación en los precios no fue debido a la variación en las páginas de los libros.
Calcule e interprete los coeficientes de determinación y no determinación.
Ejemplo
Desarrolle una ecuación de regresión para la información dada en el ejemplo anterior que se puede utilizar para estimar el precio de venta basado en el número de páginas.
05143.)900,4()000,150,3(8)636)(900,4()200,397(8
2
b
0.488900,405143.0
8636
a
La ecuación de regresión es: Y' = 48.0 + .05143X• La ecuación cruza al eje Y en $48. Un libro sin las páginas costaría $48.• La pendiente de la línea es .05143. El costo de cada página adicional es de cinco
céntimos.• El signo del valor de b y el signo del valor de r serán siempre iguales.
Podemos utilizar la ecuación de regresión para estimar valores de Y. El precio de venta estimado de un libro de 800 páginas es $89.14, encontrado por
14.89)800(05143.00.4805143.00.48
XY
DIAGRAMA DE DISPERSION:
350 400 450 500 550 600 650 700 750 800 85060
70
80
90
100
f(x) = 0.0514285714285714 x + 48R² = 0.376847290640394
PrecioLinear (Precio)
Páginas de libros
Prec
io d
e lib
ros
(en
$)
El error estándar de estimación
El error estándar de estimación mide la dispersión de los valores observados alrededor de la línea de regresión.
Las fórmulas que se utilizan para comprobar el error estándar son:
2
2
.
nXYbYaYs xy
EN EL EJEMPLO ANTERIOR:Encuentre el error estándar de estimación para el
problema que implica el número de páginas en un libro y el precio de venta.
408.1028
)200,397(05143.0)636(48606,51
2
2
.
n
XYbYaYs xy