Presentación de PowerPointAnálisis de
Material Preparado por Hugo Delfino
Muchas veces las decisiones gerenciales se basan en la relación
entre dos o más variables
Ejemplos:
Después de revisar la relación entre los gastos de publicidad y las
ventas, un gerente de marketing podría tratar de predecir las
ventas para determinado nivel de gastos de publicidad.
Se quiere estimar el consumo de un bien en función de los ingresos
de la familia.
Introducción
Material Preparado por Hugo Delfino
En general uno desea conocer la relación existente entre las
variables y cuantificarla.
La representación gráfica es eficaz para obtener una información
intuitiva sobre la relación entre variables.
Diagrama de Dispersión: Es un gráfico que muestra la intensidad y
el sentido de la relación entre dos variables de interés.
Introducción
Material Preparado por Hugo Delfino
Los diagramas de dispersión no sólo muestran la relación existente
entre variables, sino también resaltan las observaciones
individuales que se desvían de la relación general. Estas
observaciones son conocidas como outliers o valores inusitados, que
son puntos de los datos que aparecen separados del resto.
Diagrama de dispersión
Material Preparado por Hugo Delfino
Análisis de Correlación: Un grupo de técnicas estadísticas usadas
para medir la intensidad de la relación entre dos variables
Análisis de Regresión: Es un procedimiento estadístico que estudia
la relación funcional entre variables. Con el objeto de predecir
una en función de la/s otra/s.
Conceptos básicos
Material Preparado por Hugo Delfino
Variable dependiente (Y): es la variable que se desea predecir o
estimar
Variables independientes (Xi ). Son las variables que proveen las
bases para estimar.
Regresión simple: interviene una sola variable independiente
Regresión múltiple: intervienen dos o más variables
independientes.
Regresión lineal: la función es una combinación lineal de los
parámetros.
Regresión no lineal: la función que relaciona los parámetros no es
una combinación lineal
Conceptos básicos
Coeficiente de correlación lineal
Coeficiente de Correlación (r) requiere variables medidas en escala
de intervalos o de proporciones
Varía entre -1.00 y 1.00.
Valores de -1.00 o 1.00 indican correlación perfecta.
Valor igual a 0.0 indica ausencia de correlación.
*
Correlación Negativa Perfecta
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
Material Preparado por Hugo Delfino
0 1 2 3 4 5 6 7 8 9 10
10
9
8
7
6
5
4
3
2
1
0
X
Y
*
Test de hipótesis del coeficiente de correlación
Hipótesis: H0: la correlación en la población es 0. H1: la
correlación en la población no es 0.
Nivel de significación: = 0.05.
Estadística de la prueba: se distribuye como un t de Student con
n-2 grados de libertad.
Regla de decisión: Rechazamos H0 si, y solo si, el valor de t
calculado es mayor que el valor t teórico, o el valor p es menor
que el fijado . En caso contrario, se acepta H0.
*
Modelo de Regresión
Un modelo de regresión, es una manera de expresar dos ingredientes
esenciales de una relación estadística:
Una tendencia de la variable dependiente Y a variar conjuntamente
con la variación de la o las X de una manera sistemática
*
Modelo de Regresión
Estas dos características están implícitas en un modelo de
regresión, postulando que:
*
Representación gráfica del modelo de Regresión Lineal
*
Análisis de Regresión
Objetivo: determinar la ecuación de regresión para predecir los
valores de la variable dependiente (Y) en base a la variable
independiente (X).
*
Proceso de estimación de la regresión lineal simple
Modelo de regresión
y=0+1x+
Ecuación de regresión
E(y)=0+1x
Posibles modelos en la regresión lineal simple
x
*
*
*
Estimación de la ecuación de Regresión
= b0 + b1xi, donde:
es el valor estimado de y para distintos x.
b0 es la intersección o el valor estimado de y cuando x=0
b1 es la pendiente de la línea, o el cambio promedio de y para cada
cambio en una unidad de x
*
Interpretación gráfica de coeficientes de regresión
Material Preparado por Hugo Delfino
En economía, la función de demanda de un producto a menudo se
estima mediante la regresión de la cantidad vendida (Q) sobre el
precio (P). Una compañía está tratando de estimar la función de
demanda para su nuevo producto, y ha recabado los siguientes
datos:
Ejemplo
Represente estos datos
Desarrolle un modelo para estimar la demanda a partir de estos
precios
Cómo interpreta la ecuación de regresión estimada de la
demanda.
¿Cuál sería el error estándar de la estimación?
Calcule un intervalo de predicción de aproximadamente el 95% para
la demanda cuando el precio es de 13.0
Preguntas
Regresión múltiple
Para dos variables independientes, la forma general de la ecuación
de Regresión múltiple es:
X1 y X2 son las variables independientes .
a es la intercepción con Y cuando X1 y X2 son iguales a cero
.
b1 es el porcentaje de cambio en Y por cada unidad de cambio en X1
manteniendo X2 constante. La misma interpretación se aplica a
b2.
b1. y b2. son llamados coeficientes de Regresión Parciales.
*
Proceso de estimación de la regresión múltiple
Modelo de regresión múltiple
Son parámetros desconocidos
x1
x2
xp
y
Modelo general
La Regresión Múltiple General con k variables independientes esta
dada por:
El criterio de Mínimos cuadrados es utilizado para estimar los
parámetros de la ecuación.
*
Linealidad.
La relación entre las variables independientes y dependientes es
lineal.
¿Cómo se prueba?
Linealidad
Material Preparado por Hugo Delfino
Los diagramas de dispersión no sólo muestran la relación existente
entre variables, sino también resaltan las observaciones
individuales que se desvían de la relación general. Estas
observaciones son conocidas como outliers o valores inusitados, que
son puntos de los datos que aparecen separados del resto.
Diagrama de dispersión
Los residuos son una variable aleatoria.
No deben estar autocorrelacionados. Es común que ocurra en series
temporales.
¿Cómo diagnosticar?
Durbin Watson
Varia entre 0 y 4 alrededor de 2 significa independencia de los
residuos.
Independencia de los Residuos
Material Preparado por Hugo Delfino
Para cada valor de la variable independiente la variación alrededor
de la línea de regresión de la variable dependiente es
constante.
¿Cómo diagnosticar?
Gráfico de dispersión entre las valores pronosticados y los
residuales (ambos estandarizados)
Homocedasticidad
Análisis de residuos
Distribuidos aleatoriamente alrededor del 0, es decir que haya
aproximadamente la misma cantidad de valores positivos y
negativos.
Variar entre -3 y +3.
*
Análisis de residuos
Caso 2: La relación no es lineal entre las variables.
Caso 3: Hay heterocedasticidad.
Residuo:
¿Cómo probarlo?
Colinealidad lineal perfecta cuando una variable se relaciona de
forma perfectamente lineal con otra.
Colinealidad perfecta: no se pueden estimar los parámetros.
Colinealidad parcial: aumenta los residuos tipificados y produce
coeficientes de regresión inestables.
¿Cómo diagnosticar?
No colinealidad
Estimación de la variancia de los términos del error (2)
Debe ser estimada por varios motivos
Para tener una indicación de la variabilidad de las distribuciones
de probabilidad de Y.
Para realizar inferencias con respecto a la función de regresión y
la predicción de Y.
*
Estimación de la variancia de los términos del error (2)
Dado que los Yi provienen de diferentes distribuciones de
probabilidades con medias diferentes que dependen del nivel de X,
la desviación de una observación Yi debe ser calculada con respecto
a su propia media estimada
Por tanto, las desviaciones son los residuales
Y la suma de cuadrados es:
*
Estimación de la variancia de los términos del error (2)
La suma de cuadrados del error, tiene n-(k+1) grados de libertad
asociados con ella, ya que se tuvieron que estimar k
parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados
de libertad, se denomina cuadrados medios
*
Análisis de Variancia en el análisis de regresión
El enfoque desde el análisis de variancia se basa en la partición
de sumas de cuadrados y grados de libertad asociados con la
variable respuesta Y.
La variación de los Yi se mide convencionalmente en términos de las
desviaciones
*
Consideremos la desviación
Podemos descomponerla en
T R E
(T): desviación total
*
Material Preparado por Hugo Delfino
Desarrollo formal de la partición
Si consideremos todas las observaciones y elevamos al cuadrado para
que los desvíos no se anulen
SCtot SCreg SCer
(SCreg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
*
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la proporción de la variación
total en la variable dependiente Y que es explicada o contabilizada
por la variación en la variable independiente X.
*
å
å
Material Preparado por Hugo Delfino
La prueba global es usada para investigar si la combinación lineal
de variables independientes es significativa.
Las hipótesis son :
es distinto de cero.
Prueba de Hipótesis Global
*
Material Preparado por Hugo Delfino
La prueba “t” de Student es utilizada para determinar cual variable
independiente tiene coeficientes de de regresión distinto de cero.
Son llamadas pruebas parciales.
Las variables con coeficiente de regresión cero son
eliminadas.
La estadística “t” se utiliza en este caso con n -(k+1) grados de
libertad.
Prueba de Hipótesis Parciales
Material Preparado por Hugo Delfino
Queremos predecir la demanda anual de un cierto producto (DEMANDA),
utilizando las siguientes variables independientes:
PRECIO: precio del producto en $
INGRESO: ingreso del consumidor (en $)
SUB: precio de un bien sustituto (en $)
Ejemplo
Datos del Ejemplo
Material Preparado por Hugo Delfino
Encuentre la ecuación de regresión de mejor ajuste para estos
datos.
¿Son los signos (+ o -) de los coeficientes de regresión de las
variables independientes como cabe esperar? Explique brevemente la
respuesta.
Establezca e interprete el coeficiente de determinación múltiple
del problema.
Establezca e interprete el error estándar de la estimación para el
problema.
Utilizando la ecuación de regresión obtenida ¿qué valor de DEMANDA
predeciría si el precio de los productos fue de $6, el ingreso del
consumidor de $1200 y el precio del bien sustituto fue de 8
?.
Preguntas
Material Preparado por Hugo Delfino
Suponga que se quiere estimar una función de gasto con tarjeta para
20 individuos con los siguientes datos, diferenciados según zona de
residencia
¿Cómo tendría en cuenta la posibilidad de un desplazamiento de la
función entre consumidores urbanos y rurales y cuál sería la
estimación correspondiente, si cree que tienen la misma propensión
marginal, pero distintas propensiones medias?
Metropolitana Interior
å
å