ESTADISTICA APLICADA II(2004)

69
ESTADISTICA APLICADA A LOS NEGOCIOS II UNIDAD 1: Análisis de Regresión y Correlación Simple La regresión y la correlación son las dos herramientas estadísticas más poderosas y versátiles que se pueden utilizar para solucionar problemas comunes en los negocios. Muchas decisiones se basan en la creencia de que se puede identificar y cuantificar alguna relación funcional entre dos o más variables, es decir la ecuación que las relaciona, cuando hay un fenómeno de causa y efecto. El análisis de regresión tiene como objetivo determinar esta ecuación para predecir el valor de la variable dependiente que corresponde a un valor dado de la variable independiente. El análisis de correlación nos proporciona el grado de relación existente entre dos variables. Se dice que la variable Y depende de la variable X si podemos expresar a Y como una función de X, es decir podemos expresarla así: Y=(X), en cuyo caso a Y se le conoce como la variable dependiente y a X como la variable independiente. Variable dependiente.- Es la variable que se desea explicar o predecir; también se le conoce como regresando o variable de respuesta. Variable independiente.- Es la que se utiliza para explicar y. Se le denomina explicativa o regresor. En la regresión simple se establece que Y es una función de sólo una variable independiente. También se le conoce como regresión bivariada. En la regresión múltiple Y es una función de dos o más variables independientes. Un modelo de regresión múltiple con k variables independientes se puede expresar así: Y= (X1,X2,X3,.....Xk). También es necesario distinguir entre regresión lineal y curvilineal. Si X y Y se relacionan en forma lineal, entonces a medida que X cambia, Y cambia en una cantidad constante. Si la relación es 1

Transcript of ESTADISTICA APLICADA II(2004)

Page 1: ESTADISTICA APLICADA II(2004)

ESTADISTICA APLICADA A LOS NEGOCIOS II

UNIDAD 1: Análisis de Regresión y Correlación Simple

La regresión y la correlación son las dos herramientas estadísticas más poderosas y versátiles que se pueden utilizar para solucionar problemas comunes en los negocios. Muchas decisiones se basan en la creencia de que se puede identificar y cuantificar alguna relación funcional entre dos o más variables, es decir la ecuación que las relaciona, cuando hay un fenómeno de causa y efecto.El análisis de regresión tiene como objetivo determinar esta ecuación para predecir el valor de la variable dependiente que corresponde a un valor dado de la variable independiente.El análisis de correlación nos proporciona el grado de relación existente entre dos variables.Se dice que la variable Y depende de la variable X si podemos expresar a Y como una función de X, es decir podemos expresarla así: Y=(X), en cuyo caso a Y se le conoce como la variable dependiente y a X como la variable independiente.

Variable dependiente.- Es la variable que se desea explicar o predecir; también se le conoce como regresando o variable de respuesta.

Variable independiente.- Es la que se utiliza para explicar y. Se le denomina explicativa o regresor.

En la regresión simple se establece que Y es una función de sólo una variable independiente. También se le conoce como regresión bivariada.En la regresión múltiple Y es una función de dos o más variables independientes. Un modelo de regresión múltiple con k variables independientes se puede expresar así:Y= (X1,X2,X3,.....Xk).

También es necesario distinguir entre regresión lineal y curvilineal. Si X y Y se relacionan en forma lineal, entonces a medida que X cambia, Y cambia en una cantidad constante. Si la relación es curvilineal, Y cambiará en una cantidad diferente a medida que X cambia.

Las relaciones entre variables pueden ser determinísticas o estocásticas (o aleatorias). Una relación determinística es por ejemplo la que calcula el perímetro de una circunferencia:P= x d porque la relación es exacta y no hay error (excepto por la aproximación de ).

El modelo de regresión lineal

Sin embargo muy pocas relaciones en el mundo son así de exactas. Con frecuencia se encuentra que al utilizar una variable para explicar otra existe alguna variación en la relación. Por ejemplo, se podría observar que cuando se hace publicidad por cierta cantidad Xi, las ventas tienen algún valor Yi, sin embargo la próxima vez que se fije la publicidad en la misma cantidad, las ventas pueden producir otro valor. La variable dependiente (ventas en este caso) presenta algún grado de aleatoriedad, por lo tanto habrá algún error en el intento de explicar o

1

Page 2: ESTADISTICA APLICADA II(2004)

predecir las ventas según la publicidad. Se dice que este modelo es estocástico por la presencia de la variación aleatoria y puede expresarse como un modelo lineal:

Y = o + 1X +

Esta fórmula describe la relación verdadera o poblacional según la cual se hace regresión de Y sobre X. Como los parámetros o y 1 son desconocidos se pueden estimar solo con datos muestrales. Además como es aleatoria Y solo puede estimarse por lo que el modelo de regresión lineal quedaría:

Y = b0 + b1X

En donde b0 y b1 son estimaciones de o y 1 y representan la intersección y la pendiente de la recta de regresión estimada.

Nota: Como recordaremos en la ecuación de una recta b0 representa el valor donde la recta intersecta el eje Y y b1 represnta la pendiente de la recta y se halla así:

b1 = pendiente = variación vertical y su valor nos indica no solo en cuanto varía Y cuando variación horizontal X varía sino además en qué dirección.

El propósito del análisis de regresión es determinar una recta que se ajuste a los datos muestrales mejor que cualquier otra recta que pueda dibujarse. Para esto lo primero que hay que hacer es representar los datos (por pares) en un diagrama de dispersión para determinar el modelo que mejor se ajuste, esto es, si es lineal positiva o negativa o curvilinea.Veamos un ejemplo con los siguientes datos:

Mes Ventas (USD) Publicidad (USD) 1 450 50 2 380 40

3 540 65 4 500 55

5 420 45

Un procedimiento matemático para determinar los valores b0 y b1 se denomina Mínimos Cuadrados Ordinarios (MCO). Este procedimiento produce una recta que se extiende por el centro del diagrama de dispersión aproximándose a todos los puntos más que cualquier otra recta.

Esto es, MCO produce una recta tal que la diferencia entre los valores observados Yi y los valores estimados pueden ser positivas o negativas sin embargo al sumarse esas diferencias o errores de estimación, es igual a cero. Además si elevo al cuadrado esos errores y los sumo el número resultante es menor que el que se obtendría con cualquier otra recta, es decir, minimiza la suma de los errores al cuadrado. De ahí el nombre.

2

Page 3: ESTADISTICA APLICADA II(2004)

Para calcular b0 y b1 primero calcularemos algunos valores intermedios:

Suma de los cuadrados de X = SCx = (Xi – )2

= Xi2 – ( Xi) 2 = Xi2 – n 2

n Suma de los cuadrados de Y = SCy = (Yi – )2

= Yi2 – ( Yi) 2 = Yi2 – n 2

n

Suma de los productos cruzados = SCxy = (Xi – X)(Yi – Y)De X y Y

= XiYi – ( X)( Y) = XiYi – n n

Con estos cálculos ya podemos determinar el valor de b1 llamado Coeficiente de regresión así:

b1= SCxy Y b0 así: b0 = Y – b1X SCx

Nota: Como estos cálculos son muy sensibles a la aproximación se aconseja manejar seis cifras decimales.

Ejemplo:

3

Page 4: ESTADISTICA APLICADA II(2004)

La gerencia de una aerolínea considera que existe una relación entre los gastos publicitarios y el número de pasajeros que escogen viajar por ella. Para determinar si esta relación existe y si es así cuál podría ser la naturaleza exacta, se decidió utilizar el método de mínimos cuadrados (MCO) para determinar el modelo de regresión.Se recolectaron los valores mensuales por gastos de publicidad y el número de pasajeros de los n=15 meses más recientes. Los datos aparecen en la siguiente tabla donde se observa que los pasajeros están representados con la variable Y, ya que se asume que depende de la publicidad.

Observación(Mes)

PublicidadEn miles(X)

PasajerosEn miles (Y)

XY X2 Y2

1 10 15 150 100 2252 12 17 204 144 2893 8 13 104 64 1694 17 23 391 289 5295 10 16 160 100 2566 15 21 315 225 4417 10 14 140 100 1968 14 20 280 196 4009 19 24 456 361 576

10 10 17 170 100 28911 11 16 176 121 25612 13 18 234 169 32413 16 23 368 256 52914 10 15 150 100 22515 12 16 192 144 256

Suma 187 268 3,490 2,469 4,960

Con esta tabla podemos calcular:

SCx = Xi2 – ( Xi) 2 =2,469 – (187)2 = 137.733333 n 15

SCy = Yi2 – ( Yi) 2 = 4,960 – (268)2 = 171.733333 n 15

SCxy = XiYi – ( X)( Y) = 3,490 – (187)(268) = 148.933333 n 15

Por lo tanto:b1 = SCxy = 148.933333 =1.08 y como = 12.46667 y = 17.86667 SCx 137.733333

b0 = 17.86667- 1.08 (12.46667) = 4.3865 = 4.40El modelo de regresión entonces es:

4

Page 5: ESTADISTICA APLICADA II(2004)

Y = 4.40 + 1.08 X

Esto quiere decir que si se gastan X=10 unidades ($10,000) en publicidad el modelo predice que Y=15.2 (es decir, 15,200 personas decidirán volar por esa aerolínea).

El valor b1= 1.08 indica que por cada incremento de una unidad de X, Y aumentará en 1.08 unidades, esto es si se incrementan en $ 1000 los gastos de publicidad, entonces 1080 pasajeros más decidirán volar en esa aerolínea.

Para comprender mejor el modelo de regresión lineal se deben examinar los cuatro supuestos sobre los cuales se construye:

1. El término de error es una variable aleatoria distribuida normalmente.- Si se fija X en algún valor los valores resultantes de Y variarán. Esto haría que los errores (Yi- Yi) sean positivos o negativos según si estuvieran por encima o por debajo de la recta de regresión. Debido a que Yi es diferente cada vez, lo mejor que la recta de regresión puede hacer es estimar el valor promedio de Y. Por lo tanto la recta de regresión poblacional pasa por la media de aquellos valores Y en donde X sea igual al valor dado. Este punto se indica como yx .

2. Varianzas iguales de los valores y.-El modelo MCO asume que la varianza en los valores Y es la misma para todos los valores de X. Este supuesto se denomina homoscedasticidad. Este supuesto se contraviene cuando se trabaja con datos estratificados. Cuando esto sucede se denomina heteroscedasticidad.

3. Los términos de error son independientes uno del otro.- El término de error encontrado para un valor de Yi no se relaciona con el término de error para cualquier otro valor de Yi

4. El supuesto de linealidad.-Como en el supuesto 1, dado un valor de X, ocurrirá una distribución normal de los valores Y. Esta distribución normal tiene una media igual a yx .Como esto vale para todos los valores X, esta medias quedan en una recta, que es precisamente la recta de regresión.

El error estándar de estimación

5

Page 6: ESTADISTICA APLICADA II(2004)

La recta de regresión, denominada la recta del ajuste óptimo representa la relación entre X y Y mejor que cualquier otra recta, sin embargo existen al menos dos medidas de la bondad de este ajuste: 1) el error estándar de estimación y el coeficiente de determinación.

El error estándar de estimación, Se, es una medida del grado de dispersión de los valores Yi, alrededor de la recta de regresión. Mide la variación promedio de los puntos de datos por encima o por debajo de la recta de regresión. Se calcula de la siguiente manera:

Se =

Otra forma de calcular este error es:

Se = la varianza de la estimación = SCE donde SCE = SCy – (SCxy)2 n-2 SCx

Nota: En un modelo de regresión simple, se imponen dos restricciones en el conjunto de datos, debido a que se deben estimar dos parámetros 0 y 1, por tanto hay n-2 grados de libertad.

Siguiendo con el ejemplo anterior su error estándar de estimación seria:

Se = SCE = 171.7333 – (148.93333) 2 /137.73333 = n-2 15 – 2

= 10.6893/13 = .822226 = .907

El error estándar se expresa en las mismas unidades que la variable dependiente Y, en este caso miles de pasajeros, por lo tanto el error estándar de .907, significa que hay una variación promedio de 907 pasajeros alrededor de la recta de regresión ajustada.

Como el error estándar de estimación es similar a la desviación estándar para una sola variable, puede interpretarse de manera similar. Por lo tanto vale la Regla Empírica cuya condición es que los datos estén distribuidos normalmente lo cual cumplen las Yi estimadas.

Así para un valor dado X=10, por ejemplo, Y = 4.4 + 1.08(10) = 15.2. Para ilustrar la Regla empírica para el error estándar de estimación, calculemos un error estándar más y uno menos de 15.2, esto es, 14.29 (15.2-.907) y 16.11 (15.2+.907). Si se trazan rectas paralelas a la recta de regresión pasando por estos puntos, aproximadamente el 68.3% de las observaciones caerán dentro de estas dos rectas.. Esto quiere decir, que si se invierte $10,000 en publicidad, el 68.3% de las veces, el número de pasajeros estará entre 14,290 y 16,110 como se muestra en la siguiente figura:

6

Page 7: ESTADISTICA APLICADA II(2004)

Análisis de Correlación.

En la ecuación de regresión del ejemplo anterior el valor positivo de b1 nos indica una relación directa, esto es a medida que aumenta la publicidad también lo hace el número de pasajeros. Sin embargo es útil conocer una medida de la fuerza de esa relación. Esta medida nos la da el coeficiente de correlación, el cual está representado por una r y puede tomar cualquier valor entre –1 y +1 , es decir, -1 r +1.

Un valor de r=-1 nos indica una relación negativa perfecta entre X y Y, esto es, todas las observaciones quedan en una línea recta perfecta con pendiente negativa. Por el contrario si r=+1 las observaciones forman una línea recta con pendiente positiva como se muestra en las siguientes gráficas.

Sin embargo en toda relación siempre existe alguna variación por lo que r es poco probable que sea exactamente 1, como se muestra en las gráficas siguientes:

7

Page 8: ESTADISTICA APLICADA II(2004)

Además cuando las dos variables no tengan ninguna relación el valor de r=0

La forma de calcular el coeficiente de correlación es:

r =

Otra forma sería:

r = SCR/SCT donde SCR = (Yi – Y)2 y SCT = (Yi – Y)2

Siguiendo con el ejemplo:

r = 148.93333 = 0.9683 (137.7333)(171.73333)

Esto nos indica que hay una relación muy fuerte entre la publicidad y el número de pasajeros

Cabe recordar que el error estándar es una de las medidas de la bondad de ajuste de la recta de regresión. Esta nos proporciona una medida cuantificable de qué tan bien se ajusta el modelo a los datos recolectados. La otra medida es el coeficiente de determinación el cual se calcula de la siguiente manera:

r2 = (SCxy)2

(SCx)(SCy)

El coeficiente de determinación proporciona una medida de la bondad de ajuste porque revela que porcentaje del cambio en Y se explica por un cambio en X.Para el ejemplo anterior:

8

Page 9: ESTADISTICA APLICADA II(2004)

r2 = (148.93333)2 = .93776 = .94 (137.73333)(171.73333)

Esto quiere decir que el 94% del cambio en el número de pasajeros se explica mediante un cambio en la publicidad.

Nota: El coeficiente de determinación solo tiene significado para las relaciones lineales. Dos variables pueden tener un r2 = 0 y sin embargo estar relacionadas en sentido curvilíneo. Además no se interpreta este valor como si el 94% del cambio en los pasajeros fuera causado por un cambio en la publicidad . La correlación no significa causa.

Pruebas para los parámetros poblacionales.

En nuestro ejemplo vimos que el coeficiente de regresión (pendiente) de b1=1.08 y el coeficiente de correlación de r=0.968, ambos diferentes de cero, indican que a medida que los gastos publicitarios cambian, cambia el número de pasajeros. Sin embargo, estos resultados se basan en una muestra de n= 15 observaciones y surge la pregunta de ¿existe alguna relación a nivel poblacional?. Supongamos que los parámetros poblacionales son cero, esto es, no existe relación alguna. Entonces hacemos una prueba de hipótesis para probarlos basándonos en los datos muestrales(del ejemplo), esto es, probaremos por separado si 1 = 0 y si = 0:

Prueba par 1 (Coeficiente de regresión poblacional)

1o.- Planteamiento de hipótesisHo: 1 = 0Ha: 1 0

2o.- Cálculo del estadístico de prueba: Como n< 30 , utilizamos de Student

= b1 – 1 donde Sb1 = Se/SCx Sb1

Sb1 = .907/137.73333 = .07726 = 1.0813 – 0 = 13.995.07726

3o.- Cálculo de los valores críticos.Para n-2= 13 grados de libertad y con un = 5% tenemos que = 2.160

4o. Regla de decisión: No rechazar Ho si está entre 2.160, de lo contrario rechazar”

Como = 113.995>2.160, la Ho de que 1 = 0 se rechaza. Entones si no es cero, ¿cuál es su valor?. Para esto calcularemos un intervalo de confianza (I.C.) para 1 así:

I.C. para 1 : b1 (Sb1)

9

Page 10: ESTADISTICA APLICADA II(2004)

Para nuestro ejemplo, con un nivel de confianza del 95%:

I.C. para 1 : 1.08 (2.160)(0.7726)

.913 1 1.247

Esto significa que se puede estar 95% seguro de que el coeficiente de regresión para toda la población de todos los valores X,Y está entre .913 y 1.247.

Prueba para (Coeficiente de correlación poblacional)

De manera análoga a la prueba anterior supongamos que el coeficiente de correlación poblacional es cero, pero debido a un error de muestreo obtuve r0 y por consiguiente estoy suponiendo equivocadamente una relación. Para esto probemos la hipótesis.

1o.- Planteamiento de hipótesis Ho: = 0Ha: 0

2o.- Cálculo del estadístico de prueba: Como n< 30 , utilizamos de Student

= r – donde Sr = (1-r2) / (n-2) Sr

Sr = (1- .93776)/(15-2) = .069 y = .9683 – 0 =14.033 .069

3o.- Cálculo de los valores críticos.Para n-2= 13 grados de libertad y con un = 5% tenemos que = 2.160

4o. Regla de decisión: No rechazar Ho si está entre 2.160, de lo contrario rechazar”

Debido a que = 14.033 > 2.160, se rechaza la hipótesis nula. A un nivel de significancia del 5%, se concluye que el coeficiente de correlación poblacional no es cero y que los pasajeros y la publicidad están relacionados.

Intervalos de confianza en el análisis de regresión.

Con el análisis de regresión se puede pronosticar y predecir valores para la variable dependiente. Una vez que se ha determinado la ecuación de regresión, se puede desarrollar un estimado puntual para la variable dependiente, sustituyendo un valor dado para X en la

10

Page 11: ESTADISTICA APLICADA II(2004)

ecuación y despejando Y. Además se pueden hacer estimados por intervalo, de los cuales hay de dos tipos relacionados con el análisis de regresión:

Un estimado por intervalo para el valor promedio de Y dado cualquier valor X. Se puede estimar la media poblacional para todos los valores de Y cuando X es igual a algún valor dado. Por ejemplo se puede estimar el número promedio de pasajeros en todos los meses en los que se gastó $10,000 en publicidad. A esto se le denomina media condicionada.

Un estimado por intervalo para un valor único de Y dado que X se fija en una cantidad específica. Este estimado se llama intervalo de predicción (I.P.)

Así, mientras la media condicionada es una estimación del valor promedio de Y en todos los meses en los cuales X es igual a un monto especificado, los estimados por intervalo de predicción, estiman Y en cualquier mes en el cual X se fija en un monto dado.

Intervalo de confianza para la media condicionada.

Cabe recordar que este intervalo puede tener dos interpretaciones(por ejemplo para un intervalo de confianza del 95%):

Dada una X fija, se puede estar 95% seguros de que la media de los valores Y ( yx ) caerá dentro del intervalo especificado.

Si se tomaran muchas muestras de los valores X y Y, y se construyera un intervalo de confianza para cada muestra, el 95% de ellos contendría a yx (el valor promedio real pero desconocido de Y dado una X fija)

Para calcular el primer intervalo es necesario determinar Sy, el error estándar de la media condicionada, el cual reconoce que se utiliza una muestra para calcular bo y b1 en la ecuación de regresión y por lo tanto están sujetos al error de muestreo. Si se tomaran otras muestras, los valores bo y b1 serian otros por lo que Sy toma en cuenta estas variaciones. Se calcula de la siguiente manera:

Error estándar de

la media condicionada Sy = Se donde Se = error estándar de estimación

Xi = valor fijo para la var. Indep.

Por lo tanto el I.C. para la media condicionada

Yi Sy donde Yi es el estimador puntual hallado con la ecuación de regresión y se busca con n-2 grados de libertad

Siguiendo con nuestro ejemplo, si deseáramos desarrollar un intervalo para la media condicionada en donde Xi=10, tendríamos:

Sy = .907 1 + (10 – 12.47)2 = .303

11

Page 12: ESTADISTICA APLICADA II(2004)

15 137.73333

Si se utiliza u nivel de confianza del 95% con 13 grados de libertad, = 2.160 .Por otro lado para Xi=10, evaluamos la recta de regresión y tenemos: Yi =4.4 +1.08 (10) = 15.2

Así el I.C. para y10 = 15.2 2.160 (.303)Es decir,

14.55 y10 15.85

Esto se puede interpretar como: La aerolínea puede estar 95% seguro de que si se invierten $10,000 en publicidad, el promedio de los pasajeros estará entre 14,550 y 15,850.

Si se calculara el intervalo de confianza para yx para valores diferentes de X , éstos conformarían una banda de confianza para yx , como se muestra en la siguiente figura:

Cabe hacer notar que se vuelve más ancha en cada extremo porque el análisis de regresión se basa en las medias, y entre más se aleja de la media de X, los resultados se vuelven menos precisos, por lo tanto para mantener un nivel de confianza del 95%, la banda debe ser más amplia.

Intervalo de predicción para un valor único de Y

Si lo que deseo construir es un intervalo de confianza para un valor único dee Y que se obtiene cuando X se fija a un valor dado una sola vez. Para calcular este intervalo de predicción primero se debe calcular el error estándar del pronóstico Syi . Este error estándar del pronóstico explica el hecho que los valores individuales están más dispersos que las medias y se calcula así:

Error estándar del pronóstico Syi = Se

Así el I.C. para elIntervalo de predicción(Yx) = Yi Syi

12

Page 13: ESTADISTICA APLICADA II(2004)

Para nuestro ejemplo, tenemos:

Syi = Se 1+ 1 + (10 – 12.47) 2 = .907 1.1114 = .956 y Yi=4.4 + 1.08(10) = 15.215 137.73333

Así el I.C. para elIntervalo de predicción = 15.2 2.160 (.956)

13.14 Yx 17.27

Esto se interpreta como: Si en un mes cualquiera se invierten $10,000 en publicidad hay un 95% de probabilidad de tener entre 13,140 y 17,270 pasajeros

Como el propósito final de un intervalo de confianza es la estimación del algún valor, mientras más pequeño sea éste, más precisa será la predicción. Sin embargo hay tres factores que influyen en el ancho del intervalo:

1. El grado de dispersión de los datos originales. -Mientras más dispersos, mayor será el error estándar de estimación Se.

2. El tamaño de la muestra.- Mientras más grande sea la muestra, menor es el error estándar.

3. La cercanía de los valores Xi con su media X.- Mientras mas cerca este un valor de su media, producirá intervalos más pequeños.

13

Page 14: ESTADISTICA APLICADA II(2004)

UNIDAD 2: Análisis de Regresión y Correlación Múltiple

Así como el modelo de regresión simple analiza una sola variable explicativa para predecir el valor de la variable dependiente, el modelo de regresión múltiple permite incorporar dos o más variables independientes para predecir el comportamiento de la variable dependiente. El modelo de regresión múltiple con k variables independientes se expresa como:

Y = 0 + 1X1 + 2X2 + 3X3 +.........+ kXk +

En donde las i son los coeficientes de regresión y es el término de error aleatorio. Este modelo se estima a partir de datos muestrales así:

Y = b0 + b1X1 + b2X2 + b3X3 + .... + bkXk

En donde Y es el valor estimado para la variable dependiente y las bi son los estimados para los coeficientes i. Los bi se denominan coeficientes parciales (o netos) de regresión y tienen la misma interpretación que en la regresión simple. Por tanto, b1 es la cantidad por la cual Y1 cambiará si X1 cambia en una unidad, suponiendo que todas las otras variables independientes se mantienen constantes.

La regresión múltiple implica los mismos supuestos que la regresión simple más otros dos: El número de observaciones n, debe exceder el número de variables k en por lo

menos dos unidades, debido a que en la regresión múltiple hay k+1 parámetros por estimar, para que los grados de libertad relacionados con el modelo sean al menos 1, ya que g.l.= n – (k+1).

Que ninguna de las variables independientes este linealmente relacionada. Por ejemplo, si X1 = X2 + X3 o X1 = .5 X2, etc., porque en este caso existiría multicolinealidad. La multicolinealidad puede hacer que los signos algebraicos de los coeficientes sean ilógicos además de que incrementan el error estándar de los coeficientes.

Ejemplo: Siguiendo con el ejemplo de la aerolínea donde se utilizó la publicidad para explicar y predecir el número de pasajeros, ahora desean incorporar una segunda variable explicativa dentro de su modelo par explicar el número de pasajeros. Basándose en que el ingreso nacional es determinante de la demanda, se escogió ésta como segunda variable. El modelo de regresión múltiple quedaría:

Y = b0 + b1X1 + b2X2

Con dos variables explicativas, un diagrama de dispersión puede representarse en un plano tridimensional formando un plano de regresión como se observa en la siguiente figura, donde la variable dependiente se coloca en el eje vertical único. Un modelo con tres o más variables independientes requeriría un hiperplano y es difícil de representar gráficamente.

14

Page 15: ESTADISTICA APLICADA II(2004)

Plano de regresión.- Los coeficientes de las dos variables independientes se representan mediante las pendientes del plano de regresión.

Los valores de bo, b1 y b2 se hallan como en la regresión simple. Como calcularlo manualmente implica resolver sistemas de ecuaciones, lo dejaremos al software disponible y nos enfocaremos más a la interpretación. Para nuestro ejemplo en particular y con los datos del ingreso nacional en billones de pesos, el plano de regresión resultante sería:

Y = 3.53 + .84 X1 + 1.44X2 donde Y = No. de pasajeros X1= Gastos Publicitarios

X2 = Ingreso Nacional

Este modelo predice que si se incrementa la publicidad una unidad ($1000), los pasajeros aumentarán .84 unidades (840 pasajeros) si el ingreso no cambia. Además si el ingreso nacional incrementa en una unidad ($ 1 billón), los pasajeros incrementarán en 1.44 unidades (1,440 pasajeros) si la publicidad no cambia.

Error estándar de estimación

Al igual que en la regresión simple, el error estándar (Se) de estimación puede utilizarse como medida de bondad de ajuste. Tiene la misma interpretación, mide los grados de dispersión de los valores Yi alrededor del plano de regresión. Se entiende que mientras menos dispersos estén estos valores del plano, más pequeño será el Sey más preciso será el modelo en su predicción y pronóstico.

El error estándar de estimación: Se = (yi – Yi) 2 n – k – 1

El error estándar de estimación para nuestro ejemplo sería: Se = 8.1016/(15-2-1) = .8217Coeficiente de determinación múltiple.

15

Page 16: ESTADISTICA APLICADA II(2004)

Éste mide la bondad de ajuste de la regresión múltiple, aunque se le conoce simplemente como coeficiente de determinación al igual que en la regresión simple. También en ambos casos la interpretación es la misma: Mide la fuerza de la relación entre Y y las variables independientes, en otras palabras, la porción del cambio en Y explicada mediante todas las variables independientes.

Para medir dicha porción se utiliza la relación de la variación explicada (SCR o Suma de los cuadrados de la regresión) con la variación total (SCT o Suma Total de Cuadrados). Por tanto:

Coeficiente de determinación múltiple: R2 = SCR/SCT donde SCR = (Yi – Y)2

y SCT = (Yi – Y)2

Pero debido a que SCT = SCR + SCE también se puede calcular así:

R2 = 1 – SCE/SCT donde SCE = (Yi – Yi)2

Nota: Cabe señalar que el coeficiente de determinación es r2 en el modelo simple y R2 en el modelo múltiple. En nuestro ejemplo R2 = 163.632 = .953 Lo cual indica que 95.3% del cambio en el No.

171.7333 de pasajeros se explica por los cambios en la publicidad y en el ingreso nacional.

Al igual que en el modelo de regresión simple, 0 R2 1, mientras más cercano a 1sea, mayor poder explicativo tendrá el modelo.Como podemos observar en el modelo de regresión simple r2= .93, pero al incorporar la variable independiente “Ingreso Nacional”, R2 = .953, aumentando el poder explicativo del modelo.

Coeficiente de determinación corregido

Por lo tanto, es posible “inflar” artificialmente R2 adicionando variables independientes hasta hacerlo acercarse al 100% para que el modelo parezca que se ajusta muy bien a los datos, pero produciría resultados inválidos.

Por esto, se utiliza el estadístico denominado coeficiente de determinación corregido representado por R2,que se lee “R barra al cuadrado”, el cual se ajusta a la medida del poder explicativo para el mismo número de grados de libertad. Este se calcula de la siguiente manera:

Coeficiente de determinaciónmúltiple corregido R2 = 1 - SCE/(n - k – 1)

SCT /(n – 1)

O bien: R2 = 1- [(1 – R2)(n –1)/(n – k – 1)] Siguiendo con nuestro ejemplo, el coeficiente de determinación corregido sería:

16

Page 17: ESTADISTICA APLICADA II(2004)

R2 = 1 – [(1 - .953)*(15 – 1)/(15- 2 – 1)] = .945

Revisión de los coeficientes de regresión

El siguiente paso lógico es probar cada coeficiente individualmente para determinar cuál es (o cuáles son) significante(s). Probaremos primero la publicidad. Si 1 fuera = 0 significaría que la publicidad no contribuye con poder explicativo al modelo, dado que el ingreso nacional ya está incluido. Por lo tanto nuestras hipótesis son:1er. Paso: 2o. Paso:

Ho: 1 = 0 Calculamos el estadístico :HA: 1 0 = b1 – 1 = .8398 – 0 = 5.92

Sb1 .14193er. Paso: Buscamos los valores críticos:

Para = 1% con (n- k – 1)=15 – 2 –1 = 12 grados de libertad, = 3.055

4o. Paso: Criterio de decisión.-“No rechazar la Ho si está entre 3.055. De lo contrario, rechazar”

Como =5.92>3.055, se rechaza la Ho, es decir, 1 0. Por lo que puedo afirmar que al nivel de significancia del 1%, la publicidad contribuye significativamente al poder explicativo del modelo, aun incluido el ingreso nacional.Cabe señalar que cuando la publicidad era la única variable explicativa el valor de = 13.995. Al haber otra variable explicativa en el modelo este valor disminuye, sin embargo como es 0, sigue teniendo significancia dentro del modelo.

Probaremos ahora si el ingreso nacional tiene significancia dentro del modelo. Para esto probaremos que 2 0. 1er. Paso: Las hipótesis son: 2o. Paso: Calculemos el estadístico de prueba

Ho: 2 = 0 = 1.441 – 0 = 1.96HA : 2 0 7360

3er. Paso: Calcula valores críticos 4o. Paso: Regla de decisiónPara =5% y 12 g.l. = 2.179 “No rechazar la Ho si esta entre 2.179, de lo

contrario rechazar”

Observemos que si tomamos un = 5% cae en la zona de NO rechazo, dando a entender que el ingreso nacional no es significante dentro del modelo, si ya hemos incluido la publicidad.Sin embargo si = 10%, cae en la zona de rechazo y por lo tanto e ingreso nacional si tendría significancia dentro del modelo. Para decidir a que hacer la prueba y si embargo rechazar la Ho, utilizamos el valor p que en este caso es igual a 7.4%El concepto de multicolinealidad

La multicolinealidad surge cuando una de las variables independientes está relacionada linealmente con una o más de las otras variables independientes. Dicha condición contraviene

17

Page 18: ESTADISTICA APLICADA II(2004)

una de las condiciones de la regresión múltiple. Específicamente la multicolinealidad ocurre si existe una “alta” correlación entre dos variables independientes.Si el coeficiente de correlación r se aplica a dos variables independientes X i y Xj , en regresión múltiple se puede calcular el coeficiente de correlación r ij . Si rij es alto existe multicolinealidad. Pero ¿cuándo es alto?. No existe un punto en el cual se pueda determinar que la correlación es demasiado alta y que por ende exista multicolinealidad.

Veamos un ejemplo. Supongamos que estamos utilizando las técnicas de regresión para estimar una curva de demanda (o función de demanda) para un producto. Al reconocer que el número de consumidores está relacionado con la demanda, se seleccionan como variables explicativas las siguientes:

X1 = Todos los hombresX2 = Todas las mujeresX3 = Población total

Es obvio que X3 es una combinación lineal de X1 y X2 (X3 = X1 + X2). La correlación r13 entre X1

y X3 y la correlación r23 entre X2 y X3 es muy alta. Esto garantiza la presencia de multicolinealidad y crea muchos problemas en el uso de las técnicas de regresión.

Uno de estos problemas es la incapacidad de separar los efectos individuales de cada variable independiente sobre Y. Ante la presencia de multicolinealidad, es imposible detectar e interpretar los efectos de cada Xi . En un modelo de regresión múltiple que presente multicolinealidad los coeficientes de regresión se vuelven no confiables, ya que sus errores estándar (Sbi) se desbordan. Es decir los coeficientes varía mucho de una muestra a otra.

La multicolinealidad incluso puede hacer que el signo del coeficiente sea opuesto a lo que la lógica dicta. Por ejemplo, si se incluye el precio como una de las variables explicativas en un modelo de regresión para la demanda y éste ( el precio) tiene una alta correlación con otra variable, puede hacer que su coeficiente de positivo. Esto implicaría que si el precio aumenta, la demanda también aumenta, lo cual es una contradicción.

Comparación de los coeficientes de regresión.

Después de desarrollar el modelo de regresión existe con frecuencia la tendencia a comparar los coeficientes de regresión para determinar cuál variable ejerce más influencia en Y. En realidad factores diferentes al coeficiente de regresión de una variable determinan el impacto en Y. Por ejemplo, la varianza en una variable es muy importante al determinar su influencia en Y, pues mide con qué frecuencia y cuánto cambia una variable. Por lo tanto una variable puede tener un coeficiente grande y cada vez que cambia afecta notablemente a Y, pero si su varianza es muy pequeña y cambia solo una vez en un milenio, su impacto global en Y será insignificante.

Para compensar estas deficiencias, algunas veces se mide la respuesta de Y a los cambios en los coeficientes de regresión estandarizados. Los coeficientes d regresión estándar, también denominados coeficientes beta (no confundir con el valor , el cual es el coeficiente

18

Page 19: ESTADISTICA APLICADA II(2004)

de regresión desconocido a nivel poblacional), reflejan el cambio en la respuesta promedio de Y, calculada en el número de desviaciones estándar de Y, de los cambios en Xi, medida en el número de desviaciones estándar de Xi. El efecto que se pretende con el cálculo de los valores beta es que los coeficientes “no tengan dimensiones”.

El valor beta para una variable explicativa se calcula así:Coeficiente beta o estandarizado para Xi =

Beta = bi donde Sy y Sxi son las desviaciones estándar de la Sy/Sxi variable Y y la variable Xi.

Para nuestro ejemplo, Sy = 3.502 es la desviación estándar de la variable pasajeros y Sxi=.605 es la desviación estándar para el ingreso nacional, el coeficiente b2 ya estandarizado se convierte a:

Beta = 1.441 = .2436 3.502/.605

Lo cual quiere decir que un cambio de una desviación estándar en el ingreso nacional da un cambio en la desviación estándar de pasajeros de .2436. De igual forma el coeficiente beta para la publicidad se convierte a .7519. Esto sugiere que la publicidad tiene un impacto más fuerte en los pasajeros. Sin embargo cabe señalar, que aun estos coeficientes estandarizados sufren deficiencias si existe multicolinealidad.

Modelos de Regresión no lineal

Anteriormente se ha supuesto que la relación entre X y Y puede expresarse como una linea recta, sin embargo, no siempre es el caso. El diagrama de dispersión de los datos puede sugerir que un modelo curvilineal (no lineal) puede proporcionar un mejor ajuste. Veamos un ejemplo: El alcalde de una ciudad recolecta los siguientes datos (en millones) con la intención de predecir las declaraciones de impuestos con base en la población:

Impuestos Población85 2.68

118 2.98 164 3.50 228 3.79

31 1.5743 2.01

61 2.15 611 4.90 316 4.16 444 4.50

El diagrama de estos datos nos sugiere un modelo curvilineal.

19

Page 20: ESTADISTICA APLICADA II(2004)

Como vimos anteriormente en un modelo de regresión simple, el cambio en Y es constante, es decir, a medida que X cambia, Y cambia en un monto dado. En un modelo curvilineal a medida que X cambia, Y cambia en una cantidad diferente, llamada tasa de incremento. Tales modelos curvilineales con frecuencia tienen buen ajuste cuando se utiliza una función polinómica de la forma:

Y = 0 + 1X + 2X2 + 3X3 + .............kXk +

Se dice que la expresión anterior es un polinomio de grado k porque es la potencia más alta de cualquier variable explicativa.

Siguiendo con nuestro ejemplo, supongamos que el alcalde decide utilizar un modelo curvilineal utilizando un polinomio de grado 2 o de segundo orden:

Y = b0 + b1X + b2X2

Es decir: I = = b0 + b1POB + b2(POB)2 donde I = Impuestos y

POB = Población

Estimar los coeficientes es algo complejo, por lo que solo veremos la comparación de los resultados (obtenidos por computadora) si usáramos otros modelos. Si le intentamos ajustar un modelo de regresión lineal a éstos datos obtendríamos la siguiente función:

I = -302.39 + 158.96POB con una r2 = 86.1% y r2 = 84.3% Y un error estándar de 76.38

Si se utiliza un modelo cuadrático obtendríamos la siguiente función:

I = 325.36 – 277.98POB +67.692(POB)2 con una r2 = 98.76% y un error estándar de 22.20

Obviamente el modelo cuadrático proporciona un mejor ajuste.

Un método alternativo para los modelos curvilineales puede lograrse mediante la transformación de los datos mediante el uso de logaritmos. Esta transformación logarítmica puede hacer que los datos sean lineales en el logaritmo. En la tabla siguiente se muestran los

20

Page 21: ESTADISTICA APLICADA II(2004)

mismos datos del ejemplo anterior pero con sus logaritmos naturales en las columnas siguientes:

Impuestos Población Log(Impuestos) Log(POB) 85 2.68 4.44265 0.98582 118 2.98 4.77068 1.09102 164 3.50 5.09987 1.25276 228 3.79 5.42935 1.33237 31 1.57 3.43399 0.45108 44 2.01 3.76120 0.69813 61 2.15 4.11087 0.76547 611 4.90 6.41510 1.58924 316 4.16 5.75574 1.42552 444 4.50 6.09582 1.50408

De esta forma, simplemente se hace regresión del logaritmo de los impuestos sobre el logaritmo de la población. Resolviéndolo por computadora se nota el mejoramiento del error estándar de solo 0.1680 y r2 = 82.2% pues el modelo de regresión queda:

Log(Imp) = 2.0302 + 2.6147*Log(Pob)

Esto es , si la población es de 3.2, por ejemplo, Log(3.2)=1.163 y calculamos:

Log(Imp) = 2.0302 + 2.6147*1.163 = 5.071 Si buscamos su antilogaritmo, tenemos:

Imp =159.33

Como pudo observarse diferentes modelos pueden reportan un coeficiente de determinación (r2) más alto que otro, lo cual es bueno, pero pueden reportar un error estándar de estimación mayor, lo cual es malo. Entonces ¿cual modelo usar?. La respuesta es: según para lo que necesitemos el modelo. Si el propósito es explicar los valores presentes de Y y comprender por qué se comportan como lo hacen, se utiliza el modelo que reporta el mayor coeficiente de determinación. En cambio, si el propósito es predecir los valores futuros de Y, se utiliza el modelo con el menor error estándar de estimación.

21

Page 22: ESTADISTICA APLICADA II(2004)

UNIDAD 3: Análisis de Series de Tiempo

Existen numerosas herramientas cuantitativas que pueden utilizarse para desarrollar proyecciones útiles. Un ejemplo de estas herramientas son los datos de series de tiempo que pueden utilizarse para hacer pronósticos que sirven en la toma de decisiones.

El proceso de desarrollar un pronóstico comienza con la recolección de datos anteriores durante varios periodos. El conjunto de datos resultantes se denominan una serie de tiempo o serie temporal porque contiene observaciones para alguna variable durante el tiempo. Los periodos de tiempo varían en duración: pueden ser anuales, trimestrales, mensuales e incluso diarios. Los periodos de sólo una hora pueden utilizarse para variables altamente volátiles como el precio o para las acciones transadas en una de las bolsas de valores reconocidas.

Series de Tiempo.- Es una recolección de datos para alguna variable o conjunto de variables durante varios periodos.

Veamos un ejemplo: La siguiente tabla contiene datos de ventas trimestrales de cierta industria en millones de dólares:

Periodo Ventas (en millones)1995-IV 31.11996-I 35.6

- II 42.8- III 50.3- IV 49.2

1997 - I 62.0- II 61.8- III 75.9- IV 74.1

1998 – I 88.7- II 79.1- III 92.5

El propósito del análisis de las series de tiempo es predecir o proyectar los valores futuros de la variable a partir de observaciones anteriores. Un método directo es el método intuitivo de proyección, el cual presume que el mejor predictor del valor de la variable en el periodo siguiente es su valor en el periodo corriente. Esto se puede expresar así:

Modelo de Proyección Intuitivo Yt+1 = Yt

Donde Yt+1 es el estimado del valor de la serie de tiempo en el siguiente periodo t+1 y Y t es el valor real en el periodo corriente t . Este método de pronóstico es más exitoso para los datos que se recogen en intervalos cortos de tiempo como los diarios o los semanales. Sin embargo, la mayoría de las series de tiempo son más complejas.

22

Page 23: ESTADISTICA APLICADA II(2004)

Todas las series de tiempo contienen por lo menos uno de los siguientes cuatro componentes: Tendencia secular.- Es el movimiento continuo de una variable durante un periodo de

tiempo extendido. Es la conducta a largo plazo de la variable en un periodo prolongado. Refleja la dirección general de la serie de tiempo, como ascendente o descendente.

Variación estacional.- Es el movimiento en las series de tiempo que ocurre de nuevo cada año por la misma época.Aunque generalmente se piensa que las fluctuaciones o variaciones estacionales ocurren cada año, el período en cuestión podría ser más corto. Por ejemplo, el flujo diario de clientes a un restaurante cada medio día. Si la variación estacional no ocurre anualmente sino dentro del transcurso de una semana, los datos deberán recolectarse semanalmente.

Variación cíclica.- Es variación como de onda en el nivel general de la actividad comercial durante un periodo relativamente prolongado.Sucede cuando la variable presenta variaciones por encima y por debajo de la tendencia a largo plazo por un periodo prolongado de tiempo. También se denominan ciclos comerciales. Un ciclo contiene cuatro fases:

1. Alza o expansión, durante la cual el nivel de actividad comercial se acelera, el desempleo es bajo y la producción es rápida.

2. Pico, es donde la tasa de actividad económica tiene el “punto más alto”3. Descenso o Contracción, cuando el desempleo sube y la actividad

económica disminuye.4. Depresión, cuando la actividad está en su punto mínimo.

Un ciclo va de una fase a la siguiente de manera ondular.

Variación irregular o aleatoria.- Es la variación inusual sin un patrón discernible.Estas variaciones son como las huellas, únicas o como los copos de nieve, los cuales probablemente nunca ocurrirán de nuevo de la misma manera. Pueden ser producidas por eventos como guerras, inundaciones, etc.

Modelos de Series de Tiempo.

Un modelo de series de tiempo puede expresarse como alguna combinación de estos cuatro elementos. El modelo es simplemente una expresión matemática de la relación entre los cuatro componentes. Los modelos más comunes son: 1) el modelo aditivo y 2) el modelo multiplicativo.

El modelo aditivo se expresa como: Yt = Tt + St + Ct + It .

23

Page 24: ESTADISTICA APLICADA II(2004)

en donde Yt es el valor de la serie de tiempo para el periodo t y a la derecha están la tendencia, la variación estacional, la variación cíclica y la aleatoria de la serie de tiempo para el mismo periodo.En el modelo aditivo, todos los valores están expresados en las mismas unidades que las originales. Además S,C e I son desviaciones alrededor de T.Por ejemplo: Si se desarrollara un modelo de series de tiempo para las ventas en dólares de una tienda minorista y se encontrara que T=$500, S=$100, C=-$25 e I=-$10, el modelo de ventas sería:

Y = 500 + 100 – 25 – 10 = $ 565

Cabe señalar que el valor positivo de S indica que las influencias estacionales existentes han tenido un impacto positivo en las ventas, que el valor cíclico negativo sugiere que el ciclo comercial está actualmente descendiendo y que aparentemente sucedió algún evento aleatorio que tuvo un impacto negativo en las ventas.

El modelo aditivo supone que los componentes son independientes uno del otro, lo cual es algo irreal, pues raramente sucede en la vida real. Generalmente los movimientos de un componente tienen un impacto en los otros componentes, por lo que este supuesto no se cumple.

Como resultado de esto, el modelo multiplicativo es el que se prefiere con frecuencia, pues supone que los componentes interactúan entre sí y no se mueven independientemente. Este modelo se expresa así: Yt = Tt x St x Ct x It

En este modelo solo T se expresa en las unidades originales, pues S, C e I se expresan en términos de porcentaje. Por ejemplo: Los valores para las deudas morosas en un banco comercial pueden registrarse como T= 10,000,000 , S= 1.7, C= .91 e I =.87 por lo que las deudas morosas se podrían calcular así:

Y = (10 ) (1.7) ( .91) (.87) = $ 13.46 millones

Debido a que las fluctuaciones ocurren dentro de periodos de menos de un año, podrían no reflejarse en los datos anuales, es decir en S. Una serie de tiempo para datos anuales se expresaría así:

Yt = Tt x Ct x It

Técnicas de suavizamiento.

El comportamiento general de una variable, con frecuencia puede analizarse mejor observando su tendencia a largo plazo. Sin embargo, si la serie tiene demasiadas variaciones estacionales a corto plazo, la tendencia puede ser confusa y difícil de observar. Es posible eliminar muchos de estos factores que se pueden confundir promediando los datos de varios periodos. Esto se logra utilizando ciertas técnicas de suavizamiento o suavización que eliminan las variaciones aleatorias de la serie, proporcionando un panorama menos distorsionado de la conducta real de la serie. Dos técnicas comunes son: Promedio móvil y suavizamiento exponencial.

24

Page 25: ESTADISTICA APLICADA II(2004)

Promedios móviles

Un promedio móvil (PM) tendrá el efecto de “suavizamiento” de los datos, produciendo un movimiento con menos picos y valles. Se calcula promediando los valores en la serie sobre un numero fijo de periodos. El mismo número de periodos se mantiene para cada promedio, eliminando la observación más antigua y recogiendo la más recientes.

Promedio móvil (PM).- Una serie de promedios aritméticos sobre un número dado de periodos; es la estimación del promedio de la variable a largo plazo.

Veamos un ejemplo: En la siguiente tabla se muestran las ventas de una empresa durante los últimos 12 meses y se han calculado los promedios móviles para tres y para cinco meses

Mes Ventas ($100) PM de tres meses

PM de cinco meses

Enero 52Febrero 81 60.00Marzo 47 64.33 59.00Abril 65 54.00 63.20Mayo 50 62.67 56.00Junio 73 56.00 58.60Julio 45 59.33 55.60

Agosto 60 51.67 61.40Septiembre 50 63.00 55.80

Octubre 79 58.00 59.20Noviembre 45 62.00Diciembre 62

Nótese que cuando se usa un número impar de periodos para calcular el PM, éste se puede ubicar en el período central. Sin embargo si el número de periodos es par, el PM debe ajustarse, ya que éste estaría siempre entre los valores centrales. Para ajustar los promedios móviles, lo que se hace es promediar cada par sucesivo de PM previamente calculados y ubicarlo en el periodo inmediato siguiente.

Los promedios móviles tienen el efecto de suavizamiento de las variaciones grandes de los datos. Entre más grande sea el número de periodos en un promedio móvil, más pronunciado será el efecto del suavizamiento. Vale la pena notar que el rango de valores en un PM de tres meses es menor que en los datos originales, pero mayor que el rango de PM de 5 meses. A continuación se muestra la gráfica de las tres columnas para ver el efecto del “suavizamiento”.

25

Page 26: ESTADISTICA APLICADA II(2004)

Cuando el número de periodos en un promedio móvil es suficiente para abarcar todo un año (12 meses, 52 semanas, etc,) las variaciones estacionales se promedian y se eliminan de la serie, entonces se afirma que los datos están desestacionalizados.

Suavizamiento exponencial

Esta técnica además de tener el efecto de suavizar una serie proporciona un medio efectivo de predicción. El suavizamiento exponencial de primer orden, se utiliza cuando los datos no presentan ningún patrón de tendencia. El modelo contiene un mecanismo de autocorrección que ajusta los pronósticos en dirección opuesta a los errores pasados. La ecuación es:

Ft +1 = At +(1 – )Ft

donde Ft +1 =Pronóstico para el siguiente período. At = Valor real observado para el período actual.

Ft = Proyección hecha previamente para el periodo actual = Constante de suavizamiento a la cual se le da un valor entre 0 y 1.

Teniendo en cuenta que los datos no tienen tendencia ascendente o descendente, pero varían alrededor de algún promedio a largo plazo, se toma el valor F t+1 como pronóstico para cualquier periodo futuro.

Suavizamiento exponencial.- Herramienta de proyección en la cual el pronóstico se basa en un promedio ponderado de los valores actuales y anteriores.

Ejemplo: Supongamos que es el último día hábil de Febrero y las ventas totales del mes fueron de $110,000 en una empresa. Esta desea pronosticar las ventas para el mes de Marzo. De acuerdo a lo anterior, la proyección para Marzo (Ft +1) requiere:

26

Page 27: ESTADISTICA APLICADA II(2004)

Ventas reales de Febrero, At Pronóstico para Febrero, Ft .

Sin embargo como Marzo es el primer mes que voy a pronosticar, no se hizo un pronostico para Febrero y por lo tanto Ft es desconocido. En este caso se utiliza el valor real del período anterior , Enero en este caso, para la primera proyección. Las ventas de Enero fueron de $105,000. Para un valor de =.03 , el pronóstico para Marzo es:

FMarzo = AFeb +(1-)FFeb

= (.3)(110) + (.7)(105)= 106.5

Es decir, la proyección de las ventas en Marzo es de $106,500. Si las ventas reales en Marzo fueron de $ 107,000 , el error se calcula como FMarzo – AMarzo = 106.5 – 107.0 = -.5.

Por otro lado podemos estimar las proyecciones de Abril y Mayo de la misma manera, si conocemos las ventas reales de Abril (112.0):

FAbril = (.3)(107) + (.7)(106.5) = 106.65FMayo = (.3)(112) `(.7)(106.65) = 108.26

Así podríamos construir la siguiente tabla para planear las ventas:

Mes Proyección Real Error (Ft –At)Enero 105Febrero 105 110 -0.5Marzo 106.5 107 -.05Abril 106.65 112 -5.35

Como lo que deseamos es producir un pronóstico con el error más pequeño posible, el valor que minimiza el cuadrado medio del error (CME = ( Ft –At)2/n –1 ) debe ser óptimo. El ensayo y error es con frecuencia el mejor método para determinar el valor de apropiado.

Generalmente hablando, si los datos son volátiles se precisa un menor valor , debido a que los valores más pequeños de asignan menos peso a las observaciones más recientes. Si los datos presenta un movimiento considerable, la última observación puede no ser representativa del promedio a largo plazo.

Nota: Vale la pena recordar que el suavizamiento exponencial de primer orden solo es apropiado si los datos no presentan ninguna tendencia, es decir, se mueven alrededor de algún valor promedio a largo plazo. Si la tendencia fuera ascendente o descendente se debe utilizar el suavizamiento exponencial de segundo orden que no analizaremos.

Análisis de Tendencia.

27

Page 28: ESTADISTICA APLICADA II(2004)

Si una serie de tiempo tiene una tendencia ascendente o descendente a largo plazo, el análisis de tendencia puede ser útil para desarrollar pronósticos. Es decir , si una tendencia está presente debido a que los datos no varían alrededor de algún promedio a largo plazo , los métodos de suavizamiento como el promedio móvil y el suavizamiento exponencial no son apropiados. En su lugar, se puede estimar una recta de tendencia utilizando las técnicas de regresión lineal vistas anteriormente. En este caso, la variable dependiente es la serie de tiempo que se desea pronosticar y el tiempo se utiliza como variable independiente. El modelo quedaría así:

Yt = b0 + b1t

Ejemplo: Una constructora desea estimar el número de casas iniciadas ( en miles) en una comunidad ajustando su serie de tiempo mediante el desarrollo de un modelo de regresión lineal.

Año T (X) Casas Iniciadas (Y)

XY X2

1985 1 7.0 7.0 11986 2 7.1 14.2 41987 3 7.9 23.7 91988 4 7.3 29.2 161989 5 8.2 41.0 251990 6 8.3 49.8 361991 7 8.1 56.7 491992 8 8.6 68.8 641993 9 8.8 79.2 811994 10 8.9 89.0 1001995 11 8.7 95.7 1211996 12 9.1 109.2 1441997 13 9.4 122.2 1691998 14 9.1 127.4 1961999 15 9.5 142.5 2252000 16 9.9 158.4 256

136 135.9 1214.0 1496

Los valores de t se obtienen codificando el tiempo simplemente numerándolo. Como vimos anteriormente: b1= SCxy/SCx y b0 = Y – b1X.

De acuerdo a lo anterior la ecuación de la recta de tendencia quedaría:

Y = 7.02 + 0.173tCon esto podemos ver la recta de regresión sobre el diagrama de dispersión de los datos originales:

28

Page 29: ESTADISTICA APLICADA II(2004)

Además con la ecuación de regresión podríamos predecir el número de viviendas iniciados en períodos futuros simplemente sustituyendo el año (codificado) que se desea estimar. Si se desea pronosticar para 2001, sustituimos t=17 en la ecuación y la proyección sería:

Y = 7.02 + 0.173(17) = 9.96Es decir, habrá 9,960 casas iniciadas.Claro que entre más alejada está la proyección, menos confiable es su resultado. Además su precisión se basa en la condición de que el pasado proporciona un panorama representativo de las tendencias futuras.

Descomposición de las Series de Tiempo.

Con frecuencia es útil descomponer una serie de tiempo para examinar individualmente cada componente. Veamos: Examinar solo la tendencia puede reflejar patrones anteriores de comportamiento para

desarrollar modelos de tendencia útiles en la proyección y pronóstico, como acabamos de ver.

Al analizar el factor estacional se puede determinar si la actividad comercial presenta alguna variación estacional que pueda considerarse para formular planes futuros.

Por otro lado, el desempeño cíclico del negocio puede también influir en la dirección de la planeación del negocio.

Aislamiento de la componente estacional

29

Page 30: ESTADISTICA APLICADA II(2004)

El primer paso en el desglosamiento es obtener un índice estacional. Para obtener éste es necesario calcular un promedio móvil centrado. Si los datos tienden a fluctuar durante el transcurso de un año y se utilizan datos mensuales, se calcula un promedio móvil de 12 periodos; en cambio si los datos parecen depender del día de la semana, podría utilizarse un promedio móvil de 5 periodos(de lunes a viernes) con datos diarios.

Como vimos anteriormente el promedio móvil para un año elimina los movimientos estacionales recurrentes (debido a que las variaciones estacionales ocurren dentro de un año), así como el efecto aleatorio durante el transcurso del año.

Así tenemos que en un modelo multiplicativo Y= T.C.S.I , el promedio móvil elimina S e I y contiene sólo T y C, es decir, PM = T.C , por lo tanto si se divide el valor de la serie original Y entre el PM, el resultado produce los componentes S e I de la serie de tiempo.

Razón por promedio móvil: Y = T x C x S x I = S x I PM T x C

Razón por promedio móvil.- Al dividir los datos de la serie de tiempo por el promedio móvil se obtiene la razón por promedio móvil, que contiene los componentes S e I.

Ahora se debe calcular una razón media (o promedio) por promedio móvil para cada periodo. Esto se logra promediando todas las razones promedio móvil que correspondan l mismo periodo. Estas doce (si la variación estacional ocurre en un año) razones promedio se suman. En forma ideal, deberían sumar 12, aunque siempre se aproxima rara vez ocurre así.

Para normalizar estas razones es necesario obtener un índice estacional. Para esto dividimos el número de periodos entre la suma de las razones promedio por promedio móvil. Este resultado, llamado razón de normalización se multiplica por cada razón promedio y se obtiene el índice estacional para cada período. Con este proceso de normalización se elimina toda actividad irregular, dejando sólo el factor estacional.

Los usos del índice estacional son:

1. El índice estacional para un periodo en particular indica como se comporta ese periodo respecto al año como un todo.

2. Los índices pueden utilizarse para desestacionalizar los datos. Esto tiene el efecto de eliminar la variación estacional de un serie para determinar lo que serían los valores ante la ausencia de variaciones estacionales, es decir, un valor promedio por mes que se cumpliría si no existieran cambios estacionales. Este valor desestacionalizado se halla dividiendo el valor real durante el periodo por el índice estacional he dicho periodo. Estos valores también se denominan corregidos estacionalmente.

3. También pueden utilizarse para estacionalizar los datos y obtener un mejor panorama de lo que puede suceder en un periodo. Por ejemplo, si estimamos el valor de una serie para

30

Page 31: ESTADISTICA APLICADA II(2004)

un periodo en particular pero no consideramos la variación estacional, podemos ponderarla con el índice estacional correspondiente a ese periodo.

Aislamiento de la variación cíclica.

Muchos negocios se ven afectados por las oscilaciones en el ciclo de los negocios. Esto es, cuando la economía se activa, su actividad comercial se puede acelerar, mientras que un descenso económico trae una caída en los negocios. Sin embargo existen industrias que presentan movimientos en dirección opuesta la ciclo, como por ejemplo la industria del entretenimiento.

El componente cíclico puede identificarse obteniendo primero la tendencia y el componente estacional como se mostró anteriormente. Veamos un ejemplo donde la recta de tendencia y los índices estacionales ya se calcularon como se explicó anteriormente y se muestran en la siguiente tabla, en las columnas 3 y 4:

Período Ingreso Proyección de Tendencia

Indice Estacional

Norma Estadística

Componente C x I

Componente Cíclico

(1) (2) (3) (4) (3)x(4) [(2)/(5)](100)1996 – I 24 28.63 0.8029 22.99 104.39

II 31 28.68 1.0270 29.45 105.26III 21 28.73 0.7650 21.98 95.54 103.78IV 42 28.79 1.4050 40.45 103.83 105.63

1997 – I 27 28.84 0.8029 23.16 116.58 108.13II 32 28.89 1.0270 29.67 107.85 109.90III 25 28.94 0.7650 22.14 112.92 105.64IV 41 29.00 1.4050 40.75 100.61 99.60

1998 – I 20 29.05 0.8029 23.32 85.76 93.38II 27 29.10 1.0270 29.89 90.33 88.65III 18 29.15 0.7650 22.30 80.72IV 39 29.21 1.4050 41.04 95.03

Después se calcula la norma estadística multiplicando la proyección de tendencia por el índice estacional. A esta medida se le denomina norma porque representa los valores que ocurrirían si sólo estuvieran presentes la tendencia y las variaciones estacionales. Los componentes cíclicos e irregulares se obtienen dividiendo los datos originales por la norma estadística, la cual solo contiene T y S y se multiplican por 100 para expresarla en forma de porcentaje. Esto es, debido a que Y = T x S x C x I,

Y = T x S x C x I = C x I T x S T x S

Por último se elimina el componente irregular tomando un promedio móvil de cuatro periodos (porque los datos son trimestrales), dejando sólo el factor cíclico. Estos últimos representan los valores para esos períodos como un porcentaje de la tendencia.

31

Page 32: ESTADISTICA APLICADA II(2004)

Variación irregular

Como se vio anteriormente las variaciones irregulares es posible suavizarlas y eliminarlas utilizando un promedio móvil.

32

Page 33: ESTADISTICA APLICADA II(2004)

UNIDAD 4: Construcción y Uso de Números Indices.

Cuando analizamos series de tiempo con frecuencia comparamos datos de un periodo de tiempo con los datos de un periodo diferente. Esta comparación puede ser engañosa ya que las condiciones económicas van cambiando con el paso del tiempo y esto dificulta la interpretación de las variables económicas.

El uso de números índice puede proporcionar a quienes toman decisiones una idea del comportamiento de las variables económicas a través del tiempo, además que permite hacer comparaciones más significativas. Un número índice relaciona un valor en un periodo de tiempo, denominado período de base, con un valor en otro periodo, denominado período de referencia (o actual).

Para seleccionar el período base se debe de observar dos reglas: El periodo base debe ser de normalidad o estabilidad económica, en vez de uno que

esté cerca de un máximo o un cúspide de una economía en expansión o de una cima en una economía declinante o en recesión.

El periodo base debe ser reciente a fin de que las comparaciones no se afecten sin necesidad por cambios en la tecnología, calidad en el producto o en las actitudes, intereses, gustos y hábitos de los consumidores.

Existen diferentes tipos de números índice:A) Índice de precios simple

Un índice de precios simple indica la relación entre el precio de un producto o servicio en un período base, con el precio del mismo producto o servicio en el período de referencia.

Indice de precios simple.- Indica el cambio relativo en el precio de un producto o servicio en el período de referencia, con respecto al período base.

Para calcular un índice simple, se divide el precio del producto en el período de referencia por su precio en el período base y se multiplica por 100

Indice de precios simple = IPR = PR x 100PB

Ejemplo:Una empacadora de carne tiene los siguientes datos de sus tres productos más populares. Calcule el índice de precios simple de cada producto, siendo 1995 el período base.

Precio / UnidadArtículo Unidad 1995 1996 1997

Res 1 libra 3.00 3.30 4.50Cerdo 1 libra 2.00 2.20 2.10Ternera 1 libra 4.00 4.50 3.64

33

Page 34: ESTADISTICA APLICADA II(2004)

La tabla de Indices de Precios quedaría así:

Artículo 1995 1996 1997Res (3.00/3.00)x100=100 (3.30/3.00)x100=110 (4.50/3.00)x100=150Cerdo (2.00/2.00)x100=100 (2.20/2.00)x100=110 (2.10/2.00)x100=105Ternera (4.00/4.00)x100=100 (4.50/4.00)x100=112 (3.64/4.00)x100=91

Se puede observar que desde el año base de 1995 a 1996, el índice de precios incrementó de 100 a 110, por lo que se puede concluir que el precio de la carne es incrementó en un 10%. De igual forma se puede concluir que de 1995 a 1997 ocurrió un incremento del 50%, lo cual podría hacer pensar que un incremento del 40% se presentó de 1996 a 1997, lo cual no fue así como puede observarse en la tabla. Esta diferencia del 40% entre los números índice de 1996 y 1997 se denomina el incremento puntual porcentual, no incremento porcentual.

También podemos observar que el índice de precios en el año base es siempre 100. Esto siempre será así pues el precio en el año base es el 100% de sí mismo.

Interpretación: Los períodos en los cuales los valores son menores que el del año base tendrán un índice menor que 100, y los períodos con valores superiores al del año base tendrán un índice mayor de 100.

Indices de precios agregativos (o Indices agregados de precios)

Cuando se desea calcular un índice de precios para varios productos se le denomina índice de precios agregativo. Esto es útil para las empresas que producen más de un artículo. Otro ejemplo es el índice de precios al consumidor, el cual mide los precios relativos para una “canasta” típica de productos y servicios consumidos por el público en general y es usado para la toma de decisiones políticas y económicas en el gobierno.

El índice agregativo se calcula sumando el precio de los bienes individuales en el año de referencia y dividiendo por la suma de tales precios en el año base. El resultado se multiplica por 100.

Indice de precios agregativo IPR = P R x 100 PB

Utilizando los datos del ejemplo anterior tenemos que el índice agregativo para 1995 para los tres productos, manteniendo 1995 como período base, es:

IP1995 = 3.00+2.00+4.00 (100) =100.0 3.00+2.00+4.00

El índice agregativo para 1996 es : IP1996 = 3.30+2.20+4.50 (100) =111.1 3.00+2.00+4.00

34

Page 35: ESTADISTICA APLICADA II(2004)

Y para 1997es: IP1997 = 4.50+2.10+3.64 (100) = 113.8 3.00+2.00+4.00

Esto significa que en 1997, se necesitarán $113.80 para comprar lo que con $100 se compraba en 1995.

Indice de precios agregativos ponderados.

Los índices de precios agregativos tal y como se calculan presentan dos problemas:1) cuando los precios se dan en medidas diferentes, y2) cuando no tienen en cuenta el hecho de que algunos productos se venden más que otros.

Para esto se calcula el índice de precios agregativos ponderado que asigna ponderaciones (o pesos) diferentes a los precios individuales. Estas ponderaciones proporcionan un reflejo más exacto del costo verdadero de la canasta básica del consumidor. Las cantidades seleccionadas como ponderaciones pueden tomarse del número de unidades vendidas en: 1)el período base o en 2) el período de referencia.

Dos índices comunes son: el índice de Laspeyres y el índice de Paasche. El primero utiliza cantidades vendidas en el año de base como ponderaciones y el segundo se basa en cantidades vendidas en el periodo de referencia como ponderaciones.

El índice de Laspeyres utiliza las ponderaciones del período base en su cálculo. El fundamento es que tales cantidades no cambiarán de un cálculo al siguiente permitiendo por tanto comparaciones más significativas. Este índice se calcula así:

Indice de Laspeyres L = (P R x QB) x 100 (PB x QB)

Por otra parte, el índice de Paasche utiliza como ponderaciones las cantidades vendidas en cada uno de los varios años de referencia. Esto tiene la ventaja de que el índice se basa en los patrones de comportamiento el consumidor corriente. A medida que los consumidores cambian en sus hábitos para comprar, éstos cambios en los gustos del consumidor se reflejan en el índice. Este se calcula así:

Indice de Paasche P = (P R x QR) x 100 (PB x QR)

Para ambos índices, la interpretación es la misma. Sin embargo, el índice de Laspeyres requiere las ponderaciones para un solo año y por lo tanto es más fácil de calcular y se utiliza con más frecuencia. Pero por otro lado, este índice tiende a sobreponderar los bienes cuyos precios se incrementan. Esto ocurre debido a que el incremento en el precio, reduce las cantidades vendidas, pero las ventas menores no se reflejan en el índice de Laspeyres porque utiliza siempre la ponderación (unidades vendidas) del año base.

35

Page 36: ESTADISTICA APLICADA II(2004)

Por otra parte, el índice de Paasche tiende a sobreponderar los productos cuyos precios bajan. En un esfuerzo por compensar estas dos situaciones, se sugiere el uso del Indice de Fisher, el cual combina ambos, encontrando la raíz cuadrado de su producto (L x P ) aunque su interpretación todavía está sujeta a discusión.

Indices más importantes.

Aunque algunos de los índices son elaborados por la iniciativa privada para fines específicos, los más ampliamente calculados y utilizados son los que elabora el Gobierno Federal. Describiremos algunos de ellos.

Indice de precios al consumidor

El INPC tiene la finalidad de medir los cambios de precios de alimentos, ropa, alojamiento, combustible, medicamentos, transporte, servicio médico, dental y otros bienes y servicios que las personas adquieren para la vida cotidiana. Este índice se deriva de una “canasta básica de productos del mercado” con cantidades fijas de productos que representan todos los bienes y servicios que adquiere para su consumo. Además constituye una razón de los costos de compra de un conjunto de productos de calidad y cantidad constantes en dos períodos de tiempo distintos. Algunas aplicaciones importantes es el uso del INPC como medida de la variación del precio. Durante periodos de alza de los precios, es una medida de la inflación y sirve como indicador del acierto o el fracaso de las políticas económicas del gobierno. Otro uso común es como índice de la deflación de otra serie de precios, como la de ventas al menudeo, ingresos, gastos de consumo y el producto nacional bruto. Se utiliza también como un índice de ajuste proporcional para sueldos y pensiones que se pagan por contratos colectivos.

Indice de precios al productor

Inicialmente llamado índice de precios para ventas al mayoreo, el IPP tiene la finalidad de medir las variaciones en el promedio de los precios que se reciben en los mercados primarios, por los fabricantes de los productos en todas las fases del proceso de producción. Al igual que otros índices, está basado en una muestra.Los índices de precios al productor se calculan por separado, según la fase de producción (la cual pude ser: productos terminados, productos intermedios y materias primas) y el producto. El índice de todos los productos se compone de dos grupos de productos principales: el índice de productos agrícolas, alimentos y procesados y el índice de productos industriales.

Indice de producción industrial

A diferencia de los índices que miden variaciones en los precios, éste índice mide variaciones en el volumen físico o en la cantidad de la producción, por eso se dice que es un índice de cantidad. Este índice es importante porque mide anualmente la producción en las áreas de manufacturas, minerías y servicios públicos del país. Además manifiesta la variación de la producción en cada ciclo comercial.

36

Page 37: ESTADISTICA APLICADA II(2004)

En épocas de inflación, este índice de cantidad constituye una medida más confiable de la producción real de materias primas y bienes terminados que el correspondiente índice de precios. De manera análoga la producción agrícola se mide mejor con un índice de cantidad, pues éste elimina los efectos engañosos de la fluctuación de precios.Cualquiera de los métodos utilizados para determinar los índices de precios pueden incluirse en el cálculo de los índices de cantidades. Cuando calculamos los índices de precios, las cantidades son los “pesos”, pero cuando queremos obtener los índices de cantidad los “pesos” son los precios.

Otros ejemplos serían: Índice de costos de construcción, índice de empleo e índice de precios de inventario para renta.

Algunas aplicaciones

El INPC con frecuencia se ve como una medida de la inflación en la economía. Las tasas anuales de inflación se miden por el cambio porcentual en el IPC de un año al siguiente. Se calcula de la siguiente manera:

Tasa anual de inflación = INPCt – INPCt-1 x 100 INPCt-1

En donde INPCt es el INPC en el periodo t y el INPCt-1 es el INPC en el periodo anterior.

El INPC es con frecuencia la base de los ajustes en las tasas salariales o en los pagos del Seguro Social. Muchos contratos laborales estipulan que un incremento en el INPC de una cantidad previamente acordada automáticamente disparará el alza en los niveles salariales.

El INPC también puede utilizarse para deflactar una serie de tiempo. En estos casos el índice de precios que se utiliza para deflactar una serie se le conoce como índice de deflación. Deflactar una serie de tiempo es eliminar el efecto de los cambios en el precio y expresa la serie en “pesos reales”. Hay que diferenciar entre “pesos nominales(o corrientes)” y “pesos reales(o constantes)”. Si una serie de tiempo tal como el ingreso anual durante varios años, se expresa en términos de pesos de 1980, por ejemplo, se dice que dicho ingreso es un ingreso real o que esta expresada en “pesos reales”. Veamos un ejemplo en la siguiente tabla:

Año Ingreso Monetario INPC (basado en 1980)

Ingreso Real

1994 $42,110 148.2 $28,4141995 $46,000 152.4 $30,1831996 $49,800 156.9 $31,7391997 $53,500 158.6 $33,732

37

Page 38: ESTADISTICA APLICADA II(2004)

Vemos aquí, que el ingreso nominal en 1994 fue de $42,110 e incrementó a $53,500 en 1997. Esto haría parecer que las cosas están bien financieramente. Pero los precios también han ido subiendo. Para obtener una medida de cuánto se ha incrementado el ingreso en términos reales se debe deflactar el ingreso corriente. Esto se logra dividiendo el ingreso nominal entre el IPC y multiplicando por 100. El resultado es su ingreso real expresado en “pesos reales” de un año base dado.

Así tenemos que el Ingreso Real es el poder adquisitivo del ingreso monetario, esto es:

Ingreso real = Ingreso monetario x 100INPC

Esto quiere decir que si sus ingresos en 1994 fueron de $42,110 equivale a solo $28,414 a precios de 1980, es decir, que si los precios no hubieran cambiado sólo estaría ganando $28,414.

Los economistas comúnmente deflactan el producto interno bruto (PIB) para obtener una medida del incremento de la producción real de la nación. El producto interno bruto es el valor monetario de todos los bienes y servicios finales producidos por una economía. Al deflactar el PIB con el tiempo, los economistas eliminan todo incremento debido a la inflación de precios y llegan a una medida del incremento verdadero en la producción de los bienes y servicios disponibles para el consumo.

PIB real .- Es una medida del valor de la producción de la nación en pesos reales en algún período base; omite toda fluctuación o variación debida a los precios cambiantes.

Advertencia en la interpretación de un índice.

Los errores más comunes que se cometen al interpretarlos son: Generalización a partir de un índice específico.- Los índices peor interpretados son quizás

los IPC, pues a pesar de su definición tan especifica – mide cuánto han cambiado los precios de una combinación particular de productos adquiridos por la población urbana- se cree que miden el costo de la vida o las condiciones comerciales imperantes en la actualidad, pero en realidad no miden ninguno de esos dos aspectos, puesto que el IPC no refleja ciertos costos o gastos tales como impuestos, ni tampoco explica los cambios en la calidad de los productos disponibles.

Falta de conocimiento general sobre los índices publicados.- Generalmente este error, da lugar a los otros.

Efecto del lapso de tiempo en un índice.- Los factores relacionados con un índice tienden a cambiar con el tiempo.

Cambios de calidad.- Una crítica frecuente de los números índices es que no reflejan los cambios en la calidad de lo que miden. Por ejemplo, si construímos un número índice para describir los cambios de precios en las calculadoras de bolsillo durante los últimos 10 años, el índice resultante subestimará el cambio real que se debe al rápido adelante tecnológico de las calculadoras.

38

Page 39: ESTADISTICA APLICADA II(2004)

UNIDAD 5: Análisis de Decisiones.

Estructuración del problema de decisión

En muchas situaciones de la vida real, nos enfrentamos a decisiones que nos pueden llevar al éxito o al fracaso de lo que queremos llevar a cabo. Sin embargo si contamos con la información necesaria, adecuada, suficiente y perfecta, nuestra decisión optimizará los resultados; pero no siempre es así y en ocasiones las decisiones dependen de sucesos o eventos futuros que no está en nuestras manos controlar (o conocer con certeza) y esto nos llevará de una u otra forma al fracaso. En la teoría de decisiones debemos decidir entre varias opciones tomando en cuenta la información que se tiene y como repercute monetariamente en nuestras acciones.

Para ilustrar este problema consideraremos el ejemplo de una empresa de Servicios Informáticos que desea seleccionar un sistema de cómputo e intenta determinar el tamaño de éste que le resulte más económico rentar. Se utilizará el método del análisis de decisiones para ayudar a la empresa a adoptar su decisión.

El primer paso consiste en identificar las opciones que ha de evaluar la persona que decidirá. Para la empresa de nuestro ejemplo la decisión final consistirá en rentar uno de tres sistemas de cómputo que difieren en tamaño y capacidad. Las tres opciones de decisión, que se denotan d1, d2 y d3 son las siguientes:

d1 = rentar el sistema de cómputo grande.d2 = rentar el sistema de cómputo mediano.d3 = rentar el sistema de cómputo pequeño.

La elección de cuál es la mejor alternativa de decisión, dependerá de lo que consideren como la posible aceptación de mercado para sus servicios y en consecuencia de la demanda o carga para el sistema. Con frecuencia son inciertos los eventos futuros asociados a una situación. Aunque la persona que decida pueda tener una idea de la diversidad de los posibles eventos futuros, con frecuencia no estará seguro de cuál evento ocurrirá.

Por esto, el segundo paso en un análisis de decisiones consiste en identificar los eventos futuros que pueden presentarse. A estos eventos, que no están bajo el control de quien toma las decisiones se les denomina estados de la naturaleza. Se supone que dichos estados son mutuamente excluyentes.

Para nuestro ejemplo, la empresa consideró que la posible aceptación del servicio en el mercado se podría categorizar en una de dos alternativas: aceptación elevada y aceptación baja. De modo que los estados de la naturaleza, denominados s1 y s2 son:

s1 = alta aceptación de los clientes.S2 = baja aceptación de los clientes.

Dadas las tres alternativas de decisión y los dos estados de la naturaleza, ¿que sistema de cómputo debe rentar la empresa?. Para estar en posibilidad de contestar esta pregunta se

39

Page 40: ESTADISTICA APLICADA II(2004)

requiere información respecto a los beneficios correspondiente a cada combinación de una alternativa de decisión con un estado de la naturaleza.

En terminología de análisis de decisiones, lo que se produce al tomar cierta decisión, combinando una alternativa con un estado de la naturaleza específico, se le denomina resultado (o consecuencia). Para nuestro ejemplo, los administradores de la empresa han estimado los resultados o consecuencias para el problema el arrendamiento del sistema de cómputo y se presenta en la siguiente tabla que se denomina tabla de resultados (también llamada tabla de “pagos” o “ganancias”y que no significa que necesariamente este formada por pagos, sino que los valores pueden ser costos, utilidades, pérdidas, etc.). En general los elementos de esta tabla se plantean en términos de utilidades, costos o cualquier otra medida de las consecuencias. Su notación es V(di,sj) y denota el “pago” correspondiente a la alternativa di y al estado de la naturaleza sj

Estados de la NaturalezaAlternativas de decisión Aceptación alta

S1

Aceptación bajaS2

Rentar un sistema grande d1 $200,000 -$20,000Rentar un sistema mediano d2 $150,000 $20,000Rentar un sistema pequeño d3 $100,000 $60,000

Un árbol de decisión (o arborigrama decisorio) ofrece una representación gráfica del procedimiento de toma de decisiones. A continuación se muestra el árbol de decisión para el problema del arrendamiento del sistema de cómputo.

Alta $200,000 Grande

Baja -$20,000

Alta $150,000 Mediano Baja $ 20,000 Alta $100,000 Pequeño Baja $ 60,000

Utilizando la terminología para los árboles de decisión, a las intersecciones o cruces del árbol se les llama nodos y a los arcos o enlaces entre los nodos se les denomina ramas . En el diagrama se les ha enumerado del 1 al 4. Cuando las ramas que salen de un nodo son ramas de decisión, al nodo se le denomina nodo de decisión (en forma de cuadro). Cuando las

40

Page 41: ESTADISTICA APLICADA II(2004)

ramas que salen de un nodo corresponden a un estado de la naturaleza se les denomina nodos de estado de la naturaleza (simbolizados con círculos).

Una vez identificados los tres primeros pasos en el análisis de decisiones, la cuestión que se presenta es: ¿Cómo se puede utilizar de la mejor manera la información presentada en la tabla de resultados o en el diagrama de árbol para tomar una decisión?. Veremos varios métodos, según si conocemos las probabilidades de ocurrencia de los eventos futuros o no.

Toma de decisiones sin probabilidades.

En ocasiones se desconocen las probabilidades de ocurrencia de los estados de la naturaleza o se tiene poca confianza para evaluar dichas probabilidades o al menos considerar cuál es el mejor o peor de los casos, en tales situaciones se utilizan los siguientes métodos para la toma de decisiones. Sin embargo, como los planteamientos distintos llevan a diferentes recomendaciones sobre la decisión, es importante conocer los métodos para que después se elija el método específico que a juicio del que toma la decisión, resulte el más apropiado.

El método optimista.

En este método se evalúa cada alternativa de decisión en términos del mejor resultado que puede ocurrir. La alternativa de decisión que se recomienda es la que ofrece la mejor consecuencia posible. Si las consecuencias son variables deseables que queremos maximizar (como por ejemplo: beneficios, índices de rentabilidad, participaciones en el mercado o ingresos por venta) el criterio es maximizar los resultados máximos de cada alternativa, en cuyo caso a este método se le conoce como Máximax. Si por el contrario las consecuencias son variables no deseables que queremos minimizar (como costos, pérdidas, impuestos, rotación de empleados, etc) el criterio es minimizar los resultados mínimos de cada alternativa y de así que se le conozca como criterio MiniMin.

Para nuestro problema de ejemplo, donde se desea maximizar utilidades, el método optimista conduciría a elegir la alternativa que corresponde a las utilidades más altas. Como podemos observar tanto en la tabla de resultados como en el diagrama de árbol, el mejor resultado es $200,000 que corresponde al arrendamiento de un equipo grande.

El método conservador

En este método se evalúa cada alternativa de decisión en términos del peor resultado que pueda ocurrir. Nuevamente si las variables son deseables, la alternativa que se recomienda es la mejor de las peores consecuencias posibles y se denomina criterio Maximin y si las variables son no deseables se recomienda la peor de las mejores consecuencias posibles y se denomina criterio MíniMax.Para nuestro ejemplo, este método conduciría a elegir la opción que maximiza el valor mínimo posible de utilidades que puedan obtenerse. Para ilustrar este método, primero se identifica el resultado mínimo para cada alternativa y de éstos se elige el mayor. Como en nuestro ejemplo, $ 60,000 es el máximo de los resultados mínimos, se recomienda la alternativa de arrendar un sistema pequeño.

41

Page 42: ESTADISTICA APLICADA II(2004)

Este método se considera conservador porque se concentra en el peor de los resultados posibles y después recomienda la alternativa que evita llegar a consecuencias extremadamente “malas”. Al utilizar este método se garantiza una utilidad de cuando menos $60,000. Aunque pudiera la empresa obtener utilidades mayores, no es posible que obtenga menos de $60,000.

Método de la deploración mínima o Pérdida de Oportunidad

Este método no es completamente optimista ni completamente conservador. Evalúa el beneficio neto desaprovechado (o perdido) por no haber tomado la decisión correcta. La perdida de oportunidad es la diferencia entre lo que se recibe por la decisión tomada y lo que se podría haber recibido si se hubiera tomado la decisión “correcta”. Se entiende que si se toma la decisión optima la perdida de oportunidad o desaprovechamiento es cero.

También aquí, depende de que mide las consecuencias si variables deseables o no deseables, para interpretar la “perdida de oportunidad”

Veamos su aplicación con nuestro ejemplo. Supongamos que decidimos rentar un sistema pequeño y después se sabe que la aceptación de los clientes es alta. De acuerdo con la tabla de resultados, las utilidades obtenidas son de $100,000. Sin embargo ahora que se conoce que ha ocurrido la aceptación de los clientes, se observa que la decisión óptima hubiera sido arrendar el sistema grande que le hubieran reportado utilidades de $200,000. A la diferencia entre el resultado óptimo ($200,000) y el que se obtiene ($100,000) se le denomina pérdida de oportunidad o deploración correspondiente a la decisión de arrendar un sistema pequeño(d3) cuando ocurre la aceptación del cliente(s1). Si se hubiera tomado la decisión d2 y hubiera ocurrido el estado de la naturaleza s1, la pérdida de oportunidad hubiera sido ($200,000 - $150,000) = $50,000.

La expresión general para la pérdida de oportunidad o deploración está dada por:

R(di , sj) = V(sj) - V(di , sj )

Donde R(di , sj) = Deploración correspondiente a la alternativa d i cuando ocurre el estado de la naturaleza sj.

V(sj) = El mejor valor de los resultados bajo el estado de la naturaleza sj.

V(di , sj ) = Resultado correspondiente a la alternativa di y al estado de la naturaleza sj.

A continuación se muestra la deploración para nuestro ejemplo:

Alternativas de decisión Aceptación alta Aceptación bajaSistema grande ( d1) 0 $80,000Sistema mediano (d2) $50,000 $40,000Sistema pequeño (d3) $100,000 0

42

Page 43: ESTADISTICA APLICADA II(2004)

El siguiente paso al aplicar este método es identificar la pérdida máxima para cada alternativa de decisión y dentro de éstas se elige la mejor decisión seleccionando la alternativa que corresponde al mínimo de los valores de la deploración máxima. De ahí el nombre de deploración minimax. Para nuestro ejemplo, la decisión que se recomienda de acuerdo a este método es la de arrendar un sistema mediano al que le corresponde la deploración de $50,000. Si hubieran sido costos las consecuencias, entonces la tabla resultante(de restar al costo mínimo cada uno de los resultados) se evalúa con el método maximin y se le conoce como deploración maximin.

Cómo puede observarse cada método recomendó una alternativa diferente, sin embargo la persona que toma la decisión tendrá que elegir el método más apropiado según la filosofía que lo sustenta. Las principales críticas a estos métodos es que no consideran las probabilidades de ocurrencia de cada estado de la naturaleza.

Toma de decisiones con probabilidades

En ocasiones es posible obtener estimados de la probabilidad de cada uno de los posibles estados de la naturaleza y conociendo éstas utilizar el método del valor esperado para identificar la mejor alternativa de decisión. Con este método se evalúa cada alternativa en términos de su valor esperado y se recomienda a la alternativa que produce el mejor de tales valores.Si existen N estados de la naturaleza posibles (mutuamente excluyentes pues sólo uno puede ocurrir a la vez), donde cada uno de ellos tiene una probabilidad P(s j), la suma de estas probabilidades debe ser igual a 1.

Se define el valor esperado (VE) de la alternativa de decisión di así:

VE(di) = j=1,N P(sj) V(disj)

Para nuestro ejemplo de muestra, considérese que se sabe que el estado de la naturaleza de una aceptación elevada (s1) tiene una probabilidad de .3 y que s2 el estado de la naturaleza de una aceptación baja tiene una probabilidad de .7, entonces los valores esperados para cada alternativa serían:

VE(d1) = .3 ($200,000) + .7 (-$20,000) = $ 46,000VE(d2) = .3 ($150,000) +.7 ($20,000) = $ 59,000VE(d3) = .3 ($100,000) + .7 (60,000) = $ 72,000

Así que de acuerdo al método del valor esperado, como d3 tiene el valor esperado más alto, ésta es la alternativa a recomendar.También se puede obtener el valor esperado con ayuda del árbol de decisión, poniendo en cada rama de los estados de la naturaleza, la probabilidad correspondiente.

43

Page 44: ESTADISTICA APLICADA II(2004)

Análisis de Sensibilidad.

En esta sección analizaremos la forma en la que los cambios en las estimaciones de las probabilidades para los estados de la naturaleza pueden afectar o alterar la decisión que se recomienda. Al estudio del efecto de estos cambios se le denomina análisis de sensibilidad.Una forma de hacer este análisis es ir cambiando las probabilidades de los estados de la naturaleza y volver a calcular el valor esperado para cada una de las alternativas de decisión. Por ejemplo, si en lugar de considerar P(s1)=.3, la consideramos P(s1)=.6 y P(s2)=.4, tendríamos los siguientes valores esperados para las tres alternativas:

VE(d1) = .6($200,000) + .4($-20,000) = $112,000VE(d2) = .6($150,000) + .4($20,000) = $98,000VE(d3) = .6($100,000) + .4(60,000) = $84,000

Es evidente que con esta nueva estimación de probabilidades, la alternativa seleccionada sería la primera, pues es la que tiene el valor esperado mayor. Estos cálculos tendrían que realizarse por cada nueva probabilidad estimada para los estados de la naturaleza. Sin embargo, cuando los estados de la naturaleza son solo dos, este análisis se simplifica. Supongamos que denotamos p a la probabilidad de s1; por consiguiente (1-p) será la probabilidad de s2 . De esta manera, para nuestro ejemplo, los valores esperados para cada alternativa quedarían así:

VE(d1) = p(200,000) + (1-p)(-20,000)= 220,000p - 20,000VE(d2) = p(150,000) + (1-p)(20,000) = 130,000p + 20,000VE(d3) = p(100,000) + (1-p)(60,000) = 40,000p + 60,000

Esto da lugar a tres ecuaciones lineales que expresan el valor esperado para cada alternativa. Si graficamos estas tres rectas con p en el eje X y los valores esperados en el eje Y, podemos realizar el análisis de sensibilidad.

44

Page 45: ESTADISTICA APLICADA II(2004)

Nótese que para valores pequeños de p, la mejor alternativa sería d3 y para valores grandes la mejor alternativa sería d1. Sin embargo nunca, excepto en la intersección de ellas, la alternativa d2 se recomienda. Esta intersección puede calcularse gráficamente o resolviendo el sistema de ecuaciones dos a dos. Hagámoslo con las rectas de las alternativas d1 y d3 , por el método de igualación: (Nota: no siempre se cortarán en el mismo punto todas las rectas)

220,000p –20,000 = 40,000p + 60,000 180,000p = 80,000

p = .44

Esto quiere decir, que cuando p= .44 las alternativas 1 y 3 arrojan los mismos valores esperados. Además sabemos que cuando p< .44 la mejor alternativa es d3 y cuando p>.44 la mejor alternativa es d1.

El beneficio que se obtiene al realizar el análisis de sensibilidad es ofrecer una mejor perspectiva sobre la evaluación original de las probabilidades de los estados de la naturaleza.

Valor esperado de la Información Perfecta (VEIP).

Suponga ahora que la empresa tuviera ahora la oportunidad de llevar a cabo una investigación de mercado para re-evaluar las probabilidades de los estados de la naturaleza. Pero si el costo de obtener esta nueva información supera el valor de la misma, este estudio no se debe llevar a cabo.Para poder determinar el máximo valor que la empresa debe pagar para obtener información adicional suponga que la empresa pueda obtener información perfecta respecto a los estados de la naturaleza, es decir, que la empresa pueda determinar con certidumbre cual estado de la naturaleza ocurrirá. Para emplear la información perfecta, la empresa debe desarrollar una estrategia de decisión.

Una estrategia de decisión es una política o una regla de decisión que se debe seguir.

Para calcular el valor esperado de la información perfecta (VEIP), primero debo definir la estrategia de decisión, que es una regla que especifica que alternativa de decisión se debe elegir dado cada estado de la naturaleza. De acuerdo con la tabla de resultados de nuestro ejemplo, podemos plantear la estrategia óptima de decisión que la empresa debe seguir, la cual considera la información perfecta, de la siguiente manera:

Si ocurre s1 , entonces elegir d1.Si ocurre s2 , entonces elegir d3.

Entonces, ¿cuál es el valor esperado para esta estrategia de decisión?. Como P(s1)=.3 y P(s2)=.7, esto quiere decir que existe una probabilidad de .3 de ganar $200,000 al elegir d1 y una probabilidad de .7 de ganar $60,000 al elegir d3. Por lo tanto, el valor esperado de la estrategia de decisión en la que se utiliza la información perfecta es:

VE(estrategia optima)=(.3)($200,000) + (.7)($60,000) = $102,000

45

Page 46: ESTADISTICA APLICADA II(2004)

Cuando no se disponía de la información perfecta, el método del valor esperado recomendaba la alternativa d3 , con un valor esperado de $72,000, por lo tanto:

VEIP = VE(estrategia optima con información perfecta) – VE(sin información perfecta)

Esto es, el valor esperado sin información perfecta es de $72,000 y con información perfecta, el valor esperado es de $102,000, por lo tanto, su diferencia $102,000 - $72,000 = $30,000 representa el valor esperado de la información perfecta ( VEIP).

En otras palabras, $30,000 representa el valor adicional que puede obtenerse si está disponible la información perfecta respecto a los estados de la naturaleza. En términos generales, una investigación de mercado para obtener la información perfecta sobre los estados de la naturaleza, no deberán “comerse” este valor adicional que se puede obtener.

Análisis de decisión con información muestral.

Suponga ahora que la información adicional recabada puede emplearse para modificar o actualizar las probabilidades previas de los estados de la naturaleza. Generalmente esta información adicional se busca mediante experimentos diseñados para obtener información muestral. En el caso de nuestro ejemplo, las probabilidades previas fueron: P(s1)=.3 y P(s2)=.7, las cuales dieron como resultado que la decisión óptima era d3 con un valor esperado de $72,000. Además recordaremos que el VEIP= $30,000.

Supongamos que la empresa decide contratar una investigación de mercados para estudiar la posible aceptación potencial del servicio, Con esta nueva información, combinada con las probabilidades previas, se podrán obtener nuevas estimaciones de probabilidades para los estados de la naturaleza. A estas probabilidades modificadas, se les conoce como probabilidades posteriores. A la nueva información que se obtiene mediante investigación o experimentación se le denomina indicador o información muestral, pues es obtenida a partir de una muestra.

Usando el término Indicador, pueden identificarse dos resultados del estudio de mercado:

I1 = Reporte favorable de la Investigación, es decir, mostraron interés en el servicio.

I2 = Reporte desfavorable de la Investigación, es decir, mostraron poco o nulo interés en el servicio.

Las nuevas probabilidades son de la forma P(s j/Ii), es decir, son probabilidades condicionales de que ocurra el estado sj dado que ocurrió el Indicador i.Como recordaremos, según el teorema de Bayes, es necesario conocer las probabilidades P(Ij/si), pues P(si/Ij) =P(Ij/si)P(si)/P(Ij)

Para nuestro ejemplo, el historial de investigación mercadotécnica de la empresa sobre estudios similares ha conducido a las siguientes estimaciones de las probabilidades condicionales pertinentes:

46

Page 47: ESTADISTICA APLICADA II(2004)

Estado de la naturaleza Reporte de Investigación de mercado Favorable (I1) Desfavorable(I2)

Aceptación alta (s1) P(I1/s1) = .80 P(I2/s1) = .20 Aceptación baja (s2) P(I1/s2) = .1 P(I2/s2) = .90

Obsérvese que estas probabilidades indican que puede asignarse un buen grado de confianza al reporte de investigación de mercados, pues cuando el verdadero estado de la naturaleza es s1 , el reporte de investigación será favorable el 80% de las veces y desfavorable solamente el 20%. De igual manera cuando el verdadero estado de la naturaleza es s2 , el reporte hace la indicación correcta el 90% de las veces.

Desarrollo de una estrategia de decisión

Una estrategia de decisión es una política o regla de decisión que la persona que decide debe seguir. En el caso de nuestro ejemplo, con el estudio de investigación de mercado, la estrategia de decisión es la regla que recomienda una decisión determinada con base en si el reporte de investigación de mercado es favorable o desfavorable. Para determinar cuál es la estrategia decisoria óptima se utiliza un análisis de árbol de decisión.

Como se muestra en el árbol de decisión de nuestro ejemplo, cuando se lleva a cabo un estudio de investigación de mercado, se agregan dos ramas indicadoras (I1 e I2) que no están bajo control de quien toma la decisión.

47

Page 48: ESTADISTICA APLICADA II(2004)

Como puede observarse el valor esperado de la estrategia de decisión óptima, bajo estas circunstancias es:

VE(nodo 1) = P(I1)VE(nodo 2) + P(I2) VE(nodo 3) = P(I1)[ Max (P(s1/I1)(200,000)+P(s2/I1)(-20,000),........)] +

P(I2)[ Max (P(s1/I2(200,000)+P(s2/I2)(-20,000),........)]

= $ 90, 402

De aquí podemos concluir que la óptima estrategia de decisión si se lleva a cabo el estudio de investigación de mercado es:

Si EntoncesReporte favorable Arrendar el sistema grandeReporte desfavorable Arrendar el sistema pequeño.

48

Alta (s1)

Alta (s1)

Baja (2)

Baja (2)

Baja (2)

Favorable (I1)

Desfavorable (I2)

Grande (d1)

Grande (d1)

Mediano (d2)

Mediano (d2)

Pequeño (d3)

Pequeño (d3)

Alta (s1)

Alta (s1)

Alta (s1)

Alta (s1)

Baja (2)

Baja (2)

Baja (2)

$200,000

$200,000

-$20,000

-$20,000

$150,000

$150,000

$20,000

$20,000

$100,000

$100,000

$60,000

$60,000