Estadistica administrativa ii

23
Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas Estadística II (Lic. en Administración) pag. 1 M. en C. José Luis Hernández González INSTITUTO TECNOLÓGICO DE APIZACO DEPARTAMENTO DE CIENCIAS BÁSICAS www.itapizaco.edu.mx/~cbasicas ESTADÍSTICA ADMINISTRATIVA II (Licenciatura en administración) M. en C. JOSÉ LUIS HERNÁNDEZ GONZÁLEZ www.itapizaco.edu.mx/~joseluis (~ alt 126) Enviar las tareas al correo: [email protected] Alum.:____________________________________________ No. Lista: _________ Apizaco Tlax., Agosto/Diciembre 2007

Transcript of Estadistica administrativa ii

Page 1: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 1 M. en C. José Luis Hernández González

INSTITUTO TECNOLÓGICO DE APIZACO

DEPARTAMENTO DE CIENCIAS BÁSICAS www.itapizaco.edu.mx/~cbasicas

ESTADÍSTICA ADMINISTRATIVA II (Licenciatura en administración)

M. en C. JOSÉ LUIS HERNÁNDEZ GONZÁLEZ www.itapizaco.edu.mx/~joseluis (~ alt 126)

Enviar las tareas al correo: [email protected]

Alum.:____________________________________________ No. Lista: _________

Apizaco Tlax., Agosto/Diciembre 2007

Page 2: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 2 M. en C. José Luis Hernández González

ESTADÍSTICA ADMINISTRATIVA II

(Licenciatura en administración) OBJETIVO GENERAL DEL CURSO. Analizará y aplicará conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en la solución de problemas en áreas de su competencia.

1 Pruebas de Hipótesis 1.1 Hipótesis estadísticas. Conceptos generales 1.2 Errores tipo I y II 1.3 Pruebas unilaterales y bilaterales 1.4 Prueba de una hipótesis: referente a la media con varianza Desconocida utilizando la distribución normal y “t” student 1.5 Dos muestras: pruebas sobre dos medias utilizando la distribución Normal y “t” student. 1.6 Una muestra: prueba sobre una sola proporción 1.7 Dos muestras: prueba sobre dos proporciones 1.8 Dos muestras: pruebas pareadas

2 Pruebas de la bondad del ajuste y análisis de varianza 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza 2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Paquete computacional

3 Análisis de regresión, correlación lineal simple y múltiple 3.1 Estimación mediante la línea de regresión 3.1.1 Diagrama de dispersión 3.1.2 Método de mínimos cuadrados 3.1.3 Interpretación del error estándar de la estimación 3.1.4 Intervalos de predicción aproximados 3.1.5 Análisis de correlación 3.1.6 Paquete computacional para la solución de problemas 3.1.7 Regresión múltiple y análisis de correlación 3.1.8 Usos de variables ficticias 3.1.9 Residuales y gráficas de residuales 3.1.10 Interpretación del intervalo de confianza. 3.1.11 Uso del coeficiente de determinación múltiple 3.1.12 Paquete computacional para la solución de problemas.

Page 3: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 3 M. en C. José Luis Hernández González

4 Series de tiempo 4.1 Modelo clásico de series de tiempo 4.2 Análisis de tendencia 4.3 Análisis de variaciones cíclicas 4.4 Medición de variaciones estacionales 4.5 Aplicación de ajustes estacionales 4.6 Pronósticos basados en factores de tendencia y estacionales 4.7 Pronósticos, ciclos e indicadores económicos 4.8 Promedios móviles 4.9 Suavización exponencial como pronóstico 4.10 Aplicaciones del paquete computacional

5 Estadística no paramétrica. 5.1 Escala de medición 5.2 Métodos estadísticos contra no paramétricos 5.3 Prueba de corridas para aleatoriedad 5.4 Una muestra: prueba de signos 5.5 Una muestra: prueba de Wilcoxon 5.6 Dos muestras: prueba de Mann-Whitney 5.7 Observaciones pareadas: prueba de signos 5.8 Observaciones pareadas prueba de Wilcoxon 5.9 Varias muestras independientes: prueba de Kruskal-Wallis 5.10 Aplicaciones del paquete computacional

Page 4: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 4 M. en C. José Luis Hernández González

BIBLIOGRAFÍA (Temario)

1) Levin I. Richard. Estadística para administradores Editorial: Prentice-Hall. 2) Mendenhall. Estadística para administradores. Editorial: Grupo Editorial Iberoamericana. 3) Stephen P. Sha O. Estadística para economistas y administración de empresas. Editorial: Harreu. H. 4) Kazmier. Estadística para administración economía y ciencias sociales. Editorial: McGraw Hill 5) Spiegel. Murray V. Estadística. Editorial: McGraw Hill 6) William Mendenhall, D. Wackerly, L. Scheaffer. Estadística matemática en aplicaciones. Grupo Editorial Iberoamericana. 7) Kenneth D. Hopkins B.R. Hopkins, V. Class. Estadística básica para las ciencias sociales y del comportamiento. Editorial: Prentice-Hall. 8) Walpole. Probabilidad y estadística. Editorial: McGrawHill. 9) John E. Freund A. Simon. Estadística elemental. Editorial: Prentice-Hall. 10) George Canavos. Probabilidad y estadística, aplicaciones y métodos. Editorial: McGrawHill

Observaciones:

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

_________________________

(1) www.bibitec.org.mx (2) Programas: Mathcad y SSPS.

Page 5: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 5 M. en C. José Luis Hernández González

BIBLIOGRAFÍA (Apuntes)

Estadística I Napoleón Labastida López I.P.N. – Limusa Estadística Inferencial y Econometría José Felipe Padilla Díaz I.P.N. Probabilidad y Estadística Walpole y Mier Mc Graw Hill Probabilidad y Estadística Problemas de Probabilidad Hugo E. Borras García Rafael Iriarte B. Facultad de Ingeniería UNAM

LINKS

Programa R (software libre) http://cran.r-project.org/ Winplot y Winstat (software libre) http://math.exeter.edu/rparris/winplot.html http://math.exeter.edu/rparris/winstats.html

http://www.minitab.com

http://www.spss.com/corpinfo/

Análisis de regresión

http://www.people.hofstra.edu/faculty/Stefan_waner/RealWorld/newgraph/regressionframes.html

IMPORTANTE

Entregar apuntes completos al

finalizar el curso (con

anotaciones de la clase en las

copias y fechas, 4 revisiones

durante el semestre)

Las tareas o trabajos de

investigación se deben entregar

como mapas conceptuales (en

hojas blancas, nombre, fecha y

número de lista, engrapado)

Elaborar proyecto con algún software de la lista

Entregar reporte de lecturas seleccionadas

Page 6: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 6 M. en C. José Luis Hernández González

PRUEBAS DE HIPÓTESIS.

Dentro de la inferencia estadística se encuentra la prueba de hipótesis, cuyo objetivo es probar o comprobar si la afirmación que se hace sobre un parámetro poblacional basado en conclusiones obtenidas de una muestra es correcta o incorrecta. Hipótesis estadística. Es una proposición o suposición que se hace sobre los parámetros de una distribución de probabilidad de una variable aleatoria. Dicha hipótesis puede ser verdadera o falsa, por lo que se puede aceptar o rechazar. Prueba de hipótesis estadística. Es el procedimiento empleado para decidir si se acepta o se rechaza por su veracidad o falsedad, una hipótesis estadística también se le conoce como “ensayos de significación”, “reglas de decisión” ó “contraste de hipótesis”. Su objetivo es evaluar proposiciones o afirmaciones que se hacen acerca de los parámetros poblacionales basados en estadísticos muestrales con un grado o nivel de significancia determinado. Hipótesis nula e hipótesis alternativa.

En una prueba de hipótesis de significación se plantean dos tipos de hipótesis excluyentes, llamadas hipótesis nula e hipótesis alternativa. La hipótesis nula expresa que una proposición es verdadera, mientras que la hipótesis

alternativa afirma que es falsa ó viceversa. Ho = hipótesis nula H1 = hipótesis alternativa Ejemplos: Ho µ = 1.68 H1 µ ≠ 1.68 H1 µ < 1.68 H1 µ > 1.68 Ho µ = 4200 H1 µ > 4200 H1 µ < 4200 H1 µ ≠ 4200

Page 7: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 7 M. en C. José Luis Hernández González

Errores tipo I y tipo II. En el proceso de emplear una muestra para formar una decisión poblacional en una prueba de hipótesis, podemos cometer dos equivocaciones, al rechazar una hipótesis verdadera o al aceptar una hipótesis falsa; estas equivocaciones se conocen como: a) Error tipo I. Se comete cuando se rechaza una hipótesis que por ser verdadera debería ser aceptada. b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa debería ser rechazada.

Buen estudiante Mal estudiante

Aprobarlo Decisión correcta Error tipo II

Repobarlo Error tipo I Decisión correcta

Nivel de significancia y nivel de confianza. El nivel de significancia se refiere a la probabilidad α de cometer error tipo I, es decir, rechazar una hipótesis verdadera. El nivel de confianza se refiere a la probabilidad 1- α de aceptar una hipótesis verdadera.

H0 verdadera H1 falsa

Se acepta Ho Decisión correcta (1 – α) Error tipo II (β)

Se rechaza Ho Error tipo I (α) Decisión correcta (1 – β)

Procedimiento para realizar una prueba de hipótesis. 1.- Del fenómeno estadístico a probar. Se establecen las hipótesis nula Ho, y la hipótesis alternativa H1. 2.- Se especifica la probabilidad del error tipo I (α) como nivel de significancia y 1 – α como nivel de confianza. 3.- Se selecciona el tamaño de la muestra, la función de distribución de probabilidad y el estadístico muestral que sirva de base para la regla de decisión conocido como estadístico de prueba. 4.- Se determinan los valores críticos que limita la región de aceptación de la región de rechazo (que dependerá del valor de α y de la hipótesis alternativa).

Page 8: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 8 M. en C. José Luis Hernández González

5.- Si el valor del estadístico muestral cae dentro de la región de rechazo, rechazamos Ho, debido a que la probabilidad de obtener ese valor del estadístico muestral cuando Ho es cierta o verdadera, es tan pequeño que no debe atribuirse a errores de muestreo, lo que nos conduce a deducir que Ho es falsa. 6.- Dar conclusión acerca del problema y/o formar una decisión. Hipótesis unilateral y bilateral. Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo de un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas se denominan unilaterales o de una cola; en el segundo caso se conoce como bilaterales o de dos colas. En los ensayos unilaterales la región de rechazo es única a un lado de la distribución con un área determinada por el valor de α. En las bilaterales la región de rechazo el área se determina dividiendo el nivel de significancia en dos partes iguales.

BILATERAL ≠

UNILATERAL >

UNILATERAL <

Zona de aceptación Zona de rechazo

α 1−α

Zona de aceptación Zona de rechazo

α 1−α

Zona de aceptación

Zona de rechazo

α/2 1−α α/2

Zona de rechazo

Page 9: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 9 M. en C. José Luis Hernández González

H0 Estadístico de prueba

Distribución normal µ = µ0

n

x=z

σµ−

Distribución t µ = µ0

n

sx

=tµ−;v = n – 1

Distribución normal µ1 – µ2 = d0

σ1 y σ2 conocidas 2

22

1

21

021

nn

d)xx(z

σ+

σ

−−=

Distribución t µ1 – µ2 = d0

σ1 = σ2 desconocidas 21

p

021

n

1

n

1s

d)xx(t

+

−−= ;

2nn

s)1n(s)1n(s

21

222

2112

p −+

−+−=

Distribución t µ1 – µ2 = d0

σ1 ≠ σ2 desconocidas

2

22

1

21

021

n

s

n

s

d)xx(t

+

−−= ;

1n

n

s

1n

n

s

n

s

n

s

2

2

2

22

1

2

1

21

2

2

22

1

21

+−

+

=v

Distribución normal p = p0 )p1(np

npxz

00

0

−=

Distribución normal p1= p2

+

−=

21

21

n

1

n

1qp

)pp(z ;

21

21

nn

xxp

+

+=

Distribución χ2 σ = σ0 2

22 s)1n(

σ

−=χ

Distribución F σ1 = σ2 2

2

21

s

sf =

Page 10: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 10 M. en C. José Luis Hernández González

ANÁLISIS DE REGRESIÓN E INTERPOLACIÓN Las funciones que representan un conjunto de datos pueden ser o no polinomiales. Los métodos más utilizados para ajustar curvas a un conjunto de puntos son: a) Interpolación polinomial. Consiste en encontrar una función que pase exactamente a través de cada uno de los puntos. b) Análisis de regresión. Consiste en encontrar una función que se ajuste a los puntos pero no necesariamente pase a través de ellos.

a) b)

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

El análisis de regresión trata de establecer una relación funcional entre variables y proporciona un mecanismo de predicción o pronostico y en realidad lo que se requiere es estimar:

xx|y β+α=µ

Las relaciones que se pueden establecer dependiendo del número de variables independientes x son: Análisis de regresión simple. Se establece cuando la variable dependiente y esta en función de una única variable independiente x.

y = f(x) Análisis de regresión múltiple. Se establece cuando la variable dependiente y, se determinan o esta en función de más de una variable dependiente x.

y = f(x1, x2, ..., xn)

Para el caso de regresión lineal simple tenemos que

bxaY +=

Donde Y se conoce como y estimada, por simplicidad escribiremos: y = a + bx

Page 11: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 11 M. en C. José Luis Hernández González

DIAGRAMA DE DISPERSIÓN Es la grafica que representa un conjunto de pares ordenados o datos observados y que describe la relación que existe entre ellos.

ANÁLISIS DE REGRESIÓN

Las funciones matemáticas empleadas son las siguientes. 1. Función lineal y = a + bx

2. Función cuadrática y = a + bx + cx2

ANÁLISIS DE REGRESIÓN LINEAL

Una vez elegida la función matemática que mejor represente al fenómeno, se requiere de un método estadístico para estimar los parámetros o valores numéricos que ponderen la relación entre variables, existen varios métodos pero el mejor es el de mínimos cuadrados. El modelo matemático más simple de una aproximación por mínimos cuadrados, es el ajuste de una línea recta a un conjunto de pares ordenados (x, y).

y = a + bx + e

x

y

x

y

x

y

e

x

y

Page 12: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 12 M. en C. José Luis Hernández González

Para obtener la mejor línea a través de los datos se debe minimizar la suma de los errores residuales al cuadrado.

e = y – a – bx

2eSr =

∑ −−= 2)bxay(Sr

derivando respecto a a y respecto a b

−−−=∂∂

−−−=∂∂

x)bxay(2b

Sr

)bxay(2a

Sr

Hay un mínimo o máximo igualando las dos ecuaciones a cero.

∑ ∑ ∑∑ ∑ ∑

=−+

=−+

0yxbxax

0ybxa2

si naa =∑

∑ ∑∑∑ ∑

=+

=+

xybxxa

yxbna2

es decir

=

∑∑

∑∑∑

xy

y

b

a

xx

xn2

Resolviendo el sistema de ecuaciones

( )∑ ∑∑ ∑ ∑∑

−=

22

2

xxn

xyxxya

( )∑ ∑∑ ∑∑

−=

22 xxn

yxxynb

Para la inferencia también es necesario calcular:

Page 13: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 13 M. en C. José Luis Hernández González

( )n

xx)xx(S

22

n

1iixx

∑∑∑ −=−==

( )n

yy)yy(S

22

n

1iiyy

∑∑∑ −=−==

( )( )n

yxxy)yy)(xx(S i

n

1iixy

∑∑∑∑ −=−−==

xx

xy

S

Sb =

∑ −

−=

−−

=−

=2n

bSS

2n

)yy(

2n

SSES xyyy

22 Estimador insesgado de la varianza

Ejemplo: Realizar el ajuste lineal para el siguiente conjunto de datos.

x y

-2 13

-1 24

0 39

1 65

2 106

x y x2 y2 xy

-2 13 4 169 -26

-1 24 1 576 -24

0 39 0 1521 0

1 65 1 4225 65

2 106 4 11236 212

0 247 10 17727 227

Cálculo de los coeficientes a y b.

4.4950

2470

)0()10)(5(

)227)(0()10)(247(a

2==

−−

=

Page 14: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 14 M. en C. José Luis Hernández González

7.2250

1135

)0()10)(5(

)227)(0()227)(5(b

2==

−−

=

y = 49.4 + 22.7 x

Calcular el valor de y para cuando x = 1.5.

Cuando x = 1.5

y(2.2) = 49.4 + 22.7(1.5)

y(1.5) = 83.45

ANÁLISIS DE CORRELACIÓN

Nos permite determinar cuantitativamente el grado de relación que existe entre las variables. Para medir el grado de ajuste de una línea a un diagrama de dispersión usamos:

a) Coeficiente de determinación. Representa la proporción de la variabilidad total de la muestra aleatoria alrededor de y

Si r2 = 1 Indica un ajuste perfecto

Si r2 = 0 Indica un ajuste deficiente o nulo

1r0 2 ≤≤ b) Coeficiente de correlación. Mide la asociación lineal entre las dos variables.

1r1 ≤≤−

( )( ) ( ) )yyn)(xxn(

yxxynr

2222

2

2

∑ ∑∑∑∑∑∑

−−

−=

O

Page 15: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 15 M. en C. José Luis Hernández González

yyyyxx

2xx

yy

xx22

S

SSR

SS

S

S

Sbr ===

2rr =

yyxx

xx

yy

xx

SS

S

S

Sbr ==

( )( ) ( )

=−−

−=

)247)17727)(5)((0)10)(5((

)247)(0()227)(5(r

22

22 0.9326

9657.09326.0r ==

REGRESIÓN CUADRÁTICA

Por medio de mínimos cuadrados podemos ajustar a la ecuación

y = a + bx + cx2 Con un procedimiento similar al análisis de regresión lineal obtenemos los valores de a, b y c.

2xcany ∑∑ += ;

∑∑ ∑ += 422 xcxayx

∑∑=

2x

xyb ;

Ejemplo: Realizar el ajuste cuadrático para el siguiente conjunto de datos.

x y x2 x4 xy x2y

-2 13 4 16 -26 52

-1 24 1 1 -24 24

0 39 0 0 0 0

1 65 1 1 65 65

2 106 4 16 212 424

0 247 10 34 227 565

Page 16: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 16 M. en C. José Luis Hernández González

=

∑∑

∑∑∑

yx

y

c

a

xx

xn242

2

;

=

565

247

c

a

3410

105

a = 39.257; 7.2210

227b == ; c = 5.071

y = a + bx + cx2

y = 39.258 + 22.7x + 5.071x2

y(1.5) = 39.258 + 22.7(1.5) + 5.071(1.5)2 = 84.718

INFERENCIAS EN EL ANÁLISIS DE REGRESIÓN

Usualmente se realizan inferencias sobre α y β.

Intervalo de confianza para ββββ

Un intervalo de confianza para (1-α)100% para el parámetro β en la línea de regresión

xk/y β+α=µ es

xx

2/

xx

2/

S

Stb

S

Stb αα +<β<−

Donde tα/2 es un valor de la distribución t con n-2 grados de libertad.

Prueba de hipótesis sobre la pendiente

H0: β = 0

H1: β ≠ 0

Page 17: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 17 M. en C. José Luis Hernández González

Se requiere de utilizar la distribución t con n-2 grados de libertad y establecer una región crítica

basados en

xx

0

S

sb

tβ−

=

Procedimiento de análisis de varianza

Consiste en subdividir la variación total de la variable dependiente (y) en componentes significativos

que se observan y se tratan de manera sistemática.

Suponga que se tienen n puntos de datos experimentales en la forma acostumbrada (xi,yi) y que se

estima la línea de regresión. La varianza (σ2) del conjunto de puntos, se puede calcular con:

Syy = bSxy + SSE

La formula alternativa es:

∑ ∑∑= ==

−+−=−n

1i

n

1i

2i

2i

n

1i

2i )yy()yy()yy(

Con lo que se logra una partición de la suma total de cuadrados de y en dos componentes.

SST = SSR + SSR

SSR es la suma de cuadrados de regresión y refleja la cantidad de variación en los valores y,

explicados por el modelo.

SSE es la suma de cuadrados del error, que refleja la variación alrededor de la línea de regresión.

Bajo la condición de que β = 0, se puede demostrar 2

SSR

σ y

2

SSE

σson valores de variables χ2

Independientes con l y n-2 grados de libertad, respectivamente, y por lo tanto se sigue que 2

SST

σ

también es un valor de χ2 con n – 1 grados de libertad. Para realizar esta prueba tenemos:

2s

SSR

2n

SSEl

SSR

f =

=

Se rechaza H0 al nivel de significancia α cuando f > fα(l,n-2)

Page 18: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 18 M. en C. José Luis Hernández González

El resumen se presenta en una tabla de análisis de varianza.

ANÁLISIS DE VARIANZA

Grados de

libertad Suma de cuadrados

Promedio de los

cuadrados F

Valor crítico de

F

Regresión 1

( )xx

2xy

S

SSSR =

SSR 2s

SSR

Residuos n – 2 SSE = SST – SSR 2n

SSES2

−=

Total n – 1 SST = Syy

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%

Intercepción a

b

Ejemplo: Los siguientes datos se obtuvieron de la medición de un problema de caída libre bajo

ciertas condiciones de laboratorio. Ajuste un modelo de regresión lineal.

T d

1 6

2 30

3 60

4 91

5 130

6 170

7 200

8 280

9 240

10 340

Los resultados con la herramienta de regresión de Excel son:

Resumen

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.97895976

Coeficiente de determinación R^2 0.95836221

R^2 ajustado 0.95241395

Error típico 22.6605034

Observaciones 9

Page 19: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 19 M. en C. José Luis Hernández González

ANÁLISIS DE VARIANZA

Grados de libertad

Suma de cuadrados

Promedio de los

cuadrados F Valor crítico

de F

Regresión 1 82733.0667 82733.0667 161.116499 4.3581E-06

Residuos 7 3594.48889 513.498413

Total 8 86327.5556

Coeficiente

s Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción -

51.5777778 19.1090143 -2.69913335 0.03067747 -96.7634164 -6.3921392

1 37.1333333 2.9254584 12.6931674 4.3581E-06 30.2157234 44.0509432

Análisis de los residuales Resultados de datos de probabilidad

Observación Pronóstico

6 Residuos Residuos estándares Percentil 6

1 22.6888889 7.31111111 0.34491319 5.55555556 30

2 59.8222222 0.17777778 0.00838695 16.6666667 60

3 96.9555556 -5.95555556 -0.28096272 27.7777778 91

4 134.088889 -4.08888889 -0.19289978 38.8888889 130

5 171.222222 -1.22222222 -0.05766026 50 170

6 208.355556 -8.35555556 -0.3941865 61.1111111 200

7 245.488889 34.5111111 1.62811607 72.2222222 240

8 282.622222 -42.6222222 -2.01077052 83.3333333 280

9 319.755556 20.2444444 0.95506358 94.4444444 340

Curva de regresión ajustada

0

50

100

150

200

250

300

350

400

Gráfico de los residuales

-60

-40

-20

0

20

40

0 2 4 6 8 10 12

Residuos

Gráfico de probabilidad normal

0

100

200

300

400

0 20 40 60 80 100

Muestra percentil

6

Page 20: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 20 M. en C. José Luis Hernández González

ANÁLISIS DE REGRESIÓN MÚLTIPLE En la mayoría de los problemas se requiere de más de una variable independiente para un modelo de regresión, por lo cual se hace necesario considerar que:

y = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk Aplicando mínimos cuadrados podemos calcular los coeficientes

∑ −−−−= )xb...xbxby(Sr kk22112

Derivando respecto a cada uno de los coeficientes, e igualando a cero obtenemos un conjunto de k+1 ecuaciones.

=

∑∑∑

∑∑∑∑

∑∑∑∑∑∑∑∑∑∑∑

yx

yx

yx

y

b

b

b

b

x...xxxxx

...

xx...xxxx

xx...xxxx

x...xxn

k

2

1

k

2

1

0

2k2k1kk

k222122

k121211

k21

MMMMMM

Resolviendo el sistema de ecuaciones obtenemos los coeficientes de x. Ejemplo. Realizar un análisis de regresión múltiple para los siguientes datos.

y x1 x2

90 32 171

70 43 232

90 32 245

102 43 342

96 46 211

77 35 233

51 52 147

88 51 324

82 50 230

94 48 233

Formamos un sistema de 3x3.

Page 21: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 21 M. en C. José Luis Hernández González

=

203532

36019

840

b

b

b

5926381027072368

10270719196432

236843210

2

1

0

Resolviendo las ecuaciones tenemos

153.0b

621.0b

655.74b

2

1

0

=

−=

=

y = 74.655 – 0.621x1 + 0.153x2

y(40,150) = 74.655 – 0.621(40) + 0.153(150) = 72.77

En termino de matrices se puede expresar como

Ab=y

(X’X)b =X’y

A=X’X

g=X’y

Resolviendo

b = A–1g

b = (X’X) –1X’y

Inferencia en la regresión lineal múltiple

a) Intervalo de confianza para la respuesta pronosticada

Una de las inferencias más útiles qu se pueden haces en relación a la cantidad de la respuesta

pronosticada y0 que corresponde a los valores x10, x20, …, xk0 es el intervalo de confianza sobre

la respuesta media 02010 ,...,,| kxxxYµ para el conjunto de condiciones.

01

02/0x,...,x,x|Y01

02/0 x)X'X('xstyx)X'X('xsty0k2010

−α

−α +<µ<−

Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.

1kn

SSEs

−−=

SSRSSSE YY −=

O

Page 22: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 22 M. en C. José Luis Hernández González

( ) ( )

−β−

−= ∑∑

n

Y'Y'X'ˆ

n

YY'YSSE

22

donde ∑= 2YY'Y

n = número de datos de la muestra

k = número de variables independientes

La cantidad 01

0 x)X'X('xs − , se llama error estándar de predicción y por lo general se calcula

en un programa de computadora.

b) Intervalo de predicción para una sola respuesta

01

02/0001

02/0 x)X'X('x1styyx)X'X('x1sty −α

−α ++<<+−

Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.

c) Prueba de hipótesis sobre los coeficientes individuales

La inclusión de cualquier variable única en un sistema de regresión aumentará la suma de

cuadrados de regresión y por ello reducirá la suma de cuadrados del error. Por ello se debe

decidir si el aumento en la regresión es suficiente para garantizar su uso en el modelo. En

consecuencia el uso de variables sin importar puede reducir la efectividad de la ecuación de

predicción al aumentar la varianza de la respuesta estimada.

Se acostumbra probar

H0 : βj = Bj0

H1 : βj ≠ Bj0

Se calcula el estadístico ij

0jj

cs

Bbt

−=

Donde tα/2 es el valor de la distribución t con n–k–1 grados de libertad.

Cjj es el elemento de la diagonal principal de la matriz inversa (X’X) –1 correspondiente a jj

Page 23: Estadistica administrativa ii

Instituto Tecnológico de Apizaco Departamento de Ciencias Básicas

Estadística II (Lic. en Administración) pag. 23 M. en C. José Luis Hernández González