Probabilidad y Estadística

download Probabilidad y Estadística

of 123

Transcript of Probabilidad y Estadística

Universidad de GuanajuatoErick Alberto Cecilio AyalaAgosto - Dic 2011Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 1 / 108ContenidoEstimacin puntual y de intervalosPruebas de HiptesisRegresin Lineal y CorrelacinHerramientas bsicas de calidadUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 2 / 108Estimacin puntual y de intervalosPropiedades de los estimadoresSeleccin de un buen estimadorIntervalos de conanzaIntervalo de conanza para la media, varianza conocidaIntervalo de conanza para diferencia de dos medias, varianzaconocidaIntervalo de conanza para la media, varianza desconocidaIntervalo de conanza para la diferencia de dos medias, varianzadesconocidaIntervalo de conanza para la varianza de una distribucin normalIntervalo de conanza para una proporcinIntervalo de conanza para diferencia de dos proporcionesCalculo del tamao de muestra para diferentes estimacionesUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 3 / 108Ejemplo de la unidad.La siguiente tabla muestra 106 temperaturas corporales obtenidas por losinvestigadores de la Universidad de Maryland. De los cuales tenemos lassiguientes estadsticas:La media de los datos es x = 98.20oF.La desviacin estndar es s = 0.62oF.El tamao de la muestra es n = 106.La mayora de la gente cree que la temperatura corporal media es de 98.6oF, pero los datos de la tabla parecen sugerir que de hecho es 98.20oF.La relacin con los grados centgrados es de acuedo a C = _59_(F 32) .Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 4 / 108Ejemplo de la unidad.Temperaturas corporales de 106 adultos saludables98.6 98.6 98.0 98.0 99.0 98.4 98.4 98.4 98.4 98.698.6 98.8 98.6 97.0 97.0 98.8 97.6 97.7 98.8 98.098.0 98.3 98.5 97.3 98.7 97.4 98.9 98.6 99.5 97.597.3 97.6 98.2 99.6 98.7 99.4 98.2 98.0 98.6 98.697.2 98.4 98.6 98.2 98.0 97.8 98.0 98.4 98.6 98.697.8 99.0 96.5 97.6 98.0 96.9 97.6 97.1 97.9 98.497.3 98.0 97.5 97.6 98.2 98.5 98.8 98.7 97.8 98.097.1 97.4 99.4 98.4 98.6 98.4 98.5 98.6 98.3 98.798.8 99.1 98.6 97.9 98.8 98.0 98.7 98.5 98.9 98.498.6 97.1 97.9 98.8 98.7 97.6 98.2 99.2 97.8 98.098.4 97.8 98.4 97.4 98.0 97.0MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 5 / 108Propiedades de los estimadoresDenicin: Un estimador es un estadstico muestral usado para aproximarun parmetro de una poblacin. Una estimacin es un valor especco orango de valores usados para aproximar algn parmetro poblacional.Denicin: Un estimador puntual es un valor simple (o punto) usadopara aproximar un parmetro poblacional.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 6 / 108Propiedades de los estimadoresSeleccin de un buen estimadorLa media muestral x es el mejor estimador puntual de la mediapoblacional .Porqu?1Para muchas poblaciones, la distribucin de las medias muestrales xtiende a ser ms consistente (con menos variacin) que la distribucinde otros estadsticos muestrales.2Para todas las poblaciones, decimos que la media muestral x es unestimador insesgado de la media poblacional , lo que signica que ladistribucin de las medias muestrales tiende a centrarse alrededor delvalor de la media poblacional .Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 7 / 108Propiedades de los estimadoresSeleccin de un buen estimadorLa media muestral x es el mejor estimador puntual de la mediapoblacional .Porqu?1Para muchas poblaciones, la distribucin de las medias muestrales xtiende a ser ms consistente (con menos variacin) que la distribucinde otros estadsticos muestrales.2Para todas las poblaciones, decimos que la media muestral x es unestimador insesgado de la media poblacional , lo que signica que ladistribucin de las medias muestrales tiende a centrarse alrededor delvalor de la media poblacional .Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 7 / 108Propiedades de los estimadoresSeleccin de un buen estimadorLa media muestral x es el mejor estimador puntual de la mediapoblacional .Porqu?1Para muchas poblaciones, la distribucin de las medias muestrales xtiende a ser ms consistente (con menos variacin) que la distribucinde otros estadsticos muestrales.2Para todas las poblaciones, decimos que la media muestral x es unestimador insesgado de la media poblacional , lo que signica que ladistribucin de las medias muestrales tiende a centrarse alrededor delvalor de la media poblacional .Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 7 / 108Estimacin puntual y de intervalosPropiedades de los estimadoresSeleccin de un buen estimadorIntervalos de conanzaIntervalo de conanza para la media, varianza conocidaIntervalo de conanza para diferencia de dos medias, varianzaconocidaIntervalo de conanza para la media, varianza desconocidaIntervalo de conanza para la diferencia de dos medias, varianzadesconocidaIntervalo de conanza para la varianza de una distribucin normalIntervalo de conanza para una proporcinIntervalo de conanza para diferencia de dos proporcionesCalculo del tamao de muestra para diferentes estimacionesUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 8 / 108Intervalos de conanzaPorqu necesitamos intervalos de conanza?En el ejemplo vimos que 98.20oF fu nuestro mejor estimadorpuntual de la media poblacional, pero no tenemos indicacin de qutan bueno fu. Si supiramos slo las primeras cuatro temperaturas98.6, 98.6, 98.0 y 98.0, el mejor estimador puntual de sera sumedia (x = 98.30oF), pero no esperaramos que este estimador fueramuy bueno porque est basado en una muestra muy pequea.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 9 / 108Intervalos de conanzaPorqu necesitamos intervalos de conanza?En el ejemplo vimos que 98.20oF fu nuestro mejor estimadorpuntual de la media poblacional, pero no tenemos indicacin de qutan bueno fu. Si supiramos slo las primeras cuatro temperaturas98.6, 98.6, 98.0 y 98.0, el mejor estimador puntual de sera sumedia (x = 98.30oF), pero no esperaramos que este estimador fueramuy bueno porque est basado en una muestra muy pequea.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 9 / 108Intervalos de conanzaDenicin: Un intervalo de conanza (o estimacin por intervalos) es unrango de valores que es muy probable que contengan el verdadero valor delparmetro de la poblacin.Denicin: El grado de conanza es la probabilidad 1 de que elintervalo de conanza contenga el valor verdadero del parmetro de lapoblacin. (El grado de conanza tambin es conocido como el nivel deconanza o el coeciente de conanza)Ejemplo:El intervalo de conanza de grado de conanza del 0.95, para la mediapoblacional es 98.08oF 30)E = t/2 spn( desconocida y n30)donde t/2 tiene n 1 grados de libertad.Qu es t/2?Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 14 / 108Intervalo de conanza para la mediaDistribucin t-studentSi la distribucin de una poblacin es escencialmente normal (en forma de"campana"), entonces la distribucin det = x spnes escencialmente una distribucin t-student para todas las muestras detamao n. La distribucin t-student, frecuentemente es referida como ladistribucin t, es usada para encontrar valores crticos denotados por t/2 .Denicin: El nmero de grados de libertad (g.l. odf en ingls) para unconjunto de datos corresponde al nmero de anotaciones (puntajes, datos,etc.) que pueden variar despus de que ciertas restricciones fueronimpuestas en todas las anotaciones.Para las aplicaciones en nuestro caso, el nmero de grados de libertad essimplemente el tamao de muestra menos 1. (n 1)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 15 / 108Intervalo de conanza para la mediaDistribucin t-studentUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 16 / 108Intervalo de conanza para la mediaEjercicioEl departamento de Salud, Educacin, y Cuidado de los E.U., realiz unamuestra de datos para 1525 mujeres, de edades alrededor de 18 a 24. Esegrupo muestral tuvo una media de nivel de suero de colesterol (medida enmg/100 ml) de 191.7 con una desviacin estandar de 41.0. Usa estosdatos para encontrar el intervalo del 90% de conanza. Si un doctor diceque la media de suero de colesterol para mujeres de esta edad es de 200,sta armacin es consistente con el intervalo de conanza?R: (190, 193.4)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 17 / 108Estimacin puntual y de intervalosPropiedades de los estimadoresSeleccin de un buen estimadorIntervalos de conanzaIntervalo de conanza para la media, varianza conocidaIntervalo de conanza para diferencia de dos medias, varianzaconocidaIntervalo de conanza para la media, varianza desconocidaIntervalo de conanza para la diferencia de dos medias,varianza desconocidaIntervalo de conanza para la varianza de una distribucin normalIntervalo de conanza para una proporcinIntervalo de conanza para diferencia de dos proporcionesCalculo del tamao de muestra para diferentes estimacionesUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 18 / 108Intervalo de conanza para la diferencia de dos mediasEn este caso dividiremos los intervalos cuando las muestras sondependientes o independientes.Muestras dependientesLos intervalos de conanza para la diferencia de dos medias, se puederesumir en lo siguiente:d E < d < d + Edonde E = t/2 sdpn con n 1 grados de libertad,d es el valor medio delas diferencias, d es el valor medio de las diferencias para los datospareados muestrales y sd es la desviacin estndar de las diferencias.Pero, Que es dependencia?, Cuando dos muestras son dependientes?Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 19 / 108Intervalo de conanza para la diferencia de dos mediasMuestras dependientesEjemplo:Consideramos la siguiente muestra de datos pareados, que muestra lospesos de pre-entrenamiento y los pesos de pos-entrenamiento de seispersonas:Sujeto A B C D E FPre-entrenamiento (Kg) 99 62 74 59 70 73Pos-entrenamiento (Kg) 94 62 66 58 70 76Basados en los datos de Journal of Applied Psychology, Vol. 62, No.1.MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 20 / 108Intervalo de conanza para la diferencia de dos mediasMuestras independientesLos intervalos de conanza para la diferencia de dos medias cuandotenemos muestras independientes, se puede resumir en lo siguiente:(x1x2) E < (12) < (x1x2) + Edonde E en este caso puede ser de distintas maneras:11,2 conocidas o n1 > 30 y n2 > 30 entonces E = z/2 _21n1 +22n2 .2Rechazamos21 = 22 y n130 o n230 entoncesE = t/2 _s21n1 + s22n2(g.l. = el menor de n11, n21).3No rechazamos21 = 22 y n130 o n230 entoncesE = t/2 _s2pn1 + s2pn2(g.l. = n1 + n22) y s2p = (n11)s21 +(n21)s22(n11)+(n21).Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 21 / 108Intervalo de conanza para la diferencia de dos mediasMuestras independientesEjemplo:Tenemos el siguiente resumen de datos de latas de aluminio con dos tiposde grosores 0.0109 in. y 0.0111 in.Carga axial (lb) de latas 0.0109 in. Carga axial (lb) de latas 0.0111 inn1 = 175 n2 = 175x1 = 267.1 x2 = 281.8s1 = 22.1 s2 = 27.8MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 22 / 108Intervalo de conanza para la diferencia de dos mediasEjercicioComo parte de una encuesta nacional de salud, se obtuvieron los pesospara los hombres. Para 804 hombres de edades 25-34, la media es 176 lb yla desviacin estndar es de 35.0 lb. Para 1657 hombres de 65-74, lamedia y desviacin estndar son 164 y 27.0 lb, respectivamente. Construyeun intervalo de 99% de conanza para la diferencia entre las medias de loshombres en las dos categoras. El intervalo de conanza contiene al0?,Indica que hay o n diferencia signicante entre las dos medias?R: (8, 16)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 23 / 108Estimacin puntual y de intervalosPropiedades de los estimadoresSeleccin de un buen estimadorIntervalos de conanzaIntervalo de conanza para la media, varianza conocidaIntervalo de conanza para diferencia de dos medias, varianzaconocidaIntervalo de conanza para la media, varianza desconocidaIntervalo de conanza para la diferencia de dos medias, varianzadesconocidaIntervalo de conanza para la varianza de una distribucinnormalIntervalo de conanza para una proporcinIntervalo de conanza para diferencia de dos proporcionesCalculo del tamao de muestra para diferentes estimacionesUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 24 / 108Intervalo de conanza para la varianza de una distribucinnormalLos intervalos de conanza para la varianza de una distribucin normal, sepuede resumir en lo siguiente:(n 1) s22R< 2< (n 1) s22Ldonde2R y2L son los valores crticos de una distribucin ji-cuadrada delos lados derecho e izquierdo respectivamente (donde2R = 2/2 y2L = 21/2), la distribucin tendr n 1 grados de libertad. Pues,asumiendo normalidad de los datos, la siguiente expresin tendr unadistribucin ji-cuadrada:2= (n 1) s22Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 25 / 108Intervalo de conanza para la varianza de una distribucinnormalEjemplo:En la siguiente tabla se muestran los pesos de 12 buuelos (oz). Elsupervisor de calidad ha encontrado que puede estar fuera de problemas silos buuelos tienen una media de 3.50 oz. y una desviacin estndar de0.06 oz o menos (pues han etiquetado 42 oz).3.43 3.37 3.58 3.50 3.68 3.61 3.42 3.52 3.66 3.50 3.36 3.42Construir intervalo de conanza del 95% para2y un intervalo deconanza del 95% para, luego determina si el supervisor de control decalidad est en problemas.R: (0.006, 0.034)MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 26 / 108Intervalo de conanza para la varianza de una distribucinnormalEjercicios1La siguiente lista son tiempos de espera (en minutos) de clientes deun banco, donde los clientes entran en una linea de espera quealimenta tres ventanas. Construye un intervalo del 95% de conanzapara la desviacin estndar poblacional.6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7R: (0.33, 0.87)2La siguiente lista son tiempos de espera (en minutos) de clientes deun banco, donde los clientes pueden entrar en cualquiera de treslineas diferentes que llevan a tres ventanas diferentes. Construye unintervalo del 95% de conanza para y compara tu resultado al delejercicio anterior. Los intervalos de conanza sugieren una diferenciaen la variacin entre los tiempos de espera?, Cul arreglo es mejor?4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0R: (1.25, 3.33)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 27 / 108Estimacin puntual y de intervalosPropiedades de los estimadoresSeleccin de un buen estimadorIntervalos de conanzaIntervalo de conanza para la media, varianza conocidaIntervalo de conanza para diferencia de dos medias, varianzaconocidaIntervalo de conanza para la media, varianza desconocidaIntervalo de conanza para la diferencia de dos medias, varianzadesconocidaIntervalo de conanza para la varianza de una distribucin normalIntervalo de conanza para una proporcinIntervalo de conanza para diferencia de dos proporcionesCalculo del tamao de muestra para diferentes estimacionesUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 28 / 108Intervalo de conanza para proporcionesSupongamos que queremos estimar una proporcin de poblacin (p), eneste caso la proporcin muestral ( p) es el mejor estimador para nuestroparmetro, sta proporcin muestral ser el cociente del nmeros desucesos (xitos) en una muestra de tamao n.El intervalo de conanza para la proporcin poblacional, se puede resumiren lo siguiente: p E < p < p + Edonde E = z/2 _ p qncon q = 1 pUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 29 / 108Intervalo de conanza para proporcionesEjemplo:Los encuestadores son plagados por una variedad de factores de confusin,tales como las mquinas contestadoras telefnicas. En una encuesta 1068americanos, 673 establecieron mquinas contestadoras (basados en losdatos de International Mass Retail Association, reportado en USA Today).Usando estos resultados muestrales, encontrar,1el estimador puntual de la proporcin de la poblacin de todos losamericanos que tienen mquinas contestadoras.2el intervalo de conanza del 95% de la proporcin de la poblacin detodos los americanos quienes tienen contestadoras.R: (0.601, 0.659)MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 30 / 108Intervalo de conanza para proporcionesOtro caso es cuando queremos comparar dos proporciones de dospoblaciones independientesEl intervalo de conanza en este caso ser:( p1 p2) E < (p1p2) < ( p1 p2) + Edonde E = z/2 _ p1 q1n1+ p2 q2n2 .Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 31 / 108Intervalo de conanza para proporcionesEjercicios1Segn un estudio seal que una gran proporcin de crimes cometidospor personas menores de 21 aos son crimenes violentos. De 2750arrestos seleccionados aleatoriamente de criminales menores de 21aos, el 4.25% involucran crimenes violentos. De 2200 arrestosseleccionados aleatoriamente de criminales mayores o iguales a 21aos, el 4.55% involucran crimenes violentos. Construye un intervalode conanza del 95% para la diferencia entre las dos proporciones decrimenes violentos. El intervalo de conanza contiene al cero?, Estoindica que no hay una diferencia signicativa entre estos dos ndicesde crimenes violentos?R: (-0.0144, 0.0086)2Cuando los juego fueron muestreados de una temporada, se encontrque el equipo local gan 127 de 198 juegos profesionales debasquetbol, y el equipo local gan 57 de 99 juegos profesionales defutbol. Construye un intervalo de conanza del 95% para la diferenciaentre las dos proporciones de victorias locales. Esto indica que nohay una diferencia signicativa entre estos dos ndices de victoriaslocales?R: (-0.053, 0.184)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 32 / 108Estimacin puntual y de intervalosPropiedades de los estimadoresSeleccin de un buen estimadorIntervalos de conanzaIntervalo de conanza para la media, varianza conocidaIntervalo de conanza para diferencia de dos medias, varianzaconocidaIntervalo de conanza para la media, varianza desconocidaIntervalo de conanza para la diferencia de dos medias, varianzadesconocidaIntervalo de conanza para la varianza de una distribucin normalIntervalo de conanza para una proporcinIntervalo de conanza para diferencia de dos proporcionesCalculo del tamao de muestra para diferentes estimacionesUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 33 / 108Calculo del tamao de muestra para diferentesestimacionesHasta ahora hemos visto formas de estimacin de parmetros (puntuales opor intervalos). Para lo cual nos basamos en datos muestrales conocidos.Pero supongamos que no hemos hecho el muestreo. Cmo sabemos dequ tamao ser la muestra?Los tamaos de muestra para las distintas estimaciones se pueden resumir:n = _z/2 E2Median = z2/2 0.25E2Proporcinn = z2/2 p qE2Proporcin ( p y q son conocidos)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 34 / 108Calculo del tamao de muestra para diferentesestimacionesEjemplo:Un economista quiere estimar el ingreso medio para el primer ao detrabajo de un colegio. Cuntos de stos ingresos debe encontrar si quiereestar 95% seguro que la media muestral est en $500 de la verdaderamedia poblacional? Supongamos que un estudio previo ha revelado quepara estos ingresos, = $6250.R: 601 redondeadoMINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 35 / 108Calculo del tamao de muestra para diferentesestimacionesEjercicio1Las compaas aseguradoras han detectado que hay ms accidentesde carros debido al uso del celular, y estn considerando ndices msaltos para este tipo de conductores. Se quiere estimar con margen deerror de tres puntos porcentuales, de conductores quienes hablan portelfono mientras estn manejando. Suponiendo que deseamos el95% de conanza en nuestro resultado, Cuntos conductoresdebemos muestrear?1 Asumiendo que tenemos un estimador p basado en un estudio previoque mostr que el 18% de los conductores hablan por telfono.2 Asumiendo que no tenemos informacin previa para p.R: (a) 631 (b)1068Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 36 / 108ContenidoEstimacin puntual y de intervalosPruebas de HiptesisRegresin Lineal y CorrelacinHerramientas bsicas de calidadUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 37 / 108Pruebas de HiptesisDenicin: Una hiptesis es una armacin acerca de una propiedad deuna poblacin.Ejemplo:El porcentaje de conductores hospitalizados es menor para aquellos quechocan en carros equipados con bolsas de aire que en carros no equipados.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 38 / 108Componentes de una Prueba de Hiptesis formalLa hiptesis nula (denotada por H0) es una armacin acerca del valor delparmetro de una poblacin (como la media), y debe contener unacondicin de igualdad y debe ser escrita con el smbolo =, , o. Parala media, la hitesis nula ser declarada en una de las tres posibles formas:H0 : = valor H0 : valor H0 : valorLa hiptesis alternativa (denotada por H1) es la armacin que debe serverdadera si la hiptesis nula es falsa. Para la media, la hiptesisalternativa ser declarada es slo una de las formas siguientes:H1 : 6= valor H1 : > valor H1 : < valorUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 39 / 108Tipos de ErroresHay dos tipos de errores que se pueden cometer:Error Tipo I: El error de rechazar la hiptesis nula cuando es verdadera.La probabilidad de rechazar la hiptesis nula cuando es cierta es llamada elnivel de signicancia y se denota por el smbolo (alfa). El valor de espredeterminada comnmente, y las elecciones tpicas son = 0.05 y = 0.01.Error Tipo II: El error de fallar al rechazar la hiptesis nula cuando esfalsa. El smbolo (beta) es usado para representar la probabilidad de unerror tipo II.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 40 / 108Componentes claves de una Prueba de HiptesisEstadstico de prueba: Es un estadstico muestral o un valor basado enlos datos muestrales. Es usado para realizar la descisin acerca de rechazarla hiptesis nula.Regin crtica: Es el conjunto de todos los valores de el estadstico deprueba que causarn que rechacemos la hiptesis nula.Valor crtico: Es el valor o valores que separan la regin crtica de losvalores del estadstico de prueba.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 41 / 108Hiptesis unilaterales y bilateralesNo hay mucho que decir, slo que las pruebas pueden ser de: dos colas,cola a la izquierda y a la derecha.Dibujo.Ejercicio de Hiptesis.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 42 / 108Hiptesis unilaterales y bilateralesNo hay mucho que decir, slo que las pruebas pueden ser de: dos colas,cola a la izquierda y a la derecha.Dibujo.Ejercicio de Hiptesis.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 42 / 108Hiptesis unilaterales y bilateralesEjemplo:Usando los datos vistos en la sesin anterior,(n = 106, x = 98.2o, s = 0.62) y con un nivel de signicancia de 0.05,probaremos que la temperatura media del cuerpo de adultos sanos es iguala 98.6oF.En este caso usaremos el estadstico de prueba para cuando n > 30 :z = x xpnUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 43 / 108Hiptesis unilaterales y bilateralesSolucin Tradicional:Paso 1: La armacin de que la media es igual a 98.6 es expresada enforma simblica como = 98.6.Paso 2: La alternativa a la armacin original es 6= 98.6.Paso 3: Entonces tenemos:H0 : = 98.6(armacin original) H1 : 6= 98.6Paso 4: Como se especic en el enunciado del problema, el nivel designicancia es = 0.05.Paso 5: Puesto que la armacin es acerca de la media poblacional, elestadstico muestral ms lgico (reelevante) para la prueba es x = 98.2. Ydado que n > 30, las medias muestrales pueden aproximarse por unadistribucin normal.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 44 / 108Hiptesis unilaterales y bilateralesPaso 6: Para calcular el estadstico de prueba, podemos usar s = 0.62como un estimador razonable de (pues n > 30), entonces el estadsticode prueba se encuentra convirtiendo la media muestral x = 98.2 enz = 6.64, a travs del siguiente clculo:z = x xpn= 98.20 98.60.62p106= 6.64el cual lo comparamos con z = 1.96, 1.96. (dibujo)Paso 7: La media muestral x = 98.2 se convirti a un estadstico deprueba z = 6.64, el cual cae dentro de la regin crtica, entoncesrechazamos la hiptesis nula.Paso 8: Para refrasear la conclusin del paso 7 en trminos no tcnicos,concluimos que hay suciente evidencia para garantizar el rechazo de laarmacin de que la temperatura media corporal de adultos sanos es 98.6oF. (MINITAB)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 45 / 108Hiptesis unilaterales y bilateralesValores p: Uso e interpretacin.Valor p: Es el nivel ms bajo de signicancia (valor) al cual se puederechazar la hiptesis nula.P-Valor InterpretacinMenor que 0.01Estadsticamente, altamente signicante.Hay evidencia muy fuerte en contra de la hiptesis nula.De 0.01 a 0.05Estadsticamente signicante.Hay evidencia en contra de la hiptesis nula.Mayor que 0.05 Hay evidencia insuciente en contra de la hiptesis nula.MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 46 / 108Estadsticos de Prueba (Una poblacin)z = xpnPoblacin con una media.( conocida o n > 30)t = xspnPoblacin con una media.( desconocida y n30)z = ppppqnPoblacin con una porporcin.2= (n1)s22Poblacin con una desviacin estndar o varianza.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 47 / 108Estadsticos de Prueba (Dos poblaciones)t = ddsdpnDos medias dependientes.(gl = n 1)z = (x1x2)(12)_21n1 + 22n2Dos medias independientes(1,2 conocidas o n1 > 30 y n2 > 30)F = s21s22Desviacin estndar o varianza de dos poblaciones.(donde s21s22)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 48 / 108Estadsticos de Prueba (Dos poblaciones)t = (x1x2)(12)_s21n1 + s22n2Dos medias independientes.Rechazamos21 = 22 y n130 o n230.(gl = min (n11, n21))t = (x1x2)(12)_s2pn1 + s2pn2Dos medias independientes.No rechazamos21 = 22 y n130 o n230.(gl = n1 + n22) y s2p = (n11)s21 +(n21)s22(n11)+(n21).z = ( p1 p2)(p1p2)_pqn1 +pqn2Dos proporciones(donde p =(x1+x2)(n1+n2))Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 49 / 108Pruebas de HiptesisHiptesis estadsticasPrueba de hiptesis estadsticaHiptesis unilaterales y bilateralesPrueba de hiptesis sobre la media, varianza desconocidaPrueba de hiptesis sobre la igualdad de dos medias, varianzas conocidasPrueba de hiptesis sobre la media, varianza desconocidaPrueba de hiptesis sobre la igualdad de dos medias, varianzas desconocidasPrueba de hiptesis sobre la varianzaPrueba de hiptesis para la igualdad de dos varianzasPrueba de hiptesis sobre una proporcinPrueba de hiptesis sobre dos proporcionesPrueba de bondad de ajustePruebas con tablas de contingenciaClculo del tamao de muestra para diferentes pruebasUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 50 / 108Prueba de bondad de ajusteUna prueba de bondad de ajuste es usada para probar la hiptesis de queuna distribucin de frecuencias se ajusta a alguna distribucin aseverada.sta prueba se utiliza slo en experimentos multinomiales.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 51 / 108Prueba de bondad de ajusteUn experimento multinomial es un experimento que cumple con lassiguientes condiciones.1Est jo el nmero de ensayos.2Los ensayos son independientes.3Todas las salidas decada ensayo deben ser clasicadas en exactamenteuna de varias categoras diferentes.4Las probabilidades para las diferentes categoras permanecenconstantes para cada ensayo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 52 / 108Prueba de bondad de ajusteNotacinO representa la frecuencia observada de una salida.E representa la frecuencia esperada de una salida.k representa el nmero de categoras diferentes.n representa el total nmero de ensayos.El estadstico de prueba para bondad de ajuste ser2=(OE)2E.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 53 / 108Prueba de bondad de ajusteEjemploMucha gente cree que en una carrera de caballos, se tiene mejorposibilidades de ganar si se comienza en una posicin cercana al rielinterno de la pista. La posicin inicial 1 es la ms cercana al interior delriel, seguida de la posicin 2, y as sucesivamente. La siguiente tabla listael nmero de victorias para caballos que comenzaron en diferentesposiciones. Hay que probar la armacin de que las probabilidades deganar en las diferentes posiciones no son iguales.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 54 / 108Prueba de bondad de ajusteEjemploSolucin:Posicin Inicial1 2 3 4 5 6 7 8Victorias 29 19 18 25 17 10 15 11Se observan resultados para 144 victorias; si la probabilidad de ganar encada posicin inicial es la misma, la probabilidad de ganar para cadaposicin es p = 1/8 y el nmero esperado de victorias para cada posicinser E = np = (144) (1/8) = 18.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 55 / 108Prueba de bondad de ajusteEjemploSolucin:Posicin Frecuencia Frecuenciainicial observada (O) esperada (E) O E (O E)2 (OE)2E1 29 18 11 121 6.7222 19 18 1 1 0.0553 18 18 0 0 04 25 18 7 49 2.7225 17 18 1 1 0.0556 10 18 8 64 3.5557 15 18 3 9 0.58 11 18 7 49 2.722144 144 2=(OE)2E= 16.333Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 56 / 108Prueba de bondad de ajusteEjemploSolucin:Por lo tanto tenemos el estadstico de prueba2= 16.33 y el valor crtico2= 14.067 (encontrado con = 0.05 y con grados de libertadk 1 = 7).No hay evidencia suciente para apoyar la armacin de que lasprobabilidades de ganar iniciando en diferentes posiciones no son lasmismas. Parece ser que la posicin de inicio debe ser considerada cuandose trata de seleccionar cual caballo ganar la carrera.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 57 / 108Pruebas con tablas de contingenciasUna tabla de contingencia (o tabla de frecuencias de dos vas) es una tablaen donde las frecuencias corresponden a dos variables. (Una variable esusada para categorizar renglones, y la segunda es usada para categorizarcolumnas.)sta prueba se puede utilizar para probar dos tipos de supuestos: paraindependencia y para homogeneidad.Cuando se prueba independencia la hiptesis nula arma que lasvariables de rengln y columna son independientes.Cuando se prueba homogeneidad la hiptesis nula arma quepoblaciones diferentes tienen las mismas proporciones de ciertascaractersticas.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 58 / 108Pruebas con tablas de contingenciasEl estadstico de prueba para bondad de ajuste ser2=(OE)2E.Slo que en este caso los grados de libertad = (r - 1)(c - 1).Y la frecuencia esperada ser: E = (renglones totales)(columnas totales)(total general)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 59 / 108Pruebas con tablas de contingenciasEjemploEl gnero del encuestador tiene un efecto en las respuestas de loshombres?. Se encuestaron hombres a los cuales se les pregunt si estabande acuerdo a la siguiente armacin: "El aborto es una cuestin privadaque debe dejarse a la decisin de las mujeres sin la intervencin delgobierno". Usando un nivel de signicancia de 0.05, probar la armacinde que las proporciones de respuestas acuerdo/desacuerdo son las mismaspara los sujetos entrevistados por hombres y los sujetos entrevistados pormujeres.Genero del encuestadorHombre MujerAcuerdo 560 308Desacuerdo 240 92Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 60 / 108ContenidoEstimacin puntual y de intervalosPruebas de HiptesisRegresin Lineal y CorrelacinHerramientas bsicas de calidadUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 61 / 108Regresin Lineal y CorrelacinCorrelacinUna correlacin existe entre dos variables cuando una de ellas estrelacionada a la otra de alguna manera.Un coeciente de correlacin es el de Pearson:r =nxy (x) (y)_n (x2) (x)2_n (y2) (y)2donde 1r1.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 62 / 108Regresin Lineal y CorrelacinPruebas de HiptesisEn general, cuando hacemos una prueba de correlacin entre dos variables,lo que nos interesa saber es, si existe relacin entre las dos variables o n,es por eso que se realiza la siguiente prueba de hiptesis:H0 : = 0 vs H1 : 6= 0con el estadstico de prueba dado por t =r_1r2n2, el cual se comparar conel valor crtico t2 con n 2 grados de libertadUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 63 / 108Regresin Lineal y CorrelacinEjemploEjemplo de los osos. Basados en los datos, Parece haber relacin entre lalongitud y el peso de un oso?, si es as, Cul es esta relacin?. Si uninvestigador anestesiaba un oso y meda su longitud, y fuese de 71pulgadas, cmo usamos sta longitud para predecir el peso del oso?.Longitud (in) 53.0 67.5 72.0 72.0 73.5 68.5 73.0 37.0Peso (lb) 80 344 416 348 262 360 332 34MINITABUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 64 / 108Regresin Lineal y CorrelacinErrores comunes que se comenten en la Correlacin.1La correlacin no implica causalidad.2Propiedad de linearidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 65 / 108Regresin Lineal y CorrelacinErrores comunes que se comenten en la Correlacin.1La correlacin no implica causalidad.2Propiedad de linearidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 65 / 108Regresin Lineal y CorrelacinRegresin LinealLa regresin y correlacin son las dos herramientas estdisticas mspoderosas y verstiles que se pueden utilizar para solucionar problemascomunes en los negocios.Se debe diferenciar entre la regresin simple y la regresin mltiple. En laregresin simple, se establece que Y es una funcin de slo una variableindependiente. En un modelo de regresin mltiple, Y es funcin de doso ms variables.Tambin es necesario hacer una distincin entre la regresin lineal y laregresin curvilineal. La regresin curvilineal utiliza una curva paraexpresar la relacin entre X y Y.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 66 / 108Regresin Lineal y CorrelacinRegresin LinealLas regresiones pueden ser:Y = aX2+ bX + c CuadrticaY = aX3+ bX2+ cX + d CbicaY = aX4+ bX3+ cX2+ dX + e De grado 4.Y = a + b ln X LogartmicaY = abXExponencialY = aXbPotenciaY = c _1 + aebXLogsticaUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 67 / 108Regresin Lineal y CorrelacinRegresin LinealLa variable independiente presenta algn grado de aleatoriedad. Por tanto,habr algn error en el intento de explicar o predecir; se dice que elmodelo es estocstico.Y =0 + 1X + .El modelo lineal con base en datos muestrales:Y = b0 + b1X + een donde los valores b0 y b1 son estimaciones de0 y1, respectivamente,y e es el trmino aleatorio conocido como residual.El modelo de regresin estimada serY = b0 + b1XUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 68 / 108Regresin Lineal y CorrelacinRegresin LinealEl trmino del error es la diferencia entre los valores reales y los estimadosError = _Yi Yi_Para las estimaciones se utiliza el mtodo de mnimos cuadrados ordinarios(MCO), pues se busca minimizarSCE =_Yi Yi_2Para determinar la recta de mejor ajuste, MCO requiere que se calcule lasuma de cuadrados y productos cruzados. Es decir,La suma de los cuadrados de XSxx =_Xi X_2Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 69 / 108Regresin Lineal y CorrelacinRegresin LinealLa suma de los cuadrados de YSyy =_Yi Y_2y la suma de productos cruzados de X y YSxy =_Xi X_ _Yi Y_Luego, las estimaciones sern,b1=SxySxxb0= Y b1XUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 70 / 108Regresin Lineal y CorrelacinEjemploOverland Group produce partes para camin que se utilizan en lossemiremolques. El jefe de contabilidad desea desarrollar un modelo deregresin que pueda utilizarse para predecir los costos. l seleccionaunidades de produccin fabricadas como una variable de prediccin yrecolecta los datos que se observan aqu. Los costos estn en miles dedlares y las unidades en cientos.Unidades 12.3 8.3 6.5 4.8 14.6 14.6 14.6 6.5Costo 6.2 5.3 4.1 4.4 5.2 4.8 5.9 4.21Haga un diagrama de dispersin para los datos.2Calcule e interprete el modelo de regresin. Qu le dice el contadorsobre la relacin entre produccin y costos?3Segn el modelo, cunto costara producir 750 unidades?Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 71 / 108Regresin Lineal y CorrelacinSupuestos del modelo de regresin lineal1El trmino de error es una variable aleatoria distribuidanormalmente.2Varianzas iguales de los valores Y.3Los trminos de error son independientes uno del otro. Cuando estono ocurre se denomina Autocorrelacin.4El supuesto de linealidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108Regresin Lineal y CorrelacinSupuestos del modelo de regresin lineal1El trmino de error es una variable aleatoria distribuidanormalmente.2Varianzas iguales de los valores Y.3Los trminos de error son independientes uno del otro. Cuando estono ocurre se denomina Autocorrelacin.4El supuesto de linealidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108Regresin Lineal y CorrelacinSupuestos del modelo de regresin lineal1El trmino de error es una variable aleatoria distribuidanormalmente.2Varianzas iguales de los valores Y.3Los trminos de error son independientes uno del otro. Cuando estono ocurre se denomina Autocorrelacin.4El supuesto de linealidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108Regresin Lineal y CorrelacinSupuestos del modelo de regresin lineal1El trmino de error es una variable aleatoria distribuidanormalmente.2Varianzas iguales de los valores Y.3Los trminos de error son independientes uno del otro. Cuando estono ocurre se denomina Autocorrelacin.4El supuesto de linealidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108Regresin Lineal y CorrelacinSupuestos del modelo de regresin linealPara ver si hay autocorrelacin se utiliza el estadsitco de Durbin-Watsond =(etet1)2e2ten donde et es el error en el perodo de tiempo t y et1 es el error en elperodo de tiempo anterior.Este valor se utiliza para probar la hiptesis de que no existe correlacinentre trminos de error sucesivos, as:H0 : et,et1 = 0 (No existe autocorrelacin)H1 : et,et1 6= 0 (Existe autocorrelacin)en donde es el coeciente de correlacin para errores sucesivos.Generalmente hablando, si el valor Durbin-Watson es cercano a 2, no serechaza la hiptesis nula.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 73 / 108Regresin Lineal y CorrelacinMedidas de bondad de ajusteHay por lo menos dos medidas de bondad de ajuste: 1) el error estndarde estimacin, y 2) el coeciente de determinacin.El error estndar de estimacin, Se, es una herramienta del grado dedispersin de los valores Yi alrededor de la recta de regresin. Mide lavariacin de los puntos de datos por encima y por debajo de la recta deregresin.Se =__Yi Yi_2n 2Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 74 / 108Regresin Lineal y CorrelacinMedidas de bondad de ajusteEl coeciente de determinacin, r2, es otra medida quiz msimportante de la bondad de ajuste. Se hallar2=(Sxy)2_(Sxx) (Syy)Proporciona una medida de bondad de ajuste porque revela qu porcentajedel cambio en Y se explica por un cambio en X.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 75 / 108Regresin Lineal y CorrelacinLimitaciones del anlisis de regresinLa correlacin no implica causalidad.No utilizar el modelo para predecir Y para valores de X que estnfuera del rango del conjunto original de datos.Correlacin esprea, que ocurre simplemente por suerte.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 76 / 108Regresin Lineal y CorrelacinPruebas para1Si el parmetro de la pendiente de la regresin es cero, no existe relacinentre las dos variables. Se debe probar la hiptesis:H0 :1 = 0 H1 :1 6= 0Esta prueba emplea el estadstico tt = b1 1sb1y tiene n 2 grados de libertad, en dondesb1 =sepSxxUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 77 / 108Regresin Lineal y CorrelacinPruebas para1Si se llegara a rechazar la hiptesis nula de que1 = 0, la preguntanatural ser, "Cul es su valor?" Esta pregunta puede respondersecalculando un intervalo de conanza para1.b1t/2sb1 1b1 + t/2sb1Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 78 / 108Regresin Lineal y CorrelacinResumen1Proponer un modelo probabilstico hipottico(Ej.Y =0 + 1X + )2Estimar parmetros3Especicar la distribucin de.4Evaluar el modelo (Inferencias sobre1, calcular r2...)5Si estamos satisfechos, ya podemos usarlo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108Regresin Lineal y CorrelacinResumen1Proponer un modelo probabilstico hipottico(Ej.Y =0 + 1X + )2Estimar parmetros3Especicar la distribucin de.4Evaluar el modelo (Inferencias sobre1, calcular r2...)5Si estamos satisfechos, ya podemos usarlo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108Regresin Lineal y CorrelacinResumen1Proponer un modelo probabilstico hipottico(Ej.Y =0 + 1X + )2Estimar parmetros3Especicar la distribucin de.4Evaluar el modelo (Inferencias sobre1, calcular r2...)5Si estamos satisfechos, ya podemos usarlo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108Regresin Lineal y CorrelacinResumen1Proponer un modelo probabilstico hipottico(Ej.Y =0 + 1X + )2Estimar parmetros3Especicar la distribucin de.4Evaluar el modelo (Inferencias sobre1, calcular r2...)5Si estamos satisfechos, ya podemos usarlo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108Regresin Lineal y CorrelacinResumen1Proponer un modelo probabilstico hipottico(Ej.Y =0 + 1X + )2Estimar parmetros3Especicar la distribucin de.4Evaluar el modelo (Inferencias sobre1, calcular r2...)5Si estamos satisfechos, ya podemos usarlo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108Regresin Lineal y CorrelacinIntervalos de conanza en el anlisis de regresinExisten por lo menos dos estimados por intervalo que se relacionanque se relacionan comunmente con los procedimientos de regresin.El primero es un estimado por intervalo para el valor promedio de Ydado cualquier valor X. Se puede estimar la media poblacional paratodos los valores de Y cuando X es igual a algn valor dado. Esto eslo que se denomina media condicionada.Un segundo intervalo de conanza importante busca estimar un valornico de Y dado que X se ja en una cantidad especca. Esteestimado se llama intervalo de prediccin. Por lo tanto, mientrasque la media condicionada es una estimacin del valor promedio de Yen todos los meses en los cuales X es a un monto especicado, losestimados por intervalo de prediccin Y en cualquier mes, en el cualX se ja en un monto dado.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 80 / 108Regresin Lineal y CorrelacinIntervalos de conanza en el anlisis de regresinExisten por lo menos dos estimados por intervalo que se relacionanque se relacionan comunmente con los procedimientos de regresin.El primero es un estimado por intervalo para el valor promedio de Ydado cualquier valor X. Se puede estimar la media poblacional paratodos los valores de Y cuando X es igual a algn valor dado. Esto eslo que se denomina media condicionada.Un segundo intervalo de conanza importante busca estimar un valornico de Y dado que X se ja en una cantidad especca. Esteestimado se llama intervalo de prediccin. Por lo tanto, mientrasque la media condicionada es una estimacin del valor promedio de Yen todos los meses en los cuales X es a un monto especicado, losestimados por intervalo de prediccin Y en cualquier mes, en el cualX se ja en un monto dado.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 80 / 108Regresin Lineal y CorrelacinIntervalos de conanza en el anlisis de regresinExisten por lo menos dos estimados por intervalo que se relacionanque se relacionan comunmente con los procedimientos de regresin.El primero es un estimado por intervalo para el valor promedio de Ydado cualquier valor X. Se puede estimar la media poblacional paratodos los valores de Y cuando X es igual a algn valor dado. Esto eslo que se denomina media condicionada.Un segundo intervalo de conanza importante busca estimar un valornico de Y dado que X se ja en una cantidad especca. Esteestimado se llama intervalo de prediccin. Por lo tanto, mientrasque la media condicionada es una estimacin del valor promedio de Yen todos los meses en los cuales X es a un monto especicado, losestimados por intervalo de prediccin Y en cualquier mes, en el cualX se ja en un monto dado.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 80 / 108Regresin Lineal y CorrelacinXPrimera interpretacin: Si se deja X igual la misma cantidad de veces,se obtendrn muchos valores diferentes de Y. Entonces se puede estar95% seguro de que la media de esos valores Y (y /x ) caer dentro delintervalo especicado.Segunda interpretacin: Si se tomaran muchas muestras de los valoresde X y Y, y se construyera un intervalo de conanza con base en cadamuestra, 95% de ellos contendray /x , el valor promedio real perodesconocido de Y dado un valor de X.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 81 / 108Regresin Lineal y CorrelacinXPrimero se debe calcular el error estndar de la media condicionadaSY = Se_1n +_Xi X_2Sxxen donde Se es el error estndar de estimacin y Xi es el valor dado parala variable independiente. Y el intervalo de conanza para la mediacondicionada es entonces:Yi t/2sYy /x Yi + t/2sYen la cual Yi es el estimador puntual hallado de la ecuacin de regresin yel valor t se basa en n 2 grados de libertad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 82 / 108Regresin Lineal y CorrelacinYPrimera interpretacin: Si se determina que X es igual a algunacantidad slo una vez, se podra obtener un nico valor resultante de Y.Se puede estar 95% seguro de que dicho valor nico de Y cae dentro delintervalo especicado.Segunda interpretacin: Si se tomaran muchas muestras y cada una seutilizara para construir un intervalo de conanza de prediccin, el 95% deellos contendran el valor verdadero para Y.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 83 / 108Regresin Lineal y CorrelacinYPrimero se debe calcular el error estndar del pronsticoSYi = Se_1 + 1n +_Xi X_2Sxxen donde Se es el error estndar de estimacin y Xi es el valor dado parala variable independiente. Y el intervalo de prediccin para un valor nicoY, YX es entonces:Yi t/2sYiYX Yi + t/2sYien la cual Yi es el estimador puntual hallado de la ecuacin de regresin yel valor t se basa en n 2 grados de libertad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 84 / 108Regresin Lineal y CorrelacinAnlisis de varianza en la regresinEl modelo de regresin presenta una descripcin de la naturaleza de larelacin entre las variables dependiente e independiente.Se utiliz una prueba t para probar la hiptesis que1 = 0.Una prueba similar puede realizarse con el uso del anlisis de varianza(ANOVA) con base en la prueba F.El procedimiento ANOVA mide la cantidad de variacin en el modelo demuestreo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 85 / 108Regresin Lineal y CorrelacinAnlisis de varianza en la regresinFuente Suma Grados Cuadrado Razn Fde Variacin de cuadrados de libertad medioRegresin SCR k CMR = SCRkCMRCMEError SCE n k 1 CME =SCEnk1Total SCT n 1donde la suma de cuadrados de la regresin es SCR =_Yi Y_2.La razn CMR/CME proporciona un medida de exactitud del modeloporque es la razn de la desviacin promedio al cuadrado que se explicacon el modelo. Entre mayor sea esta razn, el modelo tendr mayor poderexplicativo.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 86 / 108La guerra de las "Colas"Ejercicio - TareaLa guerra de las "Colas" entre Coca Cola y Pepsi, ...Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 87 / 108Regresin Mltiple y CorrelacinRegresin MltipleEl modelo de regresin mltiple con k variables independientes se expresacomo:Y =0 + 1X1 + 2X2 + ... + kXk + .El modelo de regresin estimada serY = b0 + b1X1 + b2X2 + ... + bkXkLa regresin mltiple implica los mismos supuestos que en la regresinlineal simple, ms otros dos.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 88 / 108Regresin Mltiple y CorrelacinRegresin MltipleEl primer supuesto requiere que el nmero de observaciones n, exceda elnmero de variables independientes k, en por lo menos 2.El segundo supesto involucra la relacin entre las variables independientes.Requiere que ninguna de las variables independientes est linealmenterelacionada. Por ejemplo, si X1 = X2 + X3, o quiz X1 = 0.5X2, entoncesuna relacin lineal existir entre dos o ms variables independientes ysurgira un problema grave. Este problema es la multicolinealidad.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 89 / 108Regresin Mltiple y CorrelacinMedidas de bondad de ajusteEl error estndar de estimacin,Se =__Yi Yi_2n k 1Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 90 / 108Regresin Mltiple y CorrelacinMedidas de bondad de ajusteEl coeciente de determinacin mltiple,R2= SCRSCTProporciona una medida de bondad de ajuste porque revela qu porcentajedel cambio en Y se explica por un cambio en X, dondeSCR =_Yi Y_2.SCT =_Yi Yi_2.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 91 / 108Regresin Mltiple y CorrelacinMedidas de bondad de ajusteEs posible inar articialmente R2, simplemente adicionando otra variableindependiente al modelo.Por consiguiente, es una prctica comn reportar el coeciente dedeterminacin corregido. Representado por R2, este estadstico se ajustaa la medida del poder explicativo para el nmero de grados de libertad.R2decrecer si se adiciona una variable que no ofrece suciente poderexplicativo como para justicar su prdida en los grados de libertad. Si sereduce demasiado, se debe considerar su retiro.R2= 1 _1 R2_n 1n k 1Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 92 / 108Deteccin de la multicolinealidadMatriz de correlacinPrimero se calcula la matriz de correlacin y despus se hace la siguienteprueba de hiptesis:H0 : 12 = 0 vs H1 : 12 6= 0con el estadstico de prueba dado por t =r12_1r212n2, el cual se comparar conel valor crtico t2 con n 2 grados de libertad.Otra forma de detectar la multicolinearidad es analisar el factor deinacin de varianza (VIF), el cual, es una medida del grado demulticolinearidad en que contribuye dicha variable.VIF (Xi) =11 R2idonde R2ies el coeciente de determinacin obtenido al hacer la regresinde Xi sobre todas las otras variables independientes.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 93 / 108Corrigiendo la multicolinealidadLo usual es eliminando la variable correlacionada del modelo. O se puedehacer regresin paso a paso. Puede tomar la forma de: 1) eliminacinhacia atrs o 2) eliminacin hacia adelante.Eliminacin hacia atrs: Se hace calculando el modelo con todas lasvariables, se calculan los valores t para todos los coecientes. Si alguno esinsignicante lo eliminamos y calculamos el modelo nuevamente. Estocontina hasta que todos los bi sean signicativamente diferentes de cero.Eliminacin hacia adelante: Se selcciona la variable ms altamentecorrelacionada con Y. La siguiente variable que se toma es la que tengamas alto el coeciente de determinacin. Esto contina hasta que todaslas variables estn en el modelo o hasta que la inclusin de otra variable notermine en un incremento signicativo en R2.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 94 / 108Corrigiendo la multicolinealidadEJERCICIOS INDIVIDUALESUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 95 / 108ContenidoEstimacin puntual y de intervalosPruebas de HiptesisRegresin Lineal y CorrelacinHerramientas bsicas de calidadUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 96 / 108Herramientas bsicas de calidadHoja de vericacinEstraticacinDiagrama de ParetoHistogramaDiagrama causa-efecto (Ishikawa)Diagrama de dispersinUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 97 / 108Hoja de vericacinSe utiliza para reunir datos basados en la observacin del comportamientode un proceso con el n de detectar tendencias, por medio de la captura,anlisis y control de informacin relativa al proceso. Bsicamente es unformato que facilita que una persona pueda tomar datos en una formaordenada y de acuerdo al estndar requerido en el anlisis que se estrealizando. Las hojas de vericacin tambin conocidas como decomprobacin o de chequeo organizan los datos de manera que puedanusarse con facilidad ms adelante.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 98 / 108Diagrama de ParetoHerramienta utilizada para el mejoramiento de la calidad para identicar yseparar en forma crtica los pocos proyectos que provocan la mayor partede los problemas de calidad.El principio enuncia que aproximadamente el 80% de los efectos de unproblema se debe a solamente 20% de las causas involucradas.El diagrama de Pareto es una grca de dos dimensiones que se construyelistando las causas de un problema en el eje horizontal, empezando por laizquierda para colocar a aquellas que tienen un mayor efecto sobre elproblema, de manera que vayan disminuyendo en orden de magnitud. Eleje vertical se dibuja en ambos lados del diagrama: el lado izquierdorepresenta la magnitud del efecto provocado por las causas, mientras queel lado derecho reeja el porcentaje acumulado de efecto de las causas,empezando por la de mayor magnitud.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 99 / 108Diagrama de ParetoPasos para desarrollar el diagrama de Pareto:1Seleccione qu clase de problemas se van a analizar.2Decida qu datos va a necesitar y cmo clasicarlos. Ejemplo: Portipo de defecto, localizacin, proceso, mquina, trabajador, mtodo.3Dena el mtodo de recoleccin de los datos y el perodo de duracinde la recoleccin.4Disee una tabla para el conteo de datos con espacio suciente pararegistrarlos.5Elabore una tabla de datos para el diagrama de Pareto con la lista decategoras , los totales individuales, los totales acumulados, lacomposicin porcentual y los porcentajes acumulados.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 100 / 108Diagrama de ParetoPasos para desarrollar el diagrama de Pareto:6. Organice las categoras por orden de magnitud decreciente, deizquierda a derecha en un eje horizontal construyendo un diagrama debarras. El concepto de otros debe ubicarse en el ltimo lugarindependientemente de su magnitud.7. Dibuje dos ejes verticales y uno horizontal.Ejes verticales:Eje izquierdo: Marque este eje con una escala desde 0 hasta el totalgeneralEje derecho: Marque este eje con una escala desde 0 hasta 100%Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 101 / 108Diagrama de ParetoPasos para desarrollar el diagrama de Pareto:1Eje horizontal:Divida este eje en un nmero de intervalos igual al nmero decategoras clasicadas.8. Dibuje la curva acumulada (curva de Pareto), Marque los valoresacumulados (porcentaje acumulado) en la parte superior, al ladoderecho de los intervalos de cada categora, y conecte los puntos conuna lnea continua.9. Escriba en el diagrama cualquier informacin que considere necesariapara el mejor entendimiento del diagrama de Pareto.EJEMPLOUniversidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 102 / 108Diagrama causa-efecto (Ishikawa)El Diagrama de Ishikawa, tambin llamado diagrama de causa-efecto, Setrata de un diagrama que por su estructura ha venido a llamarse tambin:diagrama de espina de pescado, que consiste en una representacin grcasencilla en la que puede verse de manera relacional una especie de espinacentral, que es una lnea en el plano horizontal, representando el problemaa analizar, que se escribe a su derecha.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 103 / 108Diagrama causa-efecto (Ishikawa)ProcedimientoPara empezar, decide cual caracterstica de calidad, salida o efecto quieresexaminar y continua con los siguientes pasos:"Cero quejas en calidad"1Dibuja un diagrama en blanco.2Escribe de forma concisa el problema o efecto."Quejas que manietan disconformidad con el servicio"3Escribe las categoras que consideres apropiadas a tu problema:maquina, mano de obra, materiales, mtodos, son los ms comunes yaplican en muchos procesos."Atencin telefnica en el primer momento. informacin de losproducos. Trato del personal."4Realiza una lluvia de ideas (brainstorming) de posibles causas yrelacinalas a cada categora. No se atiende al telfono al primersonido- No se informa de los productos disponibles en cada demanda.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 104 / 108Diagrama causa-efecto (Ishikawa)Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 105 / 108Diagrama causa-efecto (Ishikawa)5. Pregntale por que? a cada causa, no ms de dos o tres veces.Porque no se dispone de tiempo necesario Porque no se dispone detiempo para estudiar las caracersticas de cada producto.6. Empieza por enfocar tus variaciones en las causas seleccionadas comofcil de implementar y de alto impacto. Pausar el momento y atenderel elfono al primer sonido. Estuiar las caraceraticas de cadaproducto fuera del horario laboral.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 106 / 108FIN DEL CURSOGRACIAS !!!Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 107 / 108BIBLIOGRAFAMario F. Triola (1998), Elementary Statistics. Addison Wesley.Allen L. Webster . Estadstica aplicada a los negocios y laeconoma, tercera edicin. MCGraw-Hill.J.G. Kalbeisch (1985). Probability and Statistical Inference. Vol2. Springer-Verlang.Internet.Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 108 / 108