Seis Sigma Bb Analisis

688
1 Programa de certificación de Black Belts ASQ VI. Seis Sigma - Anál P. Reyes / Noviembre de 2007

Transcript of Seis Sigma Bb Analisis

1 Programa de certificacinde Black Belts ASQ VI. Seis Sigma - Anlisis P. Reyes / Noviembre de 2007 2 Fase de Anlisis Propsitos: Establecer hiptesis sobre las posibles Causas Raz Refinar, rechazar, o confirmar la Causa Raz Seleccionar las Causas Raz ms importantes: Las pocas Xs vitales Salidas: Causas raz validadas Factores de variabilidad identificados 3 Diagrama deIshikawaDiagrama derelacionesDiagramade rbolAnlisis del Modo y Efecto deFalla (AMEF)QFDDiagramaCausa EfectoCTQs = YsOperatividadX's vitalesDiagramade FlujodelprocesoPruebasdehiptesisCausas razvalidadasCausaRaz?DefinicinY=X1 + X2+. .XnX'sCausaspotencialesMedicin Y,X1, X2, XnFASE DE ANLISISSi NoLlenar columnas del FMEA Hasta sol. Propuesta y comprobar causas con Pruebas de Hiptesis 4 VI. Anlisis A. Medicin y modelaje de relacin entre variables B: Pruebas de hiptesis C. Anlisis del modo y efecto de falla (AMEF) D. Mtodos adicionales de anlisis 5 A. Medicin y modelaje de relacin entre variables 6 A. Medicin y modelaje de relacin entre variables 1. Coeficiente de correlacin 2. Regresin 3. Herramientas Multivariadas 4. Estudios Multivari 5. Anlisis de datos por atributos 7 VI.A.1 Coeficiente de correlacin 8 Definiciones Correlacin Establece si existe una relacin entre las variables yresponde a la pregunta, Qu tan evidente es estarelacin?" Regresin Describe con ms detalle la relacin entre las variables. Construye modelos de prediccin a partir de informacinexperimental u otra fuente disponible. Regresin lineal simple Regresin lineal mltiple Regresin no lineal cuadrtica o cbica9 Correlacin Propsito:Estudiar la posible relacin entre dos variables. Accidentes laborales Numero de rdenes urgentes Correlacinpositiva,posible El 1er. paso es realizar una grfica de la informacin. 10 Coeficiente de correlacin (r ) Mide la fuerza de la relacin lineal entre las variables X y Y en una muestra. El coeficiente de correlacin muestral de Pearson rx,y con valores entre -1 y +1 es: 11 Correlacin de la informacin (R ) de las X y las Y Correlacin Positiva Evidente 0 5 10 15 20 25 0510152025 X Y Correlacin Negativa Evidente 0 5 10 15 20 25 0510152025 X Y Correlacin Positiva 0 5 10 15 20 25 0510152025 X Y Correlacin Negativa 0 5 10 15 20 25 0510152025 X Y Sin Correlacin 10 15 20 25 510152025 X Y 0 5 0 R=1 R=>-1 R=-1 R=0 R=>1 12 Coeficiente de correlacin El coeficiente de correlacin r asume el mismo signo de la pendiente de la recta |1 siendo cero cuando|1 =0 Un valor positivo de r implica que la pendiente de la lnea es ascendente hacia la derecha Un valor negativo de r implica que la pendiente de la lnea es descendente hacia la derecha Si r=0 no hay correlacin lineal, aunque puede haber correlacin curvilnea 13 Coeficiente de correlacin Coeficiente de correlacin 0.8 < r< 1.0 0.3 < r < 0.8 -0.3 < r < 0.3 -0.8 < r < -0.3 -1.0 < r < -0.8 Relacin Fuerte, positiva Dbil, positiva No existe Dbil, negativa Fuerte, negativa Reglas empricas 14 Tabla de Correlacin mnima Correlaciones (Pearson) n 95%99%de confianzade confianza 31.00 1.00 40.95 0.99 50.88 0.96 60.810.92 70.75 0.87 80.71 0.83 90.67 0.80 100.63 0.76 110.60 0.73 120.58 0.71 130.53 0.68 140.53 0.66 n95% 99%de confianza de confianza 150.510.64 160.500.61 170.480.61 180.470.59 190.460.58 200.440.56 220.420.54 24 0.400.52 260.390.50 280.370.48 300.360.46 Para un 95% de confianza, con una muestra de 10, el coeficiente (r) debe ser al menos .63 15 La correlacin puede usarse para informacin de atributos, variables normales y variables no normales. La correlacin puede usarse con un predictor o ms para una respuesta dada. La correlacin es una prueba fcil y rpida para eliminar factores que no influyen en la prediccin, para una respuesta dada. Correlacin 16 Para determinar que tanto se acercan los datos predichos por el modelo a los datos observados aplicando el coeficiente de correlacin de Pearson (ver tabla anterior para identificar la significancia)

Coeficiente de Correlacin r = S(yeyo) S(yeye) S(yoyo) S(yeye) = Eyei2 - (Eyei)2 n S(yoyo) = Eyoi2 - (Eyoi)2 n S(yeyo) = Eyei yoi - (Eyei)(Eyoi) n ye = Respuesta esperada yo = Respuesta observada r = Coeficiente de correlacin 17 Otra forma para no consultar la tabla de coeficiente de correlacin de Pearson es la r ajustadaCoeficiente de Correlacin ajustado R2(Adj) = 1 (1 r2) (n-1) (n-p) Donde :R2(Adj) = Coeficiente de correlacin ajustado

r = Coeficiente de correlacin de Pearson

n = Nmero de datos

p = Nm. trminos en el modelo(Incluyendo la constante) Criterios en funcin a la R2(Adj) > 90% = Correlacin Fuerte 80% - 90% = Buena correlacin 60% - 80% = Correlacin media 40% - 60% = Correlacin dbil < 40% = No existe correlacin 18 Coeficiente de Determinacin (R2) El coeficiente de determinacin es la proporcin de la variacin total explicada por la regresin, R2 se encuentra en el rango de valores de 0 a 1.19 Correlacin vs causacin Tener cuidado de no tener variables colineales, por ejemplo peso de un coche y peso de las personas que transporta, o que no la relacin no tenga sentido, como si lavo mi coche, llueve. 20 VI.A.2 Regresin 21 El anlisis de regresin es un mtodo estandarizado para localizar la correlacin entre dos grupos de datos, y, quiz ms importante, crear un modelo de prediccin. Puede ser usado para analizar las relaciones entre: Una sola X predictora y una sola Y Mltiples predictores X y una sola Y Varios predictores X entre s Anlisis de Regresin 22 Supuestos de la regresin lineal Los principales supuestos que se hacen en el anlisis de regresin lineal son los siguientes: La relacin entre las variables Y y X es lineal, o al menos bien aproximada por una lnea recta. El trmino de error c tiene media cero. El trmino de error c tiene varianza constante o2. Los errores no estn correlacionados. Los errores estn normalmente distribuidos. c | | + + = X y1 023 Modelo de regresin lineal Se aume que para cualquier valor de X el valor observado de Y varia en forma aleatoria y tiene una distribucin de probabilidad normal El modelo general es: Y = Valor medio de Yi para Xi + error aleatorio c | | + + = X y1 0La lnea de regresin se calcula por el mtodo de mnimos cuadrados. Un residuo es la diferencia entre un punto de referencia en particular(xi, yi) y el modelo de prediccin ( y = a + bx ).El modelo se define de tal manera que la suma de los cuadrados de los residuales es un mnimo. La suma residual de los cuadrados es llamada con frecuencia la suma de los cuadrados de los errores (SSE) acerca de la lnea de regresin ei xi yi SSE=Eei2=E(yi - yi)2 y = b0 + b1x Regresin Lineal Simple a y b sonEstimados de |0 y |1 Grfica de la Lnea de Ajuste Recta de regresin Y=-.600.858+5738.89X R2 = .895 Altura del muelle Retencin 0.18 0.19 0.20 400 500 600 Regresin 95% Intervalo de confianza 95% Intervalo de prediccin 26 Interpretacin de los Resultados El intervalo de prediccin es el grado de certidumbre de la difusin de la Y estimada para puntos individuales X. En general, 95% de los puntos individuales (provenientes de la poblacin sobre la que se basa la lnea de regresin), se encontrarn dentro de la banda [Lneas azules] La ecuacin de regresin (Y = -600.858 + 5738.89X) describe la relacin entre la variable predictora X y la respuesta de prediccin Y. R2 (coef. de determinacin) es el porcentaje de variacin explicado por la ecuacin de regresin respecto a la variacin total en el modeloEl intervalo de confianza es una banda con un 95% de confianza de encontrar la Y media estimada para cada valor de X [Lneas rojas] Interpretacin de los Resultados Los valores p de la constante (interseccin en Y) y las variables de prediccin, se leen igual que en la prueba de hiptesis. Ho: El factor no es significativo en la prediccin de la respuesta. Ha: El factor es significativo en la prediccin de la respuesta. s es el error estndar de la prediccin = desviacin estndar del error con respecto a la lnea de regresin. R2 (ajustada) es el porcentaje de variacin explicado por la regresin, ajustado por el nmero de trminos en el modelo y porel nmero de puntos de informacin. El valor p para la regresin se usa para ver si el modelo completo de regresin es significativo. Ho: El modelo no es significativo en la prediccin de la respuesta. Ha: El modelo es significativo en la prediccin de la respuesta. 28 Errores residuales Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de regresin los errores indicados por segmentos verticales. 29 Errores residuales Los residuospueden ser graficados para: Checar normalidad. Checar el efecto del tiempo si su orden es conocido en los datos. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y. Checar la curvatura de ms alto orden que ajusta en las Xs. A veces es preferible trabajar con residuos estandarizados o estudentizados: n i Y Y e ii i..., 3 , 2 , 1 ,^= =nMSedEii,....., 2 , 1 1 ,.... = =,) ( 112((

||.|

\| + =XXiiiSX XnMSEer30 Errores residuales Anlisis de los errores o residuales Qu tan normales son los residuales?Residuales individuales -tendencias; o separados?Histograma -curva de campana?Ignrese para grupos pequeos de informacin ( Ftablas. SX X nXSXnMSE b seiiXX2 / 12__22__0) (1) (((((

=|||.|

\|+ =XX XXSSSMSEb se = = ) (1SX X nXn t bii2 / 12__20) ()211 , 2 (((((

o 2__1) ().211 , 2 (X XS n tbio 2__1) ().211 , 2 (X XS n tbio36 Anlisis de varianza en la regresin El intervalo de confianza para la desviacin estndar es: Intervalos de confianza para la Y estimada promedio Intervalo de prediccin para un valor particular de Y estimado 2__1) ().211 , 2 (X XS n tbio22 , 2 / 1222 , 2 /) 2 ( ) 2 ( s sn nMSE n MSE no o_o_|||.|

\|+ XXn aSX XnMSE t Y2__02 , 2 /^0) ( 1(((

+ + + s s(((

+ + XXnXXnSX XnMSE t Y YSX XnMSE t Y2__02 , 2 / 0 02__02 , 2 / 0) ( 11) ( 11o o37 Anlisis de varianza en la regresin Prueba de Hiptesis para Beta 1: Ho: |1 = 0 contra H1:|1 = 0 Siel coeficiente Beta 1 es significativo 2__1) ().211 , 2 (X XS n tbioXXSMSEbt10 =2 , 2 / 0 >nt to38 Anlisis de varianza en la regresin Coeficiente de correlacin r: Coeficiente de determinacin: r2 R2 mide la proporcin de la variacin total respecto a la media que es explicada por la regresin. Se expresa en porcentaje. 2__1) ().211 , 2 (X XS n tbioYY XXXYS SSr =YYiSSSEY YY Ymedia la para corregido SSTotalb por regresin la de SSR == =1) () () . . . . () . . . . . (2__2__ ^0 239 Anlisis de varianza en la regresin Prueba de hiptesis para el Coeficiente de correlacin r: H0: = 0 contra H1: = 0 Si se rechaza la hiptesis Ho, indicando que existe una correlacin significativa 2__1) ().211 , 2 (X XS n tbio2012rn rt=2 , 2 / 0 >nt to40 Riesgos de la regresin Los modelos de regresin son vlidos como ecuaciones de interpolacin sobre el rango de las variables utilizadas en el modelo. No pueden ser vlidas para extrapolacin fuera de este rango. Mientras que todos los puntos tienen igual peso en la determinacin de la recta, su pendiente est ms influenciada por los valores extremos de X.1. Y *A * * ***Sin A y B ** * * *B X 41 Riesgos de la regresin Los outliers u observaciones aberrantes pueden distorsionar seriamente el ajuste de mnimos cuadrados. Si se encuentra que dos variables estn relacionadas fuertemente, no implica que la relacin sea casual, se debe investigar la relacin causa efecto entre ellas. Por ejemplo el nmero de enfermos mentales vs. nmero de licencias recibidas. Y *A* ** * * * *** *** ** *** ** * * X 42 Clculo manual (cont..) Clculo de la recta de regresin lineal: Sxx = 9.28 - (9.4)^2/10 = 0.444 Sxy = 924.8 - (9.4)(959) / 10 = 23.34 Ymedia = 959 / 10 = 95.9Xmedia = 9.4 / 10 = 0.94 b1 = Sxy / Sxx = 23.34 / 0.444 = 52.57 b0 = Ymedia - b1*Xmedia = 95.9 - (52.5676)(0.94) = 46.49 Yest. = 46.49 + 52.57* X 43 Ejemplo (cont..) Clculo de S2 estimador de o S2 = SSE / (n - 2)= Syy - (Sxy)^2/Sxx Syy = 93,569 - (959)^2 / 10 = 1600.9 SSE = Syy - b1*Sxy = 1600.9 - (52.567)(23.34) = 373.97 S2 = SSE / (n - 2) = 373.97 / 8 = 46.75 S = 6.84 El intervalo de confianza donde caern el 95% de los puntos es el rango de 1.96S = 13.41 o sea a 13.41 de la lnea. 44 Ejemplo (cont..) Inferencias respecto a la pendiente de la lnea b1: Se usa el estadstico t = b1 / (S / \Sxx) El trmino del denominador es el error estndar de la pendiente. Para probar la hiptesis nula Ho: |1 = 0 En este casotc = 52.57 / (6.84 / \0.444) = 5.12 El valor crtico tcrit. para alfa/2 = 0.025con (n-2) = 8 grados de libertad es 2.306. Como tc > tcrtico se rechaza la hiptesis de que b1 = 0 existiendo la regresin.45 Ejemplo (cont..) Estableciendo un 95% de confianza para la pendiente de la recta b1. Usando la frmulab1 t0.025 (S / \Sxx) se tiene: 52.57 2.306 * 6.84 / \ 0.444 = 52.57 23.67. Por tanto una unidad de incremento en publicidad, har que el volumen de ventas se encuentre entre $28.9a $76.2. 46 Ejemplo (cont..) Clculo del coeficiente de Correlacin: ________ r = Sxy / \(SxxSyy) ____________ r = 23.34 / \0.444*1600.9 = 0.88 Como r es positivo, la pendiente de la recta apunta hacia arriba y a la derecha. El coeficiente de determinacin r^2 = 1 - SSE/Syy r^2 = ( Syy - SSE ) / Syy = 0.774 47 1. Teclear los datos para Xi y Yi 2. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o ANALISIS DE DATOS, CORRELATION o CORRELACIN 3. Dar INPUT RANGE (rango de datos), OUTPUT RANGE (para los resultados) y obtener los resultados Column 1Column 2 Column 11 0.875442 Column 20.8754421 El coeficiente de correlacin r = 0.875442 Anlisis de Regresin 48 Clculo con Excel) 4. Llamar a TOOLS o HERRAMIENTAS, DATA ANALYSIS o ANALISIS DE DATOS, REGRESION o REGRESIN 3. Dar INPUT RANGE Y (rango de datos Yi), INPUT RANGE X (rango de datos Xi), CONFIDENCE INTERVAL 95%, OUTPUT RANGE (para los resultados), RESIDUAL PLOTS o GRAFICAS DE RESIDUALES y obtener una tabla de resultados como los que se muestran en las pginas siguientes. NOTAS: a) La grfica de probabilidad normal debe mostrar puntos fcilmente aproximables por una lnea recta, indicando normalidad. B) La grfica de residuos estandarizados se deben distribuir en forma aleatoria alrededor de la lnea media igual a cero. Resultados de Excel SUMMARY OUTPUT Regression Statistics Multiple R0.875442R Square0.766398 Adjusted R Square0.737198Standard Error6.83715 Observations10 ANOVA dfSSMSFSignificance F Regression11226.927 1226.927 26.246330.000904 Residual 8373.973 46.74662Total91600.9 Confidence 95% Coefficients Standard Errort StatP-value LowerUpper Intercept 46.486499.8845664.7029360.001536 23.69262 69.28035 X Variable152.56757 10.26086 5.123117 0.00090428.9059776.22916 La ecuacin de la recta es Yest = 46.48649 + 52.56757 X Como los valores p para los coeficientes son menores a 0.05, ambos son significativos 50 Grfica normal de Excel Normal Probability Plot0204060801001201400 20 40 60 80 100Sample PercentileY51 Grfica de Residuos vs. X de Excel X Variable 1Residual Plot-10010200 0.5 1 1.5X Variable 1Residuals52 EjercicioCalcular la recta de prediccin con sus bandas de confianza, la correlacin y la determinacin para la respuesta de un Taxi, los datos se muestran a continuacin: DistanciaTiempo 0.8200 2.2400 1.0160 0.6120 1.0360 1.4280 2.2560 0.6320 53 Relaciones no Lineales Qu pasa si existe una relacin causal, no lineal? El siguiente es un conjunto de datos experimentales codificados, sobre resistencia a la compresin de una aleacin especial: Resistencia a Concentracin la Compresin xy 10.025.2 27.3 28.7 15.029.8 31.1 27.8 20.031.2 32.6 29.7 25.031.7 30.1 32.3 30.029.4 30.8 32.8 (ref. Walpole & Myers, 1985) Cmo describiraesta relacin? 54 Y = 19.0333 + 1.00857X - 2.04E-02X**2 R2 = 0.614Anlisis de Variancia FUENTEDFSSMS F p Regresin 2 38.9371 19.46869.544903.31E-03 Error 12 24.47622.0397 Total 14 63.4133 FUENTEDFSeq SSF p Lineal 1 28.0333 10.30056.84E-03 Cuadrtica1 10.9038 5.345843.93E-02 Resultados del Anlisis de Regresin - Modelo Cuadrtico 55 Regresin cuadrtica ObsXY FitSE FitResidualSt Resid 15.0 1.58201.33660.05190.24541.07 26.0 1.82201.57780.04730.24421.06 33.4 1.05700.95080.07030.10620.47 42.7 0.50000.78200.0806 -0.2820 -1.27 5 10.0 2.23602.54240.0875 -0.3064 -1.40 69.7 2.38602.47000.0828 -0.0840 -0.38 79.6 2.29402.43380.0804 -0.1398 -0.63 83.1 0.55800.86640.0753 -0.3084 -1.38 98.2 2.16602.09620.06090.06980.31 106.2 1.86601.62600.04720.24001.04 112.9 0.65300.83020.0776 -0.1772 -0.79 126.4 1.93001.66220.04740.26781.16 134.6 1.56201.24020.05550.32181.40 145.8 1.73701.52950.04760.20750.90 157.4 2.08801.91540.05300.17260.75 163.6 1.13700.99900.06750.13800.61 177.9 2.17902.02390.05740.15510.68 188.8 2.11202.25300.0694 -0.1410 -0.62 197.0 1.80001.81890.0500 -0.0189 -0.08 205.5 1.50101.44510.04900.05590.24 219.1 2.30302.32530.0737 -0.0223 -0.10 22 10.2 2.31002.59060.0907 -0.2806 -1.29 234.1 1.19401.11960.06110.07440.33 244.0 1.14401.08340.06290.06060.27 252.5 0.12300.72170.0845 -0.5987 -2.72R56 Regresin cuadrtica Analysis of Variance SourceDFSSMS FP Regression 18.92968.9296160.260.000 Residual Error231.28160.0557 Total 24 10.2112 57 Regresin cuadrtica Los residuos No son normales Se deben transformar Las variables Otros Patrones No Lineales A veces es posible transformar una o ambas variables, para mostrar mejor la relacin entre ambas. La meta es identificar la relacin matemtica entre las variables, para que con la variable transformada se obtenga una lnea ms recta. Algunas transformaciones comunes incluyen: x = 1/x x = Raz cuadrada de (x) x = log x Funciones trigonomtricas: x = Senode x 59 Trasformacin de funciones Ejemplo: sea se transforma comoFuncioneslinealizablesysuformalineal correspondiente. Figura 3.13 FuncinTransformacinForma lineal a,b 10||X Y= X X Y Y log ' , log ' = =' log '1 0X Y | | + =c,d Xe Y10|| = Y Y log ' = X Y1 0ln ' | | + =e,fX Y log1 0| | + = X X log ' = ' '1 0X Y | | + =g,h 1 0| | =XXYXXYY1' ,1' = = ' '1 0X Y | | =c ||Xe Y10=c | | ln ln ln1 0+ + = X Y' ' '1 0c | | + + = X Y60 Transformacin de variables del ejemplo de regresin cuadrtica Transformando la variable X = 1/X se tiene, utilizando MinitabThe regression equation is Y = 2.98 - 6.93 1/X PredictorCoef SE CoefTP Constant2.97886 0.0449066.340.000 1/X -6.93450.2064 -33.590.000 S = 0.09417 R-Sq = 98.0% R-Sq(adj) = 97.9% Obs1/XY FitSE FitResidualSt Resid 10.200 1.58201.59200.0188 -0.0100 -0.11 20.167 1.82201.82310.0199 -0.0011 -0.01 30.294 1.05700.93930.02740.11771.31 40.370 0.50000.41050.04040.08951.05 50.100 2.23602.28540.0276 -0.0494 -0.55 60.103 2.38602.26400.02710.12201.35 61 Transformacin de variables del ejemplo de regresin cuadrtica Transformando la variable X = 1/X se tiene, utilizando Minitab62 Transformacin de variables del ejemplo de regresin cuadrtica Los residuos ahora ya se muestran normales 63 Transformacin para homoestacidad de la varianza Algunas transformaciones para estabilizar la varianza Relacin de o2 a E(Y)Transformacin Y Y constante = ' .......... .......... ..........2o oY Y Y E = ' .... .......... .......... )......... (2o oDatos de Poisson | | Y sin Y Y E Y E1 2' ...... .......... ) ( 1 ) (= o o Proporciones binomiales | | ) ln( ' .......... .......... .......... ) (22Y Y Y E = o o| |2 / 132' ....... .......... .......... ) (= Y Y Y E o o64 Transformacin para homoestacidad de la varianza Ejemplo: Se hizo un estudio entre la demanda (Y) y la energa elctrica utilizada (X) durante un cierto periodo de tiempo ObsXY FitSE FitResidualSt Resid 16790.790 1.649 0.351-0.859 -0.61 22920.440 0.308 0.490 0.1320.10 3 10120.560 2.802 0.293-2.242 -1.57 44930.790 1.004 0.412-0.214 -0.15 55822.700 1.312 0.381 1.3880.98 6 11563.640 3.301 0.297 0.3390.24 79974.730 2.750 0.294 1.9801.38 8 21899.500 6.880 0.651 2.6202.00R9 10975.340 3.097 0.293 2.2431.57 10 20786.850 6.495 0.600 0.3550.27 11 18185.840 5.595 0.488 0.2450.18 12 17005.210 5.186 0.441 0.0240.02 137473.250 1.884 0.333 1.3660.96 14 20304.430 6.329 0.579-1.899 -1.42 15 16433.160 4.988 0.420-1.828 -1.31 164140.500 0.730 0.441-0.230 -0.17 173540.170 0.523 0.465-0.353 -0.25 18 12761.880 3.717 0.313-1.837 -1.29 197450.770 1.877 0.333-1.107 -0.78 204351.390 0.803 0.433 0.5870.42 215400.560 1.167 0.395-0.607 -0.43 228741.560 2.324 0.307-0.764 -0.53 23 15435.280 4.642 0.384 0.6380.45 24 10290.640 2.861 0.293-2.221 -1.55 257104.000 1.756 0.343 2.2441.58 65 Transformacin para homoestacidad de la varianza Ejemplo: Se hizo un estudio entre la demanda (Y) y la energa elctrica utilizada (X) durante un cierto periodo de tiempo The regression equation is Y = - 0.704 + 0.00346 X PredictorCoef SE CoefTP Constant-0.70380.6170-1.140.266 X 0.0034645 0.0005139 6.740.000 S = 1.462 R-Sq = 66.4% R-Sq(adj) = 64.9% Analysis of Variance SourceDFSSMS FP Regression 197.09497.094 45.450.000 Residual Error2349.136 2.136 Total 24 146.231 66 Transformacin para homoestacidad de la varianza Se observa que la varianza se incrementa conforme aumenta X 67 Transformacin para homoestacidad de la varianza Se observa que la varianza se incrementa conforme aumenta X 68 Transformacin para homoestacidad de la varianza Transformando a X por su raz cuadrada se tiene: ObsXSQR-Y FitSE FitResidualSt Resid 1679 0.88881.16940.1092 -0.2805 -0.64 2292 0.66330.77170.1524 -0.1084 -0.25 3 1012 0.74831.51150.0912 -0.7632 -1.71 4493 0.88880.97830.1280 -0.0894 -0.21 5582 1.64321.06970.11840.57351.31 6 1156 1.90791.65950.09220.24840.56 7997 2.17491.49610.09140.67881.52 8 2189 3.08222.72080.20240.36140.89 9 1097 2.31081.59890.09110.71201.60 10 2078 2.61732.60680.18670.01050.03 11 1818 2.41662.33970.15180.07700.18 12 1700 2.28252.21840.13710.06410.15 13747 1.80281.23920.10350.56351.27 14 2030 2.10482.55750.1800 -0.4527 -1.09 15 1643 1.77762.15980.1304 -0.3822 -0.88 16414 0.70710.89710.1372 -0.1900 -0.44 17354 0.41230.83540.1445 -0.4231 -0.98 18 1276 1.37111.78280.0974 -0.4116 -0.93 19745 0.87751.23720.1037 -0.3597 -0.81 20435 1.17900.91870.13470.26030.60 21540 0.74831.02650.1228 -0.2782 -0.64 22874 1.24901.36970.0955 -0.1207 -0.27 23 1543 2.29782.05710.11950.24070.55 24 1029 0.80001.52900.0910 -0.7290 -1.64 25710 2.00001.20120.10650.79881.81 69 Transformacin para homoestacidad de la varianza Transformando a X por su raz cuadrada se tiene: Regression Analysis: SQR-Y versus X The regression equation is SQR-Y = 0.472 + 0.00103 X PredictorCoef SE CoefTP Constant 0.47170.1918 2.460.022 X 0.0010275 0.0001598 6.430.000 S = 0.4544R-Sq = 64.3% R-Sq(adj) = 62.7% 70 Transformacin para homoestacidad de la varianza Transformando a X por su raz cuadrada se tiene: 71 Regresin lineal mltiple 72 Regresin mltiple Cuando se usa ms de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama anlisis de regresin mltiple, incluye el uso de ecuaciones lineales. Se asume que los errores cu tienen las caractersticas siguientes: Tienen media cero y varianza comno2. Son estadsticamente independientes. Estn distribuidos en forma normal. u uk k u u uX X X Y c | | | | + + + + + = .......2 2 1 1 073 Regresin mltiple Estimacin de los parmetros del modelo Se trata de minimizar los errores cuadrticos en: El modelo de regresin mltiple en forma matricial es: Y = X | + c = [1 : D] | + c Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la 1. columna es 1s. | es un vector de orden (k + 1) x 1. c es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k = =Nuuk u u u kX X Y R122 2 1 1 0 1 0) ..... ( ) ,..., , ( | | | | | | |74 Regresin mltiple Estimacin de los parmetros del modelo: b = (XX)-1XY El vector de valores ajustados se puede expresar como: La varianza del modelo se estima como:

Hy Y X X X X Xb Y = = =' ) ' (1Xb Y =e e e Y Y SSEnii i' )(12 2= = = =Xb X b Y X b Y Y Xb X b Xb Y Y X b Y Y Xb Y Xb Y SSE ' ' ' ' 2 ' ' ' ' ' ' ' ) ( )' ( + = + = =Y X b Y Y SSE ' ' ' =p NSSEMSE s= =275 Tamao de muestra Tomar 5 observaciones para cada una de las variables independientes, si esta razn es menor de5 a 1, se tiene el riesgo de sobreajustar el modelo Un mejor nivel deseable es tomar 15 a 20 observaciones por cada variable independiente 76 Ejemplo de regresin mltiple Un embotellador est analizando las rutas de servicio de mquinas dispensadoras, est interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las mquinas en el local (Y). La actividad de servicio incluye llenar la mquina con refrescos y un mantenimiento menor. Se tienen como variables el nmero de envases con que llena la mquina (X1) y la distancia que tiene que caminar (X2).77 Ejemplo de regresin mltiple X2-DistX1-CAS Y-TENT FitSE FitResidual St ResidObs 16.687.0 16.68021.708 1.040-5.028 -1.631 11.503.0 11.50010.354 0.867 1.1460.362 12.033.0 12.03012.080 1.024-0.050 -0.023 14.884.0 14.880 9.956 0.952 4.9241.584 13.756.0 13.75014.194 0.893-0.444 -0.145 18.117.0 18.11018.400 0.675-0.290 -0.096 08.002.08.000 7.155 0.932 0.8450.277 17.837.0 17.83016.673 0.823 1.1570.378 79.24 30.0 79.24071.820 2.301 7.4203.21RX9 21.505.0 21.50019.124 1.444 2.3760.8110 40.33 16.0 40.33038.093 0.957 2.2370.7211 21.00 10.0 21.00021.593 1.099-0.593 -0.1912 13.504.0 13.50012.473 0.806 1.0270.3313 19.756.0 19.75018.682 0.912 1.0680.3414 24.009.0 24.00023.329 0.661 0.6710.2115 29.00 10.0 29.00029.663 1.328-0.663 -0.2216 15.356.0 15.35014.914 0.795 0.4360.1417 19.007.0 19.00015.551 1.011 3.4491.1118 09.503.09.500 7.707 1.012 1.7930.5819 35.10 17.0 35.10040.888 1.039-5.788 -1.8720 17.90 10.0 17.90020.514 1.325-2.614 -0.8821 52.32 26.0 52.32056.007 2.040-3.687 -1.45 22 18.759.0 18.75023.358 0.662-4.608 -1.44 23 19.838.0 19.83024.403 1.132-4.573 -1.50 24 10.754.0 10.75010.963 0.841-0.213 -0.07 25 R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence. Durbin-Watson statistic = 1.17 78 Ejemplo de regresin mltiple Solucin matricial Matrix M5 = X' [ 1 1 1 1 1 1 1 1 1 1 1 1 17 3 3 4 6 7 2 730 51610 4560 220 34080 150 330 110 2101460 605 688 215 255 1 1 1 1 1 1 1 1 1 1 1 16 910 6 7 3171026 9 8 4462 448 776 200 13236 770 140 810 450 635 150 ] Matrix M6 = X'Y

[ 25 219 10232219305513389910232133899 6725688 ] Matrix M7 = X'Y

[ 5607375337072 ] 79 Ejemplo de regresin mltiple Solucin matricial Matrix M8 = INV(X'X) 0.113215 -0.004449 -0.000084-0.0044490.002744 -0.000048-0.000084 -0.0000480.000001 Matrix M9 = INV(X'X) X'Y

2.341231.615910.01438 The regression equation is Y-TENT = 2.34 + 1.62 X1-CAS + 0.0144 X2-DIST PredictorCoef SE CoefTP Constant2.341 1.097 2.130.044 X1-CAS 1.61590.1707 9.460.000 X2-DIST0.0143850.003613 3.980.001 S = 3.259 R-Sq = 96.0% R-Sq(adj) = 95.6% 80 Ejemplo de regresin mltiple Solucin matricial Clculo de la estimacin de la varianza: Data Display Matrix M10 = Y'

[ 16.6811.5012.0314.8813.7518.11 8.0017.8379.2421.5040.3321.0013.5019.7524.0029.0015.3519.00 9.5035.1017.9052.3218.7519.8310.75 ] Matrix M11 = Y'Y = 18310.6 Matrix M12 = b' = [ 2.34123 1.61591 0.01438 ] Matrix M13 = b'X'Y = 18076.9 Matrix M14 = SSe = Y'Y - b'X'Y = 233.732 624 . 103 25732 . 2332===p NSSSE 81 Ejemplo de regresin mltiple Solucin matricial Intervalo de confianza para Beta 1 Por tanto el intervalo de confianza para el 95% es: 1.26181 s |1 s 1.97001 ) ( ) (1 22 , 025 . 1 1 1 22 , 025 . 1b se t b b se t b + s s |) 17073 . 0 )( 074 . 2 ( 6191 . 1 ) 00274378 . 0 )( 6239 . 10 ( ) 074 . 2 ( 61591 . 11+ s s |82 Ejemplo de regresin mltiple Solucin matricial El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo: X1 = 8 envases y cuya distancia es X2 = 275 pies. La varianza de la Y0 estimada es (tomando M8=inv(XX) : ((((

=275810X| | minutos b X Y 22 . 1901438 . 061591 . 134123 . 2275 , 8 , 1 '0 0=((((

= =| | 56794 . 0 ) 05346 . 0 ( 6239 . 10275818 275 , 8 , 1 6239 . 10 ) ' ( ' )(01020= =((((

= =M X X X X S Y Var83 Ejemplo de regresin mltiple Solucin matricial El intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo es para 95% de nivel de confianza: Que se reduce a: 17.66 s Y0 s20.78 56794 . 0 074 . 2 22 . 19 56794 . 0 074 . 2 22 . 190+ s s Y84 Ejemplo de regresin mltiple Solucin matricial El anlisis de varianza es: Analysis of Variance SST = 18,310.629 - 25) 6 . 559 (2 = 5784.5426 SSR = 18,076.930 - 25) 6 . 559 (2 = 5,550.8166 SSE = SST SSR = 233.7260 24 . 2616239 . 104083 . 27750= = =MSEMSRF 44 . 322 , 2 , 05 . 0= F Como la F calculada es mayor que la F de tablas, se concluye que existe el modelo con alguno de sus coeficientes diferente de cero Con el paquete Minitab se obtuvo lo siguiente: SourceDFSSMS FP Regression 25550.82775.4261.240.000 Residual Error22 233.7 10.6 Total 245784.5 85 Ejemplo de regresin mltiple Solucin matricial El comportamiento de los residuos es como sigue: 86 Multicolinealidad La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de tal forma que si hay una dependencia lineal exacta har que la matriz XX sea singular. La presencia de dependencias cercanamente lineales impactan dramticamente en la habilidad para estimar los coeficientes de regresin. La varianza de los coeficientes de la regresin son inflados debido a la multicolinealidad. Es evidente por los valores diferentes de cero que no estn en la diagonal principal de XX. Que soncorrelaciones simples entre los regresores.87 Multicolinealidad Una prueba fcil de probar si hay multicolinealidad entre dos variables es que su coeficiente de correlacin sea mayor a 0.7 Los elementos de la diagonal principal de la matriz XX se denominan Factores de inflacin de varianza (VIFs) y se usan como un diagnstico importante de multicolinealidad. Para el componente j simo se tiene: Si es mayor a 10 implica que se tienen serios problemas de multicolinealidad. 211jjRVIF=88 Anlisis de los residuos Los residuos graficados vs la Y estimada, pueden mostrar diferentes patrones indicando adecuacin o no adecuacin del modelo: Grfica de residuos aleatorios cuya suma es cero (null plot) indica modelo adecuado Grfica de residuos mostrando una no linealidad curvilnea indica necesidad de transformar las variables Si los residuos se van abriendo indica que la varianza muestra heteroestacidad y se requiere transformar las variables. Se puede probar con la prueba de Levene de homogeneidad de varianzas 89 Escalamiento de residuos En algunos casos es difcil hacer comparaciones directas entre los coeficientes de la regresin debido a que la magnitud de bj refleja las unidades de medicin del regresor Xj. Por ejemplo: Para facilitarla visualizacin de residuos ante grandes diferencias en los coeficientes, se sugiere estandarizar o estudentizar los residuos 2 11000 5X X Y + + =90 Escalamiento de residuos Residuos estandarizados Se obtienen dividiendo cada residuo entre la desviacin estndar de los residuos Despus de la estandarizacin, los residuos tienen una media de 0 y desviacin estndar de 1 Con ms de 50 datos siguen a la distribucin t, de manera que si exceden a 1.96 (lmite para alfa 0.05) indica significancia estadstica y son outliers ,MSEedii =91 Escalamiento de residuos Residuos estudentizados Son similares a los residuos donde se elimina una observacin y se predice su valor, pero adems se elimina la i-sima observacin en el clculo de la desviacin estndar usada para estandarizar la -sima observacin Puede identificar observaciones que tienen una gran influencia pero que no son detectadas por los residuos estandarizados H = X (XX)-1X es la matriz sombrero o hat matriz.,) 1 (iiiih MSEer=92 Escalamiento de residuos El estadstico PRESS (Prediction Error Sum of Squares) es una medida similar a la R2 en la regresin. Difiere en que se estiman n-1 modelos de regresin. En cada modelo se omite una observacin en la estimacin del modelo de regresin y entonces se predice el valor de la observacin omitida con el modelo estimado. El residuo isimo ser: El residuo PRESS es la suma al cuadrado de los residuos individuales e indica una medida de la capacidad de prediccin ) ( ) ( i i iY Y e =| | = ==2) (12) ( i iNiiY Y e PRESSYYediccinSPRESSR =12Pr93 Grficas parciales de regresin Para mostrar el impacto de casos individuales es ms efectiva la grfica de regresin parcial. Un caso outlier impacta en la pendiente de la ecuacin de regresin (y su coeficiente). Una comparacin visual de la grfica de regresin parcial con y sin la observacin muestra la influencia de la observacin El coeficiente de correlacin parcial es la correlacin de la variable independiente Xila variable dependiente Y cuando se han eliminado de ambos Xi y Y La correlacin semiparcial refleja la correlacin entre las variables independiente y dependiente removiendo el efecto Xi94 Matriz sombrero Los puntos de influencia son observaciones substancialmente diferentes de las observaciones remanentes en una o ms variables independientes Contiene valores (sombrero en su diagonal) para cada observacin que representa influencia. Representa los efectos combinados de todos las variables independientes para cada caso95 Matriz sombrero Los valores en la diagonal de la matriz sombrero miden dos aspectos: Para cada observacin miden la distancia de la observacin al centro de la media de todas las observaciones de las variables independientes Valores altos en la diagonal indica que la observacin tiene mucho peso para la prediccin del valor de la variable dependiente, minimizando su residuo El rango de valores es de 0 a 1, con media p/n, p es el nmero de predictores y n es el tamao de muestra. Valores lmite se encuentran en 2p/n y 3p/n 96 Distancia de Mahalanobis D2 es una medida comparable a los valores sombrero (hat values) que considera slo la distancia de una observacin del valor medio de las variables independientes. Es otra forma de identificar outliers La significancia estadstica de la distancia de Malahanobis se puede hacer a partir de tablas del texto: Barnett, V., Outliers in Statistical Data, 2nd. Edition, Nueva York, Wiley, 2984 97 Influencia en coeficientes individuales El impacto de eliminar una observacin simple en cada uno de los coeficientes de la regresin mltiple se muestra con la DFBETA y su versin estandarizada SDFBETA. Se sugiere aplicar como lmites 1.0 o 2 para tamaos de muestra pequeos y n para muestras medias y grandes La distancia de Cook (Di) captura el impacto de una observacin: La dimensin del cambio en los valores pronosticados cuando se omite la observacin y la distancia de las otras observaciones, el lmite es 1 o 4/(n-k-1) Influencia en coeficientes individuales La medida COVRATIO estima el efecto de la observacin en la eficiencia del proceso, en sus errores estndar de los coeficientes de la regresin. Considera a todos los coeficientes colectivamente. El lmite puede ser establecido en 1 3p/n, los valores mayores al lmite hacen el proceso ms eficiente y los menores ms ineficiente Lamedida SDFFIT es el grado en que cambian los valores ajustados o pronosticados cuando el caso se elimina. El valor lmite es 2*raz((k+1)/(n-k-1)) 99 Ejemplo de regresin mltiple Solucin con Excel y Minitab 100 Ejemplo de Regresin Mltiple Cat. (US News)GMAT Salario Inicial ($)% Aceptacin Stanford1711820007.4 Harvard26708000012.8 Penn (Wharton)36627900014.7 MIT (Sloan)46507800015.1 Chicago56806500025.0 Northwestern66607000016.0 Columbia76608300014.8 Dartmouth86707000012.6 Duke96466750020.5 Berkeley106537000013.3 Virginia116606600018.9 Michigan126456500028.0 NYU136467058320.9 Carnegie Mellon146406720030.8 Yale156756500023.5 U.N.C.166306000019.8 UCLA176516500017.5 Texas-Austin186306000027.3 Indiana196306150044.7 Cornell206376400025.4 Rochester216305850036.0 Ohio State226116100023.2 Emory236266000033.0 Purdue246036370020.7 Maryland256405300018.9 Interpretacin de Resultados de Excel- Regresin Multiple SUMMARY OUTPUT Regression Statistics Multiple R 0.8749313R Square0.76550478 Adjusted R Square0.732005463Standard Error4050.855918 Observations25 ANOVA dfSSMSFSignificance F Regression31.12E+09 374977790.122.8513558.17E-07 Residual213.45E+08 16409433.67 Total241.47E+09 Coefficients Standard t Stat P-valueLower 95%U pper 95% Error Intercept122481.4041473.13 2.9532710810.007589 36233.29208729.5 X Variable1 -926.873 198.8104-4.6620943250.0001336-1340.32-513.424 X Variable2 -59.948860.44875-0.9917308760.3326192 -185.65965.76118 X Variable3 -191.7291 125.6138 -1.5263376370.1418472-452.95769.49917 Resultados de Excel- Regresin slo con slo X1 SUMMARY OUTPUT Regression Statistics Multiple R 0.855974R Square0.732691 Adjusted R Square0.721069Standard Error4132.688Observations25 ANOVA dfSSMS F Significance F Regression11.08E+09 1.08E+09 63.042644.88E-08 Residual233.93E+08 17079107Total241.47E+09 Coefficients Standard Errort StatP-valueLower 95%Upper 95% Intercept79230.321703.95146.49801 2.98E-2475705.43405 82755.20595 X Variable1 -910.077114.6201-7.939944.88E-08-1147.186411 -672.9674353 Con slo X1, el Modelo se simplifica enormemente poca importancia prctica se pierde en R2 (ajustada) La ecuacin de regresin es: y = 79230 - 910 x Predictor CoefDesv. EstndarTp Constante 792301704 46.500.000 x-910.1114.6-7.940.000 S = 4133R2 = 73.3% R2 (ajustada) = 72.1% Anlisis de Variancia Fuente DFSSMS Fp Regresin110767120081076712008 63.040.000 Error 2339281947017079107 Total 241469531477 Reduccin del Modelo Vuelva a correr la regresin usando la categora US News, como el nico agente de prediccin (predictor) El Modelo se simplifica enormemente..pocaimportancia prctica se pierde en R2 (ajustada) 104 Corrida en Minitab Se introducen los datos en varias columnas C1 a C5 incluyendo la respuesta Y (heatflux) y las variables predictoras Xs (North, South, East) HeatFlux InsolationEastSouthNorth 271.8783.3533.5340.5516.66 264.0748.4536.5036.1916.46 238.8684.4534.6637.3117.66 230.7827.8033.1332.5217.50 251.6860.4535.7533.7116.40 257.9875.1534.4634.1416.28 105 Corrida en Minitab Utilzar el archivo de ejemplo Exh_regr.mtw Opcin: Stat > Regression > Regression Para regresin lineal indicar la columna de respuesta Y (Score2) y X (Score1) En Regresin lienal en opciones se puede poner un valor Xo para predecir la respuesta e intervalos. Las grficas se obtienen Stat > Regression > Regression > Fitted line Plots Para regresin mltiple Y (heatflux) y las columnas de los predictores (north, south, east) 106 Resultados de la regresin lineal The regression equation is Score2 = 1.12 + 0.218 Score1 PredictorCoef SE CoefTP Constant 1.11770.109310.230.000 Score10.21767 0.0174012.510.000 S = 0.1274R-Sq = 95.7% R-Sq(adj) = 95.1% Analysis of Variance SourceDFSSMS FP Regression 12.54192.5419156.560.000 Residual Error 70.11360.0162 Total82.6556 Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 12.6414 0.0474 (2.5292,2.7536)(2.3197,2.9631)New ObsScore1 17.00 107 Resultados de la regresin lineal 9 8 7 6 5 4 3 23.52.51.5Score1Score2S = 0.127419R-Sq = 95.7 %R-Sq(adj) = 95.1 %Score2 = 1.11771 + 0.217670 Score195% PI95% CIRegressionRegression Plot108 Resultados de la regresin Mltiple The regression equation is HeatFlux = 389 - 24.1 North + 5.32 South + 2.12 East PredictorCoef SE CoefTP Constant 389.17 66.09 5.890.000 North -24.132 1.869 -12.920.000 South5.31850.9629 5.520.000 East2.125 1.214 1.750.092 S = 8.598 R-Sq = 87.4% R-Sq(adj) = 85.9% Analysis of Variance SourceDFSSMS FP Regression 3 12833.94278.0 57.870.000 Residual Error251848.173.9 Total 28 14681.9 Source DFSeq SS North 1 10578.7 South 12028.9 East1 226.3 109 La regresin slo puede utilizarse con informacin de variables continuas. Los residuos deben distribuirse normalmente con media cero. Importancia prctica: (R2). Importancia estadstica: (valores p) La regresin puede usarse con un predictor X o ms, para una respuesta dada Reduzca el modelo de regresin cuando sea posible, sin perder mucha importancia prcticaResumen de la Regresin 110 VI.A.4 Herramientas multivariadas 111 Herramientas multivariadas 1. Introduccin 2. Anlisis de componentes principales 3. Anlisis factorial 4. Anlisis discriminante 5. MANOVA 112 Introduccin En el anlisis multivariado se incluyen dos o ms variables dependientes Y1, Y2, etc. Consideradas simultneamente para las variables independientes X1, X2, ., Xn Normalmente se resuelven con herramientas computacionales tales como Minitab y SPSS. Entre las herramientas principales se encuentran: Componentes principales, anlisis factorial, anlisis discriminante, anlisis de conglomerados, anlisis cannico, MANOVA 113 Anlisis de componentes principales El anlisis (PCA) y el anlisis factorial (FA) se usan para encontrar patrones de correlacin entre muchas variables posibles y subconjuntos de datos Busca reducirlas a un menor nmero de componentes o factores que representen la mayor parte de la varianza. Normalmente se requieren al menos cinco observaciones por variable 114 Anlisis de componentes principales Pasos de anlisis en Minitab Se usa una matriz de correlacin para determinar la relacin entre componentes Las matrices definen cantidades como eigenvalores y eigenvectores Se suman los eigenvalores y se calculan las proporciones de cada componente Se identifican los PC1, PC2, que explican la mayor parte de la varianza Se puede hacer un diagrama de Pareto como apoyo 115 Ejemplo: Alimentos en Europa PasRMEATWMEATEGGSMILKFISHCERLSTARCHNUTSFR-VEG 110.11.40.58.90.242.30.65.51.7 28.9144.319.92.1283.61.34.3 313.59.34.117.54.526.65.72.14 47.861.68.31.256.71.13.74.2 59.711.42.812.5234.351.14 610.610.83.7259.921.94.80.72.4 78.411.63.711.15.424.66.50.83.6 89.54.92.733.75.826.35.111.4 9189.93.319.55.728.14.82.46.5 1010.232.817.65.941.72.27.86.5 115.312.42.99.70.340.145.44.2 1213.9104.725.82.2246.21.62.9 1395.12.913.73.436.82.14.36.7 149.513.63.623.42.522.44.21.83.7 159.44.72.723.39.7234.61.62.7 166.910.22.719.3336.15.926.6 176.23.71.14.914.2275.94.77.9 186.26.31.511.1149.63.15.32.8 197.13.43.18.6729.25.75.97.2 209.97.83.524.77.519.53.71.42 2113.110.13.123.82.325.62.82.44.9 2217.45.74.720.64.324.34.73.43.3 239.34.62.116.6343.66.43.42.9 2411.412.54.118.83.418.65.21.53.8 254.451.29.50.655.935.73.2 X1X2X3X4X5X6 X7 X8 X9 116 Corrida en Minitab 2Stat > Multivariate > Principal components 3En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4En Number of factors to extract, 3. Seleccionar Correlation Matrix 5Click Graphs y seleccionarScree Plot, Score plot for first 2 components Loading plot for first 2 components 8Click Storage e indicar las columnas donde se guarden los coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2 9. Click OK en cada uno de los cuadros de dilogo117 Ejemplo: Alimentos en Europa Component NumberEigenvalue9 8 7 6 5 4 3 2 143210Scree Plot of RMEAT, ..., FR-VEG First ComponentSecond Component0.4 0.3 0.2 0.1 0.0 -0.1 -0.2 -0.3 -0.4 -0.50.20.10.0-0.1-0.2-0.3-0.4-0.5-0.6-0.7FR-VEGNUTSSTARCHCERLFISHMILKEGGSWMEATRMEATLoading Plot of RMEAT, ..., FR-VEGDos componentes exceden El eigenvalor de ref. de 1 118 Ejemplo: Alimentos en Europa Se tiene la grfica siguiente de pases: Europa occidentalEuropa orientalBalcanes Z1Z24 3 2 1 0 -1 -2 -3210-1-2-3-4-5252423 2221201918171615141312 1110987654321Scatterplot of Z2 vs Z1

Pennsula ibrica 119 Anlisis factorial Es una tcnica de reduccin de variables para identificar factores que expliquen la variacin, aunque se reiere un juicio subjetivo. Las variables de salida estn relacionadas linealmente con las variables de entrada. Las variables deben ser medibles y simtricas. Debe haber cuatro o ms factores de entrada para cada variable independiente 120 Anlisis factorial Se especifican un cierto nmero de factores comunes El anlisis factorial se hace en dos etapas: Extraccin de factores, para identificar los factores principales para un estudio posterior Rotacin de factores, para hacerlos ms significativos 121 Corrida con Minitab 2Stat > Multivariate > Factor Analysis. 3En Variables, X1, X2, X3, X4, X6, X7, X8, X9 4En Number of factors to extract, 4. En Method of Extraction, seleccionar Principal components 6En Type of Rotation, seleccionar Varimax. 7Click Graphs y seleccionarLoading plot for first 2 factors y Scree Plot.Click Results y seleccionar Sort loadings.Seleccionar Storage e indicar columnas para ponderaciones, coeficientes, Zs, eigenvalores, etc. Click OK en cada uno de los cuadros de d122 Ejemplo First FactorSecond Factor1.00 0.75 0.50 0.25 0.00 -0.25 -0.500.500.250.00-0.25-0.50-0.75-1.00FR-VEGNUTSSTARCHCERLFISHMILKEGGSWMEATRMEATLoading Plot of RMEAT, ..., FR-VEGRotated Factor Loadings and Communalities Varimax Rotation VariableFactor1Factor2Factor3Factor4Communality X1 RMEAT 0.051 -0.9310.0140.0370.871 X2 WMEAT 0.943 -0.127 -0.1000.0500.918 X3 EGGS0.628 -0.6640.1630.0200.862 X4 MILK0.197 -0.6100.2190.5790.795 X5 FISH -0.226 -0.0880.921 -0.1040.919 X6 CERL -0.3950.549 -0.624 -0.1450.867 X7 STARCH0.515 -0.0040.683 -0.0260.732 X8 NUTS -0.6380.263 -0.326 -0.5150.849 X9 FR-VEG -0.0100.0030.178 -0.9370.910 Variance 2.2054 2.0749 1.9273 1.5165 7.7240 % Var 0.2450.2310.2140.1680.858 123 Ejemplo: Z1Z22 1 0 -1 -2210-1-2YugoslaviaAlemania OccRusiaReino UnidoSuizaSueciaEspaaRumaniaPortugalPoloniaNoruegaHolandaItaliaIrlandaHungraGreciaFranciaFinlandiaAlemania orienDinamarcaChecaBulgariaBlgicaAutriaAlbaniaScatterplot of Z2 vs Z1 124 Anlisis discriminante Si se tiene una muestra con grupos conocidos, el anlisis discriminante clasifica las observaciones o atributos en dos o ms grupos Puede utilizarse como herramienta predictiva o descriptiva Las variables deben ser multivariadamente normales, con la misma varianza y covarianza poblacional entre variables dependientes, y las muestras exhiben independencia 125 Ejemplo de actividades en pases No Grupo CiudadAgrMinManPsConSerFinSpsTc 1 1 Blgica3.30.927.60.98.219.16.226.67.2 2 1 Dinamarca9.20.121.80.68.314.66.532.27.1 3 1 Francia10.80.827.50.98.916.86.022.65.7 4 1 Alemania Occ.6.71.335.80.97.314.45.022.36.1 5 1 Irlanda23.21.020.71.37.516.82.820.86.1 6 1 Italia15.90.627.60.510.018.11.620.15.7 7 1 Luxenburgo7.73.130.80.89.218.54.619.26.2 8 1 Holanda6.30.122.51.09.918.06.828.56.8 9 1 Inglaterra2.71.430.21.46.916.95.728.36.4 10 1 Austria12.71.130.21.49.016.84.916.87.0 11 1 Finlandia13.00.425.91.37.414.75.524.37.6 12 2 Grecia41.40.617.60.68.111.52.411.06.7 13 1 Noruega9.00.522.40.88.616.94.727.69.4 14 2 Portugal27.80.324.50.68.413.32.716.75.7 15 2 Espaa22.90.828.50.711.59.78.511.85.5 16 1 Suecia6.10.425.90.87.214.46.032.46.8 17 1 Suiza7.70.237.80.89.517.55.315.45.7 18 2 Turqua66.80.77.90.12.85.21.111.93.2 19 3 Bulgaria23.61.932.30.67.98.00.718.26.7 20 3 Checa16.52.935.51.28.79.20.917.97.0 21 3 Alemania Ori.4.22.941.21.37.611.21.222.18.4 22 3 Hungra21.73.129.61.98.29.40.917.28.0 23 3 Polonia31.12.525.70.98.47.50.916.16.9 24 3 Rumania34.72.130.10.68.75.91.311.75.0 25 3 Rusia23.71.425.80.69.26.10.523.69.3 26 3 Yugoslavia48.71.516.81.14.96.411.35.34.0 126 Corrida con Minitab 2Stat > Multivariate > Discriminant Analysis. 3En Groups, poner SalmonOrigin. 4En Predictors, poner Freshwater Marine. Click OK. 127 Corrida con Minitab Canonical Discri minant FunctionsFunction 16 4 2 0 -2 -4 -6Function 23210-1-2-3-4GRUPOGroupCentroids321321128 Anlisis de conglomerados 129 Anlisis de conglomerados Se usa para determinar agrupaciones o clasificaciones de un conjunto de datos Las personas se pueden agrupar por IQ, padres, hbitos de estudio, etc. Se trata de dar sentido a grandes cantidades de datos de cuestionarios, ecnuestas, etc. 130 Ejemplo Suponer que un estudio de mercado trata de determinar segmentos de mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2), medidas del 0 al 10 en 7 personas (A-G).VariablesV1V2 A32 B45 C47 D27 E66 F77 G64 131 Corrida en Minitab Stat > Multivariate Anlisis > Cluster Observations Distance Measured EuclideanSeleccionar Show DendogramOK ObservationsDistance7 6 5 4 3 2 13.162.111.050.00Dendrogram with Single Linkage and Euclidean Distance132 Anlisis de correlacin cannico Prueba la hiptesis de que los efectos pueden tener causas mltiples y de que las causas pueden tener efectos mltiples (Hotelling 1935) Es como una regresin mltiple para determinar la correlacin entre dos conjuntos de combinaciones lieneales, cada conjunto puede tener varias variables relacionadas. La relacin de un conjunto de variables dependientes a un conjunto de variables independientes forma combinaciones lineales 133 Anlisis de correlacin cannico Se usan los ms altos valores de correlacin para los conjuntos. Los pares de combinaciones lineales se denominan variates cannicas con correlaciones cannicas (Rc con valor mayor a 0.3) Por ejemplo se quiere determinar si hay una correlacin entre las caractersticas de un ingeniero industrial y las habilidades requeridas en la descripcin de puesto del mismo ingeniero. 134 MANOVA(Anlisis de varianza mltiple) Es un modelo para analizar la relacin entre una o ms variables independientes y dos o ms variables dependientes Prueba si hay diferencias significativas en las medias de grupos de una combinancin de respuestas Y. Los datos deben ser normales, con covarianza homogenea y observaciones independientes 135 MANOVA(Anlisis de varianza mltiple) 136 Diferencias de ANOVA y MANOVA 137 Ejemplo:Extrusin de pelcula plstica Se realiza un estudio para determinar las condiciones ptimas para extruir pelcula plstica. Se miden tres respuestas Tear, gloss y opacity cinco veces en cada combinacin de dos factores tasa de extrusin y cantidad de aditivo cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias. 138 Ejemplo:Extrusin de pelcula plstica TearGlossOpacityExtrusinAdditive 6.59.54.411 6.29.96.411 5.89.6311 6.59.64.111 6.59.20.811 6.99.15.712 7.210212 6.99.93.912 6.19.51.912 6.39.45.712 6.79.12.821 6.69.34.121 7.28.33.821 7.18.41.621 6.88.53.421 7.19.28.422 78.85.222 7.29.76.922 7.510.12.722 7.69.21.922 139 Ejemplo:Extrusin de pelcula plstica 1Abrir el archivoEXH_MVAR.MTW. 2Seleccionar Stat > ANOVA > Balanced MANOVA. 3En Responses, poner Tear Gloss Opacity.4En Model, poner Extrusion | Additive. 5Click Results. En Display of Results, seleccionar Matrices (hypothesis, error, partial correlations) y Eigen analysis.6Click OK en cada cuadro de dilogo. 140 Ejemplo Criterion StatisticFNumDenomP Wilks'0.381867.5543 140.003 SSCP Matrix for Extrusion Tear GlossOpacity Tear1.740-1.505 0.8555 Gloss-1.505 1.301-0.7395 Opacity 0.855-0.739 0.4205 SSCP Matrix for Error TearGlossOpacity Tear1.764 0.0200 -3.070 Gloss 0.020 2.6280 -0.552 Opacity-3.070-0.5520 64.924 Partial Correlations for the Error SSCP Matrix Eigenvector1 23 Tear0.65410.4315 0.0604 Gloss-0.33850.5163 0.0012 Opacity 0.03590.0302-0.1209 141 Ejemplo:Extrusin de pelcula plstica Las matrices SSCP evalan la contribucin a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. Las correlaciones parciales entre Tear y Gloss son pequeas. Como la estructura de las correlaciones es dbil, se pueden realizar anlisis univariados de ANOVA para cada una de las respuestas.142 VI.A.4 Estudios Multivari 143 Estudios Multivari La carta multivari permite analizar la variacin dentro de la pieza, de pieza a pieza o de tiempo en tiempo Permite investigar la estabilidad de un proceso consiste de lneas verticales u otro esquema en funcin del tiempo. La longitud de la lnea o del esquema representa el rango de valores encontrados en cada conjunto de muestras 144 Estudios Multivari La variacin dentro de las muestras (cinco puntos en cada lnea). La variacin de muestra a muestra como posicin vertical de las lneas. E S P E S O R Nmero de subgrupo 145 Estudios Multivari Ejemplo de parte metlica Centro ms grueso 146 Estudios Multivari Procedimiento de muestreo: Seleccionar el proceso y la caracterstica a investigar Seleccionar tamao de muestra y frecuencia de muestreo Registrar en una hoja la hora y valores para conjunto de partes 147 Estudios Multivari Procedimiento de muestreo: Realizar la carta Multivari Unir los valores observados con una lnea Analizar la carta para variacin dentro de la parte, de parte a parte y sobre el tiempo Puede ser necesario realizar estudios adicionales alrededor del rea de mxima variacin aparente Despus de la accin de mejora comprobar con otro estudio Multivari 148 Su propsito fundamental es reducir el gran nmero de causas posibles de variacin, a un conjunto pequeo de causas que realmente influyen en la variabilidad. Sirven para identificar el patrn principal de variacin de entre tres patrones principales: Temporal: Variacin de hora a hora; turno a turno; da a da; semana a semana; etc. Cclico: Variacin entre unidades de un mismo proceso; variacin entre grupos de unidades; variacin de lote a lote. Cartas Multivari 149 Posicional: Variaciones dentro de una misma unidad (ejemplo: porosidad en un molde de metal) o a travs de una sola unidad con mltiples partes (circuito impreso). Variaciones por la localizacin dentro de un proceso que produce mltiples unidades al mismo tiempo. Por ejemplo las diferentes cavidades de un molde Variaciones de mquina a mquina; operador a operador; planta a planta Cartas Multivari 150 Ejemplo: Se toman 3 a 5 unidades consecutivas, repitiendo el proceso tres o ms veces a cierto intervalo de tiempo, hasta que al menos el 80% de la variacin en el proceso se ha capturado. A 1 234527 28 29 30 31 55 56 57 58 59 VARIACIN POSICIONAL DENTRO DE LA UNIDAD Cartas Multivari 151 Ejemplo: (cont...) B 1 234527 28 29 30 31 55 56 57 58 59 VARIACIN CCLICA DE UNIDAD A UNIDAD Cartas Multivari 152 Ejemplo: (cont...) C 1 234527 28 29 30 31 55 56 57 58 59 VARIACIN TEMPORAL DE TIEMPO A TIEMPO Cartas Multivari 153 Ejemplo: Un proceso produce flecha cilndricas, con un dimetro especificado de 0.0250 0.001. Sin embargo un estudio de capacidad muestra un Cp = 0.8 y una dispersin natural de 0.0025 (6 o ) contra la permitida de 0.0002. Se tiene pensado comprar un torno nuevo de US$70,000 para tolerancia de 0.0008, i.e. Cpk = 1.25. Se sugiri un estudio Multi Vari previo. Cartas Multivari 154 Se tomaron cuatro lecturas en cada flecha, dos a cada lado. Estas muestran una disminucin gradual desde el lado izquierdo al lado derecho de las flechas, adems de excentricidad en cada lado de la flecha. La variacin cclica, de una flecha a la siguiente, se muestra mediante las lneas que concentran las cuatro lecturas de cada flecha. Tambin se muestra la variacin temporal. Cartas Multivari 155 .0.2510 0.2500 0.2490 Cartas Multivari Mximo Mnimo Izquierda Derecha 8 AM 9 AM10 AM11 AM12 AM 156 Un anlisis rpido revela que la mayor variacin es temporal con un cambio mayor entre las 10 AM y las 11 AM. A las 10 AM se para el equipo para el almuerzo y se arranca a las 11 AM, con lecturas similares a las de las 8 AM. Conforme pasa el tiempo las lecturas tienden a decrecer ms y ms, hasta que se invierten a las 10 A.M. en forma drstica. Se investig y se encontr que la temperatura tena influencia en la variacin. La variacin en temperatura era causada por que la cantidad de refrigerante no era la adecuada, lo cual se notaba ms cuando se paraba el equipo y se volva a arrancar. Se adicion, reduciendo la variacin en 50% aproximadamente..

Cartas Multivari 157 Tambin se encontr que el acabado cnico era causado por que la herramienta de corte estaba mal alineada. Se ajust, contribuyendo a otra reduccin del 10% de la variabilidad. La excentricidad de las flechas se corrigi al cambiar un rodamiento excntrico por desgaste en el torno. Se instal un nuevo rodamiento eliminndose otro 30% de la variabilidad. La tabla siguiente muestra un resumen de los resultados.Cartas Multivari 158 Tipo de% var.Causas deAccin % de variacin VariacinTotalVariacinCorrectivaReducida Temporal50Bajo nivel de Adicionar Casi 50 Tiempo a tiempoRefrigeranterefrigerante Dentro de 10Ajuste no Ajuste de laCasi 10 la flechano paraleloherramienta decorte Dentro de 30 RodamientoNuevoCasi 30 la flechagastadorodamiento Flecha a 5-???-- flecha Cartas Multivari 159 Resultados: La variacin total en la siguiente corrida de produccin se redujo de 0.0025 a 0.0004 El nuevo Cp fue de 0.002 / 0.0004 = 5.0 Como beneficios se redujo a cero el desperdicio y no hubo necesidad de adquirir una nueva mquina. Se observa que antes de cambiar equipo o mquinas, es conveniente realizar un estudio de variabilidad para identificar las fuentes de variacin y tratar de eliminarlas. Cartas Multivari 160 Variacin desist. medicinVariacindeprocesoPieza apiezaLote a loteDentro dela piezaMquina amquinaTurno aturnoTiempo atiempoDimetro de Flecha (0.150" +/- .002) ProgramaMquina Accesorios Operador a operador Ejemplo: Bsqueda de fuentes de variacin con eldiagrama sistemtico. Cartas Multivari 161 Ejemplo (cont..): Al realizar la prueba dehomogeneidad de varianza F, se encontr que haba una diferenciasignificanteentre los operadores. Se RechazaHo: o2Oper1 = o2Oper2 = o2Oper3 Para probar si existe diferencia significativa entre medias de operadores se hacen las siguientes comparaciones Ho: Oper1 = Oper2 Ho: Oper1 = Oper3 Ho: Oper2 = Oper3Ha: Oper1 =Oper2= Oper3 Cartas Multivari 162 Corrida en Minitab Se introducen los datos en varias columnas C1 a C3 incluyendo la respuesta (strenght) y los factores (time y Metal) SinterTimeMetalTypeStrength 0.51523 0.51520 0.51521 0.51822 0.51819 0.51820 0.52119 0.52118 163 Corrida en Minitab Utilizar el achivo de ejemplo Sinter.mtw Opcin: Stat > Quality Tools > Multivari charts Indicar la columna de respuesta y las columnas de los factores En opciones se puede poner un ttulo y conectar las lneas 164 Resultados21 18 1523.522.521.520.519.518.517.5MetalTypeStrength0.5 1.0 2.0 Multi-Vari Chart for Strength by SinterTime - MetalTypeSinterTime165 VI.A.5 Anlisis de datospor atributos 166 Anlisis de datos por atributos Si los CTQs son variables continuas, se usa la regresin, dependiendo de la naturaleza de la caracterstica crtica para el cliente (CTSs) como ste la expresa: CTS HERRAMIENTA Nominal (Verde, Rojo, azul) Regresin Logstica Nominal Atributo (Pasa/No pasa)Regresin Logstica Binaria Ordinal (1, 2, 3, 4, 5)Regresin Logstica Ordinal 167 Anlisis de datos por atributos El anlisis de datos por atributos se organiza en valores, categoras o grupos dicotmicos Las decisiones incluyen: si / no, pasa / no pasa, bueno / malo, pobre/justo/bueno/superior/excelente, etc. Entre los modelos no lineales de regresin usados se tienen: regresin logstica, regresin logit y regresin probit 168 Anlisis de datos por atributos Regresin logstica Relaciona variables independientes categricas a una variable dependiente (Y). Minitab incluye los modelos binario, ordinal y nominal Regresin logit Es subconjunto del modelo log-lineal. Tiene solo una variable dependiente, usa determinaciones de probabilidad o tasa de probabilidad 169 Anlisis de datos por atributos Regresin probit Es similar a la prueba de vida acelerada, la unidad se somete a esfuerzo con la respuesta pasa/falla, bueno o malo. Es una respuesta binaria en un tiempo de falla futuro 170 Regresin logstica o binaria Encasodeinformacincualitativaesnecesario traducir las preferencias del cliente expresadas como atributosaunintervalodevaloresaceptablesde variables (Especificaciones). 171 Regresin logstica o binaria Es similar a la regresin mltiple excepto que la respuesta es binaria (si/no, bueno/malo, etc.) Sus coeficientes se determinan por el mtodo de mxima verosimilitud Su funcin tiene forma de S, con valores mximos de Cero y Uno. Yi = 0, 1 172 Regresin logstica o binaria La probabilidad de que el resultado est en cierta categora es: El mtodo de clculo del coeficiente b es diferente que en la regresin lineal Los coeficientes se determinan con la relacin sig.: n nBX B X B X B eevento no Pevento P+ + + + = ....) () (2 2 1 10173 Regresin logstica Condiciones: Hay solo dos resultados posibles Hay solo un resultado por evento Los resultados son independientes estadsticamente Todos los predictores relevantes estn en el modelo Es mutuamente exclusivo y colectivamente exhaustivo Los tamaos de muestra son mayores que para la regresin mltiple Los efectos positivos se obtienen con b1>1 y los negativos con b1 e 0 a 1 174 Regresin logstica Relacin con ajuste pobre Relacin con buen ajuste 175 Regresin logstica - Procedimiento Definir el atributo a traducir (y) Definir la variable apropiada para el atributo (x) Definir el modelo matemtico a probar Determinar los defectos que est dispuesto a aceptar Recolecte informacin de x vs y. Asigne 1 si falla y 0 si es aceptable. Analice la informacin mediante Regresin Logstica Binaria 176 Regresin logstica- Procedimiento 177 Regresin logstica - Procedimiento Observe el P-Value de Deviance en la Sesin, debe de ser grande (P >0.10) Obtenga los coeficientes del modelo (De la Sesin) Coeficientes del modelo P-Value de Deviance 178 Regresin logstica - Procedimiento Construyaelmodeloderegresinparala probabilidad de falla estar dado por : Identifique el(los) valor(es) de x que le generarn comomximolacantidaddedefectosqueusted est dispuesto a aceptar [4] Donde : b0, b1, ... = Coeficientes del modelo P(Falla) = b0+b1x1+.... e 1 + e b0+b1x1+.... 179 Ejemplo de riesgo de paro cardiaco Logistic Regression Table Odds 95% CI Predictor CoefSE CoefZPRatioLowerUpper Constant-1.987171.67930-1.180.237 Fuma Si -1.19297 0.552980-2.160.031 0.30 0.10 0.90 Peso 0.02502260.0122551 2.040.041 1.03 1.00 1.05 Para Fuma, el coeficiente negativo de -1.193 y la tasa de posibilidades de 0.30, indica que quien fuma, tiende a tener una tasa de pulso ms alta que los sujetos que no fuman. Si los sujetos tienen el mismo peso, las posibilidades de que los fumadores tengan un pulso bajo sea slo del 30% de las posibilidades de que los no fumadores tengan un pulso bajo. 180 Regresin logstica ordinal Cuando la respuesta CTS es de tipo ordinal (Varias categorasderespuestacomototalmentede acuerdo,deacuerdo,endesacuerdoy totalmente en desacuerdo) y el Factor CTQ es de naturalezacontinua,entonces,paradefinir Especificaciones,laherramientaautilizaresla Regresin Logstica Ordinal. 181 Regresin logstica ordinal - Procedimiento Defina la variable de respuesta a traducir (y CTS) Defina el CTQ (x) variable a relacionar con el CTS Defina el modelo matemtico a probar Determine los defectos que est dispuesto a aceptar en la categora de inters Recolecte informacin de x vs y Analice la informacin mediante Regresin Logstica Ordinal 182 Regresin logstica ordinal - Procedimiento Stat > Regression > Ordinal Logistic Regression Seleccione la respuesta (y) Seleccione los trminos que estima tiene el modelo [3] Constantes y Coeficientes del modelo 183 Regresin logstica ordinal - Procedimiento Observe el P-Value de Deviance en la Sesin, debe de ser grande (P >0.10) Obtenga las constantes y coeficientes del modelo (De la Sesin) Construya los modelos de regresin para la probabilidad acumulada por categora 184 Regresin logstica ordinal - Procedimiento e 1 + e Donde : Ki = Constante de la categora i b1, b2, ... = Coeficientes del modelo acumulada hasta categora i Ki+b1x1+ b2x2.... Ki+b1x1+ b2x2.... = P Constantes y Coeficientes del modelo Identifique el(los) valor(es) de x que le generarn como mximo lacantidad de defectos que usted est dispuesto a aceptar en lacategora de inters [4] 185 Regresin logstica ordinal - Procedimiento Una vez que se tienen establecidos los CTQs con los que se medir el desempeo del producto, es necesario indicar las Especificaciones de los mismos Producto (General) Usuarios Finales Clientes Expectativas (CTSs) Tipo Importan. Producto (Especfico) Parmetros de Diseo (DPs) Matriz de Diseo CTQs Especificaciones LIELSEOtra 186 Anlisis Logit Usa razones para determinar que tanta posibilidad tiene una observacin de pernecer a un grupo que a otro. Una posibilidad de 0.8 de estar en el grupo A se puede expresar como una tasa de posibilidades de 4:1 ( que es p/(1-p)), cuyo logaritmo es el logit. La probabilidad para un valor L est dado por la ecuacin 187 Anlisis Logit - ejemplo 50 estudiantes tomaron un examen, donde solo 27 pasaron. Cules son las posibilidades de pasar? Posibilidades = P/(1-P) = 0.54/0.46 = 1.17 o 1.71:1 Un estudiante que estudia 80 horas tiene un 54.5% de pasar, cules son las posibilidades? Posibilidades = 0.545/(1-0.545) = 1.198 o 1.198:1 Logit = ln(p/(1-p)) = ln(1.189) = 0.1809 y despejando alExp(b1) = exp(0.1082) = 1.11 que es la tasa de pasar a otro nivel 188 Anlisis Probit Es similar a las pruebas de vida acelerada y anlisis de sobrevivencia. Un artculo sujeto a esfuerzo puede fallar o sobrevivir. El modelo probit tiene un valor esperado de 0 y una varianza de 1. Requiere tamaos de muestra muy grandes para diferenciarse del modelo logit Los coeficientes b del modelo logit difieren del probit en 1.814 con: bl = -1.1814 bp189 VI.B Pruebas de hiptesis 190 VI.B Pruebas de hiptesis 1. Conceptos fundamentales 2. Estimacin puntual y por intervalo 3. Pruebas para medias, varianzas y proporciones 4. Pruebas comparativas para varianzas, medias y prop. 5. Bondad de ajustes 6. Anlisis de varianza (ANOVA) 7. Tablas de contingencia 8. Pruebas no paramtricas 191 VI.B.1 Conceptos fundamentales 192 Anlisis Estadstico En CADAprueba estadstica, se comparan algunos valores observados a algunos esperados u otro valor observado comparando estimaciones de parmetros (media, desviacin estndar, varianza) Estas estimaciones de los VERDADEROS parmetros son obtenidos usando una muestra de datos y calculando los ESTADSTICOS... La capacidad para detectar un diferencia entre lo que es observado y lo que es esperado depende del desarrollo de la muestra de datos Incrementando el tamao de la muestra mejora la estimacin y tu confianza en las conclusiones estadsticas. 193 Conceptos fundamentales Hiptesis nula Ho Es la hiptesis o afirmacin a ser probada Puede ser por ejemplo , , o, t= 5 Slo puede ser rechazada o no rechazada Hiptesis alterna Ha Es la hiptesis que se acepta como verdadera cuando se rechaza Ho, es su complemento Puede ser por ejemplo = 5 para prueba de dos colas < 5 para prueba de cola izquierda > 5 para prueba de cola derecha Esta hiptesis se acepta cuando se rechaza Ho 194 Conceptos fundamentales Ejemplos: Se est investigando si una semilla modificada proporciona una mayor rendimiento por hectrea, la hiptesis nula de dos colas asumir que los rendimientos no cambian Ho: Ya = Yb Se trata de probar si el promedio del proceso A es mayor que el promedio del proceso B. La hiptesis nula de cola derecha establecer que el proceso A es = 10 y Ha: < 10 se tiene una prueba de cola izquierda:P(Z Power and Sample Size > 1 - Sample tCompletar el dilogo como sigue:222 Ejemplo con prueba de una media t Los resultados se muestran a continuacin:Power and Sample Size 1-Sample t TestTesting mean = null (versus not = null)Calculating power for mean = null + differenceAlpha = 0.05Assumed standard deviation = 2.403SampleSe tiene un 53.76% de Potencia para detectarDifferenceSize Poweruna diferencia de 2.5 si se usan 6 muestras 2.5 60.537662O sea que hay una probabilidad del 46.24% que no se rechaze Ho y se concluya que no hay diferencia significativa.cuntas muestras se requieren para tener un 80% de probabilidad de detectar el corrimiento, y para 85%, 90% y 95%?223 Ejemplo con prueba de una media t Stat > Power and Sample Size > 1 - Sample tSe cambia este parmetroLos resultados se muestran a continuacin:SampleTargetDifferenceSize PowerActual Power 2.5100.800.832695 2.5110.850.873928 2.5120.900.905836 2.5150.950.962487Si la potencia es demasiado alta por decir 99% se pueden detectar diferenciasque realmente no son significativas.224 Ejemplo con prueba de 2 medias t Ejemplo: La potencia de una prueba depende de la diferencia que se quiera detectarrespecto a la desviacin estndar, para una sigma poner 1 en diferencia y desviacinestndar, con valores deseados de Potencia de 0.8 y 0.9.Stat > Power and Sample Size > 2 - Sample tPower and Sample Size2-Sample t TestTesting mean 1 = mean 2 (versus not =)Calculating power for mean 1 = mean 2 + differenceAlpha = 0.05Assumed standard deviation = 1SampleTargetDifferenceSize PowerActual Power 117 0.80.807037 123 0.90.912498Se requieren tamaos de muestra de entre 17 y 23225 Ejemplo con prueba de 1 proporcin Para estimar la potencia, Minitab requiere de dos de los siguientes parmetros:* Tamaos de muestra* La proporcin - una proporcin que se desea detectar con alta probabilidad* Valores de potencia - La probabilidad deseada de rechazar Ho cuando es falsaSuponiendo que se desea detectar una proporcin de 0.04 con el 0.8 y 0.9 de nivelesde Potencia:Proporcin que se desea detectar con altaprobabilidad (0.80, 0.90)Es la proporcin de la Hiptesis nula226 Ejemplo con prueba de 1 proporcin Test for One ProportionTesting proportion = 0.02 (versus > 0.02)Alpha = 0.05AlternativeSampleTarget ProportionSize PowerActual Power 0.04 391 0.80.800388 0.04 580 0.90.900226Si se desea saber la Potencia si se utiliza un tamao de muestra de 500 se tiene:Stat > Power and Sample Size > 2 - Sample tSample sizes = 500 Alternative values of p = 0.04Options: Greater ThanSignificance Level = 0.05Test for One ProportionTesting proportion = 0.02 (versus > 0.02)Alpha = 0.05AlternativeSample ProportionSize Power 0.04 5000.865861Por tanto con un tamao de muestra de 500, la potencia de la prueba para detectarun corrimiento de 2% a 4% es del 86.6%227 Ejercicios Calcular los tamaos de muestra necesarios para los siguientes escenarios (usar pruebas de dos colas): a. 1-muestra Z a=0.05, b=0.1 y 0.2, d = 1.5s b. 1-muestra t a=0.05, b=0.1 y 0.2, d = 1.5s c. 1-muestra t a=0.01, b=0.05, d = 0.5s y 1.0s d. 2-muestras t a=0.05, b=0.1, d = 1.5s y 2.0s 2. Calcular la potencia de la prueba para los siguientes escenarios (usar pruebas de dos colas): a. 1-muestra Z a=0.05, d = 0.5s, n = 25, 35 b. 1-muestra t a=0.05, d = 1.0s, n = 10, 20 c. 1-muestra t a=0.01, d = 1.0s, n = 10, 25 d. 2-muestras t a=0.05, d = 0.5s, n = 10, 25, 50, 75, 100 228 Ejercicios Calcular el tamao de muestra requerido para los siguientes escenarios (usar pruebas de dos colas): a. 1-proporcin a=0.05, b=0.1 & 0.2, P0 = 0.5, PA = 0.6 b. 1-proporcin a=0.01, b=0.1 & 0.2, P0 = 0.8, PA = 0.9 c. 2-proporcin a=0.05, b=0.1, P0 = 0.5, PA = 0.6, 0.8 d. 2-proporciones a=0.01, b=0.1, P0 = 0.8, PA = 0.85, 0.95 2. Calcular la potencia de la prueba para los siguientes escenarios (usar pruebas de dos colas): a. 1-proporcin a=0.05, P0 = 0.5, PA = 0.6, n = 250, 350 b. 1-proporcin a=0.01, P0 = 0.9, PA = 0.95, n = 400, 500 c. 2-proporciones a=0.05, P0 = 0.5, PA = 0.6, n = 250, 350 d. 2-proporciones a=0.01, P0 = 0.9, PA = 0.95, n = =400, 500 229 230 231 VI.B.4 Estimacin puntualy por intervalo 232 Estimacin puntual y por intervalo Las medias o desviaciones estndar calculadas de una muestra se denominan ESTADSTICOS, podran ser consideradas como un punto estimado de la media y desviacin estndar real de poblacin o de los PARAMETROS. Qu pasa si no deseamos una estimacin puntual como media basada en una muestra, qu otra cosa podramos obtener como margen, algn tipo de error? Un Intervalo de Confianza 233 Intervalo de confianza P(Z>= + Zexcel) = alfa/2P(Z (80.4, 119.6)1.96 = Z0.025 235 Estimacin puntual y por intervalo 95% de Nivel de Confianza significa que slo tenemos un 5% de oportunidad de obtener un punto fuera de ese intervalo. Esto es el5% total, o 2.5% mayor o menor. Si vamos a la tabla Zveremos quepara un rea de 0.025, corresponde a una Z de 1.960. C. I. Multiplicador Zo/299 2.57695 1.960 90 1.645 85 1.439 80 1.282Para tamaos de muestra>30, o o conocida usar la distribucin NormalPara muestras de menor tamao, o o desconocida usar la distribucint 236 Estimacin puntual y por intervalo . 302. 3022 222 2, 1 1 , 12 22( 1) ( 1)(1 )para npara nn nX ZnX tnn s n sp pp Znooo ooooo_ _t>< = = s s= ; con n-1 gl. 237 Para n grande el IC es pequeo 238 Para n grande el IC es pequeo 239 Ejemplo Dadas las siguientes resistencias a la tensin: 28.7, 27.9, 29.2 y 26.5 psi Estimar la media puntual X media = 28.08con S = 1.02 Estimar el intervalo de confianza para un nivel de confianza del 95% (t = 3.182 con n-1=3 grados de libertad) Xmedia3.182*S/n = 28.083.182*1.02/2=(26.46, 29.70) 240 Ejemplos para la media con Distribucin normal Z Z 1. El peso promedio de una muestra de 50 bultos de productos Xmedia = 652.58 Kgs., con S = 217.43 Kgs. Determinar el intervalo de confianza al NC del 95% y al 99% donde se encuentra la media del proceso (poblacional).Alfa = 1 - NC 2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones de laboratorio oscila entre 0.93 y 1.73 onzas. Cul es el valor de Z?. 3. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas con una S = 0.96 onzas. A un nivel de confianza del 95%, las latas parecen estar llenas con 16 onzas?. 4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = 3.63. Se rechaza la solucin si el peso promedio de todo el lote no excede las 18 onzas. Cul es la decisin a un 90% de nivel de confianza?. 241 Ejemplos para la media y varianza con Distribucin t t 5. 20 cajas de producto pesaron 102 grs. Con S = 8.5 grs. Cul es el intervalo donde se encuentra la media y varianza del lote para un 90% de nivel de confianza?. Grados libertad=20 -1 =19 6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. Con una S = 9.56. Cul es la estimacin del intervalo de confianza para la media y varianza a un nivel de confianza del 95 y del 98% del peso de productos del lote completo?. 7. Los pesos de 25 paquetes enviados a travs de UPS tuvieron una media de 3.7 libras y una desviacin estndar de 1.2 libras. Hallar el intervalo de confianza del 95% para estimar el peso promedio y la varianza de todos los paquetes. Los pesos de los paquetes se distribuyen normalmente. 242 Ejemplos para proporciones con Distribucin Z Z 8. De 814 encuestados 562 contestaron en forma afirmativa. Cul es el intervalo de confianza para un 90% de nivel de confianza? 9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados Se puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de confianza. ? 243 Instrucciones con Minitab Intervalo de confianza para la media Stat > Basic Statistics > 1-Sample Z,t Variable -- Indicar la columna de los datos o Summarized Data En caso de requerirse dar el valor de Sigma = dato En Options: Indicar el Confidence level -- 90, 95 o 99% OK 244 Instrucciones con Minitab Intervalo de confianza para proporcin Stat > Basic Statistics > 1-Proportion Seleccionar Summarized Data Number of trials = n tamao de la muestra Number of events = D xitos encontrados en la muestra En Options: Indicar el Confidence Interval -- 90, 95 o 99% Seleccionar Use test and interval based in normal distribution 245 VI.B.5 Pruebas de hiptesis para medias, varianzas y proporciones 246 Elementos de unaPrueba de Hiptesis Prueba Estadstica- Procedimiento para decidir no rechazar Ho aceptando Ha o rechazar Ho. Hiptesis Nula (Ho) - Usualmente es una afirmacin representando una situacin status quo.Generalmente deseamos rechazar la hiptesis nula. Hiptesis Alterna (Ha) - Es lo que aceptamos si podemos rechazar la hiptesis nula.Ha es lo que queremos probar. 247 Elementos de unaPrueba de Hiptesis Estadstico de prueba: Calculado con datos de la muestra (Z, t, X2 or F). Regin de Rechazo Indica los valores de la prueba estadstica para que podamos rechazar la Hiptesis nula (Ho).Esta regin esta basada en un riesgo o deseado, normalmente 0.05 o 5%.248 Pasos en la Prueba de Hiptesis 1. Definir elProblema - Problema Prctico 2. Sealar los Objetivos -Problema Estadstico 3. Determinar tipo de datos - Atributo o Variable 4. Si son datosVariables- Prueba de Normalidad 249 Pasos en la Prueba de Hiptesis 5. Establecer las Hiptesis -Hiptesis Nula (Ho)- Siempre tiene el signo =, s, > -Hiptesis Alterna (Ha) Tiene signos =, > o s = , , , , :2t o hipotesis la de parametro Ha < > = , , , , :2t o 250 Elementos de una Prueba de Hiptesis Pruebas de Hiptesis de dos colas:Ho: a = b Ha:a = b Pruebas de Hiptesis de cola derecha:Ho: a s b Ha:a > b Pruebas de Hiptesis cola izquierda:Ho: a > b Ha:a < b Zo/20 -Zo/2 Regin deRechazo Regin deRechazo Zo/20 Regin deRechazo Zo/20 -Zo/2 Regin deRechazo 251 Pasos en la Prueba de Hiptesis 6. Seleccionar el nivel de Alfa (normalmente 0.05 o 5%) o el nivel de confianza NC = 1 - alfa 7. Establecer el tamao de la muestra, >= 10. 8.Desarrollar el Plan de Muestreo 9.Seleccionar Muestras y Obtener Datos 10. Decidir la prueba estadstica apropiada y calcular el estadstico de prueba (Z, t, X2 or F)a partir de los datos. 252 Estadsticos para medias, varianzas y proporciones 211 2221 21 22 21 1 2 211 2; . ; 30;/; . ; 30;/; 1, 1; . . var; . ; ' . .1 1/( 1) ( 1);2ppXZ Una median conocidanXt Una median desconocidaS nSF DF n n prueba dos ianzasSX Xt dos medias s desconocidas peroSn nn s n sS DF nn noooo= > = < = = = =+ + = =+ 21 22 21 21 22; . ; ' ..nX Xt dos medias s desconocidas diferentess sn nDF formula especialo+ = +=253 Estadsticos para medias, varianzas y proporciones Para el caso de muestras pareadas se calculan las diferencias d individuales como sigue: 22222; . . ; . . ./( 1); ( 1); . . ar( ); ( 1)( 1); .iddt Pares de mediasd para cada parS nn SX DF n prueba una v ianzaO EX DF r c bondad ajusteEo== = = = 254 Pasos en la Prueba de Hiptesis 11. Obtener el estadstico correspondiente de tablas o Excel. 12.Determinar la probabilidad de que el estadstico de prueba calculado ocurre al azar. 13.Comparar el estadstico calculado con el de tablas y ver si cae en la regin de rechazo o ver si la probabilidad es menor a alfa, rechaze Ho y acepte Ha. En caso contrario no rechaze Ho. 14.Con los resultadosinterprete una conclusin estadstica para la solucin prctica.255 Prueba de Hiptesis Pruebas de Hiptesis de dos colas:Ho: a = b Ha:a = b Pruebas de Hiptesis de cola derecha:Ho: a s b Ha:a > b Pruebas de Hiptesis cola izquierda:Ho: a > b Ha:a < b Zo/20 -Zo/2 Regin deRechazo Regin deRechazo Zo/20 Regin deRechazo Zo/20 -Zo/2 Regin deRechazo EstadsticoCalculado con Datos de la muestra 256 Prueba de hiptesis para la varianza Las varianzas de la poblacin se ditribuyen de acuerdo a la distribucin Chi Cuadrada. Por tanto las inferencias acerca de la varianza poblacional se basarn en este estadstico La distribucin Chi Cuadrada se utiliza en: Caso I. Comparacin de varianzas cuando la varianza de la poblacin es conocida Caso II. Comparando frecuencias observadas y esperadas de resultados de pruebas cuando no hay una varianza de la poblacin definida (datos por atributos) 257 Prueba de hiptesis para la varianza Las pruebas de hiptesis para comparar una varianza poblacional a un cierto valor constante o0, si la poblacin sigue la distribucin normal es: Con el estadstico Chi Cuadrada con n-1 grados de libertad 258 Prueba de hiptesis para la varianza Ejemplo: El material muestra una variacin (sigma) en la resistencia a la tensin menor o igual a 15 psi con 95% de confianza?. En una muestra de 8 piezas se obtuvo una S = 8psi. X^2c =(7)(8)^2/(15)^2 = 1.99 Como La Chi calculada es menor a la Chi de Excel de 2.17 se debe rechazar la hiptesis nula. Si hay decremento en la resistencia 2.17 259 Prueba de hiptesis para atributos Ejemplo: Un supervisor quiere evaluar la habilidad de 3 inspectores para detectar radios en el equipaje en un aeropuerto.Hay diferencias significativas para un 95% de confianza? Valores observados O Inspector 1 Inspector 2Inspector 3Total por tratamiento Radios detectados 27252274 Radios no detectados 35816 Total de la muestra 30303090 260 Prueba de hiptesis para atributos Ho: p1 = p2 = p3 Ha: p1 = p2 = p3 Grados de libertad = (No. de columnas -1)*(No. renglones -1) Las frecuencias esperadas son: (Total columna x Total rengln) Valores esperados E Inspector 1 Inspector 2Inspector 3Total por tratamiento Radios detectados 24.6724.6724.6774 Radios no detectados 5.335.335.3316 Total de la muestra 30303090 261 Prueba de hiptesis para atributos El estadstico Chi Cuadrado en este caso es: El estadstico Chi Cuadrada de alfa = 0.05 para 4 grados de libertad es 5.99. El estadstico Chi Cuadrada calculada es menor que Chi de alfa, por lo que no se rechaza Ho y las habilidades son similares 5.99 262 Para una muestra grande (n>30)probar la hiptesis de una media u 1.) Ho:=o2.) Ha:=o 3.) Calcular el estadstico de prueba 4.) Establecer la regin de rechazo Las regiones de rechazo para prueba de 2 colas: -Zo/2 Zo/2

o s n Zcalc= Si el valor del estadstico de prueba cae en la regin de rechazo rechazaremos Ho de otra manera no podemos rechazar Ho. Zo/2 0 -Zo/2 Regin deRechazo Regin deRechazo Ejemplo de Prueba de hiptesis para la media 263 Prueba de hiptesis de una poblacin para muestras grandes con Z Parecera ser correcta la afirmacin de que se mantiene el precio promedio de las computadoras en $2,100?Probarlo a un 5% de nivel de significanciaDatosMinoristas n 64 media mu = 2100Precio prom. X 2251Desv. Estndar s 812 (Alfa = 0.05Paso 1.Establecimiento de hiptesisHo: uC = 2100 Se inicia con el planteamiento de la hiptesis nulaHa: uC 2100 Por tanto se trata de una prueba de dos colasPaso 2. Clculo del estadstico de prueba Zc151 = >Zc = 1.48768473101.5Error estndarComo el valor de Zc es positivo se comparar contra de Zexcel (1-alfa/2) positivoPaso 3. Determinar la Ze de Excel o de tablas para el valor de probabilidad (Alfa / 2):Ze ( 0.025 ) = 1.95996398 DIST.NORM.STAND.INV.( -0.025 )nsXZNULA HIPOTESISc. =264 Paso 4. Comparando los valores Zc calculado contra Zexcelse tieneZexcel ( #REF! ) Zexcel ( -0.025 )-1.95996398 1.959963985Zc = 1.487684729Como Zc es menor que Zexcel, no cae en el rea de rechazo, y por tanto no hay suficiente evidencia para RECHAZAR Ho Se concluye que el precio promedio no es diferente de $2,100O Como el valor P = 0.068 correspondiente a la Z calculada Zc es mayorque el valor de Alfa / 2 = 0.025, tambin nos da el criterio para NO RECHAZAR la HoPaso 5. El Intervalo de confianza para la media poblacional(1-Alfa = 0.95 Porciento)al nivel de confianza 1-AlfaError estndar 101.5Z alfa/2 1.95996398Intervalo de confianza 2251 198.936344El intervalo de confianza incluye a la media de la hiptesispor tanto no se rechaza la Ho. 2052.064 Alfay por tanto no hay suficiente evidencia para rechazar Ho Se concluye que la publicidad no ha tenido efecto en las ventas O Como el valor de P para Zc es 0.368 mayor a Alfa = 0.05 no se rechaza HoPaso 5. El Intervalo de confianza para la media poblacional al nivel(1-Alfa = 99 Porciento)Error estndar252.260315Z alfa/2 2.62449406Como el intervalo de confianza Intervalo de confianza 6012 662.0557002contiene a la media Hiptesis no se rechaza Ho 5349.94 Zc = 1.414213560.07071068Error estndarComo el valor de Zc es positivo se comparar contra de Zexcel (alfa/2) positivoPaso 3. Determinar la Ze de Excel o de tablas para(1-Alfa/2 = 0.975Ze ( (1-Alfa/2 = 1.95996398 DIST.NORM.STAND.INV.( 0.975 )npZNULA HIP NULA HIPNULA HIPOTESISc) 1 (. ..t tt=5 . 0 :5 . 0 :==ccHaHott268 Paso 4. Comparando los valores Zc calculado contra Zexcelse tieneZexcel ( 0.025 ) Zexcel ( 0.975 )-1.95996398 1.95996398Zc = 1.41421356 Valor p para Zc es igual aP(-Zc) =0.07926984Como Zc es menor que Zexcel, no cae en el rea de rechazo, p > Alfa /2 y por tanto no hay suficiente evidencia para rechazar Ho y se concluyeque el porcentaje que compra menos de $10 no difiere del 50% de clientesOComo el valor P de Zc es 0.079 mayor a Alfa/2 no se rechaza HoPaso 5. El Intervalo de confianza para la media poblacional al nivel(1-Alfa = 95 Porciento)Error estndar0.07071068Z alfa/2 1.41421356Intervalo de confianza 0.6 0.1Como la media de p = 0.6 se encuentradentro del intervalo, no se rechaza Ho ( 0.5 1-Sample Z,t Variable -- Indicar la columna de los datos o Summarized Data En caso de requerirse dar el valor de Sigma = dato Proporcionar la Media de la hiptesis Test Mean En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar el signo de la hiptesis alterna: Less Than, Not equal, Greater than OK 270 Instrucciones con Minitab para la prueba de hiptesis de una proporcin Stat > Basic Statistics > 1-Proportion Seleccionar Summarized Data Number of trials = n tamao de la muestra Number of events = D xitos encontrados en la muestra En Options: Indicar el Confidence Interval -- 90, 95 o 99% Indicar la Test Proportion Proporcin de la hiptesis Indicar el signo de la hiptesis alterna: Less Than, Not equal, Greater than Seleccionar Use test and interval based in normal distribution OK 271 Pruebas de hiptesis para comparacin de varianzas, medias, y proporciones 272 Prueba de Hiptesis Supongamos que tenemos muestras de dos reactores que producen el mismo artculo. Se desea ver si hay diferencia significativa en el rendimientode Reactor a Reactor. Reactor A Reactor B 89.784.7 81.486.1 84.583.2 84.891.9 87.386.3 79.779.3 85.182.6 81.789.1 83.783.7 84.588.5 Estadsticas Descriptivas VariableReactor N Media Desv.Std Rendimiento A10 84.242.90 B10 85.543.65 273 Prueba de Hiptesis Pregunta Prctica: Existe diferencia entre losreactores? Pregunta estadstica La media del Reactor B (85.54) es significativamente diferente de la media del ReactorA (84.24)?O, su diferencia se da por casualidad en una variacin de da a da. Ho: Ha: aa ==bb Ho: Hiptesis Estadstica:No existe diferencia entre los Reactores Ha: Hiptesis Alterna: Las medias de los Reactores son diferentes.Se busca demostrar que los valores observados al parecer no corresponden al mismo proceso, se trata de rechazar Ho. 274 Prueba de Hiptesis Hiptesis Alterna: Cuando las medias de Reactores son diferentes. A esto se le llama Hiptesis Alterna(Ha) Hiptesis Estadstica:No existe diferencia entre los Reactores Esto se llama Hiptesis Nula (Ho) Debemos demostrar que los valores que observamos al parecer no corresponden al mismo proceso, que la Ho debe estar equivocada 275 Qu representa esto? Reactor A Reactor B 80.082.585.087.590.092.5 AAA AAAAA A BBB B BBBB B B Representan los reactores un proceso bsico? Representan los reactores dos procesos diferentes? 276 Prueba F de dos varianzas Si se toman dos muestras de dos poblaciones normales con varianzas iguales, la razn de sus varianzas crea una distribucin muestral F. Las hiptesis son las siguientes: El estadstico F se muestra a continuacin donde S1 se acostumbra tomar como la mayor 277 Prueba F de dos varianzas Sea S1 = 900 psi, n1 = 9, s2 = 300 psi, n2 = 7. A un 95% de nivel de confianza se puede concluir que hay menor variacin? Ho: Varianza 1 Varianza 2 Grados de libertad para Var1 = 8 y para var 2 = 6 Falfa = F(0.05, 8, 6) = 4.15 Fcalculada = (900^2)/(300^2) = 9>> Falfa, se rechaza Ho.Hay evidencia suficiente para indicar que la variacin ya se ha reducido 278 Prueba de hiptesis de dos pob. comparando varianzas con F Se quiere comprobar si las varianzas de dos diferentes mtodos de ensamble de CDs son diferentes en prod .A un nivel de siginificancia del 5% Qu se puede concluir?Mtodo 1 Mtodo 2No. De CDs n1 15 n2 17 Alfa/2 0.025Desv. Estan. s1 5.4 X2 4.8Varianza s1229.16 s2223.04Paso 1.Establecimiento de hiptesisPor tanto se trata de una prueba de dos colasPaso 2. Clculo del estadstico de prueba FcGrados de libertad 1.266 Numerador = n1 - 1 = 14Denominador = n2 - 1 = 16Tomamos a s12 como el mayor para comparar Fc contra Fexcel (1- Alfa/2)Paso 3. Determinar la Fe de Excel o de tablas para Alfa/2 0.025Fe (0.975) = 2.81701784 DIST.F.INV (0.025, 14,16)22212221::o oo o==HaHo2221ssFc =279 Paso 4. Comparando los valores Fc calculado contra Fexcel (0.025) se tienef(F)Fe(0.025) =2.81701784Fc = 1.266 Valor p para Fc es igual aP(Fc) =0.32259599Como Fc es menor que Fexcel, no cae en el rea de rechazo,p > Alfa / 2y por tanto no hay suficiente evidencia para rechazar Ho Se concluye que la varianza de los dos mtodos de ensamble no difierensignificativamenteP(F>= + 2.81 ) = alfa/2280 Prueba de hiptesis de dos pob. Comparando dos medias con Z Investigar si el ambiente libre de tensiones mejoran el engorde y la calidad de la carne de vacasLas varianzas poblacionales son desconocidasDeterminar el intervalo de confianza al 90% donde se encuentra la media. Alfa = 0.10Vacas vacaciones Vacas normalesVacas n1 50 n2 50Peso promedio X1 112 X2 105.7Desv. Estndar s1 32.3 s2 28.7Paso 1.Establecimiento de hiptesisComo el planteamiento es que las vacas de vacaciones ganan ms peso, se inicia planeando la HaPaso 2. Clculo del estadstico de prueba Zc6.3 = >Zc = 1.030993016.110613717Tomamos a X1 como el mayor para comparar Zc contra Ze positivaPaso 3. Determinar la Ze de Excel o de tablas para una alfa de 0.1Ze (0.90) = 1.28155157 DIST.NORM.STAND.INV (0.90)2 132212 1nsnsX XZc+=VN VVVN VVHaHo ==::281 Paso 4. Comparando los valores Zc calculado contra Zexcel (0.90) se tieneZe (0.90)= 1.28Zc = 1.03099301 Valor p para Zc es igual aP(-Zc) =0.149402368p > AlfaComo Zc es menor que Zexcel, no cae en el rea de rechazo, y por tanto no hay suficiente evidencia para rechazar Ho Se concluye que no hay diferencia entre vacas de vacaciones y normalesPaso adicional. El Intervalo de confianza del 90% sobre la diferencia de medias poblacionales, con sigmas desconocidases:= Error estndar 6.11061372Z (alfa/2) = 1.64485363= Intervalo de confianza6.3 +- 10.05106514La diferencia es del orden de cero,es decir ( -3.75107 < = u