Probabilidad y estadística

67
10.1 Ejecutando el procedimiento Análisis de una variable

description

Análisis de variablesTipos de perfiles

Transcript of Probabilidad y estadística

10.1 Ejecutando el procedimiento Anlisis de una variable

En la siguiente imagen se muestra una tabla con los datos de perfiles de vigas (acero y aluminio) con el que se realizara el siguiente tutorialSe accede al procedimiento Anlisis de una variable del men principal como sigue:

En el cuadro de dilogo de entrada de datos, indique la columna a analizar:

Deje en blanco el campo Seleccionar para analizar las 100 filas. Presione Aceptar.

Cuando se presiona Aceptar, aparecer la ventana Tablas y Grficos que muestra las tablas y grficos disponibles. Por ahora, se aceptarn las caractersticas por defecto

La parte superior izquierda del panel indica que la muestra tiene n = 100 valores situados entre 1,0 y 72 cm. La parte superior derecha del panel muestra un grfico de dispersin de los datos, con los puntos aleatoriamente dispersos en la direccin vertical. Tome nota que los puntos tienen ms densidad entre 20 y 40 cm, disminuyendo fuera. Los paneles inferiores muestran resmenes estadsticos y el grfico de caja y bigotes, descrito en las secciones siguientes.

10.2 Resmenes estadsticos La tabla de la parte inferior izquierda del panel muestra estadsticos simples. Adicionalmente pueden aadirse estadsticos maximizando el panel haciendo click secundario en la ventana y seleccionando opciones de ventana

Incluyendo la mediana simple, cuartiles y el rango intercuartlico resulta:

Una asuncin comn para medidas de datos es que provienen de una distribucin normal. Los datos de una distribucin normal estn completamente descritos por dos estadsticos:

La Media: 36.51

La desviacin tpica muestral (desviacin estndar):

18.424

La media muestral y la desviacin tpica describen completamente la muestra slo si provienen de una distribucin normal. Dos estadsticos que se pueden utilizar para chequear la asuncin de normalidad son la asimetra y la curtosis normalizadas. Estos estadsticos miden la forma: Asimetra mide la simetra o la ausencia de la misma. Una distribucin simtrica, tal como la normal tiene asimetra cero. Distribuciones para las cuales los valores de su asimetra estn por encima de cero presentan asimetra positiva. Distribuciones para las cuales los valores de su asimetra estn por debajo de cero presentan asimetra negativa. Curtosis mide el apuntamiento de la distribucin. Una distribucin normal tiene curtosis nula. Una distribucin ms apuntada que la normal tiene curtosis positiva. Una distribucin menos apuntada que la normal tiene curtosis negativa. Si los datos provienen de una distribucin normal, los coeficientes de asimetra y curtosis estandarizados deben de estar entre -2 y +2. En este caso, la distribucin normal parece ser un modelo razonable para los datos. Otro resumen habitual de los datos lo aportan los 5 nmeros resumen de John Tukey: Mnimo (valor ms pequeo de los datos) = 1Cuartil inferior (percentil 25)= 24 Mediana (percentil 50) = 28Cuartil superior (percentil 75) = 57Mximo (valor ms alto de los datos) = 72

Estos cinco nmeros dividen la muestra en cuartos y forman el grfico bsico de caja y bigotes, descrito en la seccin siguiente. 10.3 Grfico de caja y bigotes Un grfico usual utilizado para resumir datos, descubierto por John Tukey, es el grfico de caja y bigotes

El grfico de caja y bigotes se construye como sigue: Se dibuja una caja cuyos extremos se extienden desde el cuartil inferior al cuartil superior de la variable. El 50% central de los valores de datos estn cubiertos por esta caja. Se dibuja una lnea vertical en el interior de la caja en la localizacin de la mediana simple, que divide la caja en dos partes. Si los datos provienen de una distribucin simtrica, esta lnea vertical debe pasar por el centro de la caja. Se dibuja un signo ms en la localizacin de la media simple. Una diferencia sustancial entre la media y la mediana indica habitualmente la presencia de valores atpicos (datos con valores que no provienen de la misma distribucin que el resto) o distribucin asimtrica. En este caso de distribucin asimtrica, la media se situar en la direccin de la mitad mayor de la caja y existir asimetra hacia esa direccin.

Los bigotes se extienden desde los cuartiles hasta el mximo y el mnimo de las observaciones en la muestra, a no ser que algunos valores estn lo suficientemente lejos de la caja para clasificarse como valores atpicos, en cuyo caso los bigotes se extienden hasta el ms extremo de los puntos no calificado como atpico. STATGRAPHICS Centurion XVI sigue a Tukey tomando dos tipos de valores atpicos: Atpicos lejanos puntos situados a ms de 3 veces el rango intercuartlico por arriba o por debajo de los lmites de la caja. (Nota: el rango intercuartlico es la distancia entre los cuartiles primero y tercero y coincide con la anchura de la caja.) Los valores fuera de estos lmites se denotan por un punto (habitualmente un pequeo cuadrado) con un signo ms superpuesto en l. Si los datos provienen de una distribucin normal, la posibilidad de que un punto est lo suficientemente lejos de la caja para clasificarlo como un punto atpico es slo de entre 300 en una muestra del tamao actual. A menos que haya cientos de observaciones en la muestra, los puntos fuera de estos lmites son indicativos de valores atpicos (o de una distribucin no normal). Atpicos dudosos - puntos situados a ms de 1.5 veces el rango intercuartlico por arriba o por debajo de los lmites de la caja. Estos valores se denotan por puntos y no se le superpone el signo ms. Si los datos provienen de una distribucin normal, la posibilidad de observar 1 o 2 puntos atpicos en una muestra de n = 100 observaciones est cercana al 50% y no indica necesariamente la presencia de un valor atpico verdadero. Estos puntos deben ser considerados simplemente buenos para una investigacin posterior. El grfico de caja y bigotes no es muy simtrico. Los bigotes no tienen la misma longitud Y la media (lnea vertical que divide al cuadro en dos) esta notablemente hacia la izquierda y la medina esta tambin ubicada un poca al lado izquierdo de la caja No se han marcado puntos atpicos dudosos tampoco atpicos lejanos Si selecciona Opciones de ventana en la barra de herramientas de anlisis, puede aadir una muesca a la mediana en el grfico:

La muesca de la mediana aadida cubre un intervalo de confianza para la mediana de la poblacin, al 95% de confianza por defecto. Muestra el margen de error con que se estiman los datos. mediana de la poblacin con la muestra que se ha tomado. En este caso, el error de muestreo es cercano a 0.15 grados en cada direccin. Una muestra de mayor tamao presentar un menor margen de error10.4 Contrastando valores atpicos Seleccione Describir Datos numricos Identificacin de Valores atpicos.

Especificando perfiles en el campo Datos de la ventana Opciones se genera la ventana Tablas y Grficos. Despus de seleccionar todas las opciones deseadas, se genera una amplia tabla de estadsticos que se muestran en la mitad inferior del panel izquierdo. De particular inters en la tabla son los cinco valores mayores y los cinco valores menores 5 en la muestra:

El valor ms atpico est en la fila #6, que se destaca en rojo. Tiene un valor estudentizado sin supresin (Studentized Value Without Deletion) de -1.92738. Los valores estudentizados se calculan mediante:

Un valor de -1.92738 indica que la observacin est a -1.92738 desviaciones tpicas sobre la media muestral, cuando la observacin se incluye en el clculo de:

El valor estudentizado con Supresin (Studentized Values With Deletion) es -1.97477 e indica la misma interpretacin pero ahora sin incluir la observacin de la fila #6 en el clculo de :

Las observaciones a ms de 3 desviaciones tpicas de la media se consideran atpicas, a menos que el tamao de la muestra n sea muy grande o la distribucin no sea normal. Puede ejecutarse un test formal bajo las siguientes hiptesis:

Hiptesis nula: El valor ms extremo proviene de una distribucin normal al igual que las otras observaciones. Hiptesis alternativa: El valor ms extremo no proviene de una distribucin normal. Un test ampliamente utilizado es el test de Grubbs, tambin llamado test de Desviaciones extremas estudentizadas. STATGRAPHICS Centurion XVI muestra el P-valor de este test. En general, un P- valor cuantifica la probabilidad de obtener un estadstico como inusual o ms inusual que el observado en la muestra, si la hiptesis nula fuera cierta. Si el P-valor es lo suficientemente pequeo, la hiptesis nula puede ser rechazada, ya que la muestra ha tenido un evento extremadamente raro. Suficientemente pequeo es definido habitualmente como menor que 0.05, valor que se denomina nivel de significacin o riesgo alfa del test. Si es menor del 5% la hiptesis nula se rechaza.

Los valores Estudentizados miden a cuntas desviaciones estndar se encuentra cada valor de la media muestral de 36,51. El valor ms extremo se encuentra en la fila 6, el cual es 1,92738 desviaciones estndar de la media. Puesto que el valor-P para la prueba de Grubb es mayor o igual que 0,05, ese valor no es un aberrante significativo con un nivel de significancia del 5,0%, asumiendo que todos los dems valores siguen una distribucin normal. Se muestran calificaciones similares al calcular las estadsticas muestrales despus de eliminar cada punto, uno a la vez, al igual que cuando la media y la desviacin estndar estn basadas en la desviacin absoluta de la mediana (DAM). Valores de las calificaciones modificadas mayores que 3,5 en valor absoluto, de las cuales hay 5, bien podran ser observaciones aberrantes.

10.5 Histograma Otro grfico habitual a mostrar que ilustra una muestra de datos es el histograma de frecuencias. Volviendo al procedimiento Anlisis de una variable, se puede crear un histograma presionando el botn Tablas y Grficos

En la barra de herramientas de anlisis y seleccionando Histograma de frecuencias. El histograma por defecto se muestra a continuacin:

La altura de cada barra en el histograma representa el nmero de observaciones que caen en el intervalo de perfiles correspondiente a la barra. El nmero de barras en el rango se sita por defecto en funcin de n, utilizando la regla seleccionada en la pestaa AED (Anlisis de Datos Exploratorio) del cuadro de dialogo Editar - Preferencias:

El histograma se puede modificar luego de haber sido creado dando clip secundario sobre el histograma y seleccionando opciones de ventana:

Cuando se deciden las clases, hay que tener en cuenta el nmero de dgitos significativos en los datos. Por ejemplo, las medidas de los perfiles fueron medidas slo en las cercanas de la unidad es decir sin digito decimal. La anchura de los intervalos correspondientes a las barras deben ser enteros mltiplos de1. Por esta va, cada barra cubrir el mismo nmero de posibles mediciones. El grfico siguiente muestra 25 intervalos entre 0 y 77cm

Los datos mostrados en el histograma pueden ser obtenidos de forma tabular presionando el botn Tablas y Grficos en la barra de herramientas de anlisis y seleccionando Tabulacin de frecuencias:

10.7 Intervalos de confianza Eliminados los valores atpicos de la muestra, podemos proceder a establecer los estimadores finales para los parmetros de la distribucin provenientes de los datos. Seleccionando Intervalos de confianza del cuadro de dilogo de Tablas y Grficos tenemos:

Este panel muestra los intervalos de confianza del 95,0% para la media y la desviacin estndar de Perfiles. La interpretacin clsica de estos intervalos es que, en muestreos repetidos, estos intervalos contendrn la media verdadera la desviacin estndar verdadera de la poblacin de la que fueron extradas las muestras, el 95,0% de las veces. En trminos prcticos, puede establecerse con 95,0% de confianza, que la media verdadera de Perfiles se encuentra en algn lugar entre 32,8543 y 40,1657, en tanto que la desviacin estndar verdadera est en algn lugar entre 16,1764 y 21,4027.

Ambos intervalos asumen que la poblacin de la cual proviene la muestra puede representarse por la distribucin normal. Mientras que el intervalo de confianza para la media es bastante robusto y no muy sensible a violaciones de este supuesto, los intervalos de confianza para la desviacin estndar son muy sensibles. Si los datos no provienen de una distribucin normal, el intervalo para la desviacin estndar puede ser incorrecto. Para verificar si los datos provienen de una distribucin normal, seleccione Resumen Estadstico de la lista de Opciones Tabulares, escoja Grfica de Probabilidad Normal de la lista de Opciones Grficas.Seleccionando Opciones de panel, pueden ser requeridos intervalos de confianza adicionales utilizando el mtodo bootstrap:

Los intervalos Bootstrap, diferentes de los intervalos dela figura anterior, no cuentan con la asuncin de que la poblacin es normal. En su lugar, se toman muestra aleatorias de n = 100 observaciones, mediante muestreo con reposicin (las mismas observaciones pueden ser seleccionadas ms de una vez). Este muestreo se repite 500 veces, se calculan los estadsticos simples y el 95% de los resultados ms centrales se utilizan para calcular los intervalos de confianza. La tabla siguiente muestra los intervalos bootstrap para la media de la poblacin, desviacin tpica y mediana:

10.8 Test de hiptesis Es posible ejecutar tambin los test de hiptesis formales habituales. Por ejemplo, se asegura habitualmente que la temperatura humana es de 98.6 grados Fahrenheit. Para contrastar si los datos provienen de una distribucin normal con una media dada, se puede considerar el test de hiptesis siguiente:

11.1 Ejecutando el procedimiento Comparacin de dos muestras

Si usa el men clsico, seleccione Comparar Dos muestras Muestras independientes. El cuadro de dilogo de entrada de datos para el procedimiento es el siguiente:

La caja Entrada indica la forma en que se introducirn los datos para las dos muestras: Datos en dos columnas los datos para cada muestra estn en columnas diferentes. Columnas de datos y cdigos los datos para ambas muestras estn en la misma columna, y una segunda columna contiene cdigos que diferencian los datos de las dos muestras.

Despus del cuadro Tablas y Grficos se presenta una ventana que contiene 4 paneles: un resumen de los datos, un histograma dual, un resumen estadstico de cada grupo y un grfico

11.2 Estadsticos resumen La tabla Estadsticos resumen muestra los estadsticos calculados para cada muestra:

Varias facetas son particularmente interesantes: La dimensin media del acero es 34.5415 ms alta que la del aluminioLa diferencia entre las medianas es 36 cm La desviacin tpica del acero es menor que la del aluminio, indicando que las medidas del acero pueden ser menos variables que las del aluminio.

11.6 Comparando medias La segunda comparacin entre las dos muestras contrasta la hiptesis de que la media () de las dos poblaciones es la misma:

Hiptesis nula: 1 = 2

Hiptesis alternativa: 1 2

Para ejecutar este test, presione el botn Tablas despus de seleccionar Comparacin de medias. Los resultados son los siguientes:

Lo ms importante de la salida est iluminado en rojo en la tabla: 1. Diferencia entre las medias (asumiendo varianzas iguales): muestra un intervalo de confianza al 95% para la media de las medidas del acero menos la media del aluminio. El intervalo para 1 - 2 vara desde 30.34 a 38.74, indicando que la media de las medidas del acero est entre 30.34 y 38.74 ms alta que las medidas del aluminio.2. El P-valor asociado con el test de la t se muestra en la tabla anterior. Ya que el P-valor es menor que 0.05, hay evidencia significativa para rechazar la hiptesis de igualdad de medias y declarar las medias de los dos materiales estadsticamente diferentes al 5% de nivel de significacin. Tome nota de que el test ha sido construido suponiendo que las varianzas de los dos materiales son desiguales, lo cual ya fue validado con el estadstico de la F en la seccin previa. Si las varianzas hubiesen sido iguales, approximates hubiera utilizado un test de la t adecuado accediendo al Panel de opciones y marcando la opcin etiquetada Asumir sigmas iguales. Esto refrenda el hecho de que el acero es un material con medidas ms altas que la del aluminio.11.7 Comparando medianas Si se sospecha que los datos contienen valores atpicos inevitables, se puede ejecutar un test no paramtrico para comparar las medianas en lugar de las medias. Los test no paramtricos no asumen que los datos provengan de una distribucin normal y tienden a ser menos afectados por la presencia de valores atpicos.

Seleccionando Comparacin de medianas del cuadro de dilogo Tablas y Grficos se genera el test del estadstico W de Mann-Whitney (Wilcoxon). En este test, las dos muestras han sido primero combinadas. Los datos combinados se han reordenado de 1 hasta n1+n2, y los valores de los datos originales han sido reemplazados por sus respectivos rangos. statistical test del estadstico W se construye comparando los rangos medios de las observaciones en las dos muestras:

La interpretacin del test de Mann-Whitney (Wilcoxon) es paralela a la del test de la t descrito en la ltima seccin, con un P-valor igual a 0 que permite concluir que las medianas de las muestras son significativamente diferentes.

11.9 Test de Kolmogorov-Smirnov para dos muestras Un test no paramtrico adicional que puede ser ejecutado si la asuncin de la normalidad de las distribuciones no es sostenible es el test de Kolmogorov-Smirnov para dos muestras. Este test est basado en el clculo de la distancia vertical mxima entre las funciones de distribucin acumuladas de las dos muestras, que aproximadamente es la mxima distancia entre los dos grficos de cuantiles de la figura 11-9. Si la mxima distancia es lo suficientemente grande, las dos muestras pueden ser declaradas provenientes de poblaciones significativamente diferentes. Seleccionando Test de Kolmogorov-Smirnov en el cuadro de dilogo de Tablas y Grficos se muestra lo siguiente:

La mxima distancia vertical, denotada por DN, es igual aproximadamente a 0.95 para los datos de las medidas de los materiales. El P-valor es utilizado para determinar cundo las distribuciones son o no son significativamente diferentes. Un pequeo P-valor nos lleva a la conclusin de que hay una diferencia significativa. Ya que el P-valor para esta muestra de datos es menor o igual que 0.05, hay una diferencia significativa entre las distribuciones de las medidas del aluminio y el acero al 5% de nivel de significacin. Peligro: Si los datos se redondean, el test puede no ser fiable ya que la funcin de distribucin acumulativa emprica (CDF) puede tener saltos en pasos largos. Cuando sea posible, es mejor confiar en una comparacin de parmetros seleccionados de distribuciones tales como la media, la desviacin tpica o la mediana.

Tutorial #12: Comparando ms de dos muestras Comparando medias y desviaciones tpicas, ANOVA de un factor, ANOM, y mtodos grficos. Cuando los datos caen en ms de dos grupos, se necesita utilizar tcnicas diferentes a las usadas en el captulo anterior. Por ejemplo, supongamos que queremos comparar la resistencia de 4 materiales diferentes. En un experimento tpico, construimos 12 aparatos de cada uno de los 4 materiales para compararlos. Los datos siguientes representan los resultados del experimento:

Es de considerable inters determinar qu materiales de construccin son ms resistentes, as como qu materiales son estadsticamente diferentes entre s. Hay dos caminos diferentes para introducir datos de mltiples muestras en la hoja de datos: 1. Usar una columna separada para cada muestra. 2. Usar una columna simple para todos los datos y crear una segunda columna con cdigos identificando de qu muestra proviene cada observacin.

12.1 Ejecutando el procedimiento comparacin de varias muestras El procedimiento Comparacin de varias muestras es accesible en el men principal de las dos Formas siguientes: 1. Si usa el men clsico seleccione: Comparar Varias muestras Comparacin de varias Muestras. El cuadro de dilogo inicial se utiliza para estructurar los datos:

En este caso, los datos han sido situados en varias columnas de la hoja de datos.

En el archivo de la muestra de datos, las observaciones han sido situadas en cuatro columnas de nombres Cemento, Concreto, Hormign, Hormign ArmadoCuando se presiona Aceptar, aparece el cuadro de dilogo Tablas y Grficos. Se aceptan las caractersticas por defecto en este tutorial. Cuando se abre la ventana de anlisis, aparecern cuatro paneles:

El panel superior izquierdo resume el tamao de cada muestra y su rango. El panel superior derecho muestra un grfico de dispersin de los datos, ampliado a continuacin:

Observad que muchas de las observaciones aparecen una encima de otra en lneas verticales. Para aliviar este problema, se hace doble clic en el panel grfico para maximizarlo y se presiona el botn Separar de la barra de herramientas de anlisis y se aade una pequea cantidad de separacin horizontal moviendo el botn deslizante un poco hacia la derecha:

Se desplaza una pequea cantidad de puntos aleatoriamente en la direccin horizontal, haciendo que los puntos individuales se observen ms fcilmente:

12.2 Anlisis de la varianza El primer paso cuando se comparan varias muestras es habitualmente ejecutar un anlisis de la varianza simple (ANOVA). El anlisis ANOVA se utiliza para contrastar la hiptesis de igualdad de medias poblacionales eligiendo entre las dos hiptesis siguientes: Hiptesis nula: Cemento = Concreto = Hormign = Hormign ArmadoHiptesis alternativa: Las medias no son iguales.Donde j representa la media de la poblacin de la cual hemos tomado la muestra j-sima. El rechazo de la hiptesis nula indicar que las muestras provienen de poblaciones con medias diferentes. La salida del procedimiento ANOVA est contenida en la tabla ANOVA, que se muestra inicialmente en el panel inferior izquierdo de la ventana de anlisis:

El anlisis de la varianza descompone la variabilidad de los datos observados en dos componentes: una componente entre grupos, que cuantifica las diferencias entre aparatos hechos de diferentes materiales, y una componente dentro de grupos, que cuantifica las diferencias de los aparatos hechos con el mismo material. Si se estima la variabilidad entre grupos y es significativamente mayor que la variabilidad dentro de grupos, es evidente que las medias de los grupos no son similares. El valor clave en la tabla ANOVA es el P-valor. P-valores pequeos (menores que 0.05 operando al 5% de nivel de significacin) llevan al rechazo de la hiptesis de igualdad de medias. En el ejemplo actual, hay una pequea duda de si las muestras son significativamente diferentes.

Tambin muestra los resultados de un modelo ANOVA en formato grfico. Este Grfico ANOVA se muestra por defecto en el panel inferior derecho:

A lo largo de la parte inferior del grfico hay un diagrama de puntos de los residuos del modelo. En el ANOVA simple, los residuos son iguales a las diferencias entre cada observacin y la media de todas las observaciones de ese grupo. En el ejemplo actual, la variabilidad observada en los residuos es indicativa de la variabilidad natural entre las resistencias de los materiales a estudiar. Representados por encima de la lnea central estn escaladas las desviaciones de las medias de los grupos respecto de la media total de las n = 60 observaciones. Este grupo de desviaciones est escalado de modo que su variabilidad pueda ser comparada con la de los residuos. Grupos cuyos puntos estn demasiado lejos probablemente provengan de una distribucin con extensin similar a la de los residuos como corresponde a poblaciones diferentes. En la figura, el Hormign Armado parece estar bastante separado de los otros grupos. La separacin de las otras tres medias es menos clara. Una comparacin ms formal de las medias de las cuatro muestras se describe en la seccin siguiente.

12.3 Comparando medias Si el P-valor en la tabla ANOVA es pequeo, entonces la media de la muestra debe ser examinada, para determinar qu medias son significativamente diferentes unas de otras. Un grfico habitual para esta finalidad es Grfico de medias disponible en el cuadro de dilogo Tablas y Grficos:

El grfico de medias muestra cada media de la muestra, junto con un intervalo de confianza a su alrededor. La interpretacin de los intervalos depende del tipo de intervalo representado, el cual puede ser cambiado utilizando Opciones de ventana. Los dos intervalos ms habitualmente utilizados son: 1. Intervalos LSD de Fisher LSD (Least Significant Difference): Estos intervalos estn escalados de modo que un par de muestras tiene medias significativamente diferentes si los intervalos no se solapan en la direccin vertical. Mientras la posibilidad de declarar incorrectamente dos muestras con media diferente con este mtodo se fija en el 5%, haciendo comparaciones de ms de dos pares de muestras la probabilidad de error es considerablemente superior.

2. Intervalos HSD de Tukey (Honestly Significant Difference). Estos intervalos estn escalados para controlar el error del experimento como mucho con una tasa del 5%. Usando el mtodo de Tukey, no se declararn incorrectamente que ningn par de medias sea significativamente diferente cuando realmente no los son en ms de 5% de los anlisis que se hagan. Los intervalos de la figura anterior utilizan el mtodo de Tukey. Ya que el intervalo para la muestra Hormign Armado no solapa ningn otro intervalo, la media de la muestra Hormign Armado difiere significativamente de la de las otras tres muestras. La muestra Hormign tambin es significativamente diferente de la muestra Cemento, ya que sus intervalos no se solapan. La muestra Concreto, sin embargo, no es significativamente diferente de las muestras Hormign o Cemento. El mismo anlisis puede ser mostrado en forma tabular seleccionando Pruebas de Mltiples Rangos del cuadro de dilogo Tablas y Grficos:

La seccin inferior de la salida muestra cada par de medias. La columna Diferencia muestra la media simple del primer grupo menos la del segundo. La columna +/- Lmites muestra un intervalo de confianza para la diferencia. Cualquier par de medias para el que el valor absoluto de la diferencia exceda el lmite presenta diferencia estadsticamente significativa al nivel de confianza seleccionado y es representado por un * en la columna Sig. En el ejemplo actual, los seis pares de medias muestran diferencias significativas. La seccin superior de la salida presenta las muestras en grupos homogneos, presentando la letra X en columnas. Un grupo homogneo es aqul para el que no hay diferencias significativas. En este caso, todas las muestras son un grupo homogneo en s mismo, ya que todos son significativamente diferentes.12.4 Comparando Medianas

Cuando existen valores atpicos, deben utilizarse procedimientos no paramtricos como una alternativa a los anlisis estndar de la varianza seleccionando los test de Kruskal-Wallis y Friedman en la caja de dilogo Tablas. Estos test comparan las medianas de las muestras en lugar de las medias: Hiptesis nula: las medianas son todas iguales Hiptesis alternativa: las medianas no son todas iguales Este tipo de test puede ser utilizado seleccionando Opciones de ventana. Hay dos tipos de test: 1. Test de Kruskal-Wallis apropiado cuando cada columna contiene una muestra aleatoria de su poblacin. En tal caso, las filas no tienen significado intrnseco. 2. Test de Friedman apropiado cuando cada fila representa un bloque. Variables tpicas de bloque son da de la semana, turnos, o localizacin de la produccin. En este ejemplo, las filas no tienen significado, por lo que es apropiado el test de Kruskal-Wallis:

La entrada importante de la tabla anterior es el P-valor. Ya que el P-valor es grande (mayor que 0.05), la hiptesis alternativa se rechaza).

Se pueden comparar tambin pares de medianas seleccionando Grfico de caja y bigotes del cuadro de dilogo Tablas y Grficos y utilizando Opciones de ventana para aadir muescas:

El rango cubierto por cada muesca muestra el intervalo de confianza estimado para la mediana de cada grupo. Vemos que las 3 muestras son diferentes y varan bastante entre si esto se debe a la diferencia entre los materiales.

12.6 Grficos de los residuos Siempre que se ajusta un modelo estadstico a los datos, es importante examinar los residuos del modelo ajustado. En este anlisis, hay un residuo correspondiente a cada uno de los n = 60 definidos como la diferencia entre la resistencia de los materiales y la resistencia media de todos los materialesLa caja de dilogo Grficos contiene una entrada para generacin automtica de grficos de residuos. En la seccin Opciones de ventana, se pueden representar residuos por grupos, contra valores predichos, o un orden de fila definido en la hoja de datos. El grfico siguiente muestra los residuos contra valores predichos de resistencia:

En este tipo de grficos, debe observar lo siguiente: 1. Outliers residuos aislados respecto de los dems. Tales puntos necesitarn ser investigados posteriormente para determinar cundo existe una causa asignable que explique su comportamiento inusual. 2. Heteroscedasticidad un cambio sistemtico en las varianzas de los valores predichos creciente o decreciente. Esta condicin aparece tpicamente mediante una apariencia en forma de embudo en el grfico necesitando una transformacin de las observaciones originales tomando logaritmos de los datos antes de ejecutar el anlisis. Procedimientos tales como Test de los rangos mltiples no trabajarn adecuadamente cuando la variabilidad dentro de grupos difiera significativamente entre los grupos. Si se desea, los residuos pueden ser guardados como una columna de la hoja de datos presionando el botn Guardar resultados en la barra de herramientas de anlisis.

Tutorial 13Ajustando modelos lineales y no lineales, seleccionando el mejor modelo, representando residuos y mostrando resultados.

Una de las secciones ms amplias de STATGRAPHICS Centurion XVI es el conjunto de procedimientos que ajustan modelos de regresin estadstica. En un modelo de regresin, una variable respuesta Y se expresa en funcin de una o ms variables predictoras X, ms un ruido (o error). En la mayora de los casos (sin embargo no en todos), la forma funcional en los coeficientes desconocidos es lineal, de modo que el modelo se expresa como sigue donde el subndice i representa la i-sima observacin en la muestra de datos, los son los coeficientes desconocidos del modelo y es una desviacin aleatoria, habitualmente con distribucin normal de media 0 y desviacin tpica . Dado un conjunto de datos con una variable respuesta Y y una o ms posibles variables predictoras, la finalidad del anlisis de la regresin es construir un modelo que: 1. describa las relaciones que existen entre las variables de tal manera que sea posible predecir Y para valores conocidos de las X. 2. contiene las X necesarias para generar buenas predicciones.

13.1 Anlisis de la correlacin Una herramienta habitual para comenzar el anlisis de la regresin es el procedimiento Anlisis de variables mltiple. Este procedimiento se obtiene del men principal de dos formas: 1. Si usa el men clsico, seleccione Describir Datos numricos Anlisis de variables mltiples.

.

Le damos aceptar..

El panel superior izquierdo lista las variables de entrada, mientras que el panel central izquierdo muestra el resumen de estadsticos. Hay un total de 93 filas en el archivo de datos que tienen informacin completa en todas las variables a analizar. El grfico matricial de la derecha muestra los grficos X-Y para cada par de variables

Para interpretar el grfico, observe la etiqueta de una variable tal como precio. La variable indicada se muestra en el eje vertical de todos los grficos de su fila y en el eje horizontal de todos los grficos de su columna. Cada par de variables se muestra de este modo dos veces, una vez por encima de la diagonal y otra vez por debajo. En el grfico anterior se han aadido alisados robustos LOWESS maximizando el panel y utilizando el botn Alisado/Rotacin de la barra de herramientas de anlisis. Del mayor inters es la fila superior de grficos, que muestra Precio graficada contra cada una de las 6 variables predictoras potenciales. Todas las variables estn claramente correlacionadas con el precio, algunas de forma no lineal. Hay tambin mucha correlacin entre las variables predictoras y. por lo tanto, presencia de multicolinealidad, lo cual sugiere que algunas combinaciones diferentes de variables pueden ser igualmente buenas para predecir Y. La tabla siguiente muestra la matriz de coeficientes de correlacin estimados para cada par de variables en el anlisis:

.

La tabla muestra los coeficientes de correlacin para cada par de variables, el nmero de observaciones utilizadas en la estimacin y un P-valor. Un coeficiente de correlacin r es un nmero entre -1 y +1, que mide la intensidad de la relacin lineal entre las dos variables. Los valores de mxima correlacin son -1 (correlacin negativa) y +1 (correlacin positiva). El signo de la correlacin indica su direccin. Un valor positivo indica que Y aumenta cuando X aumenta. Una correlacin negativa indica que Y disminuye cuando X aumenta. Para determinar cundo un par de variables est efectivamente correlacionado, se calcula el P-valor de su coeficiente de correlacin (test del coeficiente de correlacin). Si el P-valor es menor o igual que 0.05 la correlacin lineal de las dos variables es estadsticamente significativa al 5% de nivel de confianza. La fila superior muestra la correlacin entre el precio y los 6 predictores. La ms fuerte se produce con el dimetro que es 0,9070. El signo positivo indica que el precio y el dimetro son directamente proporcionales.

13.2 Regresin simple El primer modelo estadstico que se ajustar ser la lnea recta de la forma:

Si usa el men clsico, seleccione Relacionar Un Factor Regresin simple.

Despus del men Opciones y del cuadro de dilogo Tablas y Grficos, la ventana inicial tiene cuatro paneles mostrando informacin acerca del modelo ajustado y de los residuo

Entre los muchos estadsticos de la tabla anterior, los ms importantes son los siguientes: Coeficientes: coeficientes del modelo estimado. El modelo ajustado que se utilizar para la prediccin es: Precio = 0,166667 + 0,597222*LongitudR-cuadrado: el porcentaje de variabilidad en Y que ha sido explicado por el modelo. En este caso, la regresin lineal contra longitud explica cerca del 21.1944 % de la variabilidad en Precio

P-Valor del modelo: Un P-valor mayor 0.05. No hay una relacin estadsticamente significativa entre Precio y Longitud con un nivel de confianza del 95,0% ms.

El grfico muestra la lnea de regresin por mnimos cuadrados y dos conjuntos de lmites. Los lmites interiores son intervalos de confianza al 95% para el valor medio de Y dado un X. Esto indica la calidad de la estimacin de los puntos de la lnea de regresin, supuesto que la relacin es lineal. A mayor tamao de muestra para la estimacin, intervalos ms estrechos. Las lneas exteriores son lmites de prediccin al 95% para nuevas observaciones. Se estima que el 95% de observaciones adicionales, similares a las de este ejemplo, caern entre las bandas.

13.3 Ajustando un modelo no lineal El procedimiento Regresin simple incluye la posibilidad de ajustar una amplia variedad de modelos no lineales. Para evaluar la mejora relativa que pueden aportar varios modelos, seleccione Comparacin de modelos alternativos del cuadro de dilogo Tablas y Grficos. Esto ajustar los posibles modelos y los listar en orden decreciente de R cuadrado:

Los modelos al principio de la lista explican el mayor porcentaje de la variacin en la variable respuesta. R-cuadrado es slo un criterio que puede ayudar a elegir el modelo. Modelos con valores de R-cuadrado ms bajo que le modelo del principio de la lista pueden ser preferibles si son ms sensibles en el contexto de los datos. En el contexto actual, un modelo atractivo cercano al principio de la lista es el modelo Recproco-Y. Este modelo toma la forma:

En l, el recproco del precio est expresado como una funcin lineal de la longitud. Es frecuente que transformaciones de Y, X, o ambas puedan aventajar a los mejores modelos. Para ajustar el modelo Recproco-Y, presione el botn Opciones de anlisis y seleccione Recproco-Y en el cuadro de dilogo. El ajuste resultante se muestra a continuacin:

13.4 Examinando los residuos Una vez que se ha ajustado un modelo razonable, hay que examinar los residuos del ajuste. En general, un residuo puede ser observado a travs de la diferencia entre el valor observado de Y y el valor predicho por el modelo: residuo = Y observado Y predicho El anlisis de Regresin Simple automticamente grafica los residuos frente a la variable X:

Usando Opciones de ventana, puede elegir entre graficar residuos simples o residuos estudentizados. Los residuos estudentizados se obtienen dividiendo los residuos ordinarios por sus errores estndar estimados. Un residuo estudentizado indica qu cantidad de error estndar de los datos proviene del modelo ajustado. STATGRAPHICS Centurion XVI calcula actualmente residuos estudentizados borrados. Los residuos borrados se calculan eliminando una observacin, reajustando el modelo, y determinando el nmero de errores estndar que se separa del nuevo modelo ajustado. As se observan los valores atpicos que tienen un gran impacto en el modelo cuando se calculan los residuos. La seleccin de Residuos atpicos en el cuadro de dilogo Tablas y Grficos lista todos los residuos estudentizados que son mayores que 2 en valor absoluto:

La tabla de residuos atpicos enlista todas las observaciones que tienen residuos Estudentizados mayores a 2, en valor absoluto. Los residuos Estudentizados miden cuntas desviaciones estndar se desva cada valor observado de Precio del modelo ajustado, utilizando todos los datos excepto esa observacin. En este caso, hay un residuo Estudentizado mayor que 2, pero ninguno mayor que 3.

13.5 Regresin mltiple Para mejorar el modelo, es necesario aadir otras variables predictoras. Esto se logra ms fcilmente utilizando anlisis de Regresin mltiple, que se define en el men principal bajo: 1. Si usa el men clsico, seleccione Relacionar Factores mltiples Regresin mltiple. El cuadro de dilogo de entrada de datos tiene la siguiente forma

:

Para comenzar, los 6 predictores considerados en el procedimiento Anlisis de mltiples variables discutidos anteriormente se introducirn como variables independientes. La variable dependiente es el recproco de precio, A continuacin se utiliza el men Opciones y se muestra el cuadro de dilogo de Tablas y Grficos. El resumen de anlisis resultante se muestra a continuacin

La salida muestra los resultados de ajustar un modelo de regresin lineal mltiple para describir la relacin entre 1/Precio y 6 variables independientes. La ecuacin del modelo ajustado es

1/Precio = -0,325862 + 0,0253801*Diametro - 0,000103178*Area - 0,0323123*Longitud + 0,00062114*Peso + 0,00383068*Embalaje + 0,000159124*Pezo

Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relacin estadsticamente significativa entre las variables con un nivel de confianza del 95,0%.

Un mtodo habitual para simplificar el modelo es ejecutar la regresin paso a paso. En cada paso de la regresin, se aaden o eliminan variables de la regresin una cada vez, con la finalidad de obtener un modelo que contiene slo predictores significativos. La regresin paso a paso est disponible en el cuadro de dilogo de Opciones de anlisis:

Hay dos opciones paso a paso: 1. Seleccin hacia adelante comienza con un modelo que contiene slo la constante e introduce variables de una en una que mejoran la significatividad del ajuste. 2. Seleccin hacia atrs comienza con todas las variables del modelo y las va eliminando de una en una hasta que el modelo resulta significativo. En ambos mtodos, las variables eliminadas pueden ser introducidas en un paso posterior si deben ser utilizadas como predictores, y las variables introducidas pueden ser eliminadas posteriormente si no aportan suficiente significatividad al modelo. Ejecutando una regresin hacia atrs se obtienen los siguientes resultados:

La salida muestra los resultados de ajustar un modelo de regresin lineal mltiple para describir la relacin entre 1/Precio y 6 variables independientes. La ecuacin del modelo ajustado es

1/Precio = -0,0295753 + 0,00271017*Embalaje

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relacin estadsticamente significativa entre las variables con un nivel de confianza del 95,0%.Para graficar el modelo, puede: Utilizar el procedimiento Grficos de superficie y contorno copiando la funcin a graficar y definiendo sus propios ttulos y escalas- 1. Si usa el men clsico, seleccione Grficos Grficos de superficie y contorno. En el cuadro de dilogo de entrada de datos, introduzca el modelo, expresando las dos variables predictoras X e Y. El camino ms fcil es pegar la ecuacin generada por el procedimiento regresin mltiple, cambiando Potencia por X y Peso por Y:

Tutorial #5: Analizando datos de atributos Tablas de frecuencias, tablas de contingencia y anlisis de Pareto Cada uno de los primeros cuatro tutoriales trabajan con datos de variables, con las observaciones numricas en una escala continua. Este tutorial examina un conjunto de datos de atributos, en los cuales una observacin representa una categora en la que se clasifica el atributo, en vez de una medicin numrica.

Los datos tienen n = 100 filas, correspondientes cada una a un defecto que fue observado en el proceso de fabricacin. El archivo tambin indica el tipo de defecto producido y donde se realiz el producto.

14.1 Resumiendo datos de atributos Ignorando por un momento la instalacin en la que cada tem fue producido, los datos de tipo de defecto pueden ser resumidos mediante: seleccione Describir Datos categricos Tabulacin. El cuadro de dilogo de entrada de datos espera una columna simple conteniendo datos de atributos:

El procedimiento observa la columna, identificando cada valor nico. Aparece el cuadro de dilogo Tablas y Grficos y se genera una ventana de anlisis similar a la siguiente:

El panel superior izquierdo muestra que hay 9 valores distintos en las n = 100 filas. El grfico de barras y el grfico de sectores de la derecha ilustran las frecuencias observadas de cada tipo de defecto, las cuales se tabulan en el panel inferior izquierdo. El tipo ms comn de defecto es rea, que representa cerca del 12% de todos los defectos.

14.2 Anlisis de Pareto El procedimiento Tabulacin de frecuencias ordena los tipos de defecto en orden alfabtico. Para ordenarlos de ms a menos frecuentes, se utilice en su lugar el procedimiento Anlisis de Pareto. Este procedimiento es accesible mediante: 1. seleccione CEP Evaluacin de la calidad Anlisis de Pareto.

El procedimiento Anlisis de Pareto acepta datos en dos formatos: 1. Datos no tabulados en una columna, como en el ejemplo actual. 2. Datos que han sido agrupados por tipos de defectos. Aplicable si se tienen dos columnas, una identificando los tipos de defectos y otra conteniendo el nmero de veces que ocurre cada tipo de defecto. La ventana de anlisis muestra ambas tablas resumen y el grfico de Pareto:

De particular inters es el grfico de Pareto de la derecha, que representa las frecuencias de cada tipo de defecto de los ms comunes a los menos comunes. Inicialmente, las etiquetas de las barras se solapan debido a su nmero y longitud. Este puede resolverse mediante: 1. Doble clic en el grfico con el ratn para maximizar el panel en la ventana de anlisis. 2. Presionando el botn Opciones grficas en la barra de herramientas de anlisis, haciendo clic en la solapa Eje-X, y marcando la casilla Rotar etiquetas de los ejes. 3. Despus de salir del cuadro de dilogo Opciones grficas, pueden ajustarse o no completamente a la pantalla. En caso negativo, haga clic con el ratn en la parte principal del grfico y arrastrando sin levantarlo aumente su altura o anchura, o arrastre el eje X para reducir el tamao del eje vertical.

Las barras verticales en el grfico de Pareto estn dibujadas con altura proporcional al nmero de veces que ocurre cada defecto. La lnea por encima de las barras es la frecuencia acumulada de izquierda a derecha. Encima de cada barra se muestra el porcentaje de defectos ocurridos en una determinada clase a clases lejanas de la izquierda. El principio bsico de Pareto establece que la mayora de los defectos son habitualmente debidos a un nmero pequeo de causas posibles. En este caso, los 3 tipos de defectos ms frecuentes sobrepasan el 80% de todos los defectos.

14.3 Tabulacin cruzada El archivo de tambin contiene una identificacin de qu establecimientos producen cada tem definitivo. Para resumir los datos para tipos de defectos y establecimientos: seleccione Describir Datos categricos Tabulacin cruzada.

Despus de los cuadros de dilogo de Opciones y de Tablas y Grficos, se genera la siguiente ventana de anlisis:

La tabla del panel inferior izquierdo tabula los datos para tipos de defectos y establecimientos:

Como se muestra inicialmente, cada celda de la tabla muestra el nmero de filas en el archivo de datos correspondiente a una combinacin particular fila-columna. Tambin indica el porcentaje de toda la tabla representado por esta celda. Por ejemplo, hay 23 tems contaminados producidos en la instalacin de Merida, representando el 23 por ciento de todos los tems defectuosos en la muestra. Opciones de ventana permite seleccionar otros tems para representar en cada celda:

Una interesante eleccin para los datos actuales es mostrar Porcentajes de filas en vez de Porcentajes de tablas:

El porcentaje tabulado ahora indica el porcentaje que cada celda representa en su fila. Por ejemplo, el 76.67% de todos los tems daados fueron producidos en Merida, mientras que el 66.67% de todos los tems de defecto por material fueron producidos en Tachira. Esto sugiere que algunos tipos de defectos pueden ocurrir ms frecuentemente en un establecimiento que en otro, una hiptesis que ser contrastada formalmente en la seccin siguiente. Se muestran varios grficos que son tambin de ayuda. Por ejemplo, el grfico de barras siguiente muestra los datos para defectos y establecimientos:

La diferencia entre los establecimientos es evidente. Un grfico, denominado Grfico de mosaico, es tambin muy informativo:

En este grfico, la altura de cada barra es proporcional al nmero total de defectos de cada tipo. La anchura de las barras es proporcional al porcentaje relativo de cada tipo de defecto en cada localizacin. Consecuentemente, el rea total de cada rectngulo es proporcional a la frecuencia de la correspondiente celda en la tabla de doble entrada. Si lo desea, las frecuencias de celda pueden mostrase tambin en tres dimensiones seleccionando Grfico de rascacielos (Skychart)en el cuadro de dilogo de Tablas y Grficos:

En un Skychart, la altura de cada barra representa la frecuencia de una celda en la tabla de contingencia.

14.4 Comparando dos o ms muestras Para determinar cundo o no las diferencias aparentes entre los establecimientos de Texas y Virgini son estadsticamente significativas, seleccione Test de Independencia del cuadro de dilogo Tablas y Grficos. Para una tabla de este tamao, el procedimiento muestra los resultados del contraste de la chi-cuadrado:

El test de la chi-cuadrado de independencia se utiliza para decidir entre dos hiptesis: Hiptesis nula: clasificaciones de filas y columnas son independientes. Hiptesis alternativa: clasificaciones de filas y columnas no son independientes

La independencia debe implicar que el tipo de defecto definido en un tem no tiene nada que ver con el establecimiento en el cual este tem fue fabricado. Para el test de la chi-cuadrado, un pequeo P-valor indica que las clasificaciones de filas y columnas no son independientes. En este caso, el P-valor es menor que 0.05, indicando al 5% de nivel de significacin que la distribucin de tipos de defectos es diferente en la Realizacin en Tchira que en la Realizacin en Mrida. Tambin se muestra un mensaje de peligro, ya que algunas frecuencias de celdas en la tabla de doble entrada son menores que 5. (Tcnicamente, el peligro ocurre si la frecuencia esperada en alguna celda es menor que 5 asumiendo que la hiptesis nula es cierta). Con celdas con frecuencias pequeas, el P-valor puede ser poco formal. Una solucin de este problema es agrupar todos los tipos de defectos infrecuentes en una clase nica y reejucutar el test. Esto se hace fcilmente en STATGRAPHICS Centurion XVI de la siguiente forma:

1. Volver a la hoja de datos y hacer clic en la cabecera de la columna Defectos para seleccionarla. 2. Presionar el botn derecho del ratn y seleccionar Recodificar datos en el men emergente. 3. Completar el cuadro de dilogo Recodificar datos como se muestra a continuacin para combinar los tipos de defectos menos comunes en una clase nica etiquetada Otros:

Las entradas del cuadro de dilogo Recodificar datos instruyen al programa para buscar los valores en la columna Defectos que caen en cada intervalo definido. Una etiqueta que cae alfabticamente entre los lmites muestra cmo una fila dada es recodificada a los valores especificados en la columna Nuevos valores. Despus de ejecutar la operacin de recodificacin, vuelva a la ventana de anlisis Tabulacin cruzada. En respuesta al cambio en el conjunto de datos, el anlisis ser automticamente actualizado. La nueva clase Otros tiene ahora una frecuencia razonable, como muestra el Grfico de mosaico revisado:

Despus de la recodificacin, el test de la chi-cuadrado muestra an una diferencia significativa entre los establecimientos de Tachira y Merida

Esta tabla muestra los resultados de la prueba de hiptesis ejecutada para determinar si se rechaza, o no, la idea de que las clasificaciones de fila y columna son independientes. Puesto que el valor-P es mayor o igual que 0,05, no se puede rechazar la hiptesis de que filas y columnas son independientes con un nivel de confianza del 95,0%. Por lo tanto, el valor observado de Defecto para un caso en particular, pudiera no tener relacin con su valor en Realizado.

14.5 Tablas de contingencia Para determinar cundo una instalacin produce ms tems defectuosos que otra, necesitamos conocer la produccin total de cada instalacin. Supongamos que la siguiente tabla describe producciones mensuales:

Sea 1 la proporcin de tems defectuosos de Mrida y 2 la proporcin de tems defectuosos de Tchira. Las proporciones estimadas vienen dadas por:X1=57/7656=0.0074X2=43/6876=0.0062

Basado en estos datos, se muestra que el porcentaje de tems defectuosos producidos en Merida puede ser mayor que el porcentaje de tems defectuosos producidos en Tachira. Para determinar cundo esta diferencia aparente es estadsticamente significativaEntonces seleccione Tablas de contingencia del mismo men que Tabulacin cruzada. Introducir:

El anlisis mostrar un test de la chi-cuadrado de tablas 2 por 2:

Recordar que este contraste de la chi-cuadrado determina cundo o no las clasificaciones de filas y columnas son independientes. En este caso, la independencia implicar que cuando un tem fue defectuoso o no nada tiene que ver con el establecimiento en el cual fue producido. Ya que el P-valor en la tabla anterior es mayor que 0.05, la hiptesis de independencia se afirma .