Apunte Unidad Nº2 KC 2010

SANTIAGO, Agosto 09 de 2000

UNIVERSIDAD DE SANTIAGO DE CHILEFACULTAD DE INGENIERA

CENTRO DE CAPACITACIN INDUSTRIAL C.A.I.

Control de Calidad Estadstico

Contenido2.FUNDAMENTOS ESTADISTICOS DEL CONTROL DE CALIDAD2.1. Recoleccin de datos

2.2. Poblacin y Muestra

2.3. Tamao

2.4. Probabilidades

2.5. Seleccin de datos

2.6. Muestras representativas

2.7. Variable discreta

2.8. Variable continua

2.9. Tabla de distribucin de frecuencias

2.10. Valores agrupados y no agrupados

2.11. Frecuencias absoluta, total, acumulada

2.12. Representacin grfica de distribucin de frecuencia

2.13. Histograma

2.14. Polgonos de frecuencia

2.15. Cifras indicadoras de posicin

2.16. Moda, mediana, medio, varianza

2.17. Desviacin tpica

2.18. Distribucin normal

CAPITULO 2: FUNDAMENTOS ESTADISTICOS DEL CONTROL DE CALIDAD

Introduccin.

En general son dos los significados que se asocian a la palabra estadstica:

i). Un conjunto de datos cuantitativos sobre un tema o grupo determinado, en especial cuando los datos se renen y agrupan de manera sistemtica. Ejemplos de lo anterior son las estadsticas de la presin sangunea, de un juego de ftbol, de empleo y de accidentes, por nombrar slo unos cuantos. En la vida cotidiana, estamos todos los das siendo informados a travs de cifras estadsticas.

ii).La ciencia que se ocupa de la recopilacin, tabulacin, interpretacin y presentacin de datos cuantitativos.

Conviene destacar que este segundo significado es ms general que el primero, dado que tambin se ocupa de la recopilacin de los datos.

La aplicacin de la estadstica en el control de la calidad est relacionada con ese segundo significado, ms amplio, e implica tareas como la recopilacin, tabulacin, anlisis, interpretacin y presentacin de los datos cuantitativos.

El poder llevar a cabo adecuadamente cada una de estas tareas depender de que la precedente se realice cabalmente y con exactitud. Por ejemplo, la recopilacin de los datos es tarea encomendada a un tcnico que debe medir la intensidad de la resistencia a la tensin de una pieza de plstico, o bien se le solicita a un investigador de mercados que averige que colores prefiere un consumidor.

La tabulacin de los datos se puede realizar ya sea empleando lpiz y papel, o hasta recurriendo al auxilio de una computadora. El anlisis puede implicar desde una revisin visual hecha sobre la marcha, hasta la realizacin de abundantes clculos. Los resultados finales se interpretan, lo que servir para basar la toma de una decisin relacionada con la calidad.

Existen dos clases estadsticas:

a.Estadstica descriptiva o deductiva, que se ocupa de la descripcin y anlisis de un tema o grupo (por ejemplo, edad de una poblacin, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) y trata de extraer conclusiones sobre el comportamiento de estas variables.

b.Estadstica inductiva, cuyo objeto es, a partir de una determinada cantidad de datos (muestra), obtener una conclusin importante acerca de una cantidad de datos mayor (poblacin). Dado que no es posible establecer tales conclusiones o inferencias con total certeza, se utilizan trminos del lenguaje de la probabilidad.

Para comprender el control de calidad, as como otras disciplinas, es imprescindible una formacin bsica en estadsticas.2.1. Recoleccin de datos

La recoleccin o recopilacin de datos se realiza mediante la observacin directa o indirecta, a travs de preguntas hechas por escrito o verbalmente. El empleo de esta ltima tcnica est muy generalizada entre el personal de investigacin de mercados y los encuestadores de opinin pblica.

La recopilacin de datos que est enfocada al uso en el control de calidad, se obtiene mediante observacin directa y se clasifica como variables o como atributos. Las variables son aquellas caractersticas de la calidad que son medibles, como sera el peso expresado en gramos. Los atributos, por otra parte, son las caractersticas de la calidad que se pueden contar u observar y se dividen en dos grupos: los que satisfacen determinadas especificaciones y los que discrepan de ellas (es decir, las que se ajustan a un patrn o medida, y las que no se ajustan a ste).

2.2. Poblacin y Muestra

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

Individuo: cualquier elemento que aporte informacin sobre el fenmeno que se estudia. As, si estudiamos la altura de los nios de una clase, cada alumno es un individuo; si estudiamos el precio de las viviendas, cada vivienda es un individuo.

Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que aporten informacin sobre el fenmeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas de dicha ciudad.

Muestra: subconjunto que seleccionamos de la poblacin, para emitir conclusiones acerca de la poblacin. As, si se estudia el precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy larga y compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

La poblacin es el conjunto total de las mediciones. Cuando se calculan las medias, las desviaciones estndar y otro tipo de mediciones relacionadas con las muestras, dichas medidas se denominan estadsticas.

Dado que la composicin de las muestras puede variar, las estadsticas calculadas resultarn ser mayores o menores que los valores reales de la poblacin, y se conocen como parmetros. Los parmetros se consideran como valores de referencia fija (estndar) o como el clculo ms aproximado de estos valores en un momento determinado.

En una poblacin pueden figurar un nmero finito de elementos, por ejemplo, la produccin diaria de ejes de acero. Puede ser infinita o casi infinita, como es el caso de la cantidad de remaches de la produccin anual de aeroplanos tipo jet. La poblacin se define de diversas maneras, dependiendo de la situacin de que se trate. Por ejemplo, el estudio de un producto podra implicar a la poblacin de la produccin de una hora, de una semana, de 5.000 piezas, etctera.

Dado que rara vez se puede medir la totalidad de la poblacin, se opta por elegir una muestra. El muestreo en general es necesario:

Cuando es imposible medir la totalidad de la poblacin;

Cuando el gasto que implica la observacin de todos los datos representa un costo prohibitivo;

Cuando el proceso de revisin implica la destruccin del producto; o

Cuando el probar el comportamiento de la poblacin entera podra ser muy peligroso, como sera el caso de un nuevo frmaco.

En realidad, el anlisis de la poblacin total puede o no producir resultados ms exactos que el del muestreo. Se ha demostrado que el realizar una revisin 100% en forma manual no da resultados tan precisos como el muestreo. Quizs la razn sea que el aburrimiento y la fatiga favorecen que los inspectores prejuzguen cada elemento revisado considerndolo de antemano aceptable.

Se utilizan letras griegas para nombrar a las poblaciones. Por tanto, el promedio de la muestra se representa como

, y la media de la poblacin por ( (mu). Tome nota que la palabra promedio se reemplaza por la palabra media al hablar de poblacin. El smbolo (media) es el valor estndar o de referencia.

Los conceptos matemticos se basan en que ( es el valor real ( representa un equivalente prctico que permita el uso de los conceptos). La desviacin estndar de la muestra se representa por s, y la desviacin estndar de la poblacin por el signo ( (sigma). El smbolo s es el valor estndar o de referencia y guarda la misma relacin con ( que con (.

Nunca ser posible llegar a conocer el valor real de la poblacin; por ello, se utilizan los smbolos y para indicar que se trata de la aproximacin de.

El objetivo fundamental de elegir una muestra permite aprender algo sobre la poblacin y sirve como auxiliar para tomar una decisin. La muestra escogida deber ser tal que tienda a parecerse o a representar a toda la poblacin. Que tan bien representa la muestra a la poblacin depender del tamao de la muestra, del azar, del mtodo de muestreo y de si las condiciones cambian o no.

Si bien es posible hacer inferencias acerca de la poblacin tomando como base las muestras, tambin es cierto que conocer la poblacin ofrecer informacin para analizar la muestra.

Los tipos de muestra ms representativos son:

Muestra aleatoria = es aquella en la que cada uno de los elementos o individuos que la forman, tuvo la misma oportunidad de ser seleccionado para formar la muestra.

Muestra consecutiva = aquella formada por elementos que se han extrado en forma consecutiva desde el proceso que los produjo.

Muestra sistemtica = aquella formada por elementos que fueron extrados despus de que cada vez se produjo una cantidad fija de elementos, hasta completar el tamao de muestra requerido.

Muestra estratificada = aquella formada por elementos extrados de las partes proporcionales o estratos de la poblacin.

2.3. Tamao

Tamao del lote: es el nmero total de artculos o elementos que constituyen el lote.

Lote de produccin: es una cantidad definida de algn producto o servicio producido de una vez bajo condiciones que son uniformes.

Lote para inspeccin: es una cantidad definida de algn producto, material o servicio que se rene para inspeccin.

Unidad de muestreo: es una de las unidades individuales en las cuales se divide una poblacin. Ejemplos: Un calcetn, un tornillo, un trozo de tela, volumen de harina, etc.

Tamao de la muestra: es el nmero de individuos de la poblacin que conforman la muestra (vara segn el tamao de la poblacin, o de si el objetivo es conocer ms en detalle una misma poblacin)

2.4. Probabilidades

La probabilidad constituye un importante parametro en la determinacin de las diversas casualidades obtenidas tras una serie de eventos esperados dentro de un rango estadstico.

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones suficientemente estables. La teora de la probabilidad se usa extensamente en reas como la estadstica, la fsica, la matemtica, la ciencia y la filosofa para sacar conclusiones sobre la probabilidad de sucesos potenciales y la mecnica subyacente de sistemas complejos.

Por ejemplo, experimentos aleatorios cotidianos son el lanzamiento de una moneda, el lanzamiento de un dado, extraccin de una carta de un mazo de naipes. Ms adelante se ver que debemos distinguir entre los conceptos de probabilidades matemticas o clsicas de las probabilidades experimentales o estadsticas.

2.5. Seleccin de datos

La etapa inicial del trabajo estadstico es definir la poblacin que ser estudiada y la caracterstica que interesa estudiar (variable de inters). Teniendo claros ambos aspectos, es decir, cules son os datos que debemos seleccionar, puede comenzar la etapa de recoleccin de los datos para el estudio.

2.6. Muestras representativas

Es aquella: Cuyo tamao se ajusta a normas preestablecidas.

Cuya seleccin se realiza al azar.

Lo anterior significa que las unidades que componen la muestra, que van a ser empleadas en la inspeccin, deben ser representativas de todo el lote del cual se extraen. Por ejemplo, si se tiene un lote cuya produccin tarda todo el da, una muestra que se extrae slo en la jornada de la maana, digamos a las 10:00 horas, no ser muy representativa del lote completo, debido a que sabemos, las condiciones ambientales pueden influir en los procesos de fabricacin y, por lo tanto, en los productos elaborados.

En este caso lo correcto sera distribuir la extraccin de las unidades que compondrn la muestra, a lo largo del da.

Para la seleccin de la muestra, es importante tener presente la aleatoriedad, es decir, cada individuo de la poblacin tiene la misma posibilidad de ser extrado; la homogeneidad, es decir, los individuos deben pertenecer a subgrupos racionales (misma mquina, mismo turno, materias primas de un mismo proveedor, etc.) y finalmente la representatividad, es decir, la cantidad de individuos que forman parte de la muestra, son representativos de la poblacin?, esto depender entre otros aspectos, de la variabilidad del proceso.

2.7. Variable discreta

Las variables discretas son aquellas que pueden tomar solamente valores enteros, como por ejemplo, la cantidad de remaches defectuosos en una unidad final compleja. Pueden existir 124 remaches defectuosos en dicha unidad, pero nunca se encontrarn 123,8 124,3 remaches defectuosos. Los datos discretos en general son el resultado del conteo y sus valores, como ya se indic, pueden ser solamente nmeros enteros.

2.8. Variable continua

Toda variable susceptible de ser dividida infinitamente, se denomina variable continua. Por ejemplo, el peso de un eje de acero, que puede ser de 11 kg, 11,33 kg o 11, 3398 kg, dependiendo de la precisin del instrumento de medicin utilizado para controlarlo, es una variable continua. Tambin lo son la longitud o el espesor de una pieza, su dimetro, la viscosidad de un compuesto y la dureza de un material.

Las mediciones expresadas en milmetros, en centmetros cbicos, o en libras por pulgada cuadrada, son ejemplos de datos continuos, ya que pueden asumir cualquier valor dentro de cierto rango (valor como nmero real nos referimos).

2.9. Tabla de distribucin de frecuencias

Una de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de resultados, es decir, recoger la informacin de la muestra resumida en una tabla, que denominaremos distribucin de frecuencias, en la que cada valor de la variable se le asocian determinados nmeros que representan el nmero de veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc.Por tanto, llamaremos distribucin de frecuencias a un agrupamiento de datos en clases acompaada de sus frecuencias: frecuencias absolutas, frecuencias relativa o frecuencia porcentuales. En caso de que las variables estn al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas absolutas, y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias varan en dependencia si corresponden a una variable discreta o a una variable continua. Ejemplos:1. Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas mximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.xi RecuentofiFiniNi

27I110.0320.032

28II230.0650.097

29690.1940.290

307160.2260.0516

318240.2580.774

32III3270.0970.871

33III3300.0970.968

34I1310.0321

311

2. Las puntuaciones obtenidas por un grupo de en una prueba han sido:

15, 20, 15, 18, 22, 13, 13, 16, 15, 19, 18, 15, 16, 20, 16, 15, 18, 16, 14, 13.

xiRecuentofiFiniNi

13III30.1531

14I10.0540.95

1550.2590.85

16IIII40.20130.80

18III30.15160.65

19I10.05170.45

20II20.10190.20

22I10.05200.15

20

2.10. Valores agrupados y no agrupados

Cuando la muestra que se ha tomado de la poblacin o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.

Cuando la muestra consta de 30 o ms datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las caractersticas de la muestra y por consiguiente las de la poblacin de donde fue tomada.

Antes de pasar a definir cul es la manera de determinar las caractersticas de inters (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que sepamos como se agrupan los datos.DATOS AGRUPADOS

Medidas de Dispersin Se llaman medidas de dispersin aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentracin de los datos en un cierto sector del recorrido de la variable. Se trata de coeficiente para variables cuantitativas.

Medidas de Tendencia central La estadstica busca entre otras cosas, describir las caractersticas tpicas de conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia central porque general mente la acumulacin ms alta de datos se encuentra en los valores intermedios.

Las medidas de tendencia central comnmente empleadas son :

Media aritmtica

Mediana

Moda

Media geomtrica

Media armnica

Los cuantiaos

Histograma: Esta formado por rectngulos cuya base es la amplitud del intervalo y tiene la caracterstica que la superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamao o diferente ( intervalo variable). La utilizacin de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos , de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea mucho mayor que la de los dems, logrando as que las observaciones se hallen mejor repartidas dentro del intervalo.

Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva representa grficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es til para obtener una medida de los cuartiles, deciles , percentiles.

Polgono de Frecuencias. Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos del histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del reas.

Diagramas de barras son similares a los grficos de sectores. Se representan tantas barras como categoras tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase . Estos mismos grficos pueden utilizarse tambin para describir variables numricas discretas que toman pocos valores

En los grficos de sectores, tambin conocidos como diagramas de "tartas", se divide un crculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de crculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la . Como se puede observar, la informacin que se debe mostrar en cada sector hace referencia al nmero de casos dentro de cada categora y al porcentaje del total que estos representan. Si el nmero de categoras es excesivamente grande, la imagen proporcionada por el grfico de sectores no es lo suficientemente clara y por lo tanto la situacin ideal es cuando hay alrededor de tres categoras. En este caso se pueden apreciar con claridad dichos subgrupos.

NO AGRUPADOS

Otro modo habitual, y muy til, de resumir una variable de tipo numrico es utilizando el concepto de percentiles, mediante diagramas de cajas. La Figura muestra un grfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribucin.

La lnea central en la caja es la mediana. De este modo, si la variable es simtrica, dicha lnea se encontrar en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribucin. Se suelen tambin representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente til para comprobar, grficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan ms apropiados para representar variables que presenten una gran desviacin de la distribucin normal.

2.11. Frecuencias absoluta, total, acumulada

Se llama Frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Se suelen representar con histogramas. Un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valoresrepresentados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos.Existen cuatro tipos de frecuencia:

Frecuencia absoluta (ni) de una variable estadstica Xi, es el nmero de veces que aparece en el estudio este valor. A mayor tamao de la muestra, aumentar el tamao de la frecuencia absoluta; es decir, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada (N).

Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamao de la muestra (N). Es decir,

Siendo el fi para todo el conjunto i. Se presenta en una tabla o nube de puntos en una distribucin de frecuencias .Si multiplicamos la frecuencia relativa por 100 obtendremos el porcentaje o tanto por ciento (pi) que presentan esta caracterstica respecto al total de N, es decir el 100% del conjunto. Frecuencia absoluta acumulada (Ni), es el nmero de veces ni en la muestra N con un valor igual o menor al de la variable. La ltima frecuencia absoluta acumulada deber ser igual a N.

Frecuencia relativa acumulada (Fi), es el cociente entre la frecuencia absoluta acumulada y el nmero total de datos, N. Es decir,

Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi)), que al igual que Fi deber de resultar al final el 100% de N.

2.12. Representacin grfica de distribucin de frecuencia

La estadstica es una disciplina que nos ensea a organizar los datos recogidos para poder analizar sus caractersticas y posteriormente inferir, a partir de las muestras tomadas, las caractersticas de la poblacin investigada. Los cuadros o tablas corresponden a arreglos sistemticos de los datos por filas y columnas y son un buen complemento del texto en los informes.El primer procedimiento estadstico consiste en tabular los datos segn el tipo de escala de medicin utilizada. La tabulacin de los datos conlleva a representar la informacin a travs de tablas que de forma general contiene las siguientes partes fundamentales: Numeracin (siempre que se presenten dos o ms cuadros)

Ttulo: es la descripcin que precede al cuadro, la cul deber estar redactada en forma breve y clara, de tal manera que exprese su contenido, siguiendo el ordenamiento del mismo. Es necesario abarcar las caractersticas: Qu, Dnde, Cmo y Cundo

Encabezamiento: se refiere al nmero de atributos o variables que se quieren representar en el cuadro y se anotan como denominaciones de las columnas y subcolumnas; puede ser unidimensional, bidimensonial o multidimensional. Los ttulos de las columnas van en maysculas y los subttulos en minsculas

Cuerpo: es el conjunto de columnas y lneas que contiene el cuadro en orden vertical y horizontal, donde se colocan los datos sobre los hechos observados

Pie: se refiere a la informacin adicional necesaria a saber: notas, llamadas, fuentes de informacin y otras. Se anotan en el espacio debajo de la lnea inferior que limita el cuerpo del cuadro. Los Grficos Estadsticos:El grfico es quizs el auxiliar ms valioso y utilizado para expresar datos estadsticos, este elemento no le aade novedad a las tablas o cuadros estadsticos, es de fcil comprensin y accesible a un nmero mayor de usuarios. El grfico adems de expresar visualmente los hechos ms importantes de la informacin numrica, permite una mejor y ms fcil comprensin y ahorra tiempo y esfuerzo en el anlisis de datos estadsticos al facilitar su apreciacin visual en forma conjunta:Un histograma es un grfico que sirve para representar una distribucin de frecuencias. Este grfico est formado por un conjunto de rectngulos (caso de variables continuas) que tienen como base un eje horizontal (generalmente el eje de las abscisas o de las X), y como centro los puntos medios de las clases. Los anchos de las clases y las reas de los rectngulos son proporcionales a las frecuencias de las clases. En el caso de las variables discretas el grfico consiste de un conjunto de barras verticales en lugar de rectngulos, hallndose cada barra sobre la observacin respectiva y con una altura proporcional a la frecuencia de la observacin

El polgono de frecuencias es un grfico formado por lneas quebradas, que tiene los centros de las clases representadas en un eje horizontal (eje de las X) y las frecuencias de las clases en un eje vertical (eje de las Y). La frecuencia correspondiente a cada centro de clase se seala mediante un punto y luego los puntos consecutivos se unen por lneas rectas. Del correspondiente histograma se puede lograr el polgono de frecuencia uniendo los puntos medios de las bases superiores de cada rectngulos mediante lneas rectas.

Las ojivas se refieren a los grficos que se construyen utilizando una distribucin acumulativa de frecuencias, el orden de acumulacin se aplica al cuadro de distribucin de frecuencia y puede ser descendente (fa, fra) o ascendente (fa, fra). La figura que se forma al unir los puntos del polgono de frecuencias acumulativas es lo contrario del orden anunciado (por ejemplo si se utiliz el orden descendente en la acumulacin de los datos en el cuadro, la ojiva resulta ser ascendente).

2.13. Histograma

Es bsicamente la presentacin de una serie de medidas clasificadas y ordenadas, es necesario colocar las medidas de manera que formen filas y columnas, en este caso colocamos las medidas en cinco filas y cinco columnas. Las manera mas sencilla es determinar y sealar el numero mximo y mnimo por cada columna y posteriormente agregar dos columnas en donde se colocan los nmeros mximos y mnimos por fila de los ya sealados. Tomamos el valor mximo de la columna X+ (medidas maximas) y el valor mnimo de las columnas X- (medidas mnimas) y tendremos el valor mximo y el valor mnimo.

Teniendo los valores mximos y mnimos, podemos determinar el rango de la serie de medidas, el rango no es ms que la diferencia entre los valores mximos y mnimos.Rango = valor mximo valor mnimo.

EJEMPLO:Rango = 3.67 3.39 milmetrosRango= 0.28 N=numero de medidas que conforman la serie N=25Es necesario determinar el numero de clases para poder as tener el intervalo de cada clase. Ejemplo:28=4.6 numero de clase 6intervalo de cada clase4.6El intervalo de cada clase lo aproxima a 5 o sea que vamos a tener 6 clases y un intervalo de 5 por clase.

La marca de clase es el valor comprendido de cada clase y se determina as:X=marca de clase=limite mximo + limite mnimo con la tabla ya preparada se identifican los datos de medida que se tiene y se introducen en la tabla en la clase que le corresponde a una clase determinada.El histograma se usa para:

Obtener una comunicacin clara y efectiva de la variabilidad del sistema

Mostrar el resultado de un cambio en el sistema

Identificar anormalidades examinando la forma

Comparar la variabilidad con los lmites de especificacinProcedimientos de elaboracin:

Reunir datos para localizar por lo menos 50 puntos de referencia

Calcular la variacin de los puntos de referencia, restando el dato del mnimo valor del dato de mximo valor

Calcular el nmero de barras que se usaran en el histograma (un mtodo consiste en extraer la raz cuadrada del nmero de puntos de referencia)

Determinar el ancho de cada barra, dividiendo la variacin entre el nmero de barras por dibujar

Calcule el intervalo o sea la localizacin sobre el eje X de las dos lneas verticales que sirven de fronteras para cada barrera

Construya una tabla de frecuencias que organice los puntos de referencia desde el ms bajo hasta el ms alto de acuerdo con las fronteras establecidas por cada barra.

Elabore el histograma respectivo.

Los tipos de histogramas son:

a) General: de forma de campana (la ms frecuente).b) Tipo peine: comprobar si hay algo mal en los mtodos de medida o de clculo. Se agruparon los datos en forma conveniente cuando se prepar el histograma?.

c) Con islas separadas: indica alguna anomala d)Con cola a la derecha extendida,

en el proceso, y se tiene que buscar su causa

ocurre a menudo cuando hay lmite

y erradicarla.inferior definido. Se debe investigar las

razones tcnicas de la cola.

HISTOGRAMAS ESTRATIFICADOS.

HISTOGRAMAS Y ESPECIFICACIONES.

2.14. Polgonos de frecuencia

El polgono de frecuencias es una representacin grfica de la distribucin de frecuencias que resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros de las bases superiores de los rectngulos del histograma (es decir, los puntos de las marcas de clase).

Para cerrar la figura, se une la lnea quebrada con lo que sera la marca de clase (sobre la superficie del eje horizontal) anterior a la primera y posterior a la ltima registrada

Polgono de Frecuencias Acumuladas u Ojiva

La misma idea de unir los centros de las bases superiores de los rectngulos de la distribucin del histograma de frecuencias acumuladas, da lugar al polgono de frecuencias acumuladas u ojiva.

Las distribuciones de frecuencias pueden ser representadas mediante tablas o mediante histogramas. Otra forma grfica de representacin la constituyen los polgonos de frecuencias. Para dibujarlos, se levantan en cada uno de los puntos medios de clase, ordenadas iguales a las frecuencias de cada intervalo de clase respectivo, es decir, que las abscisas sern iguales a los puntos medios de clase, y las ordenadas a las frecuencias.Para que cierre el polgono se toman los puntos medios de clase inferior y superior a la muestra, con frecuencias CERO; es decir: Sobre el mismo eje de las X.

2.15. Cifras indicadoras de posicin

Las cifras indicadoras de posicin o medidas de tendencia central, sirven para resolver muchos de los problemas del control de calidad, bastar con recurrir a una distribucin de frecuencia. Sin embargo existe un buen nmero de ellas en las que no se desee emplear una tcnica grfica, o para las que se necesite de la informacin adicional que proporcionan las tcnicas analticas.

Los mtodos analticos utilizados para describir un grupo de datos ofrecen la ventaja de requerir de menos espacio que una grfica. Tambin permiten comparar entre s diversos grupos de datos. Asimismo permiten efectuar clculos e inferencias adicionales: Son dos los mtodos analticos que ms se utilizan para describir un grupo de datos: las medidas de tendencia central y las medidas de dispersin.

Corresponden a un valor numrico que sirve para describir la ubicacin central de los datos o en qu medida los datos tienden agruparse en el centro. Se utilizan por lo general tres tipos de medidas. (1) la media, (2) la mediana y (3) la moda.

2.16. Moda, mediana, medio, varianza

Las medidas de tendencia central son valores que generalmente tienden a ubicarse hacia el centro de una distribucin. Las tres medidas ms frecuentes de tendencia central son media, mediana y moda.

2.16.1Media o Promedio.

Es un valor que tiende a situarse en el centro del conjunto de datos ordenados segun su magnitud. Es equivalente a dividir la suma de todos los puntajes, entre el nmero total de stos, en la distribucin.

Para el ejemplo: X = (107+111+111+....) = 7724/64 = 120.69

Realizar estas operaciones, haciendo uso de papel y lpiz o de una calculadora normal, sera bastante dispendioso. Haga uso de la hoja electronica Excel, digite estos mismos datos en una columna cualquiera, por ejemplo a partir de la celda A1.

A

1107

2111

3112

.....

64135

65=PROMEDIO(B2:B65)

En la celda A65 haga uso de la funcion PROMEDIO. Obtendr el resultado esperado.

Para datos agrupados: (haga uso de la hoja electronica)

o X = mifi/ N en donde

mi = marca de clase de la i-esima clase

fi = frecuencia de la i-esima clase

Tabla 2

Intervalo

Yj-1 YjMarca de clase (m)Frecuencia (f)mff. Acumula (N)

107 1111093327 3

112 116114121,368 15

117 121119212,499 36

122 126124182,232 54

127 13112981,032 62

132 1361342268 64

Suma647,726

Media120.72

Metodo abreviado. o X = A + difi/ N Otra forma de obtener la media, cuando los intervalos de clase son iguales. Se toma una media supuesta (A) aquella marca de clase que tenga mayor numero de frecuencias (aunque se puede tomar cualquiera), luego se toman las diferencias de cada marca con respecto a esta (A).

Marca de clase (m)Diferencias d=X-AFrecuencia (f)df

109-103-30

114-512-60

A 119021-

12451890

12910880

13415230

Suma64110

Media1.72

o X = mifi/ N = 119 + 1.72 = 120.72

2.16.2Mediana.

Es el valor medio o la media artimtica de los valores ordenados en orden de magnitud. Un 50% de los puntajes quedan encima de la mediana, y 50% por debajo. Si los puntajes suman un nmero par, la mediana es el promedio de los dos puntajes centrales, y por lo tanto ninguno puede atribuirsela. Si embargo si la suma de los puntajes es impar, la mediana slo es el puntaje central.

Ejemplo:

3,4,4,5,6,8,8,8,10 la mediana es 6 ( Nmero de datos impares)

5,5,7,9,11,12,15,18 la mediana es igual a 1/2(9+11) = 10 (Nmero de datos pares)

Para nuestro ejemplo modelo: 107,111,111,112,........ 135 (hay 64 datos) (121 +121)/2 = 121

Para datos agrupados la frmula viene dada por:

Mediana =L1 = Lmite real inferior de la clase mediana (clase que contiene la mediana)

N = Nmero de datos (frecuencia total)

( f)1 = Suma de las frecuencias de todas las clases por debajo de la clase mediana

f = Frecuencia de la clase mediana

C = Tamao del intervalo de la clase mediana

Ejemplo:

IntervaloFrecuencia (f)

107 1113

112 11612

117 12121

122 12618

127 1318

132 1362

Suma64

L1 = (116+117)/2 = 116.5

N = 64

( f)1 = (3 +12) = 15

f = 21

C = 5

Mediana = 116.5 + [(64/2 15)/21](5) = 120.5

2.16.3Moda.

Es el valor que se presenta con la mayor frecuencia en una distribucin.

2,2,5,9,9,9,10,10,12,18 la moda es 9 (equivalente al 30%)

3,5,8,10,12,15,16 no tiene moda

2,3,4,4,4,5,5,7,7,7 la moda es 4 y 7 (bimodal) (30% cada uno)

Para datos agrupados la frmula viene dada por:

Lmo = Lmite real inferior de la clase modal

d1 = Diferencia (sin considerar signo) entre la frecuencia de la clase modal y la frecuencia de la clase precedente

d2 =Diferencia (sin considerar signo) entre la frecuencia de la clase modal y la frecuencia de la clase siguiente.

W = Amplitud de la clase modal (intervalo de la clase)

Existen otras frmulas para la variable continua, cuando la amplitud es constante.

Para nuestro ejemplo:

Lmo = 116.5 (21 es la frecuencia mayor)

d1 = [21 - 12] = 9

d2 = [21 18] = 3

W = 5

Moda = 116.5 + 9/(9+3)* 5 = 120.25

Las medidas de dispersin son utilizadas para indicar el grado de uniformidad (homogeneidad) entre los datos de la variable en estudio. Permiten determinar el grado de desviacin (dispersin) que tienen los datos con respecto a la media o a la mediana. Las dos ms comunes son varianza y desviacin estndar.

2.16.4VarianzaEs una medida de variabilidad o dispersin de un grupo de puntajes. Es una forma estadstica de expresar la cantidad de dispersin en un grupo de puntajes; la magnitud de la dispersin est en relacin directa con la varianza. Las siguientes frmulas para datos no agrupados llegan a los mismos resultados.

= Media aritmtica n= muestra total. Puede obtenerse tambien

Para datos agrupados.

S2 = (Xi - )2 ni /n

S2 = f(Xi - )2 /n

2.17. Desviacin tpica. (S).Es otra medida del grado en que los puntajes se apartan de la media. Se define como la raiz cuadrada de la varianza. La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica.

Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la frmula (cuasi desviacin tpica):

La interpretacin de la S es especialmente clara cuando se aplica a una curva de distribucin normal o que se aproxima a la normal. En una distribucin de este tipo existe una relacin exacta entre la S y la proporcin de casos (ver figura de la curva normal).

Ejemplo: Tomando como modelo nuestro ejercicio base:

107 111 111 112 112 113 113 113 114 114 115 115 116 116 116 117 117 117 117 .....

Haga uso de la hoja electronica Excel, tal que le permita facilmente realizar los calculos y pueda aplicar la frmula siguiente:

S2 = (Xi - )2/n

ABCD

1X(X- )(X- )2

2107- 13.69187.35

3111- 9.6993.85

4111- 9.6993.85

.........

66Suma =2,087.75

67 =120.6932.62

68S=5.71

La celda B67, por ejemplo, obtendra el promedio el cual ser: =PROMEDIO(B2:B65)

La celda C2, tendra el siguiente clculo: =B2-$B$67

La celda D2 sera: =C2*C2, finalmente D67 tendra el promedio: =PROMEDIO(D2:D65), el cual corresponde a la varianza. Segn la frmula arriba indicada.

Luego obtener la raiz cuadrada de este valor, proporciona la Desviacin Estndar. =RAIZ(D67)

Para datos Agrupados.

Teniendo en cuenta la frmula S2 = f(Xi - )2 /n, y haciendo uso de la hoja electronica Excel.

IntervaloMarca de clase (X)X- (X- )2Frecuencia (f)f(X- )2

107 111109- 12.50 156.25 3.00 468.75

112 116114- 7.50 56.25 12.00 675.00

117 121119-2.50 6.25 21.00 131.25

122 1261242.50 6.25 18.00 112.50

127 1311297.50 56.25 8.00 450.00

132 13613412.50 156.25 2.00 312.50

Suma72964.00 2,150.00

Media121.5358.33

Varianza5.60

Ejercicio.

La siguiente tabla muestra las puntuaciones obtenidas por 10 estudiantes en un test de aprendizaje. En la misma tabla se presenta la diferencia de cada valor con respecto a la media. Determine si el procedimiento realizado para calcular la varianza y desviacion tipica es correcta para este tipo de datos.

Tabla-3

Puntuacion (X)Diferencia (x)Diferencia

(x2 )

48864

47749

4339

4111

4111

4000

38-24

36-416

34-636

32-864

40040244

X = 400 x2 = 244 N = 10

M = X/N = 400/10 = 40

Varianza (s 2) = x2 /N = 244/10 = 24.4

Desviacion estndar (DS)= x2 /N = 24.4 = 4.9

La segunda columna indica cunto se aleja cada puntuacin, por encima o por debajo, de la media que es 40.

2.18. Distribucin normal

Para el buen manejo y entenidimiento de este parte, se debe tener los conceptos bsicos de probabilidades, pues juega un papel importante cuando se trata de eleccin de un modelo que permita la descripcin del comportamiento de los datos. El trmino modelo, corresponde a una expresin empleada para estudiar los resultados de un experimento, como a su vez, ver el comportamiento en futuras repeticiones. Algunos conceptos a tener en cuenta:

2.18.1.Distribucin de probabilidad.

Son todos los posibles valores que resultan de un experimento aleatorio, junto con la probabilidad asociada a cada valor.

2.18.2.Variable aleatoria.

Corresponde a una caracterizacin cualitativa de los resultados que constituyen un espacio muestral. Cada cantidad o valor es el resultado de un experimento aleatorio y, como tal, puede tomar distintos valores. Las variables aleatorias se clasifican en discreta y continua.

Variable aleatoria discreta, cuando los valores que asume se pueden contar y si estos pueden organizarse en una secuencia al igual que los numeros enteros positivos. Solo puede asumir un numero finito de valores.

Variable aleatoria continua. Cuando puede asumir cualquier valor dentro de un intervalo o en una union de intervalos. Admiten fracciones.

Dentro de los modelos de probabilidad, correspondiente a variables aleatorias discretas, con mayor aplicacin se tienen: Bernoulli, Binomial, Poisson, Exponencial, Multinomial e Hipergeomtrico y en cuanto a la variable aleatoria continua se considera el modelo normal estandarizado. En este apartado tratare la Normal.

2.18.3.Curva Normal.Corresponde a un adistribucin de variable aleatoria continua, que se extiende sobre un campo de variabilidad infinito y est determinada:

n= Numero de datos. = Desviacin estandar de la distribucion binomial . e =Base de los logaritmos naturales = 2.71828 = 3.141592 () = media de la distribucin binomial = np.

Se le denomina tambien, Gaussiana, Laplaciana, Distribucin de Laplace-Gauss o de Gauss-Laplace o bien la segunda ley de Laplace. Aparentemente fue descubierta por De Moivre(1756) como forma lmite de la Distribucin Binomial.

La curva normal es el tipo de distribucin ms comun. Una caracterstica importante de la curva normal es que dice con exactitud la cantidad de casos que caen entre dos puntos cualesquiera de la misma.

La simetra de la curva indica que la mitad del rea est a la izquierda del vrtice y la otra mitad a la derecha, as que la mitad de las probabilidades estn asociadas con los valores a la izquierda del vrtice y la otra mitad a los valores de la derecha del mismo. Debido a esta simetra, las desviaciones positivas y negativas respecto del valor x, donde est situado el vrtice, tienen igual peso y por lo tanto se compensan entre s, lo cual permite apreciar que el vrtice ocurre para x = u. Advirtase tambien que la figura muestra el procentaje de casos que caen dentro de una, dos, y tres desviaciones estndar por encima y debajo de la media. Un 34% de los casos cae dentro de +1 DS (o -1 DS). Al alejarse de la media, el nmero disminuye. Asi las reas cubiertas desde +1 DS hasta +2 DS, desde -1 DS hasta -2 DS representan cada una casi 14% de los casos. Entre 2 y 3 DS de la media existen menos casos an, alrededor de 2% de la distribucin.

En el eje horizontal de esta curva se han marcado las distancias que representan una, dos y tres desviaciones tpicas, por encima y por debajo de la media. As, en el ejemplo que se da, la media corresponde a una puntuacin de 40 y un DS de 4.9. Por lo tanto, + 1 DS estar a 44.9 (40+4.9); +2 DS, a 49.8 (40+2x4.9) y asi sucesivamente. El porcentaje de casos que en una curva normal figuran entre la media y +1 DS es 34.13%. Como la curva es simtrica, tambien se encuentra el 34.13% de los casos entre la media y -1 DS

2.18.4.Puntuacin Tpica Lineal.Las puntuaciones tpicas expresan la distancia del individuo a la media en funcin de la desviacin tpica de la distribucin.

Las puntuaciones tpicas lineales pueden obtenerse por transformaciones, lineales o no de las puntuaciones directas originales. Todos los clculos que se puedan realizar con las puntuaciones directas originales pueden tambien efectuarse con las puntuaciones tpicas lineales, sin ninguna distorsin de los resultados.

Las puntuaciones tpicas deducidas linealmente se designan a menudo simplemente como puntuaciones tpicas o puntuaciones z. Se dice tambien que es variable normalizada ya que mide la desviacin de la media en unidades de desviacin tpica.

z = Ejemplo,

Calcular la probabilidad de obtener 4, 5, 6 caras en 9 lanzamientos de una moneda.

Mediante la aproximacin binomial se tiene:

n = 9, p= , q = u= np = 9(1/2) = 4.5

p(3.5

Apunte Unidad Nº2 KC 2010

Documents

Transcript of Apunte Unidad Nº2 KC 2010