Post on 01-Jul-2015
Ing. Mario Enrique Elías Ayalae-mail: melias@ufg.edu.sv
UNIDAD IIBASES ESTADISTICAS
PARA EL CONTROL
CONTENIDO
2.1 Estadística descriptiva
2.2 Técnicas de conteo
2.3 Introducción a la probabilidad
2.4 Distribuciones de probabilidad
OBJETIVOS
Reconstruir sus conocimientos estadísticos. Aplicar las medidas de tendencia central así
como las medidas de dispersión. Aplicar los conceptos de probabilidad. Identificar y aplicar las diferentes
distribuciones de probabilidad.
La estadística tiene que ver con la recopilación, presentación, análisis y uso de datos para tomar decisiones y resolver problemas.
Cualquier persona recibe información en forma de datos a través de los periódicos, la televisión u otros medios; y a menudo es necesario obtener alguna conclusión a partir de la información contenida en los datos.
Ing. Melba de Mirandae-mail: mmiranda@ufg.edu.sv
2.1 Estadística Descriptiva
OBJETIVO: Conocer y calcular las medidas de tendencia central
CONTENIDO
• Conceptos básicos.• Tipos de datos.• Aleatorización y otras estrategias de muestreo.• Organización de datos.• Representación de datos.• Medidas de tendencia central.
Datos no agrupados Datos agrupados
• Visualización de datos.• Medidas de dispersión
Los métodos empleados para resumir y organizar datos se denominan estadística descriptiva; mientras que los métodos para tomar decisiones se denominan inferencia estadística.
GENERALIDADES
ESTADÍSTICA DESCRIPTIVA
Estadística Descriptiva (Deductiva): Es la encargada de la organización, condensación, presentación de los datos en tablas y gráficos y del cálculo de medidas numéricas que permitan estudiar los aspectos más importantes de los datos.
DESCRIBIR
Esto se debe a la creciente facilidad con la cual se pueden manejar grandes cantidades de datos numéricos, debido al uso de …
CONCEPTOS BÁSICOS
ESTADISTICA: Es una colección de métodos para planear experimentos, obtener datos, y después organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los datos.
Población: es la colección de todas las posibles mediciones u observaciones a estudiar. Se dice que la colección es completa, pues incluye a todos los sujetos que se estudian o que pueden hacerse de una variable bajo estudio.
Se clasifica en dos categorías:
POBLACIÓN FINITA: Es aquella que incluye una cantidad limitada contable de observaciones, individuos o medidas. Siempre que sea posible alcanzar (contar) el número total de todas las posibles mediciones, se considera como finita la población.
POBLACIÓN INFINITA: Es aquella que incluye un gran conjunto de observaciones o mediciones que no pueden alcanzarse por conteo. Al menos, hipotéticamente, no existe límite en cuanto al número de observaciones que el experimento puede generar.
Muestra: Es un conjunto de mediciones u observaciones
tomadas o seleccionados a partir de una población.
Es un subconjunto de la población.
CENSO: Es la colección de datos de cada uno de los miembros de la población.
TIPOS DE DATOS
Variables: Son las características o lo que se estudia de
cada individuo de la muestra. Ej: sexo, edad, peso, estatura, color de ojos, estado civil, temperatura, cantidad de nacimientos, presión, grosor, diámetro, ...
Datos: Son los valores que toma la variable en cada
caso. Son las observaciones recolectadas (como
mediciones, géneros, respuestas de encuestas).
PARAMETRO: Es una medición numérica que describe algunas características de una población.
EJEMPLO: Cuando Lincoln fue elegido presidente por primera vez,
recibió el 39.82% de 1, 865,908 votos. Si suponemos que el conjunto de todos esos votos es la población a considerar, entonces el 39.82% es un parámetro, no un estadístico.
ESTADISTICO: Es una medición numérica que describe algunas características de una muestra.
EJEMPLO: Con base en una muestra de 877 ejecutivos encuestados,
se encontró que el 45% de ellos no contaría a alguien con un error ortográfico en su solicitud de empleo. Esta cifra de 45% es un estadístico, ya que está basado en una muestra, no en la población completa de todos los ejecutivos.
DATOS CUALITATIVOS (categóricos o de atributos): Son datos que solo toman valores asociados a las cualidades o atributos, clasificándolos en una de varias categorías, es decir, no son valores numéricos.
Ejemplo: Sexo: f/m. Hábito de fumar: Fumador/No fumador Color de ojos: negro, azul, marrón, … Religión: católica, evangélica, … Estado civil: soltero, casado, divorciado,…
DATOS CUANTITATIVOS: provienen de variables que pueden medirse, cuantificarse o expresarse numéricamente.
Ejemplos: Peso Edad Estatura Presión Humedad Intensidad de un sismo Cantidad de hermanos
DATOS DISCRETOS: Resultan cuando el número de posibles valores es un número finito, o bien, un número que puede contarse. (Es decir, el número de posibles valores es 0, 1, 2, etc.).
DATOS CONTINUOS (NUMERICOS): Resultan de un infinito de posibles valores que pueden asociarse a puntos de alguna escala continua, cubriendo un rango de valores sin huecos ni interrupciones.
Abusos que se pueden cometer con la Estadística
Conclusiones erróneas debido a que los datos son numéricamente insuficientes.
Representaciones gráficas engañosas (escalas).
Datos muéstrales no representativos: Muestra que no incluye a elementos de toda la
población. Ciertas categorías de personas no responden
correctamente. Respuestas voluntarias (sesgadas).
CLASIFICACION DEL TIPO DE MUESTREO
PROBALISTICO O ALEATORIOS
NO PROBALISTICOS(Determinístico)
Casual o accidentalIntencional Por cuotas
Azar simpleAzar sistemáticoEstratificadoConglomerados
ALEATORIZACIÓN Y OTRAS ESTRATEGIAS DE MUESTREO
TIPOS DE MUESTREO
Los métodos de muestreo más comunes son: a) Aleatorio, b) Aleatorio simple, c) Sistemático, d) Por conveniencia, e) Estratificado, f) Por conglomerados o racimos.
Muestra aleatoria: se considera aleatoria siempre y cuando cada observación, medición o miembro de la población tenga la misma probabilidad de ser seleccionado.
A menudo se usan computadoras para generar números telefónicos aleatorios.
MUESTREO ALEATORIO SIMPLE
Se selecciona una muestra de tamaño de n sujetos de manera que cada posible muestra del mismo tamaño n tenga la misma posibilidad de ser elegida.
Todos los elementos de la población tienen la misma probabilidad de ser elegidos para formar parte de la muestra.
Ejemplo: Imagine un salón de clase con 60 estudiantes acomodados en seis filas de 10 estudiantes cada una. Suponga que el profesor selecciona una muestra de 10 estudiantes tirando un dado y seleccionando la fila correspondiente al resultado. ¿El resultado es una muestra aleatoria? o ¿Es una muestra aleatoria simple?
Se selecciona al azar un elemento de la población y a partir de él se seleccionan cada k-esimo los elementos siguientes (por ejemplo, cada n elemento en la población). Ejemplo: sea n=3
MUESTREO ALEATORIO SISTEMATICO
MUESTREO DE CONVENIENCIA
Se utiliza n resultados fáciles de obtener.
La población se divide en grupos homogéneos, llamamos estratos. La proporción de cada estrato en la población se mantiene en la muestra. Cada uno de los estrato de la muestra se obtiene por muestreo aleatorio simple sobre el estrato correspondiente de la población.
Población
Estrato 1 Estrato 2
Muestra
MUESTREO ESTRATIFICADO
Se subdivide a la población en al menos dos diferentes subgrupos (o estratos) que comparten las mismas características (por ejemplo, el genero o categoría de edad) y después se extrae una muestra de cada subgrupo.
Homogéneos en su interior; diferentes entre sí en propiedades y tamaño.
• Los estratos más grandes tienen mayor probabilidad de ser representados.
MUESTREO POR CONGLOMERADOS O RACIMOS
Se divide el área de la población en secciones (conglomerados o racimos ). Se eligen al azar unas pocas de estas secciones y luego se toman todos los elementos o miembros de las secciones elegidas para formar la muestra. Para dividir la población en
secciones podemos usar las provincias.
Grupo 5CGrupo 5C
Grupo 1AGrupo 1A
Grupo 2AGrupo 2A
Grupo 3BGrupo 3B
Grupo 5CGrupo 5C
Grupo 1AGrupo 1A
Grupo 2AGrupo 2A
Grupo 3BGrupo 3B
Heterogéneos en su interior; diferentes entre sí en propiedades y tamaño.
ORGANIZACIÓN DE DATOS NO AGRUPADOS
Una vez que se ha realizado la recolección de los datos, se obtienen datos en bruto, los cuales rara vez son significativos sin una organización y tabulación.
Formas de organizar los datos: Un arreglo: es la forma más sencilla de
organizar los datos en bruto, consiste en colocar las observaciones en orden según su magnitud: ascendente o descendente.
Poco práctica cuando se tiene una gran cantidad de datos.
Si los datos muéstrales no se reúnen de forma adecuada, resultarían tan inútiles que ninguna cantidad estadística podrá salvarlos.
Ejemplo:
En un área de servicios dentro de una empresa de manufactura se hace una encuesta para evaluar la calidad del servicio proporcionada y el nivel de satisfacción de los clientes internos. La encuesta consiste de 10 preguntas, donde cada una de ellas evalúa diferentes aspectos del servicio proporcionado. Las respuestas para cada pregunta es un número entre 0 y 10. Para hacer un primer análisis de los resultados obtenidos, se suman los puntos obtenidos de las 10 preguntas para cada cuestionario. A continuación se muestran los puntos obtenidos en 50 cuestionarios.
78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29
Solución:1. Ordenar datos de menor a mayor:
29 30 31 34 34 34 35 35 38 3939 39 41 42 42 42 42 43 43 4344 45 48 49 49 68 70 73 75 7676 77 78 78 78 78 80 80 81 8282 82 84 84 84 85 85 86 87 91
2. Determinar el : Valor mínimo (Vmin) = 29 Valor máximo (Vmax) = 91
3. Calcular el Rango (R) = Vmax – VminRango (R) = 91 - 29= 62
Rango (R) = 62
Las medidas de localización dividen la distribución en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada población o muestra.
Clasificación de las medidas de localización:
MEDIDAS DE LOCALIZACIÓN
Centralización o de tendencia central• Indican valores con respecto a los que los
datos parecen agruparse.• Media, • Mediana y • Moda
36
Dispersión Indican la mayor o menor concentración de
los datos con respecto a las medidas de centralización.• Desviación típica, coeficiente de variación,
Rango, Varianza Posición
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos.
• Percentiles, Cuartiles, Deciles y mediana. Forma
Asimetría Apuntamiento o curtosis
MEDIDAS DE TENDENCIA CENTRAL
Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos.
Forma como los datos pueden condensarse en un solo valor central alrededor del cual todos los datos muéstrales se distribuyen.
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS
Las medidas de tendencia central más importantes son: Media. Mediana. Moda.
Son valores que se encuentran en el centro o a la mitad de los datos, o representa el valor al que tienden a concentrarse los datos de una muestra o de un proceso.
MEDIA ARITMÉTICA
La media aritmética o simplemente promedio (también llamada media muestral).
Es la suma de todas las observaciones dividida entre
el número total de observaciones.
Se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces:
11 2 ...
n
iin
xx x x
Xn n
Ejemplo: datos no agrupadosEn un área de servicios dentro de una empresa de manufactura se hace una encuesta para evaluar la calidad del servicio proporcionada y el nivel de satisfacción de los clientes internos. La encuesta consiste de 10 preguntas, donde cada una de ellas evalúa diferentes aspectos del servicio proporcionado. Las respuestas para cada pregunta es un número entre 0 y 10. Para hacer un primer análisis de los resultados obtenidos, se suman los puntos obtenidos de las 10 preguntas para cada cuestionario. A continuación se muestran los puntos obtenidos en 50 cuestionarios.
Encontrar la media en la distribución
78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29
Solución..
Encontrar la media en la distribución:
n
xX
n
ii
1
= 2990 =59.80 50
29 30 31 34 34 34 35 35 38 3939 39 41 42 42 42 42 43 43 4344 45 48 49 49 68 70 73 75 7676 77 78 78 78 78 80 80 81 8282 82 84 84 84 85 85 86 87 91
Es el valor que ocupa la posición central de un conjunto de observaciones o datos, una vez que han sido ordenados en forma ascendente o descendente.
La mediana se suele definir como el valor “más intermedio” una vez que los datos han sido ordenados en forma creciente. Se suele denotar por Me.
Divide al conjunto de datos en dos partes iguales. Si el número de valores es impar, la mediana es el
número que se localiza exactamente a la mitad de los datos.
Si el número de valores es par, la mediana es el número que se obtiene calculando la media entre los dos valores centrales.
MEDIANA –PERCENTIL 50
1 2
2 ( 2) 1
2
n
n n
x si n es impar
Md x xsi n es par
Cálculo de la mediana
Para datos no agrupados:Si n es impar: posición donde se ubica la mediana es igual a (n+1)/2.Si n es par: (n+1)/2 no es entero, por lo tanto la mediana será igual al promedio de las dos posiciones centrales.
La forma más general de calcular la mediana es la siguiente:
Ejemplo: datos no agrupadosEn un área de servicios dentro de una empresa de manufactura se hace una encuesta para evaluar la calidad del servicio proporcionada y el nivel de satisfacción de los clientes internos. La encuesta consiste de 10 preguntas, donde cada una de ellas evalúa diferentes aspectos del servicio proporcionado. Las respuestas para cada pregunta es un número entre 0 y 10. Para hacer un primer análisis de los resultados obtenidos, se suman los puntos obtenidos de las 10 preguntas para cada cuestionario. A continuación se muestran los puntos obtenidos en 50 cuestionarios.
a) Ordenar los datos de menor a mayor.
b) Calcular mediana de los datos.
78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29
Solución: Ordenar datos de menor a mayor:
Calcular mediana de los datosn es par utilizamos la formula:
29 30 31 34 34 34 35 35 38 3939 39 41 42 42 42 42 43 43 4344 45 48 49 49 68 70 73 75 7676 77 78 78 78 78 80 80 81 8282 82 84 84 84 85 85 86 87 91
Md = (X(n/2) + X((n/2) +1) )/2
Md = (49 + 68)/2 = 58.5
Es una medida de tendencia central que se puede utilizar sea cual sea el tipo de variable a estudiar.
La moda de un conjunto de observaciones es el valor que más se repite, aquel cuya frecuencia absoluta es máxima.
Puede ser única (unimodal), que haya más de una (bimodal o multimodal), o que no exista.
Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.
Para datos no agrupados: es simplemente la observación que más se repite.
MODA
Ejemplo: datos no agrupadosEn un área de servicios dentro de una empresa de manufactura se hace una encuesta para evaluar la calidad del servicio proporcionada y el nivel de satisfacción de los clientes internos. La encuesta consiste de 10 preguntas, donde cada una de ellas evalúa diferentes aspectos del servicio proporcionado. Las respuestas para cada pregunta es un número entre 0 y 10. Para hacer un primer análisis de los resultados obtenidos, se suman los puntos obtenidos de las 10 preguntas para cada cuestionario. A continuación se muestran los puntos obtenidos en 50 cuestionarios. Clasificar el tipo de moda que presentan los datos e
identificar el valor de ella.
78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29
Solución: Ordenar datos de menor a mayor:
El valor que mas se repite es Mo = 42 y 78 por lo tanto es BIMODAL
29 30 31 34 34 34 35 35 38 3939 39 41 42 42 42 42 43 43 4344 45 48 49 49 68 70 73 75 7676 77 78 78 78 78 80 80 81 8282 82 84 84 84 85 85 86 87 91
Ejemplo:Construir para el ejemplo anterior el grafico que corresponda, considerando el tipo de datos.
78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 490
10
20
30
40
50
60
70
80
90
100
ENCUESTA
NO
TA
S
Datos no estan ordenados
REPRESENTACIÓN DE DATOS
CURVAS
EJERCICIO:
A continuación se presentan las calificaciones de 60 estudiantes en el año 2009:
23 60 79 32 57 74 52 70 82 3680 77 81 95 41 65 92 85 55 7652 10 64 75 78 25 80 98 81 6741 71 83 54 64 72 88 62 74 4360 78 89 76 84 48 84 90 15 7934 67 17 82 69 74 63 80 85 61
a) Ordenar los datos.b) Determine el valor mínimo y máximo de los datos.c) Encuentre el rango de los datos.d) Calcule la media, mediana y moda de la distribución.e) Construir el grafico que corresponda para la serie de
datos.
Una distribución de frecuencias: es un arreglo de los datos que permite expresar la frecuencia de ocurrencias de las observaciones en cada una de las clases, mostrando el patrón de la distribución de manera más significativa.
Clase Pto.Medio
fi Fi fri FRi
ORGANIZACIÓN DE DATOS AGRUPADOS
La Distribución de Frecuencias:Se recomienda su uso cuando se tienen
grandes cantidades de datos (n).
Su construcción requiere, en primer lugar, la selección de los límites de los intervalos de clase.
Para definir la cantidad de intervalos de clase (k), se puede usar:
La regla de Sturges: k = 1 + 3.3log(n) k = n
La cantidad de clases no puede ser tan pequeño (menos de 5) o tan grande (más de 20), que la verdadera naturaleza de la distribución sea imposible de visualizar.
La amplitud de todas las clases deberá ser la misma. Se recomienda que los puntos medios tengan la misma cantidad de cifras significativas que los datos en bruto.
Los límites de las clases deben tener una cifras significativas más que los datos en bruto cuando sean reales.
Determinar:Punto medio = (Li+Ls)/2.
Li: limite inferiorLs: limite superior
Frecuencia absoluta de la clase (fi).Frecuencia acumulada de la clase
(Fi).Frecuencia relativa de la clase
(fri)= fi/nFrecuencia relativa acumulada de la
clase (FRi).
Ejemplo:
En un área de servicios dentro de una empresa de manufactura se hace una encuesta para evaluar la calidad del servicio proporcionada y el nivel de satisfacción de los clientes internos. La encuesta consiste de 10 preguntas, donde cada una de ellas evalúa diferentes aspectos del servicio proporcionado. Las respuestas para cada pregunta es un número entre 0 y 10. Para hacer un primer análisis de los resultados obtenidos, se suman los puntos obtenidos de las 10 preguntas para cada cuestionario. A continuación se muestran los puntos obtenidos en 50 cuestionarios.
78 78 82 85 81 86 80 73 84 78
68 84 75 78 76 76 82 85 91 80
70 87 77 82 84 48 49 39 39 43
35 42 34 44 49 34 30 43 31 34
41 42 45 42 35 38 39 42 43 29
Solución:1. Ordenar datos de menor a mayor:
29 30 31 34 34 34 35 35 38 3939 39 41 42 42 42 42 43 43 4344 45 48 49 49 68 70 73 75 7676 77 78 78 78 78 80 80 81 8282 82 84 84 84 85 85 86 87 91
2. Determinar el : Valor mínimo (Vmin) = 29 Valor máximo (Vmax) = 91
3. Calcular el Rango (R) = Vmax – VminRango (R) = 91 - 29= 62
Rango (R) = 62
59
4. Determinar el Número de clase (K) en las que se van a agrupar los datos. Clase: subgrupo en los que se agrupan los datos. Como se determina:
5.Determinar la Amplitud (A) de las clases.A= Rango/Clase = R/K
Amplitud ( A) = 62/7 = 8.857Amplitud ( A) ≈ 8.86 ≈ 9
La regla de Sturges: k = 1 + 3.3log(n)k = 1 + 3.3log(50) = 6.607 ≈ 7Número de clase (K) = 7
Si utilizamos la formula es:K= √nK=√50 = 7.07≈7
6. Determinar las fronteras o límites naturales de cada clase.Li: Limite inferior --- Li = Vm = 29Ls: Limite superior – Ls = Li + (A-1)
Ls =29+ (9-1) =37
INTERVALOS DE CLASE
(I)
FRONTERAS
LIMITE INFERIOR
(Li)
LIMITE SUPERIOR (Ls)
1 X X+(A-1)
2 X+(A-1) X+2(A-1)
3 X+2(A-1) X+3(A-1)
IFRONTERAS
Li Ls
1 29 37
2 38 46
3 47 55
4 56 64
5 65 73
6 74 82
7 83 91
6. Determinar las fronteras o límites reales de cada clase.Li: Limite inferior --- Li = Vm – ½ uLs: Limite superior – Ls = Li + Au: unidad, si es entero es 1, decimal es 0.1, centesimal 0.01, ect. Limite inferior --- Li = Vmin – ½ u
Li = 29 – (1/2) (1) = 28.5 Limite superior --- Ls = Li + A
Ls = 28.5 + 9 = 37.5
INTERVALOS DE CLASE
(I)
FRONTERAS
LIMITE INFERIOR
(Li)
LIMITE SUPERIO
R (Ls)
1 X X+A
2 X+A X+2A
3 X+2A X+3A
IFRONTERAS
Li Ls
1 28.5 <37.5
2 37.5 <46.5
3 46.5 <55.5
4 55.5 <64.5
5 64.5 <73.5
6 73.5 <82.5
7 82.5 <91.5
7. Contar los datos que pertenecen a cada clase.8. Elaborar la tabla de frecuencias absolutas (fi).
IFRONTERAS
fiLi Ls
1 29 37 8
2 38 46 14
3 47 55 3
4 56 64 0
5 65 73 3
6 74 82 14
7 83 91 8
29 30 31 34 34 34 35 35 38 3939 39 41 42 42 42 42 43 43 4344 45 48 49 49 68 70 73 75 7676 77 78 78 78 78 80 80 81 8282 82 84 84 84 85 85 86 87 91
IFRONTERAS
fiLi Ls
1 28.5 <37.5 8
2 37.5 <46.5 14
3 46.5 <55.5 3
4 55.5 <64.5 0
5 64.5 <73.5 3
6 73.5 <82.5 14
7 82.5 <91.5 8
LIMITES NATURALES LIMITES REALES
Para datos agrupados:
Donde: xi : punto medio de la clase i (marca de clase) = (Li + Ls)/2 fi : frecuencia absoluta de la clase i n : número de datos
Cálculo de la media
1
1
k
i iik
i
x fX
fi
Ejercicio: datos agrupados
Calcule la media de la distribución:
I
FRONTERASFRECUENCIA
fi
MARCA CLASE
Xi Xi*fiLi Ls
1 29 37 8 33 264
2 38 46 14 42 588
3 47 55 3 51 153
4 56 64 0 60 0
5 65 73 3 69 207
6 74 82 14 78 1092
7 83 91 8 87 696TOTAL 50 3,000
= 3000/50= 60
1
1
k
i iik
i
x fX
fi
Xi= (Li+Ls)/2
Donde: Li: límite inferior de la clase mediana.Faa: frecuencia acumulada de la clase anterior a la clase mediana.fm: frecuencia absoluta de la clase mediana.Ic :amplitud de la clase mediana
Datos agrupados: La clase mediana es la que contiene a la observación
que ocupa la posición N/2.
2( )*
NFaa
Md Li Icfm
Cabe destacar que es preferible el uso de la mediana como medida descriptiva del centro cuando se quiere reducir o eliminar el efecto de
valores extremos en un conjunto de datos (muy grandes o muy pequeños).
Cálculo de la mediana
Ejercicio: datos agrupados
Calcule la mediana de la distribución:
I
FRONTERASFRECUENCIA
ABSOLUTA fi
FRECUENCIA ABSOLUTA
ACUMULADA
Faa Li Ls
1 28.5 <37.5 8 8
2 37.5 <46.5 14 22
3 46.5 <55.5 3 25
4 55.5 <64.5 0 25
5 64.5 <73.5 3 28
6 73.5 <82.5 14 42
7 82.5 <91.5 8 50
TOTAL 50
= 55.5
2( )*
NFaa
Md Li Icfm
Solución:
1. Calcular el factor N/2 = 50/2 = 25 datos.
2. Observar en la tabla la columna de Frecuencia absoluta acumulada e identificar la clase en que se encuentran 25.
Faa3 = Faa4 = 25 datos
Fi3= 3 y Fi4 = 0
Por lo tanto esta en el intervalo de clase I3, con Fi3=3.
I
FRONTERASFRECUENCIA
ABSOLUTA fi
FRECUENCIA ABSOLUTA
ACUMULADA
Faa Li Ls
2 37.5 <46.5 14 22
3 46.5 <55.5 3 25
4 55.5 <64.5 0 25
Limite real inferior de la clase mediana o frontera de clase es: Li = 47 - 0.5 = 46.5
Factor es: N/2 = número de datos/2 = N/2 = 50/2 = 25 Frecuencia acumulada de la clase anterior es: Faa = 22 Frecuencia de la clase de la mediana o frecuencia
absoluta es: fm = fi = 3 Ancho o amplitud de clase es: Ic = 9 Sustituyendo valores en la ecuacion se tiene que la
mediana es:
Md = 46.5 + ( 50/2 – 22 ) * 9 = 55.5
3
2( )*
NFaa
Md Li Icfm
Cálculo de la moda
Para datos agrupados:
1
1 2
Mo Li Ic
Donde: Li: límite inferior de la clase modal. 1: diferencia entre fi de la clase modal y la anterior. 2: diferencia entre fi de la clase modal y la posterior. Ic: amplitud de la clase modal (clase de mayor frecuencia).
Ejemplo: datos agrupados Calcular la moda de las distribuciones
anteriores.
I
FRONTERASFRECUENCIA
ABSOLUTA Fi
Li Ls
1 28.5 <37.5 8
2 37.5 <46.5 14
3 46.5 <55.5 3
4 55.5 <64.5 0
5 64.5 <73.5 3
6 73.5 <82.5 14
7 82.5 <91.5 8
TOTAL 50
1
1 2
Mo Li Ic
Mo2 = 40.7≈41
Mo6 = 79.3 ≈79
El intervalo de clase donde mas se repiten los datos es en: Fi2 = Fi6=14
Limite real inferior de la clase modal es: Li2 = 38 - 0.5=37.5 Li6 = 74 – 0.5 =73.5
Diferencia entre la frecuencia de la clase modal y la clase pre modal es:
Δ21 =14 - 8 = 6 Δ61 =14 - 3 = 11 Diferencia entre la frecuencia de la clase modal y la clase
post modal es: Δ22 =14 - 3 = 11 Δ62 =14 - 8 = 6
Ancho o amplitud de clase es: Ic = 9 Mo2= 37.5 + ( 6 ) * 9 Mo6= 73.5 + ( 11 ) * 9
6 + 11 11 + 6 Mo2= 40.7≈41 Mo6= 79.3≈79
1
1 2
Mo Li Ic
REPRESENTACIÓN GRÁFICA DE LOS DATOS
Los gráficos permiten visualizar en forma global y rápida el comportamiento de los datos.
Para datos cuantitativos agrupados en clases, comúnmente se utilizan tres gráficos: Histogramas. Polígono de frecuencias. Ojiva o Polígono de frecuencias acumuladas.
Histograma OJIVA
REPRESENTACIÓN DE DATOS CUANTITATIVOS
POLIGONO DE FRECUENCIAS
Histograma y Polígono de Frecuencias
Para datos cualitativos se usan: Curvas Barras Sectores
REPRESENTACIÓN DE DATOS CUALITATIVOS
BARRAS
CURVAS
PASTEL O CIRCULAR
Continuación….Construir para el ejercicio anterior, el grafico que corresponda, considerando el tipo de datos.
IFRONTERAS
fiLi Ls
1 29 37 8
2 38 46 14
3 47 55 3
4 56 64 0
5 65 73 3
6 74 82 14
7 83 91 8
0
2
4
6
8
10
12
14
8
14
3
0
3
14
8
INTERVALOS DE CLASE
FR
EC
UEN
CIA
Solución:El grafico que representa esos datos es el HISTOGRAMA
29 38 47 56 65 74 83 92
RELACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA
Cuando los datos son sesgados es mejor emplear la Md
Permiten estudiar la forma de la curva, dependiendo de cómo se agrupan los datos.
78
ASIMETRÍA O SESGO Una distribución es simétrica si
la mitad izquierda de su distribución es la imagen especular de su mitad derecha.
oEn las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide.
oLa asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.
79
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
Relación entre Tendencia Central y la Simetría de la distribución
Simetría Relación
Simétrica o insesgada Moda = Mediana = Media
sesgo positivo o a la derecha
Moda < Mediana < Media
sesgo negativo o a la izquierda
Moda > Mediana > Media
SIMETRICA ó Campana de Gauss-Normal
Forma bimodal
La forma depende de la distribución de las frecuencias absolutas de los datos. Algunas de las formas más comunes que puede adoptar son las siguientes:
Asimétrica
Sesgada a la derecha Sesgada a la izquierda
Forma en UCon anomalías
La localización o tendencia central de un conjunto de datos no necesariamente proporciona información suficiente para describirlos adecuadamente. Debido a que no todos los valores son semejantes, la variación entre ellos se considera importante.
Se puede decir que un conjunto de datos tiene
una dispersión reducida si los mismos se aglomeran estrechamente en torno a alguna medida de localización de interés y se dice que tiene una dispersión grande si se esparcen ampliamente alrededor de alguna medida de localización de interés.
0
2
4
6
8
10
12
14
8
14
3
0
3
14
8
INTERVALOS DE CLASE
FR
EC
UEN
CIA
29 38 47 56 65 74 83 92
Mo = 41 Mo = 79
Md = 55.5
60X
CONCLUSIÓN:
Comparación de los resultados obtenidos en las medidas de tendencia central
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
DATOS AGRUPADOS
Media Aritmética(¯) 59.8 60.0
Mediana (Md) 58.5 55.5
Moda (Mo) 42 y 78 41 y 79
X
Conclusión:
EJERCICIO:
A continuación se presentan las calificaciones de 60 estudiantes en el año 2009:
23 60 79 32 57 74 52 70 82 3680 77 81 95 41 65 92 85 55 7652 10 64 75 78 25 80 98 81 6741 71 83 54 64 72 88 62 74 4360 78 89 76 84 48 84 90 15 7934 67 17 82 69 74 63 80 85 61
a) Determine el valor mínimo y máximo de los datos.b) Encuentre el rango de los datos.c) Construir el grafico que corresponda para la serie de datos.d) Calcule la media, mediana y moda de la distribución.e) Compare los resultados obtenidos. ¿Qué puede concluir de estos
datos?
Comparación de los resultados obtenidos en las medidas de tendencia central
MEDIDAS DE TENDENCIA CENTRAL
DATOS NO AGRUPADOS
DATOS AGRUPADOS
Media Aritmética(¯)
Mediana (Md)
Moda (Mo)
X
Conclusión: