Estadistica

48
Ing. Edgar Morales

Transcript of Estadistica

Page 1: Estadistica

Ing. Edgar Morales

Page 2: Estadistica

La estadística tiene que ver con la recopilación, presentación, análisis y uso de datos para tomar decisiones y resolver problemas.

Page 3: Estadistica

Cualquier persona recibe información en forma de datos a través de los periódicos, la televisión u otros medios; y a menudo es necesario obtener alguna conclusión a partir de la información contenida en los datos.

Page 4: Estadistica

Los métodos empleados para resumir y organizar datos se denominan estadística descriptiva; mientras que los métodos para tomar decisiones se denominan inferencia estadística.

Page 5: Estadistica

1) MÉTODOS NUMÉRICOS

nxxx ,...,, 21

• Las descripciones numéricas de datos suelen ser importantes. Dado un conjunto de n observaciones

• La estadística descriptiva nos puede ayudar mediante resúmenes numéricos, que son medidas de tendencia central, o también llamadas de posición y medidas de dispersión

Page 6: Estadistica

• Las medidas descriptivas más comunes de tendencia central o localización son: la media aritmética y la mediana (existen otras medidas de tendencia central que en ocasiones pueden resultar de interés: la moda, los cuartiles, los deciles, los percentiles, la media armónica, la media geométrica y la media ponderada.)

Page 7: Estadistica

La media aritmética o simplemente promedio (también llamada media muestral ya que generalmente se calcula en relación a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamaño n son x1, x2,…,xn entonces

n

x

n

xxxX

n

ii

n

∑==+++= 121 ...

Page 8: Estadistica

Característica de la Media

• Es intuitiva y fácil de calcular.• Su valor puede que no coincida con

ninguno de los valores de la muestra• La suma de las diferencias de cada

valor de la muestra con la media su resultado es cero, es decir,

∑=

=−n

ii xx

1

0)(

Page 9: Estadistica

La mediana se suele definir como el valor “más intermedio” una vez que los datos han sido ordenados en forma creciente. Se suele denotar por Me. La forma más general de calcular la mediana es la siguiente:

( )( )

( ) ( )

1 2

2 ( 2) 1

2

n

n n

x si n es impar

Me x xsi n es par

+

+

= +

Page 10: Estadistica

• La mediana es aquel valor que deja el cincuenta por ciento de los datos por debajo y otro cincuenta por encima.

• Cabe destacar que es preferible el uso de la mediana como medida descriptiva del centro cuando se quiere reducir o eliminar el efecto de valores extremos en un conjunto de datos (muy grandes o muy pequeños).

Page 11: Estadistica

Moda: Es una medida de tendencia central que se

puede utilizar sea cual sea el tipo de variable a estudiar. La moda de un conjunto de observaciones es el valor que más se repite, aquel cuya frecuencia absoluta es máxima. Puede ser única, que haya más de una, o que no exista.

Page 12: Estadistica

Media Geométrica: Se define como la raíz n-ésima del producto

de todos los valores numéricos, es decir,

ni

n

i

nnG xxxxX )(.....

121

=∏==

Page 13: Estadistica

La media armónica: Se define como el número de observaciones

de la muestra dividido por la suma del inverso de cada una de las observaciones, es decir,

∑=

=n

ii

A

x

nX

1

)/1(

Page 14: Estadistica

La localización o tendencia central de un conjunto de datos no necesariamente proporciona información suficiente para describirlos adecuadamente. Debido a que no todos los valores son semejantes, la variación entre ellos se considera importante.

Page 15: Estadistica

Se puede decir que un conjunto de datos tiene una dispersión reducida si los mismos se aglomeran estrechamente en torno a alguna medida de localización de interés y se dice que tiene una dispersión grande si se esparcen ampliamente alrededor de alguna medida de localización de interés.

Page 16: Estadistica

Las medidas descriptivas más comunes de dispersión son: el rango, la varianza, la desviación estándar y el rango intercuartílico.

Page 17: Estadistica

El rango de la muestra es la medida de variabilidad más sencilla entre todas las mencionadas; y se define como la diferencia entre la observación más grande y la más pequeña :

minmax xxr −=

Page 18: Estadistica

Aunque es una medida muy fácil de calcular, ignora toda la información de la muestra entre las observaciones más grande y más pequeña. Sin embargo, vale la pena resaltar que el rango se utiliza mucho en aplicaciones estadísticas al control de calidad, donde lo común es emplear muestras con tamaños n = 4 o

n = 5 ya que en estos casos la pérdida de información no se considera relevante.

Page 19: Estadistica

En general, se desea una medida de variabilidad que dependa de todas las observaciones y no sólo de unas pocas; así que parece razonable medir la variación en términos de las desviaciones relativas a alguna medida de localización (generalmente esta medida es la media)

Page 20: Estadistica

Para el conjunto de datos x1,x2,….,xn

Las diferencias

determinan las desviaciones de la media.Dado que la suma de estas desviaciones es cero, se utiliza como medida de variabilidad el promedio de los cuadrados de tales desviaciones.

)(),.....,(),( 21 xxxxxx n −−−

Page 21: Estadistica

1

)(1

2

2

−=

∑=

n

xxS

n

ii

Page 22: Estadistica

Esta medida de variabilidad se denomina varianza. Como S2 no tiene las mismas unidades que los datos.

Desviación estándar como la raíz cuadrada (positiva) de la varianza a fin de tener una medida en las mismas unidades de los datos; La desviación estándar es útil para comparar dispersión entre dos poblaciones.

Page 23: Estadistica

Cuartiles Los cuartiles dividen a un conjunto de datos en

cuatro partes iguales, y se notan con Q1, Q2 y Q3

Cuartiles y percentiles

Page 24: Estadistica

El primer cuartil, al que se le llama Q1, es el valor por debajo del cual se encuentra el 25% de los datos, y el tercer cuartil usualmente llamado Q3, es el valor por debajo de el se encuentra el 75% de los datos. Q2 es la mediana.

Page 25: Estadistica

Los valores Q1, Q2 y Q3 dividen al conjunto de datos ordenados en cuatro partes iguales. Q1 se puede entender como la mediana de la mitad inferior de los datos ordenados y Q3 como la mediana de la mitad superior de los datos ordenado.

Page 26: Estadistica

Procedimiento para el calculo de los percentiles

( )100p

pL n=

Sea Lp la posición del percentil deseado.Entonces

donde n es el numero de datos y p el percentilEjemplo: el percentil 33 P33, el percentil 50 es el P50, que es también la mediana ó el Q2. El percentil 25 es el P25=Q1 y el percentil 75 es el P75=Q3

Page 27: Estadistica

Calculo del p-ésimo percentil• Paso 1: Ordenar los datos de manera ascendente.• Paso 2: Calculamos el Lp ( )

• Paso 3: a) Si Lp no es entero, se redondea. El valor entero inmediato mayor que Lp indica la posición del p-ésimo percentil.

b) Si Lp es entero, el p-ésimo persentil es el promedio de los valores de los datos ubicados en los lugares i e i+1

%100)(p

nLp =

Page 28: Estadistica

Por Ejemplo:• Si tenemos 15 datos ordenados y queremos localizar el

primer cuartil (percentil 25) según la formula este estará ubicado en la posición 4 (por redondeo) y el tercer cuartil (percentil 75) estará ubicado en la posición 12 (por redondeo)

• Si tenemos 20 datos ordenados el primer cuartil estará en la posición intermedia entre el 5° y el 6° dato es decir si el 5° dato fuese 36 y el 6° 41 el P25=Q1=38,5

Page 29: Estadistica

Asimetría Si los valores de la serie de datos presenta

la misma forma a izquierda y derecha de un valor central (media aritmética) se dice que es simétrica de lo contrario será asimétrica.

Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:

31

3

1

)()(/1(

s

xxng

n

ii∑

=

−=

Coeficientes de Asimetría y Curtosis

Page 30: Estadistica

Los resultados pueden ser los siguientes:• g1 = 0 (distribución simétrica; existe la

misma concentración de valores a la derecha y a la izquierda de la media)

• g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda)

• g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha)

Page 31: Estadistica

Curtosis• El Coeficiente de Curtosis analiza el grado de

concentración que presentan los valores alrededor de la zona central de la distribución.

• Se definen 3 tipos de distribuciones según su grado de curtosis:

Page 32: Estadistica

• Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

• Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

• Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Page 33: Estadistica

El Coeficiente de Curtosis viene definido por la siguiente fórmula:

3)()(/1(

41

4

2 −−

=∑

=

s

xxng

n

ii

Page 34: Estadistica

Los resultados pueden ser los siguientes:• g2 = 0 (distribución mesocúrtica).

• g2 > 0 (distribución leptocúrtica).

• g2 < 0 (distribución platicúrtica).

Page 35: Estadistica

2) MÉTODOS GRÁFICOSHistogramasSe utiliza con variables agrupadas en intervalos, representando en el eje X los intervalos de clase y levantando rectángulos contiguos de base la longitud de los distintos intervalos y de altura tal que el área sea proporcional a las frecuencias representadas. Si son frecuencias acumuladas, serán proporcionales a las alturas aunque los intervalos sean de distinta amplitud.

Page 36: Estadistica

En estos tipos de gráficos se busca mostrar la tendencia de la información generalmente en un período de tiempo.

Grafico de Áreas

Page 37: Estadistica

Estos tipos de gráficos se utilizan para mostrar datos sobre una base geográfica. La densidad de datos se puede marcar por círculos, sombreado, rayado o color.

Cartogramas

Page 38: Estadistica

Se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa.

Diagrama Pastel

Page 39: Estadistica

Es un gráficos que se construye sobre dos ejes ortogonales de coordenadas, llamados cartesianos, a cada punto corresponde a un par de valores de datos x e y de un mismo elemento o suceso.

Dispersograma

Page 40: Estadistica

Un diagrama de tallo y hoja permite analizar la probabilidad de que un suceso ocurra sin utilizar probabilidad y estadística concretamente. Proporciona una información rápida, visual y relativamente nueva sobre datos no agrupados.Tallo Hojas

T1 a , b, c,…

T2 a , b, c,…

T3 a , b, c,…

T4 a , b, c,…

Diagrama de Tallo y Hojas

Page 41: Estadistica

El diagrama de cajas también llamado boxplot es la presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.

Diagrama de Caja y Bigote

Page 42: Estadistica

Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente, la mediana, el valor máximo y valor mínimo.

Page 43: Estadistica

Construcción de los límites y los valores atípicos

•Límite interior inferior = Límite del bigote inferior = Q1 - 1,5RI•Límite interior superior = Límite del bigote superior = Q3 + 1,5RI•Límite exterior inferior = Q1 - 3RI (Rango intercuartílico)

•Límite exterior superior = Q3 + 3RI (Rango intercuartílico)

Page 44: Estadistica
Page 45: Estadistica

Es un diagrama en donde se representan los intervalos de una clase versus la frecuencia relativa acumulada. Su principal ventaja radica en la fácil ubicación de los cuartiles y percentiles ( calculados a partir del eje y para obtener su imagen en x). Su gráfica es siempre una función creciente hasta 1.

Diagrama de frecuencia acumulada u OJIVA

Page 46: Estadistica

Este diagrama permite graficar una relación en función del tiempo, así por ejemplo se puede graficar la línea de producción de un determinado artículo durante el día, además permite realizar comparaciones entre dos curvas de tiempo con la finalidad de estimar fluctuaciones, alzas o bajo rendimiento en un proceso.

Diagrama de Series de tiempo

Page 47: Estadistica

Los diagramas de puntos sirven para presentar gráficamente tablas en las cuales se consideran únicamente una variable y una cantidad asociada a cada valor de la misma.

Diagrama de puntos

Page 48: Estadistica

Es una combinación entre el diagrama de tallo y hojas y el diagrama de series de tiempo. Su objetivo es dar una ampliación a la información del gráfico pudiendo hacer notorias ciertas características de similitud en la curva.

Diagrama de dígitos