Post on 15-Jul-2015
1
Métodos Cuantitativos para los Negocios
Análisis Exploratorio y Descriptivo
Profesor: Dr. Juan Cevallos
2
Introducción a la Estadística
• Presentación de datos y/o resumen de datos.• Metodología para presentar datos, y para
extraer conclusiones o inferencias de los datos
• Variables aleatorias extraidas por muestreo.
¿Qué es?
3
DefinicionesDatos:
Los Datos están compuestos de objetos que tienen variables.
Ejemplo: 6 carros en un parqueo
• Los carros son los objetos
• Variables: peso, ancho, longitud, tipo, color, año, etc..
4
Definiciones, cont.
Variable Categórica : respuesta categórica
Ejemplo: Ford, Volvo, Toyota
Variable Numérica : respuesta numérica
Ejemplo: peso del carro es 3000 lb
5
Definiciones, cont.
Tipos de variable numérica:
• Discreta: se cuenta ó ‘señala’
Ejemplo: número de cilindros
• Continua: de mediciones
Ejemplo: presión de la llanta
6
Definiciones, cont.
Escalas asociadas con las variables:
• Nominal: clasificadas en categorias discretas
Ejemplo: Ford, GM, Volvo, etc.
• Ordinal: categorias que implican orden.
Ejemplo: ranking de carros por confiabilidad en su clase.
7
Definiciones, cont.
Escalas asociadas con las variables:
• Intervalo: la diferencia es sólo en significado(mayor o menor) ºC
Ejemplo: año de manufactura puede ser Hebreo, Islámico, o Gregoriano, pero todos dan la misma edad.
• Ratio: tiene un punto cero ºK
Ejemplo: Espesor del vidrio del parabrisas
8
Poblaciones vs. Muestras• Población: Conjunto de
todas mediciones de interés para el investigador
Ejemplo: conjunto de todos los carros registrados en Piura
• Muestra: Subconjunto seleccionado de una población
Ejemplo: Un lote de todos los carros registrados en Piura.
Population
Sample
9
Dos Metodologías Estadísticas
Estadística Descriptiva : «Asimilación", ya sea a través de gráficos, tablas o medidas de resumen, la información de una población o muestra.
Estadística Inferencial : Usando información de una muestra para estimar o probar hipótesis sobre una población.
10
Parámetros versus EstadísticosParámetro: Una medida resumen de una
población
Estadístico: Una medida resumen de una muestra que pretende dar información sobre una población.
Ejemplo: El promedio de una población es un parámetrro, y el promedio de una muestra, si pretende estimar el promedio de la población, es un estadístico.
11
¿Dónde ir primero?
A la Estadística Descriptiva!
Ejemplos: media, mediana, histograma, gráfico circular, gráfico de barra, etc.
Estadística Inferencial, requiere especial preparación en teoría de probabilidades.
12
Ejemplo: una población
• Cinco personas viven en una isla. La tabla da sus ingresos anuales en miles de soles
A B C D E
60.2 40.2 70.5 60.2 100.7
13
Ordenando los Datos
A B C D E
60.2 40.2 70.5 60.2 100.7
B D A C E
40.2 60.2 60.2 70.5 100.7
14
Medidas de Tendencia Central y Medidas de Dispersión (Variación)
• Las medidas de tendencia central, muestran un punto que de alguna forma representa el medio o centro de los datos.
• Ejemplos: media, mediana, moda• Medidas de dispersión, muestran la
cantidad de dispersión o variación existe en los datos
• Ejemplos: rango, desviación estándar, varianza, coeficiente de variación.
15
Media o Promedio: Población
60.2 40.2 70.5 60.2 100.7Mean 66.36
5
+ + + += =
1 2 3 4 5Mean5
X X X X X+ + + +=
1
N
ii
X
Nµ ==
∑Xnot
sumPopulation size
Population size
Number imean
16
Mediana: población
• Mediana = valor medio, o el promedio de dos valores centrales, para datos ordenados.
• Mediana = valor en la posición (N+1)/2 con los datos ordenados.
B D A C E
40.2 60.2 60.2 70.5 100.7
Ejemplo
Posición (5+1)/2
17
Media versus mediana: Ejemplo• A las 5 personas de la
isla se agregó una sexta: F. Su ingreso por año era 100,000 (en miles).
B D A C E F
40.2 60.2 60.2 70.5 100.7 100000
18
Media y Mediana, Antes y después
• La nueva mediana está en la posición (N+1)/2 = 7/2
= 3.5, o entre 60.2 y 70.5.• La nueva mediana is 60.2 + .5(70.5 –60.2)
= 65.35• The nueva media es
(40.2+60.2+60.2+70.5+100.7+100000)/6
= 16722 (redondeado en miles)
B D A C E F
40.2 60.2 60.2 70.5 100.7 100000
Posición 3Posición 4
19
Resumen
Antes de F Después de F
Media = 66.36 Media = 16722
Mediana = 60.2 Mediana = 65.35
• El efecto de los valores extremos sobre la media y la mediana es distinto.
• ¿Cuál es una mejor medida?
20
Moda
B D A C E
40.2 60.2 60.2 70.5 100.7
• La moda es el valor que ocurre con mayor frecuencia. Puede haber más de una moda.
• Utilidad?
21
Medidas de Dispersión: Rango
• El rango es la diferencia entre los valores más grande y más pequeño
• Rango = Xmaximum - Xminimum
B D A C E
40.2 60.2 60.2 70.5 100.7
•Rango = 100.7 – 40.2 = 60.5
•Ejemplo
22
Rango: Otro EjemploUniversity A University B
56 52
80 72
58 72
52 72
78 72
61 72
63 72
98 72
99 72
75 99
•Los salarios anuales de dos grupos de graduados son:
•El rango es•99 – 52 = 47
•en cada caso.
23
Rango intercuartil• Q1 = primer cuartil, da un valor tal que
25% de las observaciones son menores
• Q1 = valor en la posición ordenada (1/4)(N+1)
• Q3 = tercer cuartil, da un valor tal que 75% de las observaciones son menores
• Q3 = valores en la posición ordenada (3/4)(N+1)
• Rango Intercuartil = Q3 - Q1
24
EjemploB D A C E
40.2 60.2 60.2 70.5 100.7
( )1
1Valueat position( 5+1 )
4Q =
Valueat position(4.5) 70.5 .5(100.7 70.5) 85.60= = + − =
( )3
3Valueat position( 5+1 )
4Q =
=Valueat position(1.5) 40.2 .5(60.2 40.2) 50.20= + − =
•Rango Intercuartil = 85.6 – 50.2 = 35.4
•Q
1
•Q
3
25
Varianza y Desviación Estandard
Varianza es el promedio la desviación de la media al cuadrado
( ) 2
2 1variance
N
ii
X
N
µσ =
−= =
∑
( ) 2
1standard deviation
N
ii
X
N
µσ =
−= =
∑
•“sigma”
•“sigma-squared”
26
Cálculo
( ) 2
2 1variance
N
ii
X
N
µσ =
−= =
∑
A B C D E
60.2 40.2 70.5 60.2 100.7
•66.36
( ) ( )2 2
2 60.2 66.36 100.7 66.36391.322
5σ
− + + + −= =
27
Caso Muestra• Cuando los datos son una muestra de n
items y no una población, entonces las fórmulas para la varianza y desviación estandard con algo diferentes:
( ) 2
1standard deviation estimate1
n
ii
X XS
n=
−= =
−
∑
( ) 2
2 1varianceestimate1
n
ii
X XS
n=
−= =
−
∑•Sample mean
28
Ejemplo:
86 86 86 84 82 82 80 80 80 80 78 78 78 78 76 76 76 76 73 73 73 73 73 73 73 71 71 71 71 71 71 71 71 71 71 71 71 71 71 69 69 69 69 67 67 67 67 67 67 67 67 67 67 67 67 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 63 63 63 63 63 63 63 63 63 63 63 63 63 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 59 59 59 59 59 59 59 59 57 57 57 57 57 57 57 57 57 57 57 57 57 57 55 55 55 55 55 55 55 55 55 55 55 55 53 53 53 53 53 53 51 51 51 51 51 51 51 51 49 49 49 49 49 49 49 49 49 49 49 47 47 47 45 45 45 45 45 45 45 43 43 43 41 41 39 39 39 39 37 37 37 35 33 31 24
29
Cálculos
86 2460.163
190µ + + + + + + += =
( ) ( )2 2
2 86 60.163 24 60.163 132.137
190σ
− + + + + + −= =
1 alue at
191V ( ) V(47.75) 53 .75(53 53) 53
4Q = = = + − =
3
3(191)V( ) V(143.25) 67 .25(67 67) 67
4Q = = = + − =
30
Limitaciones de la Desviación Estándard
Ejemplo: La desviación estándard en los gastos anuales de 5 clientes de un restaurante es $230.44. ¿Hay mucha variación en su uso del restaurante?
Respuesta: depende.
31
Ejemplo, continua…
Ambos grupos tienen la misma desviación estandard. En el Grupo 1, el mayor gasto es 154% más que el menor, mientras que este número es 13% para el Grupo 2.
Grupo 1, en $ 905 794 835 466 1163 837 457
Grupo 2, en $ 5905 5794 5835 5466 6163 5837 5457
32
Coeficiente de Variación CV
El CV es la desviación estandard dividida por la media. Aproximadamente, es el grado de variación respecto de la media. Puede ser un ratio o un porcentaje.
CVσµ
=
33
Ejemplo 1
A B C D E
60.2 40.2 70.5 60.2 100.7
19.78CV .298
66.36
σµ
= = =
( ) ( )2 260.2 66.36 100.7 66.36
19.785
σ− + + + −
= =
60.2 40.2 70.5 60.2 100.766.36
5µ + + + += =
34
Ejemplo 2
Un empleado de oficina se quejó de que el coeficiente de variación de temperatura en su oficina fue de 14,9%, lo que estaba por encima de la norma acordada por el Sindicato de 10%. Ella presentó los siguientes datos de la semana anterior:
Día 1 2 3 4 5Grados Celsius
25 20 27 21 18
( ) ( )2 225 22.2 18 22.2
3.315
σ− + + + −
= =
25 20 27 21 1822.2
5µ + + + += =
•CV = 3.31/22.2 = .149
35
Ejemplo 2, continuaNo tan rápido, dijo la administración. Estos son los
estándares establecidos por la empresa matriz EEUU. Ellos vuelven a calcular el CV y da 8,3%, y llegaron a la conclusión de que el coeficiente de variación estaba dentro del rango permitido
Día 1 2 3 4 5Grados Fahrenheit 77.0 68.0 80.6 69.8 64.4
( ) ( )2 277.0 71.96 64.4 71.96
5.9575
σ− + + + −
= =
77.0 68.0 80.6 69.8 64.471.96
5µ + + + += =
•CV = 5.96/71.96 = .083
•F=9C/5+32