Análisis de datos cualitativos y cuantitativos-I.pdf

Post on 12-Dec-2015

81 views 11 download

description

CLASES DE MAESTRIA SEGUNDA CLASE UNDAC 2015

Transcript of Análisis de datos cualitativos y cuantitativos-I.pdf

DOCENTE: Mg. Sc. Ing. EDGAR ALCÁNTARA TRUJILLO

Niveles de medición (tipos de variables)

V. Nominal V. OrdinalV. Intervalar

(escala)

• Sexo• Nacionalidad• Estado civil• Diagnóstico

psiquiátrico• ¿Recibió

terapia?

• Puesto en una carrera

• Orden de mérito

• Escala en la universidad

• Nivel educativo

• Edad• Salario• Temperatura• Número de

hijos• Coeficiente

Intelectual• Talla y peso

De análisis o de Comparación

Razón = Proporción = Tasas

Entre las razones más usadas en estadísticas vitales y sanitarias, se encuentran: Razón e índice de

natalidad mortalidad. Razón e índice de

mortinatalidad Indice de fertilidad..• Otros: Habitantes/Km2.

Médicos/Habitante.Kilómetros/Horaetc.

Entre los porcentajes más usados se encuentran:

PORCENTAJE DE CAMBIOPorcentaje de aumento.Porcentaje de disminución.

PORCENTAJE DE ERRORSe obtiene dividiendo la diferenciadel valor aproximado y el exactoentre el valor exacto, multiplicadopor 100.

Las tasas tienen su mayor utilidad en el campo de las estadísticas vitales, las cuales están relacionadascon problemas de población, como nacimientos(natalidad), muertes (mortalidad) y muchos otrosfenómenos de tipo social.

Para comprender una tasa, debemos conocer:• El período de tiempo (anual, trimestral, etc)• El # de nacimientos, muertes, casamientos, etc.

(Para el numerador)• El total de la población (para el denominador)• Las unidades por cada 100, por cada 1000, etc.

ESTADÍGRAFOS, ESTADÍSTICOS, O ESTIMADORES

Son cifras descriptivas dadas en función de la muestra que nos

permite tener una visión completa del fenómeno.

Existen cuatro tipos:

De posición: Posición que ocupa la distribución de frecuencia

respecto al valor de la variable.

De dispersión: Nos indica qué tan dispersos están los datos

alrededor de su valor promedio.

De concentración: Indica el grado de concentración o de

desigualdad de una distribución.

De forma: Indican la forma de la curva o polígono.

ESTADÍGRAFOS DE POSICIÓN

ESTADÍGRAFOS DE TENDENCIA CENTRAL

ESTADÍGRAFOS DE LOCALIZACIÓN

Brinda información sobre el centro de la distribución. Estos son:

Media Aritmética(Media).

Media Geométrica.Media Armónica.Moda.Mediana.

Senalan la localización de los valores más frecuentes o de valores externos. Estos son:

Cuantiles (describe el comportamiento de la muestra):

- Deciles- Cuartiles- Percentiles.

Aron, Aron y Coups (2013)

Aron, Aron y Coups (2013)

Aron, Aron y Coups (2013)

Es el valor observado más común en una distribución

Aron, Aron y Coups (2013)

Si ordenamos todas las observaciones de menor a mayor, el valor central es la mediana

Definimos la mediana de los datos como aquel valor que deja el 50% de los datos por encima y el 50% de los datos por debajo de dicho valor, una vez ordenados los datos de menor a mayor.

Aron, Aron y Coups (2013)

ESTADÍGRAFOS DE

DISPERSIÓN

Indican qué tan dispersos están los datos alrededor de su valor promedio. Son:

Varianza.

Desviación típica (estándar).

Coeficiente de Variación.

ESTADÍGRAFOS DE

CONCENTRACIÓN

Indican el grado de concentración o de desigualdad de una distribución.

Aron, Aron y Coups (2013)

𝑌 = ¿? S = ¿?

DISPERSIÓN / VARIABILIDAD

En función a la media

Aron, Aron y Coups (2013)

Aron, Aron y Coups (2013)

Gonick y Smith (1993)

ESTADÍGRAFOS DE FORMA

Indican la forma de la curva o polígono. Pueden ser:

Curvas de polígonos (frecuencias porcentuales, ojiva menor que, ojivamayor o igual que).

Simetría o asimetría.

Apuntamiento o Curtosis (forma más o menos aplastada o alargada en la punta, y están en función de los deciles).

DistribuciónNormal Estándar

(Campana de Gauss)

Coeficientes de asimetría

ASIMETRÍA

CURTOSIS

Coeficientes de Curtosis

FRECUENCIA ABSOLUTA (fi):

Número de datos que resulta del conteo en lacategoría respectiva.

FRECUENCIA RELATIVA (hi):

Se define en cada categoría por: hi = fi/n. Susumatoria es igual a la unidad.

FRECUENCIA PORCENTAJE (pi):

Es igual a la frecuencia relativa multiplicada por100%. Su sumatoria es igual a 100.

Si “n” valores de una variable discreta “x” observados en una muestra de una población, tienen (k ≤ n) valores distintos, x1, x2, …, xk, que se repiten respectivamente f1, f2, …, fk veces, entonces, la organización o agrupación de estos “n” datos originan la distribución de frecuencias.

GRAFICA DE LA DISTRIBUCION DE VARIABLE DISCRETA:

La representación de una distribución de frecuencias de variable discreta puede mostrarse a través de barras, líneas verticales (bastones), etc.

Valores de la

Variable

X

Frecuencias

Absolutas

fi

Frecuencias

Relativas

hi

Frecuencias

Porcentajes

pi

x1

x2

xk

f1

f2

fk

h1

h2

hk

p1

p2

pk

TOTAL N 1.00 100

DISTRIBUCION DE FRECUENCIAS DE

VARIABLE DISCRETA

Ante la pregunta del número de hijos por familia, una muestra de 20 hogares marcó las siguientes respuestas:

2, 1, 2, 4, 1, 3, 2, 3, 2, 0

3, 2, 1, 3, 2, 3, 3, 1, 2, 4

Obtenga la distribución de frecuencias de los datos y luego grafique.

SOLUCIÓN:

No. HIJOS FRECUENCIA FREC. REL. FREC. %

0 1 0.05 5.00%

1 4 0.20 20.00%

2 7 0.35 35.00%

3 6 0.30 30.00%

4 2 0.10 10.00%

TOTAL = 20 1.00 100.00%

SOLUCIÓN:

Esta distribución se aplica cuando la variable estadística cuantitativa es continua o cuando el numero de valores distintos de una variable discreta es muy grande.

La amplitud (A) de los intervalos, se obtiene dividiendo el rango (R) de valores de los datos entre “k” intervalos y determinando el numero de datos que contiene cada intervalo.

Intervalos

IiConteo

Frecuencias

Absolutas

fi

Frecuencias

Relativas

hi

Frecuencias

Porcentuales

pi

I1

I2

Ik

///…

///…

///…

f1

f2

fk

h1

h2

hk

p1

p2

pk

TOTAL N 1.00 100

DISTRIBUCION DE FRECUENCIAS POR

INTERVALOS O CLASES

Para construir la distribución de frecuencias por intervalos hay varios procedimientos, pero se recomienda:

◦ Elegir no menos de 4 ni más de 20 intervalos. Con menos de 4 se puede omitir características, con más de 20 se pueden complicar innecesariamente los cálculos. (Todos los intervalos deben tener la misma amplitud. La amplitud debe ser entero en lo posible).

◦ El número de intervalos elegidos, debe originar una distribución de frecuencias mono modal. Es decir, una distribución cuyas frecuencias van aumentando progresivamente hasta una frecuencia máxima y luego van disminuyendo también progresivamente.

1. Determinar el rango (R) de los datos que se definen:

R = Xmax – Xmin

Donde: Xmax= dato máximo, Xmin= dato mínimo

2. Determinar el numero de intervalos, k, la regla deSturges nos da un valor aproximado:

k = 1 + 3,3 log (n), n ≥ 10

redondeando el numero obtenido al enteroinmediato mayor.

3. Determinar la amplitud A del intervalo: , kA ≥ R.

k

RA

4. Determinar los extremos de los intervalosde la siguiente manera:

I1 = [Xmin , Xmin + A>

I2 = [Xmin + A, Xmin + 2A>

I3 = [Xmin + 2A, Xmin + 3A>

Ik = [Xmin + (k – 1)A, Xmin + kA>

por lo que podemos considerar:

Xmax = Xmin + kA

MARCA DE CLASE:

La marca de clase o marca de intervalo :

Ii = [Li , Ui> es el número” yi” que se define como el punto medio del intervalo.

La marca de clase es el valor representativode todos los datos contenidos en elintervalo.

2ii

i

ULy

◦ HISTOGRAMA: Es una gráfica básica que consisteen barras rectangulares. Representa a lasfrecuencias absolutas, relativas o porcentaje. Seusan, generalmente, las marcas de clase.

◦ POLIGONO DE FRECUENCIAS: Es una gráfica quese obtiene uniendo con segmentos de recta lospuntos determinados por la abcisa (marca declase) y la ordenada (frecuencia respectiva)

◦ CURVA DE FRECUENCIAS: La curva de frecuenciases una gráfica “avanzada” de una distribución defrecuencias, que se obtiene del polígono defrecuencias “suavizando” sus puntos angulosos.

GRAFICO DE LA DISTRIBUCION DE INTERVALOS:

DISTRIBUCIONES SIMETRICAS:

DISTRIBUCION ASIMETRICA

DISTRIBUCION MULTIMODAL

FRECUENCIA ABSOLUTA ACUMULADA (Fi)

Suma consecutiva de las frecuencias absolutas (fi)

FRECUENCIA RELATIVA ACUMULADA (Hi)

Suma consecutiva de las frecuencias relativas (hi)

FRECUENCIA PORCENTUAL ACUMULADA (Pi %)

Suma consecutiva de las frecuencias porcentuales (pi)

Los salarios quincenales, en dólares,recopilados en una muestra de 45empleados son:

63 82 36 49 56 64 59 35 78

43 51 70 57 62 43 68 62 26

64 72 52 51 62 60 71 61 55

59 60 67 57 67 61 67 51 81

50 64 76 44 73 56 62 63 60

Desarrolle la distribución de frecuenciasde los datos.

INTRODUCCION:

Las medidas de tendencia central, denominadastambién promedios, ubican el centro de losdatos, como la media aritmética (la mediageométrica, la media armónica), la mediana y lamoda.

LA MEDIANA (Me)

Es el valor mediano (dato) de una serie devalores observados, que separa a la serie dedatos ordenados (en forma creciente odecreciente) en dos partes de igual numero dedatos.

La mediana depende del numero de orden delos datos y no de los valores de estos datos.

MEDIANA DE DATOS NO AGRUPADOSPara hallar la mediana de “n” valores noagrupados de una variable cuantitativa es:

1. Se ordenan los datos en forma creciente.2. Luego se ubica el valor central “Me”. Si “n” es

impar, la mediana es el dato ordenado delcentro. Pero si “n” es par, la “Me” es lasemisuma de los dos valores ordenadoscentrales.

Ejm: Calcule la Me para las siguientes series dedatos:

a) 120, 3, 14, 1, 99, 7, 30, 2000, 16b) 30, 77, 3, 300, 36, 11, 10000, 29

a) Ordenando los 9 datos tenemos:1, 3, 7, 14, 16, 30, 99, 120, 2000

La Me es el quinto dato ordenado que separa ala serie en 2 grupos de 4 datos cada uno. Estoes: Me = 16

Ordenando los 8 datos tenemos:3, 11, 29, 30, 36, 77, 300, 10000

La “Me” en este caso puede ser cualquiernumero situado entre 30 y 36, ya que estesepara a los datos en grupos de 4 cada uno.Pero se conviene:

332

3630

Me

MEDIANA DE DATOS AGRUPADOS:a) Si los valores de una variable discreta se

agrupa en una distribución de frecuencias dela forma “dato ↔ frecuencia”, el calculo de la“Me” se hace siguiendo el método de datos noagrupados. Como los datos ya estánordenados, solo bastara ubicar su centro.Ejm:

Numero de Hijos

xi

F. Absolutas

fi

0 1

1 4

2 7

3 6

4 2

Ubicando la Mediana

será:

Me = 2

b) Para valores de una variable continua o de una

distribución de frecuencias por intervalos, la

mediana se determina aproximadamente por

interpolación de manera que la mitad inferior (50%) de

los datos agrupados sean menores o iguales que la

mediana.

1. Se ubica el intervalo que contiene a la mediana enla mitad inferior del total de las frecuencias: 0,5 xn, (50% del total de las frecuencias de cualquiertipo).

2. La mediana Me ϵ [Li, Ui[ y esta dada por: Me=Li+adonde, “a” se obtiene por interpolación(semejanza de triángulos ABE y ACD), esto es:

Luego:

Axf

fay

f

f

A

a

i

i

i

i

)( Axf

fLMe

i

ii

Ii fi Fi

[26, 34[ 1 1

[34, 42[ 2 3

[42, 50[ 4 7

[50, 58[ 10 17

[58, 66[ 16 33

[66, 74[ 8 41

[74, 82] 4 45

45

Para n=45, la menor frecuencia absoluta que supera a: (n/2= 22.5) es33, el que está comprendido en el intervalo de clase [58, 66>

Ii fi Fi

[26, 34[ 1 1

[34, 42[ 2 3

[42, 50[ 4 7

[50, 58[ 10 17

[58, 66[ 16 33

[66, 74[ 8 41

[74, 82] 4 45

45

n/2=22.5

75,60816

5,558)(

xxA

f

FLMe

i

ii

58

85866

5.5175.22

i

i

L

A

F

1) La mediana, solo depende del número de datosordenados y no del valor de los datos. Por lo tantono es sesgada por algún valor aislado grande opequeño.

2) La mediana puede ser calculada para distribucionesde frecuencia con intervalos de diferente amplitud,siempre que se pueda determinar el limite inferior Lidel intervalo que contiene a la Me.

3) La “Me” puede ser calculada para variables convalores en escala ordinal.

4) La suma de las diferencias (en valor absoluto) de “n”datos con respecto a su mediana es minima. En casode datos sin agrupar es:

i

n

i

i xcx los de mediana la es c si minimo;1

Cinco amigos quienes viven en lugares separados, a lo largo de la carretera central, tal como se observa en la figura; desean reunirse de manera urgente. Cuál de estos puntos deben elegir para este encuentro de manera que el costo total del transporte sea mínimo, si el costo de cada transporte es proporcional al recorrido.

Si A es el origen, entonces, las coordenadas deA, B, C, D, y E son respectivamente: x1= 0, x2=20, x3= 35, x4=41 y x5=51

Sea K el punto de reunión. Dado que el costo esproporcional al recorrido, podemos elegir sinperdida de generalidad la proporcionalidadigual a 1, entonces:

Este costo es mínimo, si K es la mediana de los5 valores: 0, 20, 35, 41, 51, esto es si K = 35.Luego deben reunirse en el lugar C, a 35 km deA.

5

1

e transportde totalCostoi

i Kx

De una serie de datos es el valor “Mo” quese define como el dato que ocurre conmayor frecuencia.

La moda no siempre existe y si existe, nosiempre es única. La moda es el promediomenos importante debido a suambigüedad.

MODA EN DATOS NO AGRUPADOS:Ejm: Determine la moda de los siguientesdatos:

a) 7, 9, 7, 8, 7, 4, 7, 13 , 7b) 5, 3, 4, 5, 7, 3, 5, 6, 3c) 31, 11, 12, 19

a) Mo = 7. Esta serie de datos esunimodal

b) Tenemos: Mo1 = 3 y Mo2 = 5.Esta serie de datos es bimodal.

c) “Mo” no existe. También se diceque cada uno de los datos es unamoda.

Para calcular la “Mo” de “n” datos organizados porintervalos:

1) Se determina el intervalo que contiene a la “Mo”. Esteintervalo modal [Li, Ui], debe ser el único con la mayorfrecuencia, tiene amplitud A, frecuencia absoluta fi ysus frecuencias vecinas antes y después son fi-1 y fi+1respectivamente.

2) Luego se aplica la formula:

Donde: Li = limite inferior del intervalo modal;

Ax

dd

dLMo i

21

1

.mod

112

111

alinervalodelAmplitudA

ffd

ffd

i

i

Ii fi Fi

[26, 34[ 1 1

[34, 42[ 2 3

[42, 50[ 4 7

[50, 58[ 10 17

[58, 66[ 16 33

[66, 74[ 8 41

[74, 82] 4 45

45

Se observa que la mayor frecuencia es 16

Por lo tanto, la moda “Mo” ϵ [58, 66[

Además:

Li = 58; Ui = 66

d1 = 16 – 10 = 6

d2 = 16 – 8= 8 = 8

A = 66-58 = 8

Luego la “Mo” de la distribución es:

8

86

658

21

1 xAxdd

dLMo i

429,61Mo

Ii fi Fi

[26, 34[ 1 1

[34, 42[ 2 3

[42, 50[ 4 7

[50, 58[ 10 17

[58, 66[ 16 33

[66, 74[ 8 41

[74, 82] 4 45

45

Es el valor numérico que se obtiene dividiendo la suma total de los valores observados de una variable entre el numero de observaciones.

CALCULO DE LA MEDIA ARITMETICA

MEDIA ARITMETICA DE DATOS NO AGRUPADOS: La Media aritmética de n valores x1, x2, x3, …, xn de la variable cuantitativa X, observados en una muestra es:

Ejemplo: Calcular la media aritmética de los 20 datos siguientes:

2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 2, 4, 1

X

n

x

X

n

i

i 1

datos de #

totalSuma

Aplicando la formula:

Tenemos:

n

x

X

n

i

i 1

datos de #

totalSuma

20.220

44

20

20

1 i

ix

X

20,2X

a) DATOS AGRUPADOS DE VARIABLE DISCRETA: Si nvalores de una variable discreta X se clasifican enk valores distintos x1, x2, …, xk con frecuenciasabsolutas respectivas f1, f2, …,fk, entonces lamedia aritmética es:

n

xf

X

k

i

ii 1

*

datos de #

totalSuma

Ejemplo:

Calcule la media aritmética de la distribuciónde frecuencias siguientes:

Numero de Hijos xiF. Absolutas

fi

0 1

1 4

2 7

3 6

4 2

Tenemos:

La media aritmética será:

Numero de Hijos

xi

F. Absolutas

fifi*xi

0 1 0

1 4 4

2 7 14

3 6 18

4 2 8

TOTAL 20 44

20.220

44

20

*

datos de #

totalSuma

5

1 i

ii xf

X

2,2X

b) DATOS AGRUPADOS POR INTERVALOS: Sin valores de una variable cuantitativa Xestan organizados en una frecuencia dek intervalos, donde:

y1, y2, …, yk son las marcas de clase y

f1, f2, …, fk son las frecuencias abs. resp.

Entonces la media aritmética es:

n

yf

datosde

totalSumaX

k

i

ii 1

*

#

Ejemplo:

Calcule la media aritmética de la distribuciónde frecuencias por intervalos siguientes:

Ii fi

[26, 34[ 1

[34, 42[ 2

[42, 50[ 4

[50, 58[ 10

[58, 66[ 16

[66, 74[ 8

[74, 82] 4

45

Tenemos:

La media aritmética será:

Ii yi fi fi*yi

[26, 34[ 30 1 30

[34, 42[ 38 2 76

[42, 50[ 46 4 184

[50, 58[ 54 10 540

[58, 66[ 62 16 992

[66, 74[ 70 8 560

[74, 82] 78 4 312

45 2694

45

2694

45

*

datos de #

totalSuma

7

1 i

ii yf

X867,59X

a) La suma total de n valores cuya media es xes igual a nx. En efecto, para n datos noagrupados y agrupados respectivamente,se tiene:

b) Si a la variable X se le hace latransformación lineal Y = aX + b, es decirsi a cada uno de los n valores xi de X estransformado en el valor: yi = axi + b deY, siendo a y b constantes, entonces, amedia de los n valores yi es:

k

i

ii

n

i

i xnxfxnx11

;

bxay

c) La suma algebraica de las desviaciones den datos xi con respecto a su media x esigual a cero. Se tiene para datos noagrupados y agrupados:

d) La suma de los cuadrados de lasdesviaciones de n datos con respecto a sumedia es minima.

.

n

i

k

i

iii xxfxx1

1

0)(*;0)(

n

i

i xccx1

2 si minima,)(

La media ponderada se obtiene por la siguiente relación:

Ejemplo: Un alumno en el semestre anterior ha obtenido 11 enel curso A de 5 créditos, 13 en el curso B de 4 créditos, y 16en el curso C de 3 créditos, entonces su promedio de notas(ponderado por los créditos) es:

k

i

i

k

i

ii

k

kk

w

xw

www

xwxwxwX

1

1

21

2211

)*(

...

)*(...)*()*(

SOLUCION:

92,1212

155

345

)3*16()4*13()5*11(

X

EJEMPLO:Los sueldos del mes de Enero de 200empleados de una empresa tienen unamedia de 230 (nuevos soles por 10).

a) Si el 60% de los empleados son hombres (elresto son mujeres) y tienen un sueldopromedio de 250, ¿Cuánto es el sueldo mediode las mujeres en enero?

b) Si para el mes de julio, se propone un aumentogeneral que consiste de un aumento variabledel 30% a cada sueldo de enero mas unabonificación de 30, ¿Cuánto dinero adicionalnecesitara la empresa para pagar los sueldosincrementados?

1) Si la distribución de los datos es simétrica, entonces, lamedia, la mediana y la moda tienen el mismo valor (fig 2.2a). Esto es:

2) Si la distribución es asimétrica de cola a la derecha,entonces, la moda es menor que la mediana y esta a su vezes menor que la media (fig. 2.2 b). Es decir:

3) Si la distribución es asimétrica e cola a la izquierda,entonces, la relación es (fig. 2.2 c):

MoMeX

XMeMo

MoMeX

4. Para distribuciones unimodales y de marcadaasimetría, se tiene la siguientes relación empírica:

5. Los tres promedios pueden calcularse tambiénpara distribuciones de frecuencias con intervalosde diferente longitud, siempre que puedandeterminarse o las marcas de clase (para la media)o de limite inferior Li del intervalo (para lamediana y la moda).

)(*3 MeXMoX

La media geométrica de n valores positivos x1, x2,…, xn es:

Por ejemplo, la media geométrica de los valores 3, 9,27 es igual a:

La media geométrica se aplica para promediar:razones (a/b), índices (a/b en %), proporciones[a/(a+b)], tasa de cambio [(a-b)/b], que varían conel tiempo, etc.

nnxxxX *...** 21

927*9*33

Gx

Ejemplo 1:Si la producción de un bien haexperimentado un crecimiento del 30%del primero al segundo año y unincremento del 35% del segundo altercer año y un decrecimiento del 15%del tercer al cuarto año.

a) Calcule la tasa promedio de cambio y elporcentaje promedio de crecimiento de laproducción de los tres últimos años.

b) Calcule la producción del quinto año, si ladel primer año fue 100.

Ejemplo 2:

Supongamos que la población de unaciudad aumento de 10000 a 12600 en elperiodo comprendido del año 2000 al año2004 como se indica en el cuadro. Calculela tasa promedio y el porcentaje promediodel crecimiento de la población.

La media armónica de n valores no nulos x1, x2, …,xn es un numero real, dado por:

Por ejemplo la media armónica de 6, 4, y 3 es 4.

La media armónica se aplica para promediardatos cuyas unidades de medición son cocientesde unidades de medición de dos variables, porejm. Datos expresados en km/hora. Siendo unaformula practica la sgte:

n

i ix

nXh

1

1

2 variablede mediciones de Total

1 variablede mediciones de Totalxh

NOTA: La media armónica es siempre menor que lamedia geométrica, esta a su vez es menor que lamedia aritmética.

Ejemplo 1:

Una persona manejando su automóvil recorre los primeros 10km a 60 km por hora y los siguientes 10 km a 70 km porhora, calcule la velocidad promedio.

Ejemplo 2:

Una empresa de transporte gasta S/.400 en latas de aceiteque cuestan S/. 10 la docena; S/. 500 en latas que cuestanS/.12,50 la docena; S/. 600 mas en latas que cuestan S/. 20la docena y S/. 300 en otras que cuestan S/. 25 la docena.Calcule el costo promedio por docena de las latas de aceite.

XXGXH