2. Organización Datos

39
 Análisis de Datos Organización y representación de datos Luceny Guzmán Acuña 23 de enero de 2015 Luceny Guzmán Acuña ()  Análisis de Datos  23 de enero de 2015 1 / 39

description

123

Transcript of 2. Organización Datos

  • Anlisis de DatosOrganizacin y representacin de datos

    Luceny Guzmn Acua

    23 de enero de 2015

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 1 / 39

  • Tipos de Datos

    Cuando se analiza una poblacin (o muestra) a cada unidad o elementodentro de sta se le asigna un nombre o un nmero dependiendo delinters que se tenga. A stos le denominaremos datos. Los datos se puedenclasicar de la siguiente manera:

    1 Datos cualitativos: se reere a categoras o atributos que puedenclasicarse de acuerdo con determinado criterio.

    2 Datos cuantitativos: se reeren a informacin numrica (representantodo lo que se puede contar o medir)

    1 Los datos discretos son los obtenidos de un proceso de conteo(asociados al conjunto de los enteros no negativos)

    2 Los datos continuos son los obtenidos de un proceso de medicin(asociados al conjunto de los nmeros reales)

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 2 / 39

  • Tipos de Datos

    Algunos datos numricos se pueden clasicar como cualitativos, porejemplo: los cdigos de estudiantes, grados de escolaridad, telfonos,etc.

    Algunos datos se pueden representar de los dos tipos, por ejemplo: Laestatura, calicacin etc.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 3 / 39

  • Escalas de medicin

    Atendiendo a la relacin entre los nombres o nmeros asignados a loselementos de la poblacin o muestra surgen las escalas de medicin.

    1. Nominal. Se utilizan para datos cualitativos (clasicacin deproductos, tipos de autos, gnero, nmeros telefnicos,cdigos, grados escolares, etc). Caractersticas: no hay unorden particular, no se pueden realizar clculos numricos,las categoras deben ser excluyentes (un elemento no puedeasignrsele ms de una categora) y exhaustivas (todoelemento debe asignrsele una categora).

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 4 / 39

  • Escalas de medicin

    2. Ordinal. Son datos medidos en una escala nominal, pero,ordenada de alguna manera (Calicaciones por letra,clasicacin de productos, grados de escuela, etc). En estaescala la distancia entre o diferencia entre valores no tienesignicado. Caractersticas: tiene sentido establecer unordenamiento, las categoras son excluyentes y exhaustivas,no se pueden realizar clculos numricos.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 5 / 39

  • Escalas de medicin

    3. De intervalo. Son datos medidos en una escala ordinal, perode tipo cuantitativo, la distancia entre valores tiene sentido.Esta escala no siempre tiene un punto cero, que indiqueausencia de medida. (temperatura, puntaje en un examen).Adems no se pueden establecer razones entre valores.Caractersticas: tiene sentido establecer un ordenamiento,las categoras son excluyentes y exhaustivas, se puedenrealizar clculos numricos, no existe un valor que indiqueausencia de la caracterstica medida, se puede establecerdiferencias entre valores.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 6 / 39

  • Escalas de medicin

    4. De razn. son datos medidos en una escala de intervalo,donde el punto cero indica ausencia de medida, se puedenestablecer razones entre valores (Tiempo, peso, dinero, etc).Caractersticas: tiene sentido establecer un ordenamiento,las categoras son excluyentes y exhaustivas, se puedenrealizar clculos numricos, existe el valor que indiqueausencia de la caracterstica medida.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 7 / 39

  • Organizacin de datos

    Los datos se organizan en tablas de frecuencia tambin denominadasdistribuciones de frecuencia, hablaremos de los siguientes tipos de tablas.

    1 No agrupadas: Datos cualitativos y cuantitativos discretos cuando elrango de valores no es muy amplio.

    2 Agrupadas: Datos cuantitativos continuos y discretos cuando el rangode valores es muy amplio.

    3 Acumuladas: Cuantitativos4 Bivariadas: Cualitativos.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 8 / 39

  • Representacin de un conjunto de datos

    La representacin de un conjunto de datos se realiza a partir de grcos.Analizaremos los siguientes:

    1 Diagrama de barras, de puntos, univariados y bivariados, circular(Datos cualitativos y cuantitativos discretos de tablas no agrupadas)

    2 Histograma (datos cuantitativos)3 Polgono (datos cuantitativos)4 Ojiva (datos cuantitativos, tablas acumuladas)5 Diagrama de pareto (datos cualitativos)6 Diagrama de cajas (datos cuantitativos)

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 9 / 39

  • Tabla o distribucin de frecuencias no agrupadas

    Ejemplo 1 (Datos cualitativos)La tabla organizacin datos.xls contiene informacin para un grupo deestudiantes de Anlisis de datos I. Los datos incluidos son: ingeniera a lacual pertenecen, nmero de fallas durante el semestre hasta la semana 9;estado (G: aprobado, R: retirado, P: reprobado).

    1 Construya una tabla de frecuencias completa para la ingeniera a laque pertenecen.

    2 Construya una tabla de frecuencias para el estado.3 Repita el ejemplo 1 sin tener en cuenta los estudiantes retirados.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 10 / 39

  • Tabla o distribucin de frecuencias no agrupadas

    Ejemplo 1 (Datos cualitativos)

    Ingeniera f fr =fn % = 100fr

    IN 15 0;268 26;8CV 15 0;268 26;8MC 10 0;179 17;9EL 5 0;089 8;9ET 8 0;143 14;3ST 3 0;054 5;4Total 56 1 100

    Donde:n : nmero de datos, f : frecuencia absoluta (nmero de veces queaparece un dato), fr : frecuencia relativa, % : porcentaje.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 11 / 39

  • Diagrama de barras

    Ejemplo 1 (Datos cualitativos)

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 12 / 39

  • Diagrama circular

    Ejemplo 1 (Datos cualitativos)

    Ingeniera f ngulo: 360fn % = 100frIN 15 96; 4 26;8CV 15 96; 4 26;8MC 10 64; 3 17;9EL 5 32; 1 8;9ET 8 51; 4 14;3ST 3 19; 3 5;4Total 56 360 100

    Donde:n : nmero de datos, f : frecuencia absoluta (nmero de veces queaparece un dato), % : porcentaje.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 13 / 39

  • Diagrama circular

    Ejemplo 1 (Datos cualitativos)

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 14 / 39

  • Tabla o distribucin de frecuencias no agrupadas

    Ejemplo 2 (Datos cuantitativos discretos )La tabla organizacin datos.xls contiene informacin para un grupo deestudiantes de Anlisis de datos I. Los datos incluidos son: ingeniera a lacual pertenecen, nmero de fallas durante el semestre hasta la semana 9;estado (G: aprobado, R: retirado, P: reprobado) construya una tabla defrecuencias completa para el nmero de fallas

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 15 / 39

  • Tabla o distribucin de frecuencias no agrupadas

    Ejemplo 2 (Datos cuantitativos discretos )

    # de fallas f fr % # de fallas f fr %0 16 0;286 28;6 10 0 0;000 0;00

    1 3 0;054 5;40 11 0 0;000 0;00

    2 9 0;161 16;1 12 2 0;036 3;60

    3 2 0;036 3;60 13 1 0;018 1;80

    4 1 0;018 1;80 14 0 0;000 0;00

    5 3 0;054 5;40 15 1 0;018 1;80

    6 2 0;036 3;60 16 2 0;036 3;60

    7 3 0;054 5;40 17 1 0;018 1;80

    8 2 0;036 3;60 18 1 0;018 1;80

    9 7 0;125 1;25 Total (n) 56 1 100

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 16 / 39

  • Diagrama de barras

    Ejemplo 2 (Datos cuantitativos discretos )

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 17 / 39

  • Diagrama de puntos

    Ejemplo 2 (Datos cuantitativos discretos )

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 18 / 39

  • Histograma

    Ejemplo 2 (Datos cuantitativos discretos )

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 19 / 39

  • Polgono

    Ejemplo 2 (Datos cuantitativos discretos )

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 20 / 39

  • Tabla o distribucin de frecuencias agrupadas

    Ejemplo 3Se realiz un estudio a un grupo de trabajadores de una empresa paraanalizar su productividad. Se obtuvieron datos acerca del nmero de piezasaceptablesproducidas. Los datos se resumen en la tabla. Construya unatabla de frecuencias.

    21 35 41 46 51 54 57 61 64 69 7722 36 41 47 52 54 57 61 65 71 7724 37 44 48 52 55 58 61 66 71 7729 37 44 48 52 55 58 62 66 73 7932 37 44 48 52 55 58 62 66 73 8033 38 44 49 52 55 58 62 66 73 8134 40 44 50 53 55 59 62 66 74 8134 40 44 50 53 56 60 63 66 75 8335 40 46 51 53 56 60 63 68 75 8435 40 46 51 53 56 61 63 69 76 88

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 21 / 39

  • Tabla o distribucin de frecuencias agrupadas

    Ejemplo 31. Se determina el nmero de clases C a utilizar. Ley deSturges: C = 3; 3 log n+ 1; donde n es el nmero de datos aagrupar (aproximar al entero ms cercano)

    2. Se calcula el rango R; R = Dato mayor Dato menor3. Se determina la precisin (en la prctica la precisin es dadapor el instrumento de medicin), lo cual es quivalente aseguir la regla siguiente:

    # de cifras decimales 0 1 2 3 P 1 0;1 0;01 0;001

    4. Se calcula la amplitud A; A = RC (se acuerda aproximar porarriba, teniendo en cuenta la precisin, es decir, la amplitudtendr tantas cifras decimales como los datos).

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 22 / 39

  • Tabla o distribucin de frecuencias agrupadas

    Ejemplo 35. Se calculan lmites tericos (lmites de clase) y lmitesprcticos (fronteras de clase) para las clases. Los de laprimera clase sern:

    Lmite inferior de la primera clase: LIP1 = Dato menor;

    Lmite superior de la primera clase: LSP1 = LIP1 +A PFrontera inferior de la primera clase: FIP1 = LIP1 P2Frontera superior de la primera clase: FSP1 = LSP1 + P2Para la clase i; i = 1; :::C,

    LIi = LIi1 +A; LSi = LSi1 +A; FIi = FIi1 +A;FSi = FSi1 +A o FSi = FIi +A:

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 23 / 39

  • Tabla o distribucin de frecuencias agrupadas

    Ejemplo 3

    Clase Lmites Fronteras f fr =fn %

    1 21 29 20;5 29;5 4 0;04 42 30 38 29;5 38;5 12 0;11 113 39 47 38;5 47;5 16 0;15 154 48 56 47;5 56;5 28 0;25 255 57 65 56;5 65;5 22 0;20 206 66 74 65;5 74;5 15 0;14 147 75 83 74;5 83;5 11 0;10 108 84 92 83;5 92;5 2 0;02 2

    Total 110 1 100

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 24 / 39

  • Tabla o distribucin de frecuencias agrupadas

    Caractersticas de las tablas agrupadas1 Uniformidad: Todas las clases deben tener la misma amplitud.2 Unicidad: Las clases no deben traslaparse.3 Completez: Cada dato debe pertenecer a alguna clase.

    Notas1 Si la ltima clase queda si datos, se puede eliminar.2 Si usted no sigue el acuerdo para el clculo de la amplitud, es posibleque los datos mayores no pertenezcan a ninguna clase, en este casoanexe otra clase que cumpla con las tres propiedades anteriores.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 25 / 39

  • Histograma

    Ejemplo 3

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 26 / 39

  • Polgono

    Ejemplo 3

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 27 / 39

  • Tabla o distribucin de frecuencias acumuladas

    Ejemplo 4 (Datos cuantitativos discretos y continuos)Calcular la tabla de frecuencias acumuladas para los datos del ejemplo 2.

    # de fallas fac frac % ac # de fallas fac frac % ac0 16 0;286 28;6 10 48 0;857 85;7

    1 19 0;339 33;9 11 48 0;857 85;7

    2 28 0;500 50;0 12 50 0;893 89;3

    3 30 0;536 53;6 13 51 0;911 91;1

    4 30 0;554 55;4 14 51 0;911 91;1

    5 34 0;607 60;7 15 52 0;929 92;9

    6 36 0;643 64;3 16 54 0;964 96;4

    7 39 0;696 69;6 17 55 0;982 98;2

    8 41 0;732 73;2 18 56 1;000 100

    9 48 0;857 85;7

    Donde: fac es la frecuencia acumulada, frac =facn ; % ac = 100 frac

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 28 / 39

  • Ojiva

    Ejemplo 4 (Datos cuantitativos discretos y continuos)Gracar la ojiva para los datos del ejemplo 2.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 29 / 39

  • Tabla o distribucin de frecuencias acumuladas

    Ejemplo 4 (Datos cuantitativos discretos y continuos)Calcular la tabla de frecuencias acumuladas para los datos del ejemplo 3.

    Fronteras fac frac %ac 20;5 0 0;000 0;0 29;5 4 0;036 3;6 38;5 16 0;145 14;5 47;5 32 0;291 29;1 56;5 60 0;545 54;4 65;5 82 0;745 74;5 74;5 97 0;882 88;2 83;5 108 0;982 98;2 92;5 110 1 100

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 30 / 39

  • Tabla o distribucin de frecuencias acumuladas

    Ejemplo 4 (Datos cuantitativos discretos y continuos)Gracar la ojiva para los datos del ejemplo 3.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 31 / 39

  • Tabla o distribucin de frecuencias bivariadas

    Ejemplo 5La tabla organizacin datos.xls contiene informacin para un grupo deestudiantes de Anlisis de datos I. Los datos incluidos son: ingeniera a lacual pertenecen, nmero de fallas durante el semestre hasta la semana 9;estado (G: aprobado, R: retirado, P: reprobado) construya una tabla defrecuencias bivariada teniendo en cuenta la ingeniera y el estado.

    Ingeniera/Estado G(Aprob.) P(no aprob.) R(Retir.) TotalIN 11 2 2 15CV 5 0 10 15MC 10 0 0 10EL 4 0 1 5ET 3 1 4 8ST 2 0 1 3Total 35 3 18 56

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 32 / 39

  • Diagrama de barras bivariado

    Ejemplo 5

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 33 / 39

  • Diagrama de barras bivariado

    Ejemplo 5

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 34 / 39

  • Tabla o distribucin de frecuencias bivariadas

    Ejemplo 5Responder a partir de la tabla:

    1 Qu porcentaje de los estudiantes retirados es de ingenieraelectrnica?( 418) 100%

    2 Qu porcentaje de los estudiantes de ingeniera civilaprobaron?

    515

    100%

    3 Qu porcentaje de los estudiantes son de ingeniera industrial yaprobaron?

    1156

    100%

    4 Qu porcentaje de los estudiantes son de ingenieraelectrnica?

    856

    100%

    5 Qu porcentaje de los estudiantes aprobaron?3556

    100%: Si no

    tiene en cuenta los estudiantes retirados Cul ser esteporcentaje?

    3538

    100%

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 35 / 39

  • Diagrama de Pareto

    Una forma especial de grco de barras verticales que separa los problemasmuy importantes de los menos importantes, estableciendo un orden deprioridades.Fue creado por el economista italiano Vilfredo Pareto sobre la base delprincipio segn el cual, el 80% de los problemas son provenientes deapenas el 20% de las causas.Sus objetivos fundamentales son:

    1 Identicar y dar prioridad a los problemas ms signicativos de unproceso.

    2 Evaluar el comportamiento de un problema, comparando los datosentre el antes y el despus.

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 36 / 39

  • Diagrama de Pareto

    Ejemplo 6La tabla siguiente representa las causas de los accidentes de trnsitoocurridos en una interseccin durante el ltimo mes. Realizar el diagramade pareto, donde V: Exceso de velocidad, S : Falta de sealizacin, Z :Estado de embriaguez, R : Problemas de frenos, A: animales, N :Problemas de sueo, O : otros:

    Causa FrecueniaV 11

    S 8

    Z 32

    R 7

    A 6

    N 15

    O 4

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 37 / 39

  • Diagrama de Pareto

    Ejemplo 6

    Causa f facum %acumZ 32 32 38; 5N 15 47 56; 6V 11 58 69; 9S 8 66 79; 5R 7 73 87; 9A 6 79 95; 2O 4 83 100Total 83

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 38 / 39

  • Diagrama de Pareto

    Ejemplo 6

    D i a g ra m a d e P a re to

    Frec

    uenc

    ia

    0

    20

    40

    60

    80

    100

    Z

    N

    V

    S

    R

    A

    O

    38,55

    56,63

    69,88

    79,52

    87,9595,18

    100,00

    Luceny Guzmn Acua () Anlisis de Datos 23 de enero de 2015 39 / 39