Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado EL DIAGRAMA DE ... · 2017. 2....

Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado

____________________________________________________________________________

1

EL DIAGRAMA DE PARETO REDISEÑADO

MAYRA ANGÉLICA PACHECO MEJÍA

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERÍA

INGENIERÍA INDUSTRIAL

BOGOTÁ

2013


____________________________________________________________________________

2

EL DIAGRAMA DE PARETO REDISEÑADO

Autor:

MAYRA ANGÉLICA PACHECO MEJÍA

Trabajo de Grado para optar por el título de Ingeniero Industrial

Director:

Ingeniero Jorge Andrés Alvarado Valencia

.

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE INGENIERÍA

INGENIERÍA INDUSTRIAL

BOGOTÁ

2013


____________________________________________________________________________

3

CONTENIDO

1. INTRODUCCIÓN ............................................................................................................... 10

2. OBJETIVOS ....................................................................................................................... 11

2.1 OBJETIVO GENERAL ..................................................................................................... 11

2.2 OBJETIVOS ESPECÍFICOS ............................................................................................ 11

3. PLANTEAMIENTO DEL PROBLEMA .................................................................................... 12

4. JUSTIFICACIÓN DEL PROYECTO ....................................................................................... 17

5. MARCO TEÓRICO ................................................................................................................ 18

5.1.1 Distribuciones Power Law y Zipf’s Law ......................................................................... 18

5.1.2 La distribución lognormal ......................................................................................... 19

5.1.3 Distribución Multinomial ................................................................................................ 20

5.3 Métodos para identificar que una muestra sigue la regla de los pocos vitales ............. 22

5.3.3. Entropía ....................................................................................................................... 24

5.3.4. Índice de Gini ............................................................................................................... 25

5.3.5 Regla 80-20 .................................................................................................................. 26

5.3.6 Gráficos P-P ................................................................................................................. 26

5.3.7 Bondad de Ajuste .......................................................................................................... 26

5.4 Regresión Logística ......................................................................................................... 26

5.5 Métricas de la calidad de una predicción ......................................................................... 28

5.5.1 Curva Cor ..................................................................................................................... 28

5. 5.2 RMSE .......................................................................................................................... 29

5.6 Métodos para identificar el punto de corte en un diagrama de Pareto .............................. 29

5.6.1 Cómo establecer el punto de corte en un diagrama de Pareto según el profesor de

ingeniería industrial Carlos Navarrete. ................................................................................... 29


____________________________________________________________________________

4

5.6.2 Análisis Estadístico de los diagramas de Pareto .......................................................... 30

5.7 Patrones EBC (Entity-Control-Boundary) ......................................................................... 30

5.7.1 Elementos Entidad ........................................................................................................ 31

5.7.2 Elementos de Control.................................................................................................... 31

5.7.3 Elementos de Frontera .................................................................................................. 31

6. EVALUACIÓN DE REGLAS CANDIDATAS .......................................................................... 32

6.1 CONJUNTO DE CRITERIOS MÍNIMOS PARA SABER SI UNA REGLA ES

SUSCEPTIBLE DE SER USADA. .......................................................................................... 32

6.2 EVALUACIÓN DE LAS REGLAS CANDIDATAS PARA PARETIZACIÓN ...................... 33

6.3 REGLAS CANDIDATAS PARA DEFINIR PUNTO DE CORTE ........................................ 35

6.3.1 Regla de corte según cambio de la pendiente en la curva del diagrama ...................... 35

6.3.2 Regla de Corte 80-20 basada en la frecuencia acumulada de las causas .................... 37

6.3.3 Regla de Corte 80-20 basada en el número de causas ................................................. 37

7. LA SIMULACIÓN ................................................................................................................... 38

7.1. Desarrollo de la simulación de los modelos generativos ................................................ 39

7.1.1 Parámetros de la simulación ......................................................................................... 39

7.2 Diseño experimental de la simulación .............................................................................. 44

7.2.1 Objetivos del estudio ..................................................................................................... 44

7.2.2. Factores ....................................................................................................................... 44

7.2.3 Réplicas ........................................................................................................................ 46

7.3 DATOS TÉCNICOS DE LA SIMULACIÓN ....................................................................... 48

8. ANÁLISIS DE LOS DATOS ................................................................................................... 49

8.1 RESULTADOS REGLAS DE PARETIZACIÓN ................................................................ 49

8.1.1 Regla de Oro ................................................................................................................ 49

8.1.2 Regresión Logística Binaria .......................................................................................... 50

8.1.3 Análisis de la Curva Cor ............................................................................................... 52


____________________________________________________________________________

5

8.1.4 Punto de corte según el análisis de la Curva Cor .......................................................... 53

8.1.5 Índice de Gini aplicado a Casos Reales ........................................................................ 55

8.2 RESULTADOS TAMAÑO DE MUESTRA ........................................................................ 56

8.2.1 ANOVA ......................................................................................................................... 56

8.2.2 Prueba DHS de Tukey para el número de categorías ................................................... 57

8.2.3 Prueba DHS de Tukey para la relación número de elementos-número de categorías .. 58

8.2.4 Análisis de Curva Cor ................................................................................................... 60

8.3 RESULTADOS PUNTO DE CORTE ................................................................................ 61

8.3.1 Regla de Oro ................................................................................................................ 61

8.3.2 Porcentaje de Aciertos de las Reglas ............................................................................ 61

8.3.3 RMSE ...................................................................................................................... 61

9. DESARROLLO DE APLICACIÓN DE SOFTWARE ............................................................... 64

9.2. Diseño del sistema .......................................................................................................... 65

9.2.1. Representación Arquitectural ....................................................................................... 65

9.2.1.1. Vista lógica: .............................................................................................................. 65

9.2.1.2 Vista de proceso ....................................................................................................... 66

9.2.1.3 Vista de implementación .......................................................................................... 67

9.2.1.4 Vista de despliegue .................................................................................................. 68

9.2.1.5 Vista de casos de uso ................................................................................................ 69

9.3 Implementación del sistema ............................................................................................. 71

9.4 Pruebas del sistema: verificación y validación. ................................................................ 71

9.4.1 Escenario 1: el conjunto de datos sí es paretizable y la relación número total de

elementos- número de categorías cumple con los requisitos de estar entre 2 y 4. ................. 72


elementos- número de categorías no cumple con los requisitos de estar entre 2 y 4. ............ 72

9.4.3 Escenario 3: el conjunto de datos no es paretizable. .................................................... 73

9.5 Documentación del sistema (implementación y manuales de uso). ................................. 73


____________________________________________________________________________

6

10. CONCLUSIONES ................................................................................................................ 74

ANEXOS ................................................................................................................................... 76

ANEXO A: Diagrama Entidad Relación Base de Datos Objetivos 1 y 2 ..................................... 77

ANEXO B: Diagrama Entidad Relación Base de Datos Objetivo 3 ............................................ 78

ANEXO C: Caso Real 1: Destinatarios Correos Electrónicos de una Persona .......................... 79

ANEXO D: Caso Real 2: Número de Trabajos de Grado dirigidos en los años 2010, 2011 y 2012

en la carrera de Ingeniería Industrial ......................................................................................... 80

ANEXO E: Caso Real 3: Número de Trabajos de Grado Evaluados en los años 2010, 2011 y

2012 en la carrera de Ingeniería Industrial ................................................................................ 86

ANEXO F: Conjunto de datos sí paretizable y relación número total de elementos- número de

categorías que sí cumple con los requisitos de estar entre 2 y 4. .............................................. 91

ANEXO G: Conjunto de datos sí paretizable y relación número total de elementos- número de

categorías que no cumple con los requisitos de estar entre 2 y 4. ............................................ 93

ANEXO H: Conjunto de datos no paretizable. ........................................................................... 96

REFERENCIAS ......................................................................................................................... 97


____________________________________________________________________________

7

LISTA DE TABLAS

Tabla 1- Contraste entre métodos para llevar a cabo el Diagrama de Pareto ............................ 14

Tabla 2- Parámetros generales de estudio de las distribuciones ............................................... 22

Tabla 3- CCDF de las muestras de las distribuciones Lognormal y Pareto con

comportamiento de la cola similar. ............................................................................................ 23

Tabla 4- Límites de Control basados en entropía ...................................................................... 24

Tabla 5- Listado de Criterios que debe cumplir una regla de paretización: propiedades de los

algoritmos.................................................................................................................................. 33

Tabla 6- Evaluación de los criterios en las posibles reglas de paretización ............................... 34

Tabla 7- Datos ejemplo punto de corte ...................................................................................... 35

Tabla 8- Parámetros simulación multinomial ............................................................................. 39

Tabla 9- Parámetros simulación normal .................................................................................... 41

Tabla 10-Parámetros simulación lognormal ............................................................................... 42

Tabla 11- Parámetros simulación Preferential attachment ......................................................... 43

Tabla 12- Descripción de factores simulación multinomial ......................................................... 45

Tabla 13- Descripción de factores simulación normal ................................................................ 45

Tabla 14- Descripción de factores simulación lognormal ........................................................... 46

Tabla 15- Descripción de factores simulación Preferential attachment ...................................... 46

Tabla 16- Réplicas simulación multinomial ................................................................................ 47

Tabla 17- Tabla 15- Réplicas simulación normal ....................................................................... 47

Tabla 18- Réplicas simulación lognormal .................................................................................. 47

Tabla 19- Réplicas simulación Preferential attachment ............................................................. 48

Tabla 20- Réplicas simulación multinomial ................................................................................ 48

Tabla 21- Reglas de Oro paretización para cada distribución .................................................... 49

Tabla 22- Variables en la ecuación resultado de la regresión para el parámetro Alpha ............. 51

Tabla 23- Variables en la ecuación de la regresión para el índice de Gini ................................. 51

Tabla 24- Variables en la ecuación de la regresión para la entropía.......................................... 51

Tabla 25- Áreas bajo la Curva Cor reglas de paretización ......................................................... 53

Tabla 26- ANOVA para el índice de Gini ................................................................................... 57

Tabla 27- DHS de Tukey para el número de categorías ............................................................ 58


____________________________________________________________________________

8

Tabla 28- Prueba DHS de Tukey para la relación número de elementos-número de categorías

.................................................................................................................................................. 59

Tabla 29- Porcentaje de aciertos reglas punto de corte ............................................................. 61

Tabla 30- RMSE reglas punto de corte ...................................................................................... 62

Tabla 31- Prueba de Proporciones para las Reglas 1y 2 ........................................................... 62

Tabla 32- Prueba de Proporciones para las Reglas 1 y 3 .......................................................... 62

Tabla 33- Prueba de Proporciones para las Reglas 2 y 3 .......................................................... 63

Tabla 34- Especificación de requerimientos de la aplicación .................................................... 65

Tabla 35- Vista de casos de uso ............................................................................................... 71

Tabla 36- Prueba 1 aplicación "El Diagrama de Pareto Rediseñado ......................................... 72




____________________________________________________________________________

9

LISTA DE ILUSTRACIONES

Ilustración 1- Funciones de densidad de probabilidad para diferentes α con xm = 1 (Wikipedia,

2012) ......................................................................................................................................... 14

Ilustración 2-Diagrama de Pareto diferenciado y diagrama de Pareto casi uniforme (Grosfeld-

Nir, Ronen, & Kozlovsky, 2007) ................................................................................................. 15

Ilustración 3- Límites de control basados en entropía ................................................................ 25

Ilustración 4- Tabla de contingencia resultado de un análisis Cor ............................................. 29

Ilustración 5- Diagrama de barras ejemplo punto de corte ......................................................... 36

Ilustración 6- Línea de pendiente ejemplo punto de corte .......................................................... 36

Ilustración 7- Ejemplo inserción parámetros simulación multinomial.......................................... 40

Ilustración 8- Ejemplo inserción parámetros simulación normal ................................................. 41

Ilustración 9- Ejemplo inserción parámetros simulación lognormal ............................................ 42

Ilustración 10- Ilustración 8- Ejemplo inserción parámetros simulación Preferential Attachment 43

Ilustración 11- Visualización Excel Base de Datos con la regla de oro ...................................... 50

Ilustración 12- Curva Cor para las tres reglas candidatas .......................................................... 52

Ilustración 13- Coordenadas de la Curva Cor con el punto de corte .......................................... 54

Ilustración 14- Diagrama de caja área bajo la Curva Cor del índice de Gini .............................. 59

Ilustración 15-Áreas bajo la Curva Cor ...................................................................................... 60

Ilustración 16- Overview de la vista lógica de la aplicación ........................................................ 66

Ilustración 17- Diagrama EBC de la vista lógica ........................................................................ 66

Ilustración 18- Diagrama de componentes UML vista de proceso ............................................. 67

Ilustración 19- Diagrama de componentes UML vista de implementación ................................. 68

Ilustración 20- Diagrama de componentes UML vista de despliegue ......................................... 68


____________________________________________________________________________

10

1. INTRODUCCIÓN

El Principio de los Pocos Vitales y los Muchos Triviales, más conocido como Principio de

Pareto, representa una herramienta importante dentro de la ingeniería industrial, puesto que

permite determinar prioridades de acción en las compañías donde el uso eficiente de los

escasos recursos resulta de suma importancia. Dada la naturaleza empírica de este principio,

existen actualmente varias metodologías para la elaboración y el análisis del diagrama de

Pareto, pero no hay una estandarización de esta herramienta. Este hecho es lamentable, dado

el uso extensivo que muchas profesiones, incluyendo la Ingeniería Industrial, hacen de esta

herramienta.

El presente trabajo de grado se realizó con base en tres enfoques que permitieran dar solución

al problema de la no estandarización del diagrama de Pareto. El primero consistió en dar

respuesta a si determinado problema es susceptible de ser paretizable o no, para poder

continuar con los pasos siguientes de elaboración del diagrama; para ello se realizó una

simulación en la que se contrastaron diferentes distribuciones de probabilidad con el objetivo de

analizar bajo qué conjunto de situaciones y con qué combinación de parámetros daban origen a

problemas paretizables.

Una vez se determinó correctamente si un problema que está siendo estudiado es paretizable o

no, el estudio se enfocó en analizar diversos tamaños de muestra, según el número de causas

de un problema para garantizar la realización de un diagrama de Pareto adecuado. Con base

en la simulación descrita en el punto anterior se estudió la susceptibilidad y las variaciones que

tenían lugar en los resultados cuando el número de causas y el tamaño de muestra se

modificaban.

En tercer lugar, se evaluaron diversas reglas para determinar el punto de corte de un diagrama

de Pareto para detectar la más acertada. Esto se realizó con el estudio de los resultados de la

simulación descrita anteriormente, pero únicamente para casos paretizables.

Finalmente, como última instancia de este trabajo, se implementaron los resultados obtenidos

durante todo el desarrollo en una aplicación cuya principal funcionalidad fuese la obtención de

diagramas de Pareto que cumplieran con las reglas acá estudiadas.


____________________________________________________________________________

11

2. OBJETIVOS

2.1 OBJETIVO GENERAL

Elaborar una propuesta que contenga el rediseño formal de la metodología de aplicación del

principio de los Pocos Vitales y los Muchos Triviales con base en los avances que existen

actualmente en distribuciones Power Law y Zipf’s Laws.

2.2 OBJETIVOS ESPECÍFICOS

1. Proponer una solución en forma de regla basada en la calidad relativa de diferentes

criterios factibles que permita determinar si un problema en el que se desea priorizar es

paretizable o no.

2. Determinar un tamaño de muestra adecuado, según el número de causas de un

problema, que garantice la realización de un diagrama de Pareto adecuado.

3. Proponer una solución en forma de regla que esté basada en la calidad relativa de

diferentes criterios para determinar el punto de corte del diagrama de Pareto.

4. Automatizar el uso de las reglas determinadas en los puntos anteriores en el proceso de

elaboración de un diagrama de Pareto.


____________________________________________________________________________

12

3. PLANTEAMIENTO DEL PROBLEMA

Existe una amplia variedad de fenómenos en las ciencias exactas, naturales y sociales que

siguen distribuciones Power Law. Se dice que una variable aleatoria X no negativa tiene una

distribución Power Law si:

P [X ≥ x] ≈ cx-α

Ecuación 1

Donde c, α ≥ 0. En este tipo de distribuciones las colas caen de acuerdo al índice α, lo que

genera que éstas sean más pesadas en comparación con las de otros modelos más comunes

tales como la distribución exponencial. En algunos contextos y dependiendo del área de

estudio, las Power Law son conocidas también como Distribuciones de Pareto, Heavy-Tailed

Distributions (Distribuciones de cola pesada) o Zipf Laws.

A finales del siglo XIX y principios del siglo XX varios autores realizaron trabajos e

investigaciones sobre las distribuciones Power Law en diferentes contextos y diversas

disciplinas. Uno de los más reconocidos descubrimientos sobre las distribuciones Power Law se

le atribuye a George Kingsley Zipf (1902-1950), un lingüista que observó en su estudio acerca

de la frecuencia de la aparición de palabras en un texto, que se dio a conocer con el nombre de

Zipf’s law (Zipf, 1932). Sin embargo, veinte años antes, el economista italiano Vilfredo Pareto

(1848–1923) había intentado explicar la forma cómo se distribuían los ingresos entre los

habitantes de un país, lo que proporcionó como resultado la Distribución de Pareto que

básicamente es una Power Law.

Tal fenómeno, que Pareto había descubierto en la distribución de la riqueza, fue identificado por

el experto en calidad Joseph Juran (1904-2008) como un principio universal, aplicable a

muchos campos. Por ello, en el año 1950 estableció y formuló de forma empírica el Principio de

Pareto (Jurán, 1951), un poderoso criterio para la toma de decisiones que se ha utilizado

principalmente en áreas como control de calidad, producción, criptoanálisis, ingeniería

industrial, administración pública, gestión de la investigación, entre otras. El principio, también

conocido como La Regla del 80-20, establece que la mayor parte de los problemas (80%) son el

resultado de unos pocos fenómenos o fuentes (20%), por lo tanto para obtener mayores

beneficios en la búsqueda de la calidad y la productividad hay que centrarse en trabajar en ese

80%. Años después de su formulación y dado que el principio fue una observación empírica,

Juran reconoció que éste no debía llevar el nombre de Principio de Pareto sino Principio de los

Pocos Vitales y los Muchos Triviales y la aplicó inicialmente al control de la calidad, señalando

que con mucha frecuencia, la mayoría de los defectos y el costo que generan se deben a unas

pocas causas.

Dada la naturaleza empírica del principio de Pareto, existen actualmente varias metodologías

para la elaboración y el análisis de dicho diagrama. Por ejemplo Hitoshi Kume, conocido


____________________________________________________________________________

13

experto en calidad, propone la siguiente forma para elaborar diagramas de Pareto (Kume,

1992):

Paso1: Decidir qué problemas va a investigar y cómo recoger los datos

Paso 2: Diseñar una tabla para conteo de datos, con espacio suficiente para registrar

totales.

Paso 3: Diligenciar la tabla y calcular los totales.

Paso 4: Elaborar una tabla de datos para el diagrama con la lista de ítems, los totales

individuales, los totales acumulados, la composición porcentual y los porcentajes

acumulados.

Paso 5: Organizar los ítems por orden de cantidad.

Paso 6: Dibujar dos ejes verticales y uno horizontal.

Paso 7: Construir un diagrama de barras.

Paso 8: Dibujar la curva acumulada (curva de Pareto). Marcar los valores acumulados

en la parte superior y conectar los puntos con una línea.

Paso 9 (final): Escribir en el diagrama cualquier información necesaria.

Después del noveno paso no existe ninguna otra instrucción ni explicación alguna. Por lo tanto

no se describe ninguna técnica sobre cómo escoger las causas acerca de las que se va a

trabajar ni cómo interpretar correctamente el diagrama.

Para visualizar más a fondo esta situación, se presenta a continuación, una tabla comparativa

en la que se llevó a cabo un contraste sobre las instrucciones para realizar el diagrama de

Pareto, tomadas de libros de tres importantes autores en materia de ingeniería industrial, más

específicamente de gestión de calidad.

LIBROS

Control Estadístico de la

Calidad (Carot, 1998)

Estadística industrial

moderna diseño y control

de la calidad y la

confiabilidad (Kenett).

Administración y

Control de la Calidad

(Evans, 2008).

Vicente Carot Alonso Ron S. Kenett James R. Evans,William

M. Lindsay

¿Cómo se debe elaborar el diagrama de Pareto?

1. Definir el tipo de problema que

se va a investigar.

Cuando se reúnen

observaciones y se

clasifican en distintas

categorías de acuerdo con

Un diagrama de Pareto

es un histograma de los

datos ordenados de la

frecuencia mayor a la

2. Definir el método y el período

de recolección de los datos.


____________________________________________________________________________

14

3. Construir una tabla de conteo

de datos.

criterios válidos y claros se

puede trazar un Diagrama

de Pareto

menor.

4. Construir el diagrama: gráfico

de barras y una curva

acumulada.

El diagrama pondrá de

manifiesto la desigual

distribución de la frecuencia

entre las clases establecidas en

el eje de abscisas.

Tabla 1- Contraste entre métodos para llevar a cabo el Diagrama de Pareto

En el primer libro se especifican los pasos de elaboración, en los otros dos solo se define qué

es el diagrama y su utilidad y luego, en los tres, se muestra un ejemplo ya elaborado. Ninguno

de los autores habla de cómo se van a escoger o cómo se deberían agrupar las causas y

tampoco existe una instrucción clara de en dónde se debe hacer el corte en el diagrama. Esto

es otro ejemplo de la baja estandarización y definición del Principio de los Pocos Vitales y los

Muchos Triviales.

Se muestra a continuación la figura 1 con la función de densidad de la Distribución de Pareto

para diferentes valores del índice α:

( ) {

Ecuación 2

Donde xm es el valor mínimo posible y α es un parámetro positivo.

Ilustración 1- Funciones de densidad de probabilidad para diferentes α con xm = 1 (Wikipedia, 2012)

De la gráfica anterior se observa que al variar los parámetros, cambia considerablemente el

diagrama obtenido. Por lo tanto, al elaborar un diagrama de Pareto sí se debe prestar atención


____________________________________________________________________________

15

en la forma en cómo se escogen las causas y en la forma en cómo éstas se agrupan, y en

general en la forma en cómo se va a trabajar el problema; ya que, así se trate de la misma

situación, los resultados van a ser diferentes y, por lo tanto, también el análisis.

Dada su importancia como herramienta para establecer prioridades en la ingeniería industrial

resulta inconveniente que no exista un principio y un proceso unificado para el uso del mismo,

lo que puede generar elaboración e interpretaciones erróneas al usar este diagrama. Tres de

los puntos más importantes que no están estandarizados para el correcto uso esta herramienta

son:

No existe una forma clara para determinar si un problema es paretizable o no: se usa el

diagrama sin saber si se trata de un problema que es susceptible de abordar mediante

un diagrama del Principio de los Pocos Vitales y los Muchos Triviales; por tanto, puede

haber un abuso de esta regla (Grosfeld, 2007).

En este sentido, un gerente que esté observando un diagrama de Pareto puede

preguntarse qué tanta es la utilidad de este diagrama para guiarlo en cómo se va a

concentrar en un pequeño número de atributos que son una fuente importante de

problemas. Por ejemplo, la figura 2 describe una situación en la que, intuitivamente,

sería conveniente centrarse en los tres primeros atributos (20%). En contraste, la figura

3 muestra una realidad donde el diagrama de Pareto es casi uniforme y, por lo tanto, el

principio de Pareto no debe ser utilizado.

En este aspecto ya se han realizado algunos estudios que se encuentran en

publicaciones científicas, dos de interés en este trabajo son: The Pareto Principle: Its

Use And Abuse (Sanders, 1987) donde se habla acerca de cómo, en muchas ocasiones,

se da un mal uso a esta herramienta ya que se discute la importancia de la Regla de

80/20 y se examina la importancia de la norma aplicada al control estadístico de la

calidad y las aplicaciones potenciales en la comercialización. Aquí se concluye que, si

bien la Regla de 80/20 es una guía valiosa, es obviamente limitada ya que las

circunstancias están en constante evolución. La segunda es The Pareto managerial

principle: when does it apply? (Grosfeld, 2007) donde se explica que, a veces, un

diagrama de Pareto es menos informativo de lo que podría ser, ya que la frecuencia

relativa es casi uniforme en el gráfico. El objetivo del estudio es proporcionar una

herramienta de análisis (índice) basado en la entropía.

Ilustración 2-Diagrama de Pareto diferenciado y diagrama de Pareto casi uniforme (Grosfeld-Nir, Ronen, &

Kozlovsky, 2007)


____________________________________________________________________________

16

No hay un criterio para escoger las causas con las que se va a realizar el análisis y

cómo se deben agrupar o si se deben agrupar las mismas.

Cabe señalar aquí que, en la creación de un diagrama de Pareto, la clasificación es

generalmente una simple acción de recolección de información. Sin embargo, como de

la selección de los atributos que son candidatos a las medidas correctivas dependen los

resultados presentados en el diagrama de Pareto, el esfuerzo de recopilación de

información necesita atención ya que los errores en la clasificación pueden dar lugar a

medidas de corrección irrelevantes. Más específicamente, si se va a realizar un análisis

de Pareto, se puede dar el caso de que se tenga una cantidad grande de causas y muy

pocos datos para realizar el análisis, lo que traería como resultado un diagrama y un

análisis de la situación incorrectos; al igual que si se posee un número extenso de datos

y sólo unas pocas causas. Por eso resulta necesario identificar el número adecuado de

datos con respecto a la cantidad de causas identificadas en el problema a tratar.

No existe una forma estándar para determinar, después de elaborado el diagrama,

cuáles son las causas sobre las que realmente se debe trabajar (los pocos vitales).

Existen algunas técnicas empíricas aplicadas por profesores, una de las cuales se

explicará en el marco teórico.

Dicho de otro modo, no está claro analíticamente cuál debe ser el punto de corte en la

línea de frecuencia acumulada que se obtiene al realizar el diagrama. Por ejemplo, en la

figura 2, donde se presenta un típico diagrama de Pareto si el 80% de la frecuencia

estuviese, aproximadamente originado por las cuatro primeras causas, no se tendría

plena certeza de si allí se debería hacerse el corte. Podría alguien, a criterio personal,

decidir trabajar únicamente en las tres primeras causas o sólo en la primera, dado que

no se utilizó una herramienta de tipo matemática para establecer dónde debería hacerse

el corte.


____________________________________________________________________________

17

4. JUSTIFICACIÓN DEL PROYECTO

El Principio de los Pocos Vitales y los Muchos Triviales representa una herramienta importante

dentro de la ingeniería industrial para efectuar mejoras. En general, el diagrama puede ser

usado dentro de esta disciplina (Carot, 1998):

Como herramienta para realizar priorizaciones, por ejemplo, priorizar productos dentro

de una cadena de abastecimiento, problemas a ser atacados, entre otros.

Como técnica de análisis de problemas de calidad pero también de los problemas de la

más diversa naturaleza: causas de defectos en procesos de manufactura, causas del

absentismo laboral, causas de accidentes, causas en las paradas de las máquinas, etc.

Todos estos son también problemas que pueden ser abordados desde la perspectiva del

Principio de Pareto.

Para marcar objetivos concretos: se deben obtener mejoras teniendo en cuenta que se

dispone de recursos materiales y humanos limitados.

Para evaluar los efectos de las mejoras.

Dada la naturaleza empírica de este principio, existen actualmente varias metodologías para la

elaboración y el análisis del diagrama de Pareto, pero no hay una estandarización de esta

herramienta, como se observa en el planteamiento del problema. Por ello, el impacto que puede

tener la estandarización del Principio de los Pocos Vitales y los Muchos Triviales resulta

importante porque llevaría a un correcto uso de esta herramienta en diferentes áreas del

conocimiento, por lo que se pretende generalizar y perfeccionar esta metodología para que deje

de ser solo un principio empírico y sus conclusiones adquieran mayor validez.

Finalmente, cabe resaltar que es importante generar avances en esta herramienta, dado que

existe una indiscutible relación histórica y matemática entre este diagrama y las distribuciones

Power Law, sobre las cuales sí se ha realizado un amplio estudio reciente y se ha demostrado

su importancia. Esto se puede ver en trabajos como Zipf’s law unzipped (Baek, 2011) que serán

definidos en el marco teórico y usados para los fines de este trabajo.

Una refinación del Principio de los pocos vitales y los muchos triviales generaría un impacto en

la toma de decisiones empresariales, en todos los niveles de la organización.


____________________________________________________________________________

18

5. MARCO TEÓRICO

5.1 DISTRIBUCIONES DE PROBABILIDAD

5.1.1 Distribuciones Power Law y Zipf’s Law (Mitzenmacher, 2004)

Cuando la probabilidad de medir un valor particular de cierta cantidad varía inversamente como

una potencia de ese valor, se dice que dicha cantidad sigue una distribución Power Law, la

cual, para el caso discreto es también conocida como Zipf’s Law o distribución de Pareto. Las

distribuciones Power Law aparecen frecuentemente en física, biología, ciencias de la tierra,

economía, finanzas, ciencias de la computación y ciencias sociales. Es por eso que la

distribución del tamaño de las ciudades, los terremotos, los cráteres lunares, las guerras y la

fortuna personal de los individuos resultan ser todos, un conjunto de fenómenos que siguen

esta distribución. (Newman, 2005)

Una variable aleatoria X no negativa tiene una distribución Power Law si:

P [X ≥ x] ≈ cx-α Ecuación 3

Para c, α ≥ 0. Aquí, f(x) ≈ g(x) representa que el límite de la proporción tiende a 1 cuando x

aumenta de tamaño. En términos generales, en una Power Law las colas bajan asintóticamente

de acuerdo al índice α. Esta distribución da lugar a colas mucho más pesadas que otros

modelos comunes, tales como la distribución exponencial. Una distribución Power Law de uso

específico, es la distribución de Pareto, que satisface

P [X ≥ x] = (

)

Ecuación 4

Para k, α > 0. La distribución de Pareto requiere X ≥ k. La función de densidad para la

distribución de Pareto es f(x) = . Para una distribución Power Law, α usualmente se

encuentra en el rango 0< α<=2, en cuyo caso, X tiene varianza infinita. Si α 1, entonces X

también tiene media infinita. Esto proporciona una sencilla prueba empírica para saber si una

variable aleatoria tiene una distribución Power Law dada una muestra adecuada. Para el caso

específico de una distribución de Pareto, el comportamiento es exactamente lineal, como

ln (P[X ≥ x] ) = - α (ln x – ln k) Ecuación 5


____________________________________________________________________________

19

De manera similar, en un gráfico log-log, la función de densidad para una distribución de Pareto

es una línea recta:

ln f(x) = (-α -1) ln x- α ln k+ ln α Ecuación 6

Cabe resaltar que el equivalente discreto de la Distribución de Pareto es conocida como Zipf

Law. Zipf’s Law es una ley empírica que fue formulada usando matemática y estadística, y que

se refiere al hecho de que muchos tipos de datos estudiados en física y ciencias sociales

pueden ser aproximados con una distribución de Zipf: una distribución discreta de la familia de

las distribuciones Power Law. La ley recibió este nombre luego de que el lingüista americano

George Kingsley Zipf (1902–1950) la propusiera.

Zipf’s Law es fácilmente observable graficando los datos en una gráfica log-log. Formalmente,

sea:

N: número d elementos

k: rango de los datos

s: valor del exponente que caracteriza la distribución.

Zipf’s Law entonces predice que, de una población de N elementos, la frecuencia de los

elementos de rango k, f (k, s, N), es:

f (k, s, N )=

Ecuación 7

Donde es el n-ésimo número armónico generalizado. Se define el n-ésimo número

armónico como la suma de los recíprocos de los primeros n números naturales:

= ∑

Ecuación 8

5.1.2 La distribución lognormal

En estudios de confiabilidad la distribución exponencial tiene un papel fundamental desde el

punto de vista conceptual y práctico; sin embargo, algunas veces esta distribución no

proporciona ajustes apropiados para modelar los datos obtenidos de un experimento, esto

mismo sucede con otras distribuciones como la Weibull y Gamma; por lo tanto, una buena

opción consiste en analizar los datos usando la distribución lognormal (Chen 1995). Se han

obtenido buenos ajustes usando la distribución lognormal para el caso de conjuntos de datos

observados y datos experimentales (Aitchison & Brown 1957) para modelar fallas en pruebas

de vida (Chen & Papadopoulos 1997) y ha sido usada específicamente en el campo de la

electrónica para analizar tiempos de vida de mecanismos de conducción eléctrica (Howard &

Dodson 1961) y en tiempos de vida de transistores de germanio (Adam 1962).


____________________________________________________________________________

20

La distribución lognormal se utiliza frecuentemente para expresar el comportamiento de

observaciones con asimetría positiva, en donde la mayoría de los valores ocurren en las

proximidades de un valor mínimo. Una condición para la validez de que una variable se

distribuya Lognormal es que x sea la resultante de un número elevado de causas

independientes con efectos positivos, que se componen de manera multiplicativa y cada una de

estas causas tiene un efecto despreciable frente al global.

Esta distribución es característica en conjuntos de datos donde existe mayor frecuencia de

valores pequeños, por lo cual la media se desplaza hacia la derecha y esto hace que el mejor

estadígrafo de posición sea la moda y no la media aritmética Esta consideración se valora, pero

no se comparte en lo referente a la valoración del centro de los datos por considerarse que el

mismo puede hallarse con más exactitud en el valor de la mediana, la cual se conoce no es

influida por valores extremos, lo cual no ocurre con la moda. También se considera que otra

medida de posición válida para esta distribución es la media geométrica.

La distribución lognormal tiende a la función densidad de probabilidad:

( )

√ ( )

Ecuación 9

5.1.3 Distribución Multinomial

En muchas aplicaciones hay más de dos resultados posibles. A menudo la dicotomía

“defectuoso” o “no defectuoso” en situaciones de ingeniería es una simplificación de la realidad,

donde suele haber más de dos categorías que caracterizan artículos o partes de una línea de

producción. Una generalización inmediata de la distribución binomial surge cuando cada ensayo

tiene más de dos resultados posibles, las probabilidades de los resultados correspondientes

son las mismas para cada ensayo, y los ensayos son todos independientes.

La distribución multinomial tiene la función densidad de probabilidad:

( ) (

)

∑ ∑

Ecuación 10

5.2. PROCESOS GENERATIVOS

Los modelos generativos son aquellos fenómenos que explican cómo se da la formación, desde

la naturaleza, de las distribuciones de probabilidad; en otras palabras, explican qué situaciones

son las que dan origen a éstas. Algunos de los modelos generativos más conocidos son el

modelo generativo binomial y el modelo generativo de Poisson.

Para el presente trabajo se tendrán en cuenta los modelos generativos normales y los modelos

generativos multinomiales (basados en modelo binomial). Adicional a ellos, es importante


____________________________________________________________________________

21

explicar dos modelos generativos que serán de utilidad a la hora de realizar la simulación, y que

dan lugar a procesos Power Law y a procesos multinomiales.

5.2.1 Preferential Attachment (Mitzenmacher, 2004)

Modelo generativo que sostiene que los nuevos objetos tienden a adherirse a los objetos más

populares y de esta manera dan origen a distribuciones Power Law para diferentes contextos.

Por ejemplo, la World Wide Web, naturalmente, puede ser considerada como un grafo, con las

páginas correspondientes a los vértices y los enlaces correspondientes a los bordes dirigidos.

El trabajo empírico ha demostrado que las entradas y las salidas de los vértices de este grafo

obedecen a distribuciones Power Law en el caso de la gráfica web: lo que quiere decir que los

enlaces nuevos tienden a ir a las páginas que ya tienen vínculos, o sea a las más populares.

5.2.2. Zipf’s law unzipped (Baek, 2011)

Zipf’s law unzipped es el título del trabajo de los físicos Seung Ki Baek 1 , Sebastian

Bernhardsson2 y Petter Minnhagen1 recientemente realizado y publicado en la revista Nature en

el año 2011. El trabajo desarrolla por qué las leyes de Zipf (Zipf Laws) dan una buena

descripción de los datos de fenómenos que aparentemente no tienen relación alguna. Se

argumenta allí que la razón es que todos esos fenómenos pueden ser descritos como los

resultados de una división en grupos al azar (RGF): los elementos pueden ser ciudadanos de

un país y los grupos, los nombres de varias familias; o los elementos pueden ser todas las

palabras que componen una novela y los grupos, las palabras únicas; o los elementos pueden

ser los habitantes y los grupos, las ciudades en un país y así sucesivamente. Una formación de

grupos al azar se presenta dada una estimación bayesiana que se obtiene sobre la base de

información mínima: proporciona la mejor predicción para el número de grupos con k

elementos, dado el número total de elementos, los grupos y el número de elementos en el

grupo más numeroso. Para cada especificación de estos tres valores, el RGF predice un único

grupo de distribución N (k) exp (-bk) / , donde el índice es una función única de los

mismos tres valores.

La relación de dicho estudio con el análisis de un problema de Pareto es básicamente que

cuando tiene origen un problema de este tipo, existe una división en grupos: hay un

determinado número de elementos (causas) que se agrupan al azar según el fenómeno en

cuestión. Es por ello que se decidió hacer el estudio con base en estos dos parámetros

principales: número de causas y elementos.

1 Integrated Science Laboratory, Department of Physics, Umeå University,901 87 Umeå, Sweden.

2 Center for Models of Life, Niels Bohr Institute, Blegdamsvej 17 DK-2100Copenhagen, Denmark


____________________________________________________________________________

22

Parámetro

Descripción

N

Número de grupos (causas) en las

que se distribuyen los elementos de

la muestra.

M

Número total de elementos de la

muestra.

Tabla 2- Parámetros generales de estudio de las distribuciones

En el caso de este modelo generativo, son desviaciones de la uniformidad de la asignación de

elementos a grupos los que generan Power Laws. Sin embargo, la asignación no uniforme de

elementos a grupos, siempre y cuando la probabilidad de asignación de un elemento a un grupo

sea fija para cada ensayo e independiente de la probabilidad de asignación del mismo elemento

a otro grupo configuran un problema multinomial. Por lo tanto, habría un fenómeno subyacente

común a los problemas multinomial y Power Law que permitirían generar asignaciones de

elementos paretizables.

5.3 Métodos para identificar que una muestra sigue la regla de los pocos vitales

5.3.1 CCDF Test

Hay varias conductas empíricas que se espera ver en una muestra de una distribución Power

Law. Si se grafica la función complementaria de distribución acumulativa (CCDF) en una escala

log-log, se espera una línea recta, al menos en el comportamiento de la cola, y al menos fuera

del límite de la medición (Downey, 2001).

La Figura 4 muestra la CCDF de dos muestras (n = 10.000) de las dos distribuciones:

Lognormal y Pareto con el comportamiento de la cola similar. Hay una disparidad evidente en el

grueso de la distribución (por debajo del percentil 90) pero se superponen las colas.

La característica definitiva de la distribución de cola pesada es que su inclinación no aumenta

en el extremo de cola. Continúa, con pendiente constante, hasta el límite de la muestra.


____________________________________________________________________________

23

Tabla 3- CCDF de las muestras de las distribuciones Lognormal y Pareto con comportamiento de la cola

similar.

5.3.2. Estimación del parámetro de escala Alpha de la distribución de probabilidad

(Clauset, 2009)

Determinar el valor del parámetro de escala constituye un buen indicativo de si una muestra

determinada sigue o no una distribución Power Law. Con base en estudios realizados se sabe

que una muestra cuyos datos siguen dicha distribución tiene un parámetro Alpha que toma

valores en el intervalo 1 (Baek, 2011).

Estimar correctamente requiere un valor mínimo (xmin) que en una muestra discreta de datos

es igual a 1. El método usado para estimar dicho parámetro dada una muestra es el de máxima

verosimilitud. Es importante resaltar que el resultado de esta estimación aumenta su precisión

cuando el tamaño de la muestra tiende a infinito.

El valor del estimador para datos discretos es:

[∑

]

Ecuación 11

Valor de la variable

Valor mínimo posible

Todos los detalles y las formalidades matemáticas para la obtención de dicho estimador no son

incluidos aquí dado el propósito de este trabajo, sin embargo pueden ser consultados en

(Clauset, 2009).


____________________________________________________________________________

24

5.3.3. Entropía

La teoría de la información también conocida como teoría matemática de la

comunicación (Mathematical Theory of Communication) o teoría matemática de la información,

es una propuesta teórica presentada por Claude E. Shannon (1916-2001) y Warren Weaver a

finales de la década de los 40 (Shannon, 1972). Esta teoría está relacionada con las leyes

matemáticas que rigen la transmisión y el procesamiento de la información y se ocupa de la

medición de la información y de la representación de la misma, así como también de la

capacidad de los sistemas de comunicación para transmitir y procesar información. La Teoría

de la Información es una rama de la teoría matemática y de las ciencias de la computación que

estudia la información y todo lo relacionado con ella: canales, compresión de

datos, criptografía y temas relacionados.

La teoría de la información mide la cantidad de información contenida en un mensaje por el

número medio de bits necesarios para codificar todos los posibles mensajes de la mejor

manera, la óptima (Shannon, 1972).

La cantidad de información en un mensaje se mide formalmente mediante la entropía del

mensaje. La entropía es una función de la distribución de probabilidad sobre el conjunto de

todos los posibles mensajes. Dado X1,…, Xn siendo n la cantidad de posibles mensajes

ocurriendo con una probabilidad p(X1),…, p(Xn), donde la sumatoria de las p(Xi)=1. La entropía

de un mensaje dado, está definida por el siguiente promedio ponderado:

( ) ∑ ( ) [ ( )] ∑ (

) *

( )+ Ecuación 12

De acuerdo con la investigación elaborada por Grosfeld-Nir et al.(Grosfeld-Nir, Ronen, &

Kozlovsky, 2007) según la cantidad de atributos (causas) en un diagrama de Pareto, un

problema de esta naturaleza se puede considerar como paretizable si el cálculo de la entropía

para el número de causas no supera la siguiente tabla de control:

Límites de Control Basados en Entropía

Número de

Actividades 5 10 15 20 25 30 35 40 45 50

Límite de Control 1,77 2,77 3,55 3,77 4,09 4,36 4,58 4,77 4,94 5,09

Tabla 4- Límites de Control basados en entropía


____________________________________________________________________________

25

Ilustración 3- Límites de control basados en entropía

Si el número de actividades es mayor a 50, el límite control puede ser calculado mediante

regresión logarítmica (Grosfeld-Nir et al., 2007)

5.3.4. Índice de Gini

El índice de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado

Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, dentro de un país, pero

puede utilizarse para medir cualquier forma de distribución desigual. El índice de Gini es un

número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los

mismos ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una persona

tiene todos los ingresos y los demás ninguno).

Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos,

también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie

disponga de una riqueza neta negativa.

El índice de Gini se calcula como una proporción de las áreas en el diagrama de la curva de

Lorenz. Si el área entre la línea de perfecta igualdad y la curva de Lorenz es a, y el área por

debajo de la curva de Lorenz es b, entonces el coeficiente de Gini es a/(a+b).

Esta proporción se expresa como porcentaje o como equivalente numérico de ese porcentaje,

que es siempre un número entre 0 y 1. El coeficiente de Gini se calcula a menudo con

la Fórmula de Brown:

| ∑ ( )( ) | Ecuación 13

Donde:

G: Coeficiente de Gini

X: Proporción acumulada de la variable población


____________________________________________________________________________

26

Y: Proporción acumulada de la variable ingresos

5.3.5 Regla 80-20

El primer criterio que se va a considerar como una posible regla es que ha sido usado hasta la

fecha. En este caso, puede considerarse un problema específico como paretizable si el 20% de

las causas agrupan el 80% de los problemas. Es importante tener en cuenta que empíricamente

no siempre se sigue dicha distribución, en algunos casos se usa la distribución 70- 30 y 90-10;

por lo tanto éstas también serán estudiadas

5.3.6 Gráficos P-P

Un gráfico percentil- percentil (P-P) muestra que tan bien las estadísticas de rango de una

muestra encajan con una distribución modelo. Para cada valor que aparece en la muestra, el

gráfico P-P muestra el rango actual de valores vs. el rango esperado del valor en el modelo.

Una coincidencia perfecta da como resultado una línea de 45° desde el origen. A pesar de que

estos gráficos son útiles para detectar discrepancias entre el modelo original y la muestra de

datos, no resultan muy útiles para identificar distribuciones Power Law. La razón es que a

diferencia del CCDF Test, el gráfico P-P depende de estimación de parámetros; un gráfico P-P

chequea la coincidencia de un modelo específico, no de una familia de modelos: la

interpretación depende de la forma en cómo se escogen los parámetros (Downey, 2001).

5.3.7 Bondad de Ajuste

Una forma estándar de escoger de entre varios modelos, el que resulta ser el más adecuado

para una muestra de datos, es estimando los parámetros para ajustar la muestra y escoger cuál

o cuáles modelos proveen una mejor bondad de ajuste.

Para identificar distribuciones, este enfoque puede no ser apropiado ya que los estimadores

convencionales no necesariamente revelan el mejor ajuste para el comportamiento de la cola

en una distribución Power Law. Por lo tanto, el ajuste de modelos es de mucha utilidad para

obtener un punto de referencia pero no es una herramienta adecuada, de forma cuantitativa,

para identificar distribuciones Power Law (Downey, 2001).

5.4 Regresión Logística

La regresión logística es un instrumento estadístico de análisis bivariado o multivariado, de uso

tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable


____________________________________________________________________________

27

dependiente dicotómica (un atributo cuya ausencia o presencia se ha puntuado con los valores

cero y uno, respectivamente) y un conjunto de m variables predictoras o independientes, que

pueden ser cuantitativas (que se denominan covariables o covariadas) o categóricas. En este

último caso, se requiere que sean transformadas en variables ficticias o simuladas.

El propósito del análisis es:

Predecir la probabilidad de que a algo o a alguien le ocurra cierto evento: por ejemplo,

“estar desempleado” =1 o “no estarlo” = 0; “ser pobre” = 1 o “no ser pobre” = 0;

“graduarse como sociólogo” =1 o “no graduarse” = 0;

Determinar qué variables pesan más para aumentar o disminuir la probabilidad de que a

alguien le suceda el evento en cuestión.

Esta asignación de probabilidad de ocurrencia del evento a un cierto sujeto, así como la

determinación del peso que cada una de las variables dependientes en esta probabilidad, se

basan en las características que presentan los sujetos a los que, efectivamente, les ocurren o

no estos sucesos. Por ejemplo, la regresión logística tomará en cuenta los valores que asumen

en una serie de variables (edad, sexo, nivel educativo, posición en el hogar, origen migratorio,

etc.) los sujetos que están efectivamente desocupados (= 1) y los que no lo están (= 0). En

base a ello, predecirá a cada uno de los sujetos – independientemente de su estado real y

actual – una determinada probabilidad de ser desocupado (es decir, de tener valor 1 en la

variable dependiente). Es decir, si alguien es un joven no amo de casa, con baja educación y de

sexo masculino y origen emigrante (aunque esté ocupado) el modelo le predecirá una alta

probabilidad de estar desocupado (puesto que la tasa de desempleo de el grupo así definido es

alta), generando una variable con esas probabilidades estimadas. Y procederá a clasificarlo

como desocupado en una nueva variable, que será el resultado de la predicción. Además,

analizará cuál es el peso de cada uno de estas variables independientes en el aumento o la

disminución de esa probabilidad. Por ejemplo, cuando aumenta la educación disminuirá en algo

la probabilidad de ser desocupado. En cambio, cuando el sexo pase de 0 = “mujer” a 1 =

“varón”, aumentará en algo la probabilidad de desempleo porque la tasa de desempleo de los

jóvenes de sexo masculino es mayor que la de las mujeres jóvenes. El modelo, obviamente,

estima los coeficientes de tales cambios.

Cuanto más coincidan los estados pronosticados con los estados reales de los sujetos, mejor

ajustará el modelo. Uno de los primeros indicadores de importancia para apreciar el ajuste del

modelo logístico es el doble logaritmo del estadístico de verosimilitud (likelihood). Se trata de un

estadístico que sigue una distribución similar ji Cuadrado y compara los valores de la

predicción con los valores observados en dos momentos: en el modelo sin variables

independientes, sólo con la constante y una vez introducidas las variables predictoras. Por lo

tanto, el valor de la verosimilitud debiera disminuir sensiblemente entre ambas instancias e,

idealmente, tender a cero cuando el modelo predice bien.

Los modelos de regresión logística binaria resultan los de mayor interés ya que la mayor parte

de las circunstancias analizadas en medicina responden a este modelo (presencia o no de

enfermedad, éxito o fracaso, etc.). La variable dependiente será una variable dicotómica que se


____________________________________________________________________________

28

codificará como 0 ó 1 (respectivamente, “ausencia” y “presencia”). Este aspecto de la

codificación de las variables no es banal (influye en la forma en que se realizan los cálculos

matemáticos), y habrá que tenerlo muy en cuenta si se emplean paquetes estadísticos que no

recodifican automáticamente las variables cuando éstas se encuentran codificadas de forma

diferente (por ejemplo, el uso frecuente de 1 para la presencia y –1 ó 2 para la ausencia).

La ecuación de partida en los modelos de regresión logística es:

( | ) ( ∑

)

( ∑ )

Ecuación 14

Donde:

( | ) Probabilidad de que y tome el valor 1(presencia de la característica estudiada) en

presencia de las covariables X.

x: conjunto de n covariables que forman parte del modelo.

: Constante del modelo

: Coeficientes de las covariables.

5.5 Métricas de la calidad de una predicción

5.5.1 Curva Cor

Una Curva Cor (acrónimo de Receiver Operating Characteristic, o Característica Operativa del

Receptor) es una representación gráfica de la sensibilidad frente a (1 – especificidad) para un

sistema clasificador binario según se varía el umbral de discriminación. Otra interpretación de

este gráfico es la representación de la razón o ratio de verdaderos positivos (VPR = Razón de

Verdaderos Positivos) frente a la razón o ratio de falsos positivos (FPR = Razón de Falsos

Positivos) también según se varía el umbral de discriminación (valor a partir del cual decidimos

que un caso es un positivo). COR también puede significar Relative Operating Characteristic

(Característica Operativa Relativa) porque es una comparación de dos características

operativas (VPR y FPR) según cambiamos el umbral para la decisión.

El análisis de la Curva Cor proporciona herramientas para seleccionar los modelos

posiblemente óptimos y descartar modelos subóptimos independientemente de (y antes de

especificar) el coste de la distribución de las dos clases sobre las que se decide. La curva ROC

es también independiente de la distribución de las clases en la población (en diagnóstico, la

prevalencia de una enfermedad en la población). El análisis COR se relaciona de forma directa

y natural con el análisis de coste/beneficio en toma de decisiones diagnósticas.

La Curva Cor se desarrolló por ingenieros eléctricos para medir la eficacia en la detección de

objetos enemigos en campos de batalla mediante pantallas de radar, a partir de lo cual se

desarrolla la Teoría de Detección de Señales (TDS). El análisis COR se aplicó posteriormente

en medicina, radiología, psicología y otras áreas durante varias décadas. Sólo recientemente ha

encontrado aplicación en áreas como aprendizaje automático y minería de datos.


____________________________________________________________________________

29

Ilustración 4- Tabla de contingencia resultado de un análisis Cor

5. 5.2 RMSE

La desviación de la raíz cuadrada media (RMSD) o root-mean-square error (RMSE) es una

medida de uso frecuente de las diferencias entre los valores pronosticados por un modelo o un

estimador y los valores realmente observados. Estas diferencias individuales se denominan

residuos cuando los cálculos se realizan a través de la muestra de datos que se utiliza para la

estimación, y se denominan errores de predicción cuando se calcula fuera de la muestra. El

RMSE sirve para agregar la magnitud de los errores en las predicciones para las varias horas

en una sola medida de la capacidad de predicción. RMSE es una buena medida de la precisión,

pero sólo para comparar los errores de predicción de diferentes modelos para una variable en

particular y no entre las variables, ya que es dependiente de la escala.

El RMSE de los valores previstos para tiempos t de una regresión de la variable

dependiente se calcula para predicciones diferentes como la raíz cuadrada de la media de

los cuadrados de las desviaciones:

RMSE= √∑ ( )

Ecuación 15

5.6 Métodos para identificar el punto de corte en un diagrama de Pareto

5.6.1 Cómo establecer el punto de corte en un diagrama de Pareto según el profesor de

ingeniería industrial Carlos Navarrete.

Para establecer el punto de corte según el Profesor Navarrete3 se elabora una tabla donde se

ordenan las causas de forma descendente y se halla la frecuencia relativa y la frecuencia

acumulada. A continuación se establece el peso acumulado de cada causa, por ejemplo si son

3 Máster en Bioética, Universidad del Bosque; Ingeniero Industrial, Pontificia Universidad Javeriana. Actualmente se

desempeña como profesor de la asignatura Ingeniería de Procesos en la Pontificia Universidad Javeriana.


____________________________________________________________________________

30

ocho causas cada una pesa 1/8 y se van acumulando. Luego se lleva a cabo una siguiente

columna en la tabla que contiene la sumatoria de los pesos con la frecuencia acumulada para

cada causa.

Finalmente se hace una columna con la diferencia en valor absoluto de 100 menos la suma

anterior y el punto de corte resultará en aquel causal donde esta diferencia es menor.

5.6.2 Análisis Estadístico de los diagramas de Pareto

Es una prueba estadística que diseñó Ron Kenett (Kenett, 1991) para comparar diagramas de

Pareto a través del tiempo o entre procesos. La prueba tiene como finalidad determinar cuándo

hay diferencias significativas entre dos diagramas de Pareto. Para ello se elabora un diagrama

de referencia de Pareto y se efectúa una prueba basada en el cálculo de los residuales

normalizados:

[ ( )] i= 1,…, k Ecuación 16

N= Cantidad total de observaciones.

= Proporción de observaciones en la categoría i, en el diagrama de referencia.

= Cantidad esperada de observaciones en la categoría i, dado N.

= Cantidad total de observaciones en la categoría i.

K= Cantidad de categorías.

Esta prueba supone que las observaciones se clasifican independientemente en distintas

categorías y según su autor, resulta más poderosa que la prueba ji cuadrada normal, ya que

reconoce diferencias entre un diagrama de referencia de Pareto y uno actual que, de acuerdo

con la prueba ji cuadrada, no serían significativas.

Puesto que este test compara dos diagramas de Pareto, no resulta de utilidad para el presente

trabajo.

5.7 Patrones EBC (Entity-Control-Boundary)

Los patrones de diseño son la base para la búsqueda de soluciones a problemas comunes en

el desarrollo de software y otros ámbitos referentes al diseño de interacción o interfaces. Un

patrón resulta ser una solución a un problema de diseño. Para que una solución sea

considerada un patrón debe poseer ciertas características. Una de ellas es que debe haber

comprobado su efectividad resolviendo problemas similares en ocasiones anteriores. Otra es

que debe ser reutilizable, lo que significa que es aplicable a diferentes problemas de diseño en

distintas circunstancias.

Este concepto introduce un patrón que proporciona un punto de partida para la distribución de

las responsabilidades a un conjunto de elementos de diseño de interacción basado en tres

perspectivas clave en una colaboración. Cuando se identifican los elementos de algún

http://es.wikipedia.org/wiki/Software


____________________________________________________________________________

31

escenario del comportamiento del sistema, se puede alinear cada elemento participante con

una de las tres perspectivas principales: Entidad, control o frontera.

5.7.1 Elementos Entidad

Una entidad es un elemento pasivo de larga duración, que es responsable de alguna parte

significativa de la información. Esto no quiere decir que las entidades son "datos", mientras que

otros elementos de diseño son "función". Las entidades realizan comportamiento organizado en

torno a una cierta cantidad de datos.

Un ejemplo de entidad para una aplicación de servicio al cliente sería una entidad de cliente

que administra toda la información acerca del mismo. Un elemento de diseño para esta entidad

debería incluir datos sobre el cliente, el comportamiento de la gestión de los datos, el

comportamiento para validar la información del cliente y realizar otros cálculos de negocios,

tales como "Este es un cliente deja de comprar el producto X?"

5.7.2 Elementos de Control

Un elemento de control administra el flujo de la interacción del escenario. Un elemento de

control podría gestionar el comportamiento de extremo a extremo de un escenario o podría

gestionar las interacciones entre un subconjunto de los elementos. El comportamiento y las

reglas de negocio relacionadas con la información relevante para el escenario deben ser

asignados a las entidades, y los elementos de control son sólo responsables del flujo del

escenario.

5.7.3 Elementos de Frontera

Un elemento de frontera se encuentra en la periferia de un sistema o subsistema, pero dentro

de él. Para cualquier escenario que se considera, ya sea a través de todo el sistema o dentro

de algún subsistema, algunos elementos de frontera serán elementos "front-end" que acepten la

entrada desde fuera del área en proceso de diseño y otros elementos serán "back-end"

gestionando la comunicación de los elementos de apoyo fuera del sistema o subsistema.


____________________________________________________________________________

32

6. EVALUACIÓN DE REGLAS CANDIDATAS

6.1 CONJUNTO DE CRITERIOS MÍNIMOS PARA SABER SI UNA REGLA ES SUSCEPTIBLE

DE SER USADA.

La elaboración de un diagrama de Pareto consiste básicamente en el desarrollo de un

algoritmo, dado que éste es una secuencia ordenada de pasos, exenta de ambigüedad, que

conduce a la resolución de un problema determinado en un número finito de pasos (Xhafa &

Vazquez, 2006).

La utilización de las reglas que se pretenden definir en este trabajo de grado, para llevar a cabo

una correcta elaboración de un diagrama de Pareto, consiste en la aplicación de un conjunto

predefinido de pasos (los que indique la regla). Teniendo en cuenta esto, dichas reglas serán

tratadas como algoritmos que conducirán a una solución específica. Por ello, se consultó la

teoría de los algoritmos con el fin de establecer las características que deben cumplir los

mismos. Dichas características serán adoptadas como los criterios mínimos que deben cumplir

las reglas de paretización para que puedan ser consideradas como válidas.

Se consultó bibliografía especializada en análisis y diseño de algoritmos y en programación

para averiguar cuáles eran los criterios y las características que debían tener los algoritmos

para que pudieran ser considerados como tal. De las diferentes consultas se obtuvo la lista de

criterios o características de un algoritmo que se presenta en la tabla 1 (Mohan Pandey, 2008)

(Chang, 2003) (Puntambekar, 2008).

PROPIEDADES QUE DEBE SATISFACER UN ALGORITMO

1. Un algoritmo es capaz de formular un problema y transformarlo en una solución que

es correcta y eficiente

2. Entrada: cero o más cantidades externamente suministradas.

3. Salida: por lo menos una cantidad es producida.

4. Correcto: propiedad que refleja el grado en el cual el algoritmo es capaz de alcanzar

una solución sin errores.


____________________________________________________________________________

33

5. Eficiencia: propiedad que considera la rapidez mediante la cual una solución es

alcanzada.

6. Generalidad: propiedad que confiere al algoritmo un valor fundamental: éste debe ser

diseñado para resolver una clase de problemas.

7. Finito: el algoritmo sigue un número finito de pasos para finalizar.

8. Efectivo: Cada acción única puede ser reconocida a través de su resultado: ésta debe

ser reproducible.

9. Comprensible: el algoritmo debe ser comprendido por la persona que lo diseña.

Tabla 5- Listado de Criterios que debe cumplir una regla de paretización: propiedades de los algoritmos

6.2 EVALUACIÓN DE LAS REGLAS CANDIDATAS PARA PARETIZACIÓN

Con base en los criterios que se escogieron como aquellos que deben cumplir las reglas para la

identificación de si un problema es susceptible de ser paretizable, se sometieron las posibles

reglas presentadas en el marco teórico a un análisis comparativo para escoger aquellas que

cumplían a cabalidad con los criterios. A continuación se muestra la tabla con los resultados, es

importante tener en cuenta que ésta no contiene los criterios eficiencia ni correcto, el primero

debido a que el objetivo de este estudio no pretende medir la eficiencia de una regla, ni ésta

resulta un factor determinante en los resultados. El que la regla sea correcta se evalúa adelante

y se determina después de realizar el análisis correspondiente, por ello la tabla no contiene

tampoco dicho parámetro.

Convenciones:

X: la regla cumple con el criterio.

O: la regla no cumple con el criterio.


____________________________________________________________________________

34

LISTADO DE CRITERIOS CON LOS QUE DEBE CUMPLIR UNA REGLA DE PARETIZACIÓN

Criterio

Propiedades de los algoritmos

Formular un

problema y

transformarlo en

una solución

que es correcta

y eficiente

Entrada: cero o

más cantidades

externamente

suministradas.

Salida: por lo

menos una

cantidad es

producida.

Generalidad: el

algoritmo debe ser

diseñado para

resolver una clase de

problemas.

Finito: el algoritmo

sigue un número

finito de pasos para

finalizar.

Efectivo: cada acción

única puede ser

reconocida a través de su

resultado: ésta debe ser

reproducible.

Comprensible: el

algoritmo debe ser

comprendido por la

persona que lo

diseña.

1

Estimar el

parámetro de

escala α: máxima

verosimilitud

x x x x x x x

2 Gráficos P-P o x x x x o x

3 CCDF TEST:

Gráfico log-log o x x x x o x

4 Índice de Gini X x x x x x x

5

Prueba de Bondad

de ajuste: analizar

si los datos se

ajustan al modelo

X x x x x x x

7 Regla 80-20 o o x o x o x

8 Entropía x x x x x x x

Tabla 6- Evaluación de los criterios en las posibles reglas de paretización


____________________________________________________________________________

35

De acuerdo con los resultados obtenidos, las reglas que cumplen con los criterios establecidos

son las siguientes:

1. Cálculo del índice de Gini

2. Cálculo de la entropía

3. Cálculo del parámetro de escala

Estas fueron contrastadas en la simulación para, finalmente, determinar cuál de ellas era la

mejor regla para evaluar si un problema es paretizable o no.

6.3 REGLAS CANDIDATAS PARA DEFINIR PUNTO DE CORTE

Para determinar con exactitud el punto de corte en un diagrama de Pareto una vez se ha

verificado que el problema que se está tratando sí es paretizable se analizaron y compararon

tres reglas. La primera de ellas fue diseñada para este estudio y las dos restantes están

basadas en la forma cómo se lleva a cabo la división entre causas vitales y triviales

actualmente.

6.3.1 Regla de corte según cambio de la pendiente en la curva del diagrama

Esta regla se basa en calcular la pendiente entre cada par de categorías consecutivas. Se

espera que esa pendiente vaya disminuyendo. Cuando esa pendiente vuelve a aumentar allí se

encontraría la categoría de corte, puesto que hay una “caída” repentina del conteo de

elementos y las categorías de allí en adelante tendrían menor importancia.

A continuación se presenta un ejemplo sencillo con el objetivo de visualizar de forma práctica

cómo se efectuaría el corte. El problema muestra una situación típica en una compañía en la

que se presentan defectos de calidad debido a 5 causas distintas:

Causa Frecuencia-Número de Defectos

de Calidad

Diferencia

1 15 15- 10= 5

2 10 10- 7= 2

3 8 8- 2= 6

4 2 2- 1= 1

5 1

Total 36

Tabla 7- Datos ejemplo punto de corte


____________________________________________________________________________

36

Ilustración 5- Diagrama de barras ejemplo punto de corte

Ilustración 6- Línea de pendiente ejemplo punto de corte

Según este criterio en el caso del ejemplo se debería realizar el corte en la causa número 3

debido a que en este punto la diferencia entre las frecuencias aumenta después de venir

decreciendo, esto significa que se está en la parte del diagrama donde ocurre un cambio

significativo: las tres primeras causas resultan ser las críticas ya que provocan la mayor parte

de los defectos de calidad; debido a que en la categoría 3 la diferencia en la pendiente es igual

a 6 supone esto que ha ocurrido un cambio “brusco” en el diagrama ya que la pendiente cae de

manera más fuerte desde este punto al siguiente.

Otros Casos

15

10 8

2 1

0

5

10

15

20

1 2 3 4 5

Número de Defectos de Calidad

0

2

4

6

8

10

12

14

16

1 2 3 4 5

Número de Defectos de Calidad

La pendiente decrece de forma

más acelerada


____________________________________________________________________________

37

i. Cuando no ocurre ningún aumento en las diferencias de las frecuencias sino que esta

constituye una secuencia decreciente se estableció que el corte debe hacerse en el

primer grupo o primera causa.

ii. Dada la naturaleza de la Ley de Pareto, en cualquier problema cuya primera causa

contenga el 70% o más de la frecuencia, debe hacerse el corte en esta primera causa.

6.3.2 Regla de Corte 80-20 basada en la frecuencia acumulada de las causas

Esta regla de corte representa la forma convencional de separar las causas vitales de las

triviales: en cualquier problema el corte debe realizarse cuando la frecuencia acumulada sea

igual al 80%.

En el ejemplo de estudio sobre defectos de calidad el corte se realizaría en la causa número 2

debido a que el 80% de la frecuencia es igual a 28,8 (36*0.8).

6.3.3 Regla de Corte 80-20 basada en el número de causas

Al igual que la regla anterior ésta se deriva de la Ley de Pareto con una variación importante:

en cualquier problema el punto corte para separar las causas vitales de las triviales debe

realizarse donde el número de causas sea igual al 20% de las mismas.

En el ejemplo de estudio sobre defectos de calidad el corte se realizaría en la causa número 1

debido a que el 20% de las causas es igual a este valor (5*0.2=1).


____________________________________________________________________________

38

7. LA SIMULACIÓN

Para llevar a cabo los dos primeros objetivos se realizó una simulación con la que se pretendía

estudiar qué tipo de problemas podrían ser clasificados como paretizables. Para ello se estudio

la susceptibilidad de los resultados a las diferentes combinaciones de los parámetros.

La simulación se elaboró con base en cuatro distribuciones de probabilidad:

I. Distribución Multinomial

II. Distribución Normal

III. Distribución Lognormal

IV. Preferential Attachment

Las tres primeras son clásicas y conocidas, la última comprende la representación de un

modelo generativo, estudiado en ciencias de la computación, que da origen a una distribución

Power Law (Mitzenmacher, 2004).

La distribución multinomial es un modelo generativo adecuado para describir un problema

paretizable que asigne los elementos a las posibles categorías (causas) cuando las

probabilidades de que ocurra una categoría son fijas, y cada posible elemento selecciona una

categoría de forma independiente al siguiente elemento. Este modelo generativo representa

aproximadamente bien las aplicaciones de Pareto relacionadas con control de calidad, en las

cuales se puede considerar la generación de un defecto como una variable binomial y, por

ende, la asignación de un defecto a una categoría específica como un problema multinomial,

siendo más probables algunas categorías de defecto que otras, según las dificultades del

proceso productivo, las cuales generan diferentes causas.

De otro lado, Preferential Attachment modela procesos de asignación de elementos a

categorías no independientes, puesto que dado un número de elementos en las posibles

categorías, el siguiente elemento a ser asignado podría tener en cuenta la distribución actual de

elementos en categorías para elegir una categoría. Este caso modela mucho mejor modelos

sicológicos que el modelo multinomial, y sirve para los casos de paretización que requieren

saber por ejemplo, cuáles son las referencias “Pareto” de una cadena de abastecimiento, o los

destinatarios “Pareto” de un producto. En éste caso, la preferencia por una categoría puede

estar influida por la preferencia previa de otros clientes o conocidos del cliente que debe tomar

una decisión, generando un proceso de Preferential Attachment.

Las funciones normales y lognormal modelan otro tipo de fenómeno. En este caso, se trata de

fenómenos continuos que, acumulados, pueden generar una paretización. El caso concreto de

modelación es la distribución del ingreso. Cada persona analizada tiene un ingreso específico

que podría estar determinado por una variable normal (si el ingreso tiene un promedio en el que

caen la mayor parte de personas y extremos simétricos- tanto ricos como pobres) o por una

variable lognormal con asimetría positiva, que es el caso más frecuente (muchas personas con


____________________________________________________________________________

39

ingresos bajos-medios y casos extremos en los valores altos). Cuando se acumulan esos

ingresos y se clasifican por percentiles las personas, la acumulación del ingreso de cada

percentil representa la altura o frecuencia de la categoría y la cantidad de divisiones

(percentiles, deciles, quintiles) el número de categorías.

7.1. Desarrollo de la simulación de los modelos generativos

La simulación, para cada una de las cuatro distribuciones, se llevó a cabo como un proceso que

representara aleatoriamente la forma cómo se repartirían un número M de elementos (el total de

la muestra) en un número N de categorías; con base en las características propias de cada

distribución y de acuerdo a lo mencionado en el marco teórico respecto a procesos generativos.

El resultado obtenido (salida) fue la distribución de la muestra en los grupos determinados; esto

es básicamente lo que sucede en un problema tratado mediante un análisis de Pareto

convencional.

7.1.1 Parámetros de la simulación

I. Distribución Multinomial

Parámetros de entrada:

El usuario le indica al sistema cuatro parámetros de entrada antes iniciar la simulación.

Parámetro Descripción

N Número total de categorías

M Número total de elementos

Tamaño de la partición 1

Frecuencia que corresponde a la mayor parte de la

muestra. Ejemplo: si se desea modelar un problema típico

de Pareto conocido como 80-20, el valor de la partición 1

correspondería a 80%.

Porcentaje de categorías que

contienen la partición 1

Porcentaje de las categorías en donde se va a acumular la

mayor parte de la muestra. Ejemplo: si se desea modelar

un problema típico de Pareto conocido como 80-20, el

valor del porcentaje de categorías que contiene la partición

1 es del 20%.

Tabla 8- Parámetros simulación multinomial


____________________________________________________________________________

40

Estos parámetros permiten que a las causas del porcentaje de categorías de la partición 1 se le

asigne el tamaño de la partición 1. Al interior de la partición, la distribución de probabilidades se

realiza aleatoriamente.

Ilustración 7- Ejemplo inserción parámetros simulación multinomial

Después de que los parámetros de entrada han sido ingresados y se da inicio a la simulación,

el proceso se lleva a cabo de la siguiente forma: En primer lugar el programa asigna a una lista

que corresponde al número de categorías una probabilidad uniforme igual a 1/n. Asimismo se

generan dos listas: la primera tiene el número de categorías que el usuario quiere que

contengan a la partición 1 y la segunda el número restante. Cada una de éstas se llena con

números aleatorios y se normaliza a la diferencia que hay entre el tamaño de la partición 1 y la

cantidad de categorías que contienen la partición 1. La primera lista se suma a las

correspondientes primeras posiciones de la lista uniforme y la segunda se resta a las últimas

posiciones correspondientes. A continuación, se normaliza todo para que cumpla con las

frecuencias correspondientes. Finalmente se generan m números aleatorios correspondientes a

las m elementos, se ubican en cada categoría y se ordenan con el ordenamiento Quick Sort 4

II. Distribución Normal


El usuario le indica al sistema cuatro parámetros de entrada antes iniciar la simulación:



4 El ordenamiento rápido (Quick Sort en inglés) es un algoritmo creado por el científico británico en computación C.

A. R. Hoare basado en la técnica de divide y vencerás, que permite, en promedio, ordenar n elementos en un tiempo proporcional a n log n.


____________________________________________________________________________

41


Media Corresponde a la media de la distribución que se quiere

simular.

Desviación estándar Corresponde a la desviación estándar de la distribución

que se quiere simular.

Tabla 9- Parámetros simulación normal

Ilustración 8- Ejemplo inserción parámetros simulación normal


el proceso se lleva a cabo de la siguiente forma:

Se generan m números aleatorios provenientes de una distribución normal con los valores

establecidos para la media y la desviación estándar como parámetros. Para efectos de no

alterar la simulación los números aleatorios que fuesen negativos se reemplazan con cero. A

continuación se obtiene la suma de los m números aleatorios. Se calcula el número de

aleatorios que deben ir cada una de las n categorías realizando el cociente m/n. Los números

aleatorios se ordenan con el método Quick Sort de forma ascendente; se procede a poner en la

primera categoría la suma de los m/n primeros números aleatorios ordenados ascendentemente

y así sucesivamente hasta que se han puesto en las n categorías las sumas correspondientes.

Finalmente se calcula el porcentaje de los elementos (números aleatorios) con el que quedaron

cada una de las categorías.

III. Distribución Lognormal


El usuario le indica al sistema cuatro parámetros de entrada antes iniciar la simulación:


____________________________________________________________________________

42




Media

Corresponde a la media de la distribución que se quiere

simular.

Desviación estándar

Corresponde a la desviación estándar de la distribución

que se quiere simular.

Tabla 10-Parámetros simulación lognormal

Ilustración 9- Ejemplo inserción parámetros simulación lognormal



Se generan m números aleatorios provenientes de una distribución lognormal con los valores

establecidos para la media y la desviación estándar como parámetros. Para efectos de no

alterar la simulación los números aleatorios que fuesen negativos se reemplazan con cero. A

continuación se obtiene la suma de los m números aleatorios. Se calcula el número de

aleatorios que deben ir cada una de las n categorías realizando el cociente m/n. Los números

aleatorios se ordenan con el método Quick Sort de forma ascendente; se procede a poner en la

primera categoría la suma de los m/n primeros números aleatorios ordenados ascendentemente

y así sucesivamente hasta que se han puesto en las n categorías las sumas correspondientes.


____________________________________________________________________________

43

Finalmente se calcula el porcentaje de los elementos (números aleatorios) con el que quedaron

cada una de las categorías.

IV. Distribución Preferential Attachment


El usuario le indica al sistema tres parámetros de entrada antes iniciar la simulación:




Alpha

Valor entre 1 y 0 contra el cual se van a contrastar los

números aleatorios (elementos) para determinar en cuál

categoría deben ir asignados.

Tabla 11- Parámetros simulación Preferential attachment

Ilustración 10- Ilustración 8- Ejemplo inserción parámetros simulación Preferential Attachment

Esta simulación recrea un proceso denominado Preferential Attachment que consiste en que

los nuevos objetos tienden a adherirse a los objetos más populares y de esta manera dan

origen a distribuciones Power Law para diferentes contextos.



En primer lugar, se va a generar una lista con n posiciones correspondientes a las n categorías.

A cada una de estas posiciones, se les va asignar un valor de probabilidad uniforme (1/n). Se

va a generar un número aleatorio y se va a ubicar en la categoría correspondiente mediante el

cálculo de la frecuencia acumulada. Posteriormente todo el proceso será así: Por cada una de


____________________________________________________________________________

44

las m-1 elementos restantes, el sistema generará un número aleatorio y lo va a comparar contra

el valor de Alpha. Si el número aleatorio es menor que el valor del Alpha ingresado por el

usuario esa elemento, representada por el aleatorio, se va a ubicar al igual que la primera, con

probbailidad uniforme para cualquiera de las n categorías. Si el valor del número aleatorio

resulta mayor que el valor del número Alpha la elemento se ubicará recalculando las

probabilidades de cada una de las n categorías de contener a esa elemento, por ejemplo, si

hasta el momento en que sucedió esto se han ubicado tres elementos, cada una en una

categoría diferente, ahora la probabilidad de cada una de estas de contener a la elemento es

igual a 1/3 y para las otras categorías que se encuentran vacías es igual a 0. De esta forma se

está simulando cómo, con base en determinado evento, una elemento puede no repartirse al

azar sino que tendrá una probabilidad más alta de caer en una categoría donde ya se

encuentran asignadas una o más elementos.

7.2 Diseño experimental de la simulación

7.2.1 Objetivos del estudio

Evaluar el desempeño de las tres reglas escogidas para determinar cuál de estas

proporciona el mejor indicador para determinar si un problema es susceptible de ser

paretizable.

Evaluar el desempeño de las tres reglas escogidas para determinar cuál debe ser el

punto correcto de corte en un diagrama de Pareto para un problema susceptible de

ser paretizable.

7.2.2. Factores

Simulación Distribución Multinomial

Simulación Multinomial

Factor Número de

Niveles Descripción

N 10 Comenzando en 10 y cambiando de

10 en 10 hasta 100

Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64


____________________________________________________________________________

45

Partición Categorías y Partición de Elementos

9 50-50, 45-55, 40-60, 35-65%, 30-70,

25-75, 20-80, 15-85, 10-90

Tabla 12- Descripción de factores simulación multinomial

Debido a que la relación entre el tamaño de la muestra y el número de causas constituye un

factor importante de estudio, el tamaño de la muestra M se calculó con base en la relación M/N.

Para la realización del objetivo 3, se escogió un subconjunto de esta simulación igual o superior

a una regla 70/30, es decir, igual o superior a 70% en la partición elementos.

Simulación Distribución Normal

Simulación Normal

Factor Número de


N 10

Comenzando en 10 y cambiando de 10 en 10

hasta 100

Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64

Media 1 En todos los casos igual a 1

Desviación

Estándar 3 0,3; 0,6; 0,9

Tabla 13- Descripción de factores simulación normal

Simulación Distribución Lognormal

Simulación Lognormal

Factor Número de


N 10


hasta 100


____________________________________________________________________________

46

Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64

Media 1 En todos los casos igual a 0

Desviación

Estándar 3 1,2; 1,5; 1,8; 2,1

Tabla 14- Descripción de factores simulación lognormal

Simulación Preferential Attachment


Factor Número de


N 10


hasta 100

Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64

Alpha 10 0,01; 0,1; 0,2; 0,3; 0,4; 0,5; 0,6; 0,7; 0,8; 0,99

Tabla 15- Descripción de factores simulación Preferential attachment

7.2.3 Réplicas

El número de réplicas se basará en el objetivo 2, el cual incluye dos factores de análisis (M/N y

N), sobre el cual se correrá el ANOVA. Para los objetivos 1 y 2 también resulta válido el

siguiente análisis, pues todo está basado sobre la misma variable de respuesta: área bajo la

Curva Cor. La fórmula de tamaño de muestra es, de acuerdo con Dean & Voss (Dean & Voss,

1999).

Ecuación 17

En este caso de:

a= número de niveles de M/N = 8

b= Número de niveles de N=10

2

222

Ab

ar

2

2

A


____________________________________________________________________________

47

Se espera que la relación sea de

para evaluar un tamaño de efecto medio, de 1/3 de la

variabilidad. Iterando sobre las tablas disponibles en el libro de Dean & Voss para hallar el .

Con alfa= 0.05 y potencia del 93%, se encuentra un valor de 1.67. Al utilizarlo en la fórmula se

obtiene r= 78. Dadas las posibilidades computacionales, para reducir aún más los errores tipo y

tipo II se decidió redondear a un total de 100 réplicas por tratamiento.

A continuación se presentan las tablas con el número de réplicas para cada distribución para

los objetivos 1 y 2:

Simulación Multinomial

Niveles


Categorías Tamaño de

muestra/número de categorías Réplicas Total

9 10 8 100 72000 Tabla 16- Réplicas simulación multinomial

Simulación Normal

Niveles

Media Varianza Categorías Tamaño de


1 3 10 8 100 24000 Tabla 17- Tabla 15- Réplicas simulación normal

Simulación Lognormal

Niveles

Media Varianza Categorías Tamaño de


1 4 10 8 100 32000 Tabla 18- Réplicas simulación lognormal


____________________________________________________________________________

48


Niveles

Alpha Categorías Tamaño de


10 10 8 100 80000 Tabla 19- Réplicas simulación Preferential Attachment

Total General: 208000 réplicas.

A continuación se presentan las tablas con el número de réplicas para cada distribución para el

objetivo 3:

Multinomial

Niveles


Categorías Tamaño de muestra/número de

categorías Réplicas Total

5 100 8 100 400000 Tabla 20- Réplicas simulación multinomial

7.3 DATOS TÉCNICOS DE LA SIMULACIÓN

1. Las simulaciones fue realizada con el lenguaje de programación JAVA en el compilador

Eclipse IDE for Java Developers.

2. Los datos obtenidos de cada una de las réplicas de la simulación fueron almacenados

en una base de datos creada en MySQL Workbench. (Ver Anexo A. Diagrama Entidad

Relación Base de Datos Objetivos 1 y 2) (Ver Anexo B. Diagrama Entidad Relación Base

de Datos Objetivo 3).


____________________________________________________________________________

49

8. ANÁLISIS DE LOS DATOS

8.1 RESULTADOS REGLAS DE PARETIZACIÓN

8.1.1 Regla de Oro

Para el análisis de los datos y la comparación de las posibles reglas se determinaron las

principales dimensiones que determinan sí un problema es susceptible de ser paretizable desde

el punto de vista teórico; como resultado se obtuvo un criterio para cada una de las

dimensiones denominada “Regla de Oro”. Se muestra a continuación la tabla con el criterio de

la Regla de Oro para cada distribución.

REGLA DE ORO

DISTRIBUCIÓN

MULTINOMIAL

DISTRIBUCIÓN

NORMAL

DISTRIBUCIÓN

LOGNORMAL

PREFERENTIAL

ATTACHMENT

¿Qué casos son susceptibles de ser paretizables?

Todas las simulaciones

donde el 70% de la

frecuencia de las

elementos estuviese

repartida en el 30% de

las categorías o superior

así:

Los parámetros

con los que se

corrió la

simulación

implican que en

ningún caso las

réplicas de la

distribución

normal son

paretizable

Los parámetros

con los que se

corrió la

simulación

implican que en

todos los casos

las réplicas de

la distribución

lognormal son

paretizables

Todas las simulaciones

cuyo valor del parámetro

Alpha fuese menor a 0,9

se consideraron como

paretizables.

Si el valor del parámetro

Alpha era mayor a 0,9 el

resultado era no

paretizable

Frecuencia

de

Elementos

Porcentaje

de las

Categorías

70 30

75 35

80 20

85 15

90 10

Tabla 21- Reglas de Oro paretización para cada distribución


____________________________________________________________________________

50

Para el modelo multinomial, se decidió no cortar en 80/20 exactamente, pues se consideró que

empíricamente una acumulación de 70/30 ya permitiría determinar prioridades; en el caso de las

distribuciones normal y lognormal ocurre que ésta última tiene una íntima relación con las

Power law (Mitzenmacher, 2004), razón por la cual se consideró que todas las lognormales eran

paretizables, mientras que las normales no. En el caso de Preferential Attachment se ha

encontrado que este proceso genera siempre Power Laws, sin embargo cuando el nivel de

attachment a la categoría más frecuente es bajo (>0,9) no se configura perfectamente una

Power Law (Mitzenmacher, 2004), por lo que se escogió este punto para determinar la

posibilidad de priorización.

En la base de datos se creó una nueva columna que, según los criterios anteriores, señalaba si

cada réplica era paretizable o no según la Regla de Oro así:

1: Sí es paretizable

0: No es paretizable

Ilustración 11- Visualización Excel Base de Datos con la regla de oro

8.1.2 Regresión Logística Binaria

Para determinar cuál de las tres reglas: cálculo del índice de Gini, cálculo de la entropía, cálculo

del parámetro de escala era la mejor en determinar si un problema puede ser paretizable o no

se realizó una regresión logística binaria en SPSS v. 19.


____________________________________________________________________________

51

La regresión logística es adecuada para hace predicciones binarias, -en este caso, predecir si el

problema es paretizable o no-, a partir de variables escalares (en este caso, los índices

respectivos). Esto nos permite evaluar si es posible hacer predicciones de paretización a partir

de los índices, y adicionalmente permite realizar dicha predicción calculando una probabilidad;

ésta probabilidad es la que permitirá realizar la Curva Cor.

I. Resultados Parámetro Alpha

Variables en la ecuación

B E.T. Wald gl Sig. Exp(B)

Paso 1a parametroAlpha ,001 ,000 1199,798 1 ,000 1,001

Constante ,758 ,005 23762,307 1 ,000 2,133

Tabla 22- Variables en la ecuación resultado de la regresión para el parámetro Alpha

II. Resultados Índice de Gini



Paso 1a indiceGini 6,517 ,027 58884,848 1 ,000 676,531

Constante -2,132 ,013 28526,158 1 ,000 ,119

Tabla 23- Variables en la ecuación de la regresión para el índice de Gini

III. Resultados Entropía



Paso 1a entropia -,769 ,005 20164,229 1 ,000 ,463

Constante 3,101 ,018 30027,147 1 ,000 22,212

Tabla 24- Variables en la ecuación de la regresión para la entropía

Como se observa en las tablas de resultados anteriores los parámetros en todos los casos

resultan significativos, esto implica que es posible realizar predicciones a partir de cada uno de

los tres índices; debido a esto se procedió a realizar un análisis Cor que permitiera escoger al

mejor de los tres.


____________________________________________________________________________

52

8.1.3 Análisis de la Curva Cor

A continuación se presenta el gráfico resultado de la elaboración de la Curva Cor para las tres

reglas candidatas. El eje Susceptibilidad hace referencia a la potencia y el eje 1-Especificad es

el error tipo I.

Ilustración 12- Curva Cor para las tres reglas candidatas

Área bajo la curva

Variables resultado de

contraste Área

Probabilidad

pronosticadaAlpha

,649


____________________________________________________________________________

53

Probabilidad

pronosticadaGini

,906

Probabilidad

pronosticadaEntropia

,732

La variable (o variables) de resultado de

contraste: Probabilidad

pronosticadaAlpha, Probabilidad

pronosticadaGini, Probabilidad

pronosticadaEntropia tiene al menos un

empate entre el grupo de estado real

positivo y el grupo de estado real

negativo. Los estadísticos pueden estar

sesgados.

Tabla 25- Áreas bajo la Curva Cor reglas de paretización

En la gráfica se observa claramente que el Índice de Gini constituye el parámetro superior de

los tres ya que su área bajo la Curva Cor es superior, esto representa una alta capacidad de

predicción. Debido a los resultados obtenidos en los análisis realizados se escogió al Índice de

Gini como el indicador más adecuado y confiable para determinar si un problema determinado

es susceptible de ser paretizado.

8.1.4 Punto de corte según el análisis de la Curva Cor

Para hallar el límite por debajo del cual el valor del índice de Gini indica si un problema es

paretizable o no, se utilizaron las coordenadas resultantes del gráfico de la Curva Cor con el

objetivo de escoger un punto en el cuál la sensibilidad y el valor de 1-especificidad tuvieran una

suma igual a 1. A continuación se muestra el punto escogido:


____________________________________________________________________________

54

Ilustración 13- Coordenadas de la Curva Cor con el punto de corte

Por lo tanto todo cálculo del Índice de Gini, para un problema de paretización, cuyo valor sea

superior a 0,7108 después de utilizar la regresión logística se considerará como paretizable;


____________________________________________________________________________

55

asimismo si el cálculo del Índice de Gini se encuentra por debajo de dicho valor el problema

deberá ser considerado como no paretizable.

8.1.5 Índice de Gini aplicado a Casos Reales

Para evaluar el desempeño del índice de Gini en casos reales se estudiaron dos conjuntos de

datos que están relacionados a continuación:

1. Una investigación donde se estudia a qué áreas se envían los correos electrónicos de

una persona (Ver Anexo C: Caso Real 1: Destinatarios Correos Electrónicos de una

Persona)

El cálculo del índice de Gini en este caso fue igual a 0,765 y al convertirlo con la ecuación de la

regresión para que su valor sea comparable con el del valor de corte del índice de Gini se

obtiene el siguiente resultado:

( ( )) Ecuación 18

Por lo tanto se considera que este problema si es susceptible de ser paretizado ya que el valor

del índice está por encima del límite 0,7108 después de ser aplicado en la ecuación de la

regresión logística.

2. El consolidado de los trabajos y proyectos de grado de la carrera de ingeniería industrial:

acumulación de profesores, directores o evaluadores (Ver Anexo D: Caso Real 2:

Número de Trabajos de Grado dirigidos en los años 2010, 2011 y 2012 en la carrera de

Ingeniería Industrial)




( ( )) Ecuación 19

Por lo tanto se considera que este problema si es susceptible de ser paretizado ya que el valor

del índice está por encima del límite 0,7108 después de ser aplicado en la ecuación de la



____________________________________________________________________________

56

3. El consolidado de trabajos de grado evaluados en los años 2010, 2011 y 2012 de la

carrera de ingeniería industrial (Ver Anexo E: Caso Real 3: Número de Trabajos de

Grado Evaluados en los años 2010, 2011 y 2012 en la carrera de Ingeniería Industrial)




( ( )) Ecuación 20

Por lo tanto se considera que este problema no es susceptible de ser paretizado ya que el valor

del índice está por debajo del límite 0,7108 después de ser aplicado en la ecuación de la


8.2 RESULTADOS TAMAÑO DE MUESTRA

Para determinar un tamaño de muestra adecuado, según el número de causas de un problema

de Pareto, que garantice la realización de un diagrama adecuado se realizaron una serie de

análisis estadísticos para determinar la susceptibilidad de los resultados al tamaño de muestra

escogido. A continuación se presentan los análisis y sus resultados.

8.2.1 ANOVA

Para llevar a cabo los análisis se hizo una segmentación por grupos en SPSS para evaluar el

área bajo la Curva Cor en función del tamaño de muestra, considerando importante la relación

entre número de elementos y categorías.

Se realizó un análisis de varianza (ANOVA) a los resultado de la simulación con el objetivo de

determinar si los factores categorías (CATEGORÍAS) y la relación elementos/categorías (MN)

influían sobre la variable de respuesta Índice de Gini. Los resultados se muestran a

continuación:

Pruebas de los efectos inter-sujetos

Variable dependiente: Índice de Gini

Origen

Suma de

cuadrados tipo

III gl

Media

cuadrática F Sig.

Modelo corregido ,055a 16 ,003 55,044 ,000


____________________________________________________________________________

57

Intersección 72,455 1 72,455 1149960,684 ,000

CATEGORÍAS ,004 9 ,000 6,743 ,000

MN ,052 7 ,007 117,145 ,000

Error ,004 63 6,301E-5

Total 72,514 80

Total corregida ,059 79

a. R cuadrado = ,933 (R cuadrado corregida = ,916)

Tabla 26- ANOVA para el índice de Gini

Como se puede observar los resultados sí son significativos, por lo tanto, se puede concluir que

el número de categorías y la relación de éstas con la cantidad de elementos en una muestra sí

influyen en la variable de respuesta, el Índice de Gini.

8.2.2 Prueba DHS de Tukey para el número de categorías

Junto con el ANOVA se llevó a cabo una prueba de Tukey con el objetivo de determinar en

detalle cómo los niveles de la variable categorías influían en la variable de respuesta. A

continuación se muestran los resultados obtenidos:

DHS de Tukeya,b

CATEG

ORÍAS N

Subconjunto

1 2 3

10 8 ,935375

20 8 ,942500 ,942500

30 8 ,950625 ,950625

40 8 ,951375 ,951375

60 8 ,954625 ,954625

50 8 ,954875 ,954875

80 8 ,956250

70 8 ,956500

100 8 ,957000

90 8 ,957625

Sig. ,736 ,076 ,755


____________________________________________________________________________

58

Se muestran las medias de los grupos de subconjuntos

homogéneos.

Basadas en las medias observadas.

El término de error es la media cuadrática (Error) = 6,30E-

005.

a. Usa el tamaño muestral de la media armónica = 8,000

b. Alfa = ,05.

Tabla 27- DHS de Tukey para el número de categorías

De los resultados obtenidos se concluye que a medida que aumenta el número de categorías

en un diagrama de Pareto aumenta el valor del índice. Asimismo, el resultado con 10 ó 20

categorías es estadísticamente similar, pero el valor del índice de Gini aumenta a partir de 30

categorías. A partir de este número el valor de índice no varía significativamente, por lo tanto un

número de categorías igual a 30 o superior se considera adecuado.

8.2.3 Prueba DHS de Tukey para la relación número de elementos-número de categorías

Se realizó una prueba de Tukey con el objetivo de determinar en detalle cómo los niveles de la

variable número de elementos- número de categorías influían en la variable de respuesta. A

continuación se muestran los resultados obtenidos:

DHS de Tukeya,b

M/N N

Subconjunto

1 2 3 4 5

64,0 10 ,905500

32,0 10 ,922000

16,0 10 ,938400

8,0 10 ,954300

1,0 10 ,967300

4,0 10 ,969400

,5 10 ,978200

2,0 10 ,978300

Sig. 1,000 1,000 1,000 1,000 ,055


____________________________________________________________________________

59

Se muestran las medias de los grupos de subconjuntos homogéneos.

Basadas en las medias observadas.

El término de error es la media cuadrática (Error) = 6,30E-005.

a. Usa el tamaño muestral de la media armónica = 10,000

b. Alfa = ,05.

Tabla 28- Prueba DHS de Tukey para la relación número de elementos-número de categorías

De los resultados obtenidos en la prueba de Tukey se puede concluir que la relación número de

elementos- número de categorías de ser de máximo 4. Para reafirmar este resultado se elaboró

un diagrama de caja y bigotes, éste se presenta a continuación:

Ilustración 14- Diagrama de caja área bajo la Curva Cor del índice de Gini


____________________________________________________________________________

60

Apoyado en el diagrama anterior y con base en los resultados de la prueba de Tukey se

observa que la mejor relación para el número de elementos y el número de categorías es de 2

ó de 4 porque en este rango es donde se presenta la menor variabilidad. Las demás resultados

permiten obtener valores menores para el índice de Gini y a pesar de que las relaciones de 0,5

y 1 presentan un valor del índice igual de bueno que con 2 y 4, tienen una mayor variabilidad.

8.2.4 Análisis de Curva Cor

A continuación se presenta el gráfico que se elaboró con las tablas de resultados de las áreas

bajo la Curva Cor. Se gráfica la relación número de número total de elementos en la muestra-

número de categorías (M/N):

Ilustración 15-Áreas bajo la Curva Cor

El gráfico reafirma las conclusiones obtenidas anteriormente, pero mostrando adicionalmente la

combinación de categorías y la relación categorías/elementos, donde se puede apreciar que al

aumentar las categorías en valores bajos de la relación M/N, mejora el área bajo la Curva Cor,


____________________________________________________________________________

61

lo cual no ocurre en valores altos; y simultáneamente, se puede ver que las relaciones M/N

bajas son mejores, de acuerdo a lo escrito anteriormente.

8.3 RESULTADOS PUNTO DE CORTE

8.3.1 Regla de Oro

Para el análisis de los datos y la comparación de las posibles reglas se estableció como Regla

de Oro el parámetro que se le ingresó al sistema para correr la simulación.

8.3.2 Porcentaje de Aciertos de las Reglas

Para evaluar los resultados se decidió usar dos criterios: porcentaje de aciertos y RMSE. La

siguiente tabla muestra los resultados de cada criterio en cuanto a porcentaje de aciertos:

Porcentaje Partición uno y

Porcentaje Categorías

Aciertos

Regla

Pendiente

Aciertos

Regla

Frecuencia

Acumulada

80%

Aciertos

Regla

Categorías

20%

70%- 30% 3,43% 5,56% 0,00%

75%- 25% 0,68% 4,36% 0,00%

80%- 20% 5,93% 39,11% 100%

85%- 15% 3,66% 13,59% 0,00%

90%- 10% 19,78% 31,61% 0,00%

Tabla 29- Porcentaje de aciertos reglas punto de corte

8.3.3 RMSE

La tabla que se muestra a continuación contiene el cálculo del RMSE para cada una de las

reglas:


____________________________________________________________________________

62

RMSE Regla

Pendiente

RMSE Regla

Frecuencia

Acumulada

80%

RMSE Regla

Categorías

20%

10,600

3,195

4,387

Tabla 30- RMSE reglas punto de corte

De hecho, al comparar las proporciones de éxito con una prueba de proporciones se demuestra

que la diferencia es significativa; dicha prueba se muestra a continuación:

Prueba de Proporciones para las Reglas 1 y 2

Casos buenos

Total casos División Varianza Diferencia

2677 40000 0,066925 0,002320551 -0,12155

7539 40000 0,188475 -52,37980835 valor z

1 si hay diferencia entre las reglas

Tabla 31- Prueba de Proporciones para las Reglas 1y 2


Casos buenos


2677 40000 0,066925 0,002358209 -0,133075

8000 40000 0,2 -56,43052969 valor z

1 si hay diferencia entre las reglas

Tabla 32- Prueba de Proporciones para las Reglas 1 y 3


Casos buenos



____________________________________________________________________________

63

7539 40000 0,188475 0,002797106 -0,011525

8000 40000 0,2 -4,120329456 valor z

0,999981083 si hay diferencia entre las reglas

Tabla 33- Prueba de Proporciones para las Reglas 2 y 3

Como se puede observar en los resultados obtenidos, de las tres reglas aquí contrastadas para

encontrar el punto de corte en un diagrama de Pareto, la mejor aquella donde se efectúa el

corte cuando se haya acumulado el 80% de la frecuencia, sin embargo es importante resaltar

que la capacidad de predicción de las tres reglas es aún baja. La regla de la pendiente obtuvo

resultados poco favorables en comparación con las otras dos.


____________________________________________________________________________

64

9. DESARROLLO DE APLICACIÓN DE SOFTWARE

Como última instancia de este trabajo se implementaron los resultados obtenidos durante el

desarrollo en una sencilla aplicación cuya principal funcionalidad fuese la obtención de

diagramas de Pareto que cumplieran con las reglas acá estudiadas.

Para llevar a cabo la aplicación se siguieron las siguientes etapas que serán explicadas

posteriormente:

1. Captura y análisis de requerimientos con base en las reglas definidas anteriormente

2. Diseño del sistema: elaborar el modelo del sistema

3. Implementación del sistema

4. Pruebas del sistema: verificación y validación.

5. Documentación del sistema (implementación y manuales de uso).

9.1 Captura y análisis de Requerimientos

En esta primera fase se utilizó como documento guía la plantilla hacer y usos es una plantilla

creada por los ingenieros Luis Carlos Díaz, Deicy Alvarado y Ángela Carrillo del grupo de

investigación ISTAR del departamento de Ingeniería de Sistemas de la Pontificia Universidad

Javeriana (Chaparro, Alvarado, & Ramos, 2010).

Con base en ésta se definieron los requerimientos que constituyen las características

funcionales y no funcionales que debe contener un sistema. Dada esta definición se procedió a

definir los requerimientos, estos se presentan en la siguiente tabla:

R Requerimientos:

Especificación de las necesidades identificadas en la situación problema

Código-Requerimiento

Especificación Requerimiento

F : Funcional U : Facilidad de "Uso" R : Fiabilidad P : Rendimiento S : Soporte + : (Imple, Interfaz, Empaq, ...)


____________________________________________________________________________

65

R01

El sistema debe permitir el ingreso de la información: número de categorías y cantidad de

elementos por categoría (frecuencia)

F

R02

El sistema debe determinar si un conjunto de datos es paretizable o no, empleando el criterio

del índice de Gini

F

R03 El sistema debe determinar si el tamaño de

muestra es adecuado para el análisis de Pareto F

R04 El sistema debe establecer el punto de corte del

diagrama de Pareto F

R05 El sistema debe generar el gráfico del diagrama

de Pareto F

Tabla 34- Especificación de requerimientos de la aplicación

9.2. Diseño del sistema

9.2.1. Representación Arquitectural

Teniendo en cuenta modelo de vistas arquitecturales “4+1” de Philippe Kruchten (Kruchten,

1995), las vistas usadas para documentar la arquitectura del proyecto a desarrollar son:

9.2.1.1. Vista lógica:

En la vista lógica se representa la funcionalidad que el sistema proporcionara a los usuarios

finales. Esta representa lo que el sistema debe hacer así como las funciones y servicios que

este ofrece. Para una mejor documentación de esta vista, se usaran los patrones EBC (Entity,

control, boundary). Se presenta un Overview de la arquitectura del sistema propuesto en el

proyecto. Este es un primer vistazo a lo que podría ser una posible partición de

responsabilidades dentro del sistema. El Overview de la vista lógica se presenta a continuación:


____________________________________________________________________________

66

Analizador del Índice

de Gini

SWING Interfaz

gráfica

Analizador del

tamaño de muestra

J FREE CHART

Component

Ilustración 16- Overview de la vista lógica de la aplicación

A continuación se muestra el diagrama EBC de la vista lógica:

Ilustración 17- Diagrama EBC de la vista lógica

9.2.1.2 Vista de proceso

En la vista de procesos se muestran (como su nombre lo indica) los procesos que hay en el

sistema y la forma en la que estos se comunican, es decir, el flujo de trabajo paso a paso de

negocio y de operaciones de los componentes que conforman el sistema. Para ofrecer una

mejor documentación de esta vista, se muestra a continuación el diagrama de componentes

UML5:

5 Un diagrama de componentes UML representa cómo un sistema de software es dividido en componentes y

muestra las dependencias entre estos componentes. Los componentes físicos incluyen archivos, cabeceras, bibliotecas compartidas, módulos, ejecutables, o paquetes. Los diagramas de Componentes prevalecen en el campo de la arquitectura de software pero pueden ser usados para modelar y documentar cualquier arquitectura de sistema.

analysis Domain Model

EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version


























SWING Interfaz gráfica Analizador del Índice

de Gini

Analizador tamaño de

muestraJ FREE CHART

Component

http://es.wikipedia.org/wiki/Software

http://es.wikipedia.org/wiki/Componente_de_software

http://es.wikipedia.org/w/index.php?title=Dependencia_(UML)&action=edit&redlink=1

http://es.wikipedia.org/wiki/Archivo_(computaci%C3%B3n)

http://es.wikipedia.org/wiki/Biblioteca_(programaci%C3%B3n)

http://es.wikipedia.org/wiki/M%C3%B3dulo_(programaci%C3%B3n)

http://es.wikipedia.org/wiki/Ejecutable

http://es.wikipedia.org/wiki/Paquete_de_software

http://es.wikipedia.org/wiki/Arquitectura_de_software


____________________________________________________________________________

67

Ilustración 18- Diagrama de componentes UML vista de proceso

9.2.1.3 Vista de implementación

La vista lógica muestra el sistema desde la perspectiva de un programador y se encarga de

mostrar cómo está dividido el sistema (componentes) y su relación (dependencias). A

continuación se muestra el diagrama de componentes UML de esta vista:

class Domain Model

EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version







































Inicio

Capturar la información

(categorías y frecuencia) de

la interfaz gráfica

Calcular el Índice de Gini Analizar Índice de GiniCumple el criterio (Índice

de Gini mayor a 0,7108)

para ser paretizable?

Excepción de

Pareto Mostrar mensaje de error

para indicar que no es

posible elaborar el diagrama

de Pareto

Excepción de

Pareto

Final

Analizar la relación tamaño de

muestra/número de categorías

Calcular el punto de corte

del diagrama

Elaborar diagrama de

Pareto

Final

El tamaño de

muestra es 2 ó

4 veces mayor

al número de

categorías?

Indicar al usuario que el

tamaño de muestra no es

el adecuado

El usuario

decide

terminar el

proceso?

No

Si

No

Si

SiNo


____________________________________________________________________________

68

Ilustración 19- Diagrama de componentes UML vista de implementación

9.2.1.4 Vista de despliegue

En esta vista se muestran todos los componentes físicos del sistema, así como las conexiones

físicas entre esos componentes según la perspectiva de un ingeniero de sistemas. A

continuación se muestra el diagrama de componentes UML de esta vista:

Ilustración 20- Diagrama de componentes UML vista de despliegue

analysis Domain Model

EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version





























pareto.jar

J FREE CHART

Component


muestra


de Gini

SWING Interfaz gráfica

analysis Domain ModelEA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version

EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version






























PC

pareto.jar

J FREE CHART

Component


muestra


de Gini

SWING Interfaz gráfica


____________________________________________________________________________

69

9.2.1.5 Vista de casos de uso

Los casos de uso modelan las funcionalidades del sistema, teniendo en cuenta el objetivo a

cumplir en el sistema, los actores involucrados, las precondiciones y pos condiciones del

sistema, el flujo básico de éxito entre los actores y el sistema, los casos de excepción, caminos

alternativos y requerimientos relacionados con la funcionalidad descrita (Chaparro et al., 2010)

La vista de casos de uso se encarga de relacionar y unir las 4 vistas anteriores. Gracias a esto

se puede tener una trazabilidad de componentes, clases, equipos, etc., para cada caso de uso

que se tenga. A continuación se muestra el caso de uso de la aplicación:

CU-1 Especificación de Caso de Uso

Id Caso de

Uso: CU-1 Nombre: Elaboración Diagrama de Pareto

Objetivo en Contexto

(Resumen):

Con base en la evaluación de los criterios predefinidos,

elaborar, de ser posible, el diagrama de Pareto.

Actores Participantes Usuario de la aplicación

Entradas Número de Categorías

Frecuencia de cada Categoría

Salidas Diagrama de Pareto

Pre-Condiciones

Las categorías debe tener una etiqueta de tipo numérico o

alfanumérico

La frecuencia de cada categoría debe ser un número entero

positivo

Post-Condiciones

Condición final de éxito: Generación del diagrama de Pareto

Condición final de fallo: No generación del diagrama de


____________________________________________________________________________

70

Pareto

FLUJO BÁSICO DE ÉXITO

No. Actor No. Sistema

1 Ingresa las categorías con

su respectiva frecuencia

2 Calcula el Índice de Gini

3 Calcula la relación tamaño de la

muestra/número de categorías

4 Determina el punto de corte del

diagrama de Pareto

5 Elabora el diagrama de Pareto

Variaciones (Caminos

Alternativos):

3.1 Informar que la relación tamaño de la muestra/número

de categorías no es adecuada para elaborar el diagrama de

Pareto.

3.1.1 El sistema pregunta al usuario si desea continuar en

el proceso de generación del diagrama.

3.1.2 Continuar con el paso 4 del flujo básico de éxito si el

usuario desea continuar con la operación.

Variaciones (Caminos de

excepción):

2.1 Si el Índice de Gini es menor a 0,7108 el sistema debe

indicar al usuario que el conjunto de datos no es

paretizable.

2.1.1 El sistema muestra al usuario un mensaje de erro

indicando el índice de Gini calculado y la razón por la que

no es paretizable.

2.1.2 Finaliza la operación actual.

3.1.3 Si el usuario desea terminar la operación finaliza la

operación actual.


____________________________________________________________________________

71

Requerimientos

Asociados: R01, R02, R03, R04, R05

Tabla 35- Vista de casos de uso

9.3 Implementación del sistema

Una vez definidos los requerimientos de la aplicación “El Diagrama de Pareto Rediseñado” y de

tener claro el diseño de la misma se procedió a su implementación. Se realizó con el lenguaje

de programación JAVA en el compilador NetBeans IDE v. 7.2.1. La aplicación se encuentra en

el CD anexo a este trabajo, en la ruta:

El Diagrama de Pareto Rediseñado\pareto\dist. En esta carpeta se encuentra la aplicación que

es: pareto.jar.

Nota importante: para poder ejecutar la aplicación se debe descomprimir previamente toda la

carpeta “El Diagrama de Pareto Rediseñado”.

9.4 Pruebas del sistema: verificación y validación.

Las pruebas de software son las investigaciones empíricas y técnicas cuyo objetivo es

proporcionar información objetiva sobre la calidad del producto a la parte interesada.

Las pruebas se llevaron a cabo teniendo en cuenta los tres escenarios que pueden tener lugar

cuando se ejecuta la aplicación:

Escenario 1: el conjunto de datos sí es paretizable y la relación número total de

elementos- número de categorías cumple con los requisitos de estar entre 3 y 4.

Escenario 2: el conjunto de datos sí es paretizable y la relación número total de

elementos- número de categorías no cumple con los requisitos de estar entre 3 y 4.

Escenario 3: el conjunto de datos no es paretizable.

Se generó una tabla de control que contiene los resultados obtenidos al llevar a cabo los

cálculos con los datos de prueba sin usar la aplicación, o sea los resultados que debería

obtener la aplicación de estar funcionando exitosamente. Se corrió la aplicación con los datos y

se hizo un chequeo de los resultados.


____________________________________________________________________________

72


elementos- número de categorías cumple con los requisitos de estar entre 2 y 4.

A continuación se presentan los resultados de la prueba. El conjunto de datos y las capturas de

pantalla se encuentran en el Anexo F: Conjunto de datos sí paretizable y relación número total

de elementos- número de categorías que sí cumple con los requisitos de estar entre 2 y 4.

Prueba 1 Resultados de los cálculos

Resultados obtenidos

por la aplicación

¿Correcto?

Valor de Índice de Gini 0,799 0,799

¿Paretizable? Sí Sí

Relación elementos- cantidad de categorías

4 4

¿Cumple con lo establecido para la relación?

Sí Sí

Punto de corte C, acumula el

80% de la frecuencia 16

C

Tabla 36- Prueba 1 aplicación "El Diagrama de Pareto Rediseñado


elementos- número de categorías no cumple con los requisitos de estar entre 2 y 4.


pantalla se encuentran en el Anexo G: Conjunto de datos sí paretizable y relación número total

de elementos- número de categorías que no cumple con los requisitos de estar entre 2 y 4.

Prueba 2 Resultados de los cálculos


por la aplicación

¿Correcto?


¿Paretizable? Sí Sí


____________________________________________________________________________

73

9.4.3 Escenario 3: el conjunto de datos no es paretizable.


pantalla se encuentran en el Anexo

H: Conjunto de datos no paretizable.

Prueba 3 Resultados

de los cálculos


por la aplicación

¿Correcto?


¿Paretizable? No

No, se genera

ventana de error


NA NA


NA NA

Punto de corte NA NA


La aplicación fue verificada y validada para su uso, ésta sí cumple con los requisitos requeridos.

9.5 Documentación del sistema (implementación y manuales de uso).

En el CD anexo al trabajo de grado se encuentra la documentación de la implementación al

igual que el manual de uso de la misma. La documentación se encuentra en la ruta:

El Diagrama de Pareto Rediseñado\pareto\dist\javadoc.

Asimismo, el manual de uso es el documento PDF titulado: “Manual de Uso Aplicación El

diagrama de Pareto Rediseñado”.


458,04 458


No

No, se generó

ventana de advertencia

Punto de corte CEDI, acumula el

80% de la frecuencia 8428

CEDI



____________________________________________________________________________

74

10. CONCLUSIONES

Aunque en el origen del principio de los pocos vitales Joseph Juran se inspiró en procesos

generativos Power Law, en este trabajo se evidenció que existe por lo menos una alternativa de

proceso generativo de un problema de Pareto: una distribución multinomial con porcentajes

divididos de acuerdo a una regla de priorización. Esto abre las puertas para la investigación

subsiguiente en fenómenos relacionados con el principio de los pocos vitales.

Queda claro que el Índice de Gini, constituye la mejor regla, de las aquí estudiadas, para decidir

si un fenómeno es susceptible de ser paretizable o no debido a que tiene la capacidad de

medir de forma acertada la desigualdad categórica en cualquier tipo de distribución. En este

trabajo se determinó, mediante la regresión logística, que todo problema es susceptible de ser

paretizable si su Índice de Gini tiene un valor igual o superior a 0,7108 una vez aplicada la

ecuación de regresión logística-.

Los criterios de punto de corte aún son insuficientes para garantizar que se están diferenciando

correctamente los pocos vitales de los muchos triviales. Sin embargo el criterio de la

acumulación del 80% de la frecuencia fue escogido como el mejor de los tres debido a que

presenta la mayor cantidad de aciertos en la identificación del punto de corte en problemas

paretizables. Es importante resaltar que la regla de la pendiente aquí planteada puede ser

refinada matemáticamente y estudiada en trabajos de investigación posteriores debido a que, a

pesar de que sus resultados en este trabajo no fueron los mejores, sí se comprobó que tiene

determinada capacidad para identificar el punto de corte en el diagrama de Pareto.

El resultado del tamaño de muestra indica una conclusión paradójica en la que aumentar la

relación elementos/categorías genera una distorsión estadísticamente significativa; sin

embargo, al observar los resultados, el área bajo la Curva Cor del Índice de Gini baja de 98% a

91% de lo que no es tan significativo desde el punto de vista práctico. El aumento del número

de categorías en un diagrama de Pareto ofrece los mejores resultados: a medida que aumenta

el número de categorías en un diagrama de Pareto aumenta el valor del área bajo la Curva Cor.

Asimismo, la mejor relación para el número de elementos y el número de categorías es de 2 ó

de 4.


____________________________________________________________________________

75

Mediante este trabajo se evidenció la escasa comunicación entre las ciencias y disciplinas; si

bien el índice de Gini es ampliamente utilizado en las ciencias económicas, se desconoce su

funcionalidad en la ingeniería industrial a pesar de ser uno de los indicadores más utilizados

para el análisis estadístico de la desigualdad debido - entre otros motivos- a su facilidad de

cálculo y de interpretación.


____________________________________________________________________________

76

ANEXOS


____________________________________________________________________________

77

ANEXO A: Diagrama Entidad Relación Base de Datos Objetivos 1 y 2


____________________________________________________________________________

78

ANEXO B: Diagrama Entidad Relación Base de Datos Objetivo 3


____________________________________________________________________________

79

ANEXO C: Caso Real 1: Destinatarios Correos Electrónicos de una Persona

Área Frecuenc

ia delta x delta y sumato

ria x sumato

ria y X+x Y-y x*y

1 Presidente 4 0,043 0,000 0,043 0,000 0,043 0,000 0,000

2 Cliente 10 0,043 0,001 0,087 0,001 0,130 0,001 0,000

3 Tecnología 11 0,043 0,001 0,130 0,002 0,217 0,001 0,000

4 Regalías 14 0,043 0,001 0,174 0,004 0,304 0,001 0,000

5 Administrativo 14 0,043 0,001 0,217 0,005 0,391 0,001 0,001

6 Financiero 14 0,043 0,001 0,261 0,006 0,478 0,001 0,001

7 Producción 14 0,043 0,001 0,304 0,008 0,565 0,001 0,001

8 Gestión Humana 23 0,043 0,002 0,348 0,010 0,652 0,002 0,001

9 Crédito 25 0,043 0,002 0,391 0,012 0,739 0,002 0,002

10 Promoción 31 0,043 0,003 0,435 0,015 0,826 0,003 0,002

11 Exportaciones 77 0,043 0,007 0,478 0,022 0,913 0,007 0,007

12 Diseño 78 0,043 0,007 0,522 0,030 1,000 0,007 0,007

13 Costos 88 0,043 0,008 0,565 0,038 1,087 0,008 0,009

14 Operaciones 100 0,043 0,009 0,609 0,048 1,174 0,009 0,011

15 Personal 225 0,043 0,021 0,652 0,069 1,261 0,021 0,027

16

Planeación De La Demanda 226 0,043 0,021 0,696 0,091 1,348 0,021 0,029

17 Ventas 237 0,043 0,022 0,739 0,113 1,435 0,022 0,032

18 Editorial 599 0,043 0,057 0,783 0,170 1,522 0,057 0,087

19 CEDI 618 0,043 0,059 0,826 0,229 1,609 0,059 0,094

20 Varios 730 0,043 0,069 0,870 0,298 1,696 0,069 0,117

21 Mercadeo 1149 0,043 0,109 0,913 0,407 1,783 0,109 0,194

22 Proveedor 2288 0,043 0,217 0,957 0,624 1,870 0,217 0,406

23 COMPRAS 3960 0,043 0,376 1,000 1,000 1,957 0,376 0,735

Total general 10535 1,765

Índice de Gini 0,765


____________________________________________________________________________

80

ANEXO D: Caso Real 2: Número de Trabajos de Grado dirigidos en los

años 2010, 2011 y 2012 en la carrera de Ingeniería Industrial

Directore

s

Trabajo

s

dirigido

s 2010-

11-12

delta x

delta

y

sumatori

a x

sumatori

a y

X+x

Y-y

x*y

1 Antonio

Rivera

1 0,012 0,002 0,012 0,002 0,01

2

0,002 0,000

2 Marroquín

Alberto

1 0,012 0,002 0,025 0,005 0,03

7

0,002 0,000

3 Gabriel

Zambrano

1 0,012 0,002 0,037 0,007 0,06

2

0,002 0,000

4 López

Mauricio

1 0,012 0,002 0,049 0,009 0,08

6

0,002 0,000

5 Lizarazu

Cesar

Germán

1 0,012 0,002 0,062 0,011 0,11

1

0,002 0,000

6 Felipe de

las Casas

1 0,012 0,002 0,074 0,014 0,13

6

0,002 0,000

7 Jorge

David

Hernánde

z Ruiz

1 0,012 0,002 0,086 0,016 0,16

0

0,002 0,000

8 Alex Toro 1 0,012 0,002 0,099 0,018 0,18

5

0,002 0,000

9 David

Hernánde

z

1 0,012 0,002 0,111 0,020 0,21

0

0,002 0,000

1

0

Olga

Lucía

Araoz

1 0,012 0,002 0,123 0,023 0,23

5

0,002 0,001

1

1

Robledo

Diego

1 0,012 0,002 0,136 0,025 0,25

9

0,002 0,001

1

2

González

Sergio

1 0,012 0,002 0,148 0,027 0,28

4

0,002 0,001

1 Carlos 1 0,012 0,002 0,160 0,030 0,30 0,002 0,001


____________________________________________________________________________

81

3 Fúquene 9

1

4

Carlos

Fúquene

1 0,012 0,002 0,173 0,032 0,33

3

0,002 0,001

1

5

Andrés

Torres -

Civil

1 0,012 0,002 0,185 0,034 0,35

8

0,002 0,001

1

6

Páez

Alejandro

1 0,012 0,002 0,198 0,036 0,38

3

0,002 0,001

1

7

Martínez

Ramón

1 0,012 0,002 0,210 0,039 0,40

7

0,002 0,001

1

8

Quintero

Araujo

Carlos

Leonardo

1 0,012 0,002 0,222 0,041 0,43

2

0,002 0,001

1

9

Fernando

Rodríguez

1 0,012 0,002 0,235 0,043 0,45

7

0,002 0,001

2

0

Carlos

Nieto

Porras

2 0,012 0,005 0,247 0,048 0,48

1

0,005 0,002

2

1

Jorge

Silva

2 0,012 0,005 0,259 0,052 0,50

6

0,005 0,002

2

2

Guido

Lacorazza

2 0,012 0,005 0,272 0,057 0,53

1

0,005 0,002

2

3

Leonardo

Quintana

2 0,012 0,005 0,284 0,061 0,55

6

0,005 0,003

2

4

José

Manuel

Medina

2 0,012 0,005 0,296 0,066 0,58

0

0,005 0,003

2

5

Bula

Carlos

2 0,012 0,005 0,309 0,070 0,60

5

0,005 0,003

2

6

Mauro

Rangel

2 0,012 0,005 0,321 0,075 0,63

0

0,005 0,003

2

7

Daniel

Castro

2 0,012 0,005 0,333 0,080 0,65

4

0,005 0,003

2

8

Carlos

Eduardo

Romero

Rojas

2 0,012 0,005 0,346 0,084 0,67

9

0,005 0,003

2

9

Vanegas

Pablo

Emilio

2 0,012 0,005 0,358 0,089 0,70

4

0,005 0,003


____________________________________________________________________________

82

3

0

José

Andrés

Huzgame

2 0,012 0,005 0,370 0,093 0,72

8

0,005 0,003

3

1

Lina

Marcela

Rangel

Martínez

2 0,012 0,005 0,383 0,098 0,75

3

0,005 0,003

3

2

Coronado

Néstor

2 0,012 0,005 0,395 0,102 0,77

8

0,005 0,004

3

3

Fernando

Mariño

2 0,012 0,005 0,407 0,107 0,80

2

0,005 0,004

3

4

Fernando

Salazar

Arrieta

2 0,012 0,005 0,420 0,111 0,82

7

0,005 0,004

3

5

Forero

Estrada

Jairo

2 0,012 0,005 0,432 0,116 0,85

2

0,005 0,004

3

6

Martha

Inés Vera

3 0,012 0,007 0,444 0,123 0,87

7

0,007 0,006

3

7

Guillermo

Andrés

Zapata

Pérez

3 0,012 0,007 0,457 0,130 0,90

1

0,007 0,006

3

8

Álvaro Gil 3 0,012 0,007 0,469 0,136 0,92

6

0,007 0,006

3

9

Juan

Pablo

Caballero

3 0,012 0,007 0,481 0,143 0,95

1

0,007 0,006

4

0

Carlos

Ruiz

3 0,012 0,007 0,494 0,150 0,97

5

0,007 0,007

4

1

Jairo Roa

León

3 0,012 0,007 0,506 0,157 1,00

0

0,007 0,007

4

2

Juan

Carlos

Mora

Uscátegui

4 0,012 0,009 0,519 0,166 1,02

5

0,009 0,009

4

3

Cristina

Martínez

4 0,012 0,009 0,531 0,175 1,04

9

0,009 0,010

4

4

Jairo

Rafael

Montoya

4 0,012 0,009 0,543 0,184 1,07

4

0,009 0,010


____________________________________________________________________________

83

Torres

4

5

Enrique

Romero

Motta

4 0,012 0,009 0,556 0,193 1,09

9

0,009 0,010

4

6

Urrea

Morales

Mónica

4 0,012 0,009 0,568 0,202 1,12

3

0,009 0,010

4

7

Lope

Hugo

Barrero

Solano

4 0,012 0,009 0,580 0,211 1,14

8

0,009 0,010

4

8

Fabio

Aldana

4 0,012 0,009 0,593 0,220 1,17

3

0,009 0,011

4

9

Jorge

Andrés

Alvarado

Valencia

4 0,012 0,009 0,605 0,230 1,19

8

0,009 0,011

5

0

Santiago

Aguirre

5 0,012 0,011 0,617 0,241 1,22

2

0,011 0,014

5

1

Mauricio

López

5 0,012 0,011 0,630 0,252 1,24

7

0,011 0,014

5

2

García

Juan

Carlos

5 0,012 0,011 0,642 0,264 1,27

2

0,011 0,014

5

3

Juan

Guillermo

Galán

5 0,012 0,011 0,654 0,275 1,29

6

0,011 0,015

5

4

José

Alejandro

Páez

Rodríguez

6 0,012 0,014 0,667 0,289 1,32

1

0,014 0,018

5

5

Emilio

Arévalo

6 0,012 0,014 0,679 0,302 1,34

6

0,014 0,018

5

6

Carlos

Rey

6 0,012 0,014 0,691 0,316 1,37

0

0,014 0,019

5

7

Andrés

Posada

6 0,012 0,014 0,704 0,330 1,39

5

0,014 0,019

5

8

Ramón

Mantilla

7 0,012 0,016 0,716 0,345 1,42

0

0,016 0,023

5

9

Oscar

Javier

7 0,012 0,016 0,728 0,361 1,44

4

0,016 0,023


____________________________________________________________________________

84

Jamocó

Ángel

6

0

Carlos

Romero

7 0,012 0,016 0,741 0,377 1,46

9

0,016 0,023

6

1

Vega

Mejía

Carlos

Alberto

7 0,012 0,016 0,753 0,393 1,49

4

0,016 0,024

6

2

Andrés

Zapata

7 0,012 0,016 0,765 0,409 1,51

9

0,016 0,024

6

3

Javier

Hernando

Padilla

Bohórque

z

7 0,012 0,016 0,778 0,425 1,54

3

0,016 0,025

6

4

Manuel

Alejandro

Martá

Quiroz

7 0,012 0,016 0,790 0,441 1,56

8

0,016 0,025

6

5

Ricardo

Ladino

7 0,012 0,016 0,802 0,457 1,59

3

0,016 0,025

6

6

García

Rafael

Guillermo

8 0,012 0,018 0,815 0,475 1,61

7

0,018 0,029

6

7

Jiménez

Gordillo

José

Fernando

9 0,012 0,020 0,827 0,495 1,64

2

0,020 0,034

6

8

Martha

Lucía

Morales

9 0,012 0,020 0,840 0,516 1,66

7

0,020 0,034

6

9

Nicolás

Rincón

10 0,012 0,023 0,852 0,539 1,69

1

0,023 0,038

7

0

Mabel

Olano

Parra

10 0,012 0,023 0,864 0,561 1,71

6

0,023 0,039

7

1

Luis

Enrique

Fajardo

10 0,012 0,023 0,877 0,584 1,74

1

0,023 0,040

7

2

Oswaldo

Prieto

12 0,012 0,027 0,889 0,611 1,76

5

0,027 0,048


____________________________________________________________________________

85

7

3

Carlos

Navarrete

13 0,012 0,030 0,901 0,641 1,79

0

0,030 0,053

7

4

Martha

Manrique

14 0,012 0,032 0,914 0,673 1,81

5

0,032 0,058

7

5

John

Eduardo

Peña

16 0,012 0,036 0,926 0,709 1,84

0

0,036 0,067

7

6

Martha

Patricia

Caro

18 0,012 0,041 0,938 0,750 1,86

4

0,041 0,076

7

7

Camilo

Merchán

18 0,012 0,041 0,951 0,791 1,88

9

0,041 0,077

7

8

Juan

Bernardo

Merino

19 0,012 0,043 0,963 0,834 1,91

4

0,043 0,083

7

9

Rafael

Eduardo

Sandino

23 0,012 0,052 0,975 0,886 1,93

8

0,052 0,101

8

0

Luis

Manuel

Pulido

25 0,012 0,057 0,988 0,943 1,96

3

0,057 0,112

8

1

Gabriel

Gómez

25 0,012 0,057 1,000 1,000 1,98

8

0,057 0,113

Total

general

440 1,5025

3

Índice

de Gini

0,502


____________________________________________________________________________

86

ANEXO E: Caso Real 3: Número de Trabajos de Grado Evaluados en los

años 2010, 2011 y 2012 en la carrera de Ingeniería Industrial

Rótulos de fila

Trabajos evaluados 2010, 2011, 2012

delta x

delta y

sum x

sum y X+x Y-y x*y

1 Daniel Castro 1 0,009 0,002 0,009 0,002 0,009 0,002 0,000

2 Juan Pablo Garzón 1 0,009 0,002 0,018 0,005 0,027 0,002 0,000

3 Daniel Remolina 1 0,009 0,002 0,027 0,007 0,045 0,002 0,000

4 Javier Moreno 1 0,009 0,002 0,036 0,009 0,064 0,002 0,000

5 Sandra Jarro 1 0,009 0,002 0,045 0,011 0,082 0,002 0,000

6 Martha Lucia Morales 1 0,009 0,002 0,055 0,014 0,100 0,002 0,000

7 Paola Hernández 1 0,009 0,002 0,064 0,016 0,118 0,002 0,000

8 Fernando Mariño 1 0,009 0,002 0,073 0,018 0,136 0,002 0,000

9 Carlos Alberto Bula Gazabón 1 0,009 0,002 0,082 0,020 0,155 0,002 0,000

10 Leonardo Quintana 1 0,009 0,002 0,091 0,023 0,173 0,002 0,000

11 Enrique Romero 1 0,009 0,002 0,100 0,025 0,191 0,002 0,000

12 Lindsay Álvarez 1 0,009 0,002 0,109 0,027 0,209 0,002 0,000

13

María Paula Ramírez Tovar 1 0,009 0,002 0,118 0,030 0,227 0,002 0,001

14 Vladimir Castro 1 0,009 0,002 0,127 0,032 0,245 0,002 0,001

15

Daniel Fernando Maya Cerón 1 0,009 0,002 0,136 0,034 0,264 0,002 0,001

16 Javier Padilla 1 0,009 0,002 0,145 0,036 0,282 0,002 0,001

17 Wolfang Pfizenmaier 1 0,009 0,002 0,155 0,039 0,300 0,002 0,001

18 Cristina González 1 0,009 0,002 0,164 0,041 0,318 0,002 0,001

19 Eliana González 1 0,009 0,002 0,173 0,043 0,336 0,002 0,001


____________________________________________________________________________

87

20 Carlos Muñoz 1 0,009 0,002 0,182 0,045 0,355 0,002 0,001

21 César Guzmán 1 0,009 0,002 0,191 0,048 0,373 0,002 0,001

22 Nelson Arce Cortés 1 0,009 0,002 0,200 0,050 0,391 0,002 0,001

23 Alexander Lizcano 1 0,009 0,002 0,209 0,052 0,409 0,002 0,001

24 Jazmín Gaitán 1 0,009 0,002 0,218 0,055 0,427 0,002 0,001

25 Samuel Tirado 1 0,009 0,002 0,227 0,057 0,445 0,002 0,001

26 Carlos Parra 1 0,009 0,002 0,236 0,059 0,464 0,002 0,001

27 Jaime A. Rubiano 1 0,009 0,002 0,245 0,061 0,482 0,002 0,001

28 Jaime Lara 1 0,009 0,002 0,255 0,064 0,500 0,002 0,001

29

Martha Helena Carrillo 1 0,009 0,002 0,264 0,066 0,518 0,002 0,001

30 Oscar Yecid Buitrago 1 0,009 0,002 0,273 0,068 0,536 0,002 0,001

31 Mauricio Rodríguez 1 0,009 0,002 0,282 0,070 0,555 0,002 0,001

32 Alfonso Murillo 1 0,009 0,002 0,291 0,073 0,573 0,002 0,001

33 John Iván Hernández 1 0,009 0,002 0,300 0,075 0,591 0,002 0,001

34 José Manuel Medina 2 0,009 0,005 0,309 0,080 0,609 0,005 0,003

35 Rafael García 2 0,009 0,005 0,318 0,084 0,627 0,005 0,003

36 Oscar Javier Jamocó 2 0,009 0,005 0,327 0,089 0,645 0,005 0,003

37 Juan José Obagi 2 0,009 0,005 0,336 0,093 0,664 0,005 0,003

38 Guido Lacorazza 2 0,009 0,005 0,345 0,098 0,682 0,005 0,003

39 Juliana Sánchez 2 0,009 0,005 0,355 0,102 0,700 0,005 0,003

40

Claudia Liliana Romero Ardila 2 0,009 0,005 0,364 0,107 0,718 0,005 0,003

41 Karen González 2 0,009 0,005 0,373 0,111 0,736 0,005 0,003

42 Paula Mateus 2 0,009 0,005 0,382 0,116 0,755 0,005 0,003

43 Clara Mabel Solano 2 0,009 0,005 0,391 0,120 0,773 0,005 0,004


____________________________________________________________________________

88

44

Diego Ernesto Mendoza Patiño 2 0,009 0,005 0,400 0,125 0,791 0,005 0,004

45 Carlos Fúquene 2 0,009 0,005 0,409 0,130 0,809 0,005 0,004

46

José Fernando Jiménez 2 0,009 0,005 0,418 0,134 0,827 0,005 0,004

47 Martha Manrique 2 0,009 0,005 0,427 0,139 0,845 0,005 0,004

48 Alejandro Páez 2 0,009 0,005 0,436 0,143 0,864 0,005 0,004

49 Álvaro Gil 2 0,009 0,005 0,445 0,148 0,882 0,005 0,004

50 Carlos Navarrete 2 0,009 0,005 0,455 0,152 0,900 0,005 0,004

51 Natalia Tirado 3 0,009 0,007 0,464 0,159 0,918 0,007 0,006

52 Esteban Acuña 3 0,009 0,007 0,473 0,166 0,936 0,007 0,006

53 Oscar Buitrago 3 0,009 0,007 0,482 0,173 0,955 0,007 0,007

54 Hernán Arias 3 0,009 0,007 0,491 0,180 0,973 0,007 0,007

55 Santiago Aguirre 3 0,009 0,007 0,500 0,186 0,991 0,007 0,007

56 Jairo Enrique Roa León 3 0,009 0,007 0,509 0,193 1,009 0,007 0,007

57 Jorge Andrés Alvarado 3 0,009 0,007 0,518 0,200 1,027 0,007 0,007

58 Marcela Cabrera 3 0,009 0,007 0,527 0,207 1,045 0,007 0,007

59 Ricardo Bernal 3 0,009 0,007 0,536 0,214 1,064 0,007 0,007

60 María Olga Silva 3 0,009 0,007 0,545 0,220 1,082 0,007 0,007

61 Ricardo Vásquez 3 0,009 0,007 0,555 0,227 1,100 0,007 0,007

62 Gabriel Zambrano 3 0,009 0,007 0,564 0,234 1,118 0,007 0,008

63

Jean Alexander Pulido 3 0,009 0,007 0,573 0,241 1,136 0,007 0,008

64 Luís Enrique Fajardo 3 0,009 0,007 0,582 0,248 1,155 0,007 0,008

65 Lope Hugo Barrero 4 0,009 0,009 0,591 0,257 1,173 0,009 0,011

66 Ricardo 4 0,009 0,009 0,600 0,266 1,191 0,009 0,011


____________________________________________________________________________

89

Ladino

67 Mauro Rangel 4 0,009 0,009 0,609 0,275 1,209 0,009 0,011

68

Andrés Eduardo Posada 4 0,009 0,009 0,618 0,284 1,227 0,009 0,011

69

Juan Guillermo Galán 4 0,009 0,009 0,627 0,293 1,245 0,009 0,011

70 Gabriel Gómez 4 0,009 0,009 0,636 0,302 1,264 0,009 0,011

71 Martha Inés Vera 4 0,009 0,009 0,645 0,311 1,282 0,009 0,012

72 Gustavo Vivas 4 0,009 0,009 0,655 0,320 1,300 0,009 0,012

73 Cristina Martínez 4 0,009 0,009 0,664 0,330 1,318 0,009 0,012

74

Jairo Rafael Montoya Torres 4 0,009 0,009 0,673 0,339 1,336 0,009 0,012

75 Ángela Niño 4 0,009 0,009 0,682 0,348 1,355 0,009 0,012

76 Juan Carlos García Díaz 4 0,009 0,009 0,691 0,357 1,373 0,009 0,012

77 Oswaldo Prieto 5 0,009 0,011 0,700 0,368 1,391 0,011 0,016

78 Pablo Emilio Vanegas 5 0,009 0,011 0,709 0,380 1,409 0,011 0,016

79 Carlos Alberto Vega Mejía 5 0,009 0,011 0,718 0,391 1,427 0,011 0,016

80 Carlos Rey 5 0,009 0,011 0,727 0,402 1,445 0,011 0,016

81 Andrés Zapata 5 0,009 0,011 0,736 0,414 1,464 0,011 0,017

82

Sergio Remolina Prada 5 0,009 0,011 0,745 0,425 1,482 0,011 0,017

83

Fernando Salazar Arrieta 5 0,009 0,011 0,755 0,436 1,500 0,011 0,017

84 Felipe Nieto 5 0,009 0,011 0,764 0,448 1,518 0,011 0,017

85 NN 5 0,009 0,011 0,773 0,459 1,536 0,011 0,017

86 Camilo Merchán 6 0,009 0,014 0,782 0,473 1,555 0,014 0,021

87 Edgard Jaramillo 6 0,009 0,014 0,791 0,486 1,573 0,014 0,021

88 Manuel Martá 6 0,009 0,014 0,800 0,500 1,591 0,014 0,022

89 Andrés Albán 6 0,009 0,014 0,809 0,514 1,609 0,014 0,022


____________________________________________________________________________

90

90 Ramón Mantilla 7 0,009 0,016 0,818 0,530 1,627 0,016 0,026

91 Fabio Aldana 7 0,009 0,016 0,827 0,545 1,645 0,016 0,026

92 Emilio Arévalo 8 0,009 0,018 0,836 0,564 1,664 0,018 0,030

93 Mónica Morales 8 0,009 0,018 0,845 0,582 1,682 0,018 0,031

94 Claudia González 8 0,009 0,018 0,855 0,600 1,700 0,018 0,031

95 Carlos Nieto 8 0,009 0,018 0,864 0,618 1,718 0,018 0,031

96 Martha Patricia Caro 9 0,009 0,020 0,873 0,639 1,736 0,020 0,036

97 Mabel Olano 9 0,009 0,020 0,882 0,659 1,755 0,020 0,036

98 Mauricio López 9 0,009 0,020 0,891 0,680 1,773 0,020 0,036

99 Rafael Andrés Martínez 9 0,009 0,020 0,900 0,700 1,791 0,020 0,037

100 Camilo Arguello 9 0,009 0,020 0,909 0,720 1,809 0,020 0,037

101 Carlos Rodrigo Ruiz 10 0,009 0,023 0,918 0,743 1,827 0,023 0,042

102 Jorge Silva 11 0,009 0,025 0,927 0,768 1,845 0,025 0,046

103 Carlos Romero 11 0,009 0,025 0,936 0,793 1,864 0,025 0,047

104 Darío Lombana 11 0,009 0,025 0,945 0,818 1,882 0,025 0,047

105 John Peña 11 0,009 0,025 0,955 0,843 1,900 0,025 0,047

106 Nicolás Rincón 12 0,009 0,027 0,964 0,870 1,918 0,027 0,052

107 Alberto Marroquín 12 0,009 0,027 0,973 0,898 1,936 0,027 0,053

108

Juan Bernardo Merino 14 0,009 0,032 0,982 0,930 1,955 0,032 0,062

109 Rafael Sandino 14 0,009 0,032 0,991 0,961 1,973 0,032 0,063

110

Luis Manuel Pulido Moreno 17 0,009 0,039 1,000 1,000 1,991 0,039 0,077


Índice de Gini 0,447


____________________________________________________________________________

91

ANEXO F: Conjunto de datos sí paretizable y relación número total de

elementos- número de categorías que sí cumple con los requisitos de

estar entre 2 y 4.

Categorías Frecuencia delta x delta y sum x sum y X+x Y-y x*y

A 1 0,2 0,05 0,2 0,05 0,2 0,05 0,01

B 1 0,2 0,05 0,4 0,1 0,6 0,05 0,03

C 2 0,2 0,1 0,6 0,2 1 0,1 0,1

D 2 0,2 0,1 0,8 0,3 1,4 0,1 0,14

E 14 0,2 0,7 1 1 1,8 0,7 1,26

20 1 1,54

16 0,54

( ( ))

Capturas de pantalla de la aplicación:


____________________________________________________________________________

92


____________________________________________________________________________

93

ANEXO G: Conjunto de datos sí paretizable y relación número total de

elementos- número de categorías que no cumple con los requisitos

de estar entre 2 y 4.


1 Presidente 4 0,043 0,000 0,043 0,000 0,043 0,000 0,000

2 Cliente 10 0,043 0,001 0,087 0,001 0,130 0,001 0,000

3 Tecnología 11 0,043 0,001 0,130 0,002 0,217 0,001 0,000

4 Regalías 14 0,043 0,001 0,174 0,004 0,304 0,001 0,000

5 Administrativo 14 0,043 0,001 0,217 0,005 0,391 0,001 0,001

6 Financiero 14 0,043 0,001 0,261 0,006 0,478 0,001 0,001

7 Producción 14 0,043 0,001 0,304 0,008 0,565 0,001 0,001

8 Gestión humana 23 0,043 0,002 0,348 0,010 0,652 0,002 0,001

9 Crédito 25 0,043 0,002 0,391 0,012 0,739 0,002 0,002

10 Promoción 31 0,043 0,003 0,435 0,015 0,826 0,003 0,002

11 Exportaciones 77 0,043 0,007 0,478 0,022 0,913 0,007 0,007

12 Diseño 78 0,043 0,007 0,522 0,030 1,000 0,007 0,007

13 Costos 88 0,043 0,008 0,565 0,038 1,087 0,008 0,009

14 Operaciones 100 0,043 0,009 0,609 0,048 1,174 0,009 0,011

15 Personal 225 0,043 0,021 0,652 0,069 1,261 0,021 0,027

16 Planeación de la demanda 226 0,043 0,021 0,696 0,091 1,348 0,021 0,029

17 Ventas 237 0,043 0,022 0,739 0,113 1,435 0,022 0,032

18 Editorial 599 0,043 0,057 0,783 0,170 1,522 0,057 0,087

19 CEDI 618 0,043 0,059 0,826 0,229 1,609 0,059 0,094

20 Varios 730 0,043 0,069 0,870 0,298 1,696 0,069 0,117

21 Mercadeo 1149 0,043 0,109 0,913 0,407 1,783 0,109 0,194

22 Proveedor 2288 0,043 0,217 0,957 0,624 1,870 0,217 0,406

23 Compras 3960 0,043 0,376 1,000 1,000 1,957 0,376 0,735


0,765

( ( ))


____________________________________________________________________________

94



____________________________________________________________________________

95


____________________________________________________________________________

96

ANEXO H: Conjunto de datos no paretizable.


1 1 0,2 0,2 0,2 0,2 0,2 0,2 0,04

2 1 0,2 0,2 0,4 0,4 0,6 0,2 0,12

3 1 0,2 0,2 0,6 0,6 1 0,2 0,2

4 1 0,2 0,2 0,8 0,8 1,4 0,2 0,28

5 1 0,2 0,2 1 1 1,8 0,2 0,36

5 1 1

0

( ( ))



____________________________________________________________________________

97

REFERENCIAS

Chang, S. K. (2003). Data structures and algorithms World Scientific.

Chaparro, L. C. D., Alvarado, D., & Ramos, A. C. (2010). Diseño de una asignatura basado en

aprendizaje activo que separa el análisis y diseño de la programación orientada a objetos

active learning design of a course which separates the analysis and the design from the

object oriented. Revista Avances En Sistemas e Informática, 7(1), 59-70.

Dean, A. M., & Voss, D. (1999). Design and analysis of experiments Springer Verlag.

Downey, A. B. (2001). Evidence for long-tailed distributions in the internet. Proceedings of the

1st ACM SIGCOMM Workshop on Internet Measurement, 229-241.

Grosfeld-Nir, A., Ronen, B., & Kozlovsky, N. (2007). The pareto managerial principle: When

does it apply? International Journal of Production Research, 45(10), 2317-2325.

doi:10.1080/00207540600818203

Kruchten, P. B. (1995). The 4+1 view model of architecture. Software, IEEE, 12(6), 42-50.

doi:10.1109/52.469759

Mitzenmacher, M. (2004). A brief history of generative models for power law and lognormal

distributions. Internet Mathematics, 1(2), 226-251. doi:10.1080/15427951.2004.10129088

Mohan Pandey, H. (2008). Desing, analysisand algorithms (1st ed.) Firewall Media.

Newman, M. E. (2005). Power laws, pareto distributions and zipf's law. Contemporary Physics,

46(5), 323-351.


____________________________________________________________________________

98

Puntambekar, A. A. (2008). Analysis and design of algorithms Technical Publications.

Xhafa, F., & Vazquez, P. (2006). In Editorial Paraninfo (Ed.), Programacion en C++ para

ingenieros (1st ed.)

Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado EL DIAGRAMA DE ... · 2017. 2....

Documents

Transcript of Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado EL DIAGRAMA DE ... · 2017. 2....