Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado EL DIAGRAMA DE ... · 2017. 2....
Transcript of Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado EL DIAGRAMA DE ... · 2017. 2....
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
1
EL DIAGRAMA DE PARETO REDISEÑADO
MAYRA ANGÉLICA PACHECO MEJÍA
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ
2013
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
2
EL DIAGRAMA DE PARETO REDISEÑADO
Autor:
MAYRA ANGÉLICA PACHECO MEJÍA
Trabajo de Grado para optar por el título de Ingeniero Industrial
Director:
Ingeniero Jorge Andrés Alvarado Valencia
.
PONTIFICIA UNIVERSIDAD JAVERIANA
FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ
2013
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
3
CONTENIDO
1. INTRODUCCIÓN ............................................................................................................... 10
2. OBJETIVOS ....................................................................................................................... 11
2.1 OBJETIVO GENERAL ..................................................................................................... 11
2.2 OBJETIVOS ESPECÍFICOS ............................................................................................ 11
3. PLANTEAMIENTO DEL PROBLEMA .................................................................................... 12
4. JUSTIFICACIÓN DEL PROYECTO ....................................................................................... 17
5. MARCO TEÓRICO ................................................................................................................ 18
5.1.1 Distribuciones Power Law y Zipf’s Law ......................................................................... 18
5.1.2 La distribución lognormal ......................................................................................... 19
5.1.3 Distribución Multinomial ................................................................................................ 20
5.3 Métodos para identificar que una muestra sigue la regla de los pocos vitales ............. 22
5.3.3. Entropía ....................................................................................................................... 24
5.3.4. Índice de Gini ............................................................................................................... 25
5.3.5 Regla 80-20 .................................................................................................................. 26
5.3.6 Gráficos P-P ................................................................................................................. 26
5.3.7 Bondad de Ajuste .......................................................................................................... 26
5.4 Regresión Logística ......................................................................................................... 26
5.5 Métricas de la calidad de una predicción ......................................................................... 28
5.5.1 Curva Cor ..................................................................................................................... 28
5. 5.2 RMSE .......................................................................................................................... 29
5.6 Métodos para identificar el punto de corte en un diagrama de Pareto .............................. 29
5.6.1 Cómo establecer el punto de corte en un diagrama de Pareto según el profesor de
ingeniería industrial Carlos Navarrete. ................................................................................... 29
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
4
5.6.2 Análisis Estadístico de los diagramas de Pareto .......................................................... 30
5.7 Patrones EBC (Entity-Control-Boundary) ......................................................................... 30
5.7.1 Elementos Entidad ........................................................................................................ 31
5.7.2 Elementos de Control.................................................................................................... 31
5.7.3 Elementos de Frontera .................................................................................................. 31
6. EVALUACIÓN DE REGLAS CANDIDATAS .......................................................................... 32
6.1 CONJUNTO DE CRITERIOS MÍNIMOS PARA SABER SI UNA REGLA ES
SUSCEPTIBLE DE SER USADA. .......................................................................................... 32
6.2 EVALUACIÓN DE LAS REGLAS CANDIDATAS PARA PARETIZACIÓN ...................... 33
6.3 REGLAS CANDIDATAS PARA DEFINIR PUNTO DE CORTE ........................................ 35
6.3.1 Regla de corte según cambio de la pendiente en la curva del diagrama ...................... 35
6.3.2 Regla de Corte 80-20 basada en la frecuencia acumulada de las causas .................... 37
6.3.3 Regla de Corte 80-20 basada en el número de causas ................................................. 37
7. LA SIMULACIÓN ................................................................................................................... 38
7.1. Desarrollo de la simulación de los modelos generativos ................................................ 39
7.1.1 Parámetros de la simulación ......................................................................................... 39
7.2 Diseño experimental de la simulación .............................................................................. 44
7.2.1 Objetivos del estudio ..................................................................................................... 44
7.2.2. Factores ....................................................................................................................... 44
7.2.3 Réplicas ........................................................................................................................ 46
7.3 DATOS TÉCNICOS DE LA SIMULACIÓN ....................................................................... 48
8. ANÁLISIS DE LOS DATOS ................................................................................................... 49
8.1 RESULTADOS REGLAS DE PARETIZACIÓN ................................................................ 49
8.1.1 Regla de Oro ................................................................................................................ 49
8.1.2 Regresión Logística Binaria .......................................................................................... 50
8.1.3 Análisis de la Curva Cor ............................................................................................... 52
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
5
8.1.4 Punto de corte según el análisis de la Curva Cor .......................................................... 53
8.1.5 Índice de Gini aplicado a Casos Reales ........................................................................ 55
8.2 RESULTADOS TAMAÑO DE MUESTRA ........................................................................ 56
8.2.1 ANOVA ......................................................................................................................... 56
8.2.2 Prueba DHS de Tukey para el número de categorías ................................................... 57
8.2.3 Prueba DHS de Tukey para la relación número de elementos-número de categorías .. 58
8.2.4 Análisis de Curva Cor ................................................................................................... 60
8.3 RESULTADOS PUNTO DE CORTE ................................................................................ 61
8.3.1 Regla de Oro ................................................................................................................ 61
8.3.2 Porcentaje de Aciertos de las Reglas ............................................................................ 61
8.3.3 RMSE ...................................................................................................................... 61
9. DESARROLLO DE APLICACIÓN DE SOFTWARE ............................................................... 64
9.2. Diseño del sistema .......................................................................................................... 65
9.2.1. Representación Arquitectural ....................................................................................... 65
9.2.1.1. Vista lógica: .............................................................................................................. 65
9.2.1.2 Vista de proceso ....................................................................................................... 66
9.2.1.3 Vista de implementación .......................................................................................... 67
9.2.1.4 Vista de despliegue .................................................................................................. 68
9.2.1.5 Vista de casos de uso ................................................................................................ 69
9.3 Implementación del sistema ............................................................................................. 71
9.4 Pruebas del sistema: verificación y validación. ................................................................ 71
9.4.1 Escenario 1: el conjunto de datos sí es paretizable y la relación número total de
elementos- número de categorías cumple con los requisitos de estar entre 2 y 4. ................. 72
9.4.2 Escenario 2: el conjunto de datos sí es paretizable y la relación número total de
elementos- número de categorías no cumple con los requisitos de estar entre 2 y 4. ............ 72
9.4.3 Escenario 3: el conjunto de datos no es paretizable. .................................................... 73
9.5 Documentación del sistema (implementación y manuales de uso). ................................. 73
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
6
10. CONCLUSIONES ................................................................................................................ 74
ANEXOS ................................................................................................................................... 76
ANEXO A: Diagrama Entidad Relación Base de Datos Objetivos 1 y 2 ..................................... 77
ANEXO B: Diagrama Entidad Relación Base de Datos Objetivo 3 ............................................ 78
ANEXO C: Caso Real 1: Destinatarios Correos Electrónicos de una Persona .......................... 79
ANEXO D: Caso Real 2: Número de Trabajos de Grado dirigidos en los años 2010, 2011 y 2012
en la carrera de Ingeniería Industrial ......................................................................................... 80
ANEXO E: Caso Real 3: Número de Trabajos de Grado Evaluados en los años 2010, 2011 y
2012 en la carrera de Ingeniería Industrial ................................................................................ 86
ANEXO F: Conjunto de datos sí paretizable y relación número total de elementos- número de
categorías que sí cumple con los requisitos de estar entre 2 y 4. .............................................. 91
ANEXO G: Conjunto de datos sí paretizable y relación número total de elementos- número de
categorías que no cumple con los requisitos de estar entre 2 y 4. ............................................ 93
ANEXO H: Conjunto de datos no paretizable. ........................................................................... 96
REFERENCIAS ......................................................................................................................... 97
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
7
LISTA DE TABLAS
Tabla 1- Contraste entre métodos para llevar a cabo el Diagrama de Pareto ............................ 14
Tabla 2- Parámetros generales de estudio de las distribuciones ............................................... 22
Tabla 3- CCDF de las muestras de las distribuciones Lognormal y Pareto con
comportamiento de la cola similar. ............................................................................................ 23
Tabla 4- Límites de Control basados en entropía ...................................................................... 24
Tabla 5- Listado de Criterios que debe cumplir una regla de paretización: propiedades de los
algoritmos.................................................................................................................................. 33
Tabla 6- Evaluación de los criterios en las posibles reglas de paretización ............................... 34
Tabla 7- Datos ejemplo punto de corte ...................................................................................... 35
Tabla 8- Parámetros simulación multinomial ............................................................................. 39
Tabla 9- Parámetros simulación normal .................................................................................... 41
Tabla 10-Parámetros simulación lognormal ............................................................................... 42
Tabla 11- Parámetros simulación Preferential attachment ......................................................... 43
Tabla 12- Descripción de factores simulación multinomial ......................................................... 45
Tabla 13- Descripción de factores simulación normal ................................................................ 45
Tabla 14- Descripción de factores simulación lognormal ........................................................... 46
Tabla 15- Descripción de factores simulación Preferential attachment ...................................... 46
Tabla 16- Réplicas simulación multinomial ................................................................................ 47
Tabla 17- Tabla 15- Réplicas simulación normal ....................................................................... 47
Tabla 18- Réplicas simulación lognormal .................................................................................. 47
Tabla 19- Réplicas simulación Preferential attachment ............................................................. 48
Tabla 20- Réplicas simulación multinomial ................................................................................ 48
Tabla 21- Reglas de Oro paretización para cada distribución .................................................... 49
Tabla 22- Variables en la ecuación resultado de la regresión para el parámetro Alpha ............. 51
Tabla 23- Variables en la ecuación de la regresión para el índice de Gini ................................. 51
Tabla 24- Variables en la ecuación de la regresión para la entropía.......................................... 51
Tabla 25- Áreas bajo la Curva Cor reglas de paretización ......................................................... 53
Tabla 26- ANOVA para el índice de Gini ................................................................................... 57
Tabla 27- DHS de Tukey para el número de categorías ............................................................ 58
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
8
Tabla 28- Prueba DHS de Tukey para la relación número de elementos-número de categorías
.................................................................................................................................................. 59
Tabla 29- Porcentaje de aciertos reglas punto de corte ............................................................. 61
Tabla 30- RMSE reglas punto de corte ...................................................................................... 62
Tabla 31- Prueba de Proporciones para las Reglas 1y 2 ........................................................... 62
Tabla 32- Prueba de Proporciones para las Reglas 1 y 3 .......................................................... 62
Tabla 33- Prueba de Proporciones para las Reglas 2 y 3 .......................................................... 63
Tabla 34- Especificación de requerimientos de la aplicación .................................................... 65
Tabla 35- Vista de casos de uso ............................................................................................... 71
Tabla 36- Prueba 1 aplicación "El Diagrama de Pareto Rediseñado ......................................... 72
Tabla 37- Prueba 2 aplicación "El Diagrama de Pareto Rediseñado ......................................... 73
Tabla 38- Prueba 3 aplicación "El Diagrama de Pareto Rediseñado ......................................... 73
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
9
LISTA DE ILUSTRACIONES
Ilustración 1- Funciones de densidad de probabilidad para diferentes α con xm = 1 (Wikipedia,
2012) ......................................................................................................................................... 14
Ilustración 2-Diagrama de Pareto diferenciado y diagrama de Pareto casi uniforme (Grosfeld-
Nir, Ronen, & Kozlovsky, 2007) ................................................................................................. 15
Ilustración 3- Límites de control basados en entropía ................................................................ 25
Ilustración 4- Tabla de contingencia resultado de un análisis Cor ............................................. 29
Ilustración 5- Diagrama de barras ejemplo punto de corte ......................................................... 36
Ilustración 6- Línea de pendiente ejemplo punto de corte .......................................................... 36
Ilustración 7- Ejemplo inserción parámetros simulación multinomial.......................................... 40
Ilustración 8- Ejemplo inserción parámetros simulación normal ................................................. 41
Ilustración 9- Ejemplo inserción parámetros simulación lognormal ............................................ 42
Ilustración 10- Ilustración 8- Ejemplo inserción parámetros simulación Preferential Attachment 43
Ilustración 11- Visualización Excel Base de Datos con la regla de oro ...................................... 50
Ilustración 12- Curva Cor para las tres reglas candidatas .......................................................... 52
Ilustración 13- Coordenadas de la Curva Cor con el punto de corte .......................................... 54
Ilustración 14- Diagrama de caja área bajo la Curva Cor del índice de Gini .............................. 59
Ilustración 15-Áreas bajo la Curva Cor ...................................................................................... 60
Ilustración 16- Overview de la vista lógica de la aplicación ........................................................ 66
Ilustración 17- Diagrama EBC de la vista lógica ........................................................................ 66
Ilustración 18- Diagrama de componentes UML vista de proceso ............................................. 67
Ilustración 19- Diagrama de componentes UML vista de implementación ................................. 68
Ilustración 20- Diagrama de componentes UML vista de despliegue ......................................... 68
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
10
1. INTRODUCCIÓN
El Principio de los Pocos Vitales y los Muchos Triviales, más conocido como Principio de
Pareto, representa una herramienta importante dentro de la ingeniería industrial, puesto que
permite determinar prioridades de acción en las compañías donde el uso eficiente de los
escasos recursos resulta de suma importancia. Dada la naturaleza empírica de este principio,
existen actualmente varias metodologías para la elaboración y el análisis del diagrama de
Pareto, pero no hay una estandarización de esta herramienta. Este hecho es lamentable, dado
el uso extensivo que muchas profesiones, incluyendo la Ingeniería Industrial, hacen de esta
herramienta.
El presente trabajo de grado se realizó con base en tres enfoques que permitieran dar solución
al problema de la no estandarización del diagrama de Pareto. El primero consistió en dar
respuesta a si determinado problema es susceptible de ser paretizable o no, para poder
continuar con los pasos siguientes de elaboración del diagrama; para ello se realizó una
simulación en la que se contrastaron diferentes distribuciones de probabilidad con el objetivo de
analizar bajo qué conjunto de situaciones y con qué combinación de parámetros daban origen a
problemas paretizables.
Una vez se determinó correctamente si un problema que está siendo estudiado es paretizable o
no, el estudio se enfocó en analizar diversos tamaños de muestra, según el número de causas
de un problema para garantizar la realización de un diagrama de Pareto adecuado. Con base
en la simulación descrita en el punto anterior se estudió la susceptibilidad y las variaciones que
tenían lugar en los resultados cuando el número de causas y el tamaño de muestra se
modificaban.
En tercer lugar, se evaluaron diversas reglas para determinar el punto de corte de un diagrama
de Pareto para detectar la más acertada. Esto se realizó con el estudio de los resultados de la
simulación descrita anteriormente, pero únicamente para casos paretizables.
Finalmente, como última instancia de este trabajo, se implementaron los resultados obtenidos
durante todo el desarrollo en una aplicación cuya principal funcionalidad fuese la obtención de
diagramas de Pareto que cumplieran con las reglas acá estudiadas.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
11
2. OBJETIVOS
2.1 OBJETIVO GENERAL
Elaborar una propuesta que contenga el rediseño formal de la metodología de aplicación del
principio de los Pocos Vitales y los Muchos Triviales con base en los avances que existen
actualmente en distribuciones Power Law y Zipf’s Laws.
2.2 OBJETIVOS ESPECÍFICOS
1. Proponer una solución en forma de regla basada en la calidad relativa de diferentes
criterios factibles que permita determinar si un problema en el que se desea priorizar es
paretizable o no.
2. Determinar un tamaño de muestra adecuado, según el número de causas de un
problema, que garantice la realización de un diagrama de Pareto adecuado.
3. Proponer una solución en forma de regla que esté basada en la calidad relativa de
diferentes criterios para determinar el punto de corte del diagrama de Pareto.
4. Automatizar el uso de las reglas determinadas en los puntos anteriores en el proceso de
elaboración de un diagrama de Pareto.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
12
3. PLANTEAMIENTO DEL PROBLEMA
Existe una amplia variedad de fenómenos en las ciencias exactas, naturales y sociales que
siguen distribuciones Power Law. Se dice que una variable aleatoria X no negativa tiene una
distribución Power Law si:
P [X ≥ x] ≈ cx-α
Ecuación 1
Donde c, α ≥ 0. En este tipo de distribuciones las colas caen de acuerdo al índice α, lo que
genera que éstas sean más pesadas en comparación con las de otros modelos más comunes
tales como la distribución exponencial. En algunos contextos y dependiendo del área de
estudio, las Power Law son conocidas también como Distribuciones de Pareto, Heavy-Tailed
Distributions (Distribuciones de cola pesada) o Zipf Laws.
A finales del siglo XIX y principios del siglo XX varios autores realizaron trabajos e
investigaciones sobre las distribuciones Power Law en diferentes contextos y diversas
disciplinas. Uno de los más reconocidos descubrimientos sobre las distribuciones Power Law se
le atribuye a George Kingsley Zipf (1902-1950), un lingüista que observó en su estudio acerca
de la frecuencia de la aparición de palabras en un texto, que se dio a conocer con el nombre de
Zipf’s law (Zipf, 1932). Sin embargo, veinte años antes, el economista italiano Vilfredo Pareto
(1848–1923) había intentado explicar la forma cómo se distribuían los ingresos entre los
habitantes de un país, lo que proporcionó como resultado la Distribución de Pareto que
básicamente es una Power Law.
Tal fenómeno, que Pareto había descubierto en la distribución de la riqueza, fue identificado por
el experto en calidad Joseph Juran (1904-2008) como un principio universal, aplicable a
muchos campos. Por ello, en el año 1950 estableció y formuló de forma empírica el Principio de
Pareto (Jurán, 1951), un poderoso criterio para la toma de decisiones que se ha utilizado
principalmente en áreas como control de calidad, producción, criptoanálisis, ingeniería
industrial, administración pública, gestión de la investigación, entre otras. El principio, también
conocido como La Regla del 80-20, establece que la mayor parte de los problemas (80%) son el
resultado de unos pocos fenómenos o fuentes (20%), por lo tanto para obtener mayores
beneficios en la búsqueda de la calidad y la productividad hay que centrarse en trabajar en ese
80%. Años después de su formulación y dado que el principio fue una observación empírica,
Juran reconoció que éste no debía llevar el nombre de Principio de Pareto sino Principio de los
Pocos Vitales y los Muchos Triviales y la aplicó inicialmente al control de la calidad, señalando
que con mucha frecuencia, la mayoría de los defectos y el costo que generan se deben a unas
pocas causas.
Dada la naturaleza empírica del principio de Pareto, existen actualmente varias metodologías
para la elaboración y el análisis de dicho diagrama. Por ejemplo Hitoshi Kume, conocido
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
13
experto en calidad, propone la siguiente forma para elaborar diagramas de Pareto (Kume,
1992):
Paso1: Decidir qué problemas va a investigar y cómo recoger los datos
Paso 2: Diseñar una tabla para conteo de datos, con espacio suficiente para registrar
totales.
Paso 3: Diligenciar la tabla y calcular los totales.
Paso 4: Elaborar una tabla de datos para el diagrama con la lista de ítems, los totales
individuales, los totales acumulados, la composición porcentual y los porcentajes
acumulados.
Paso 5: Organizar los ítems por orden de cantidad.
Paso 6: Dibujar dos ejes verticales y uno horizontal.
Paso 7: Construir un diagrama de barras.
Paso 8: Dibujar la curva acumulada (curva de Pareto). Marcar los valores acumulados
en la parte superior y conectar los puntos con una línea.
Paso 9 (final): Escribir en el diagrama cualquier información necesaria.
Después del noveno paso no existe ninguna otra instrucción ni explicación alguna. Por lo tanto
no se describe ninguna técnica sobre cómo escoger las causas acerca de las que se va a
trabajar ni cómo interpretar correctamente el diagrama.
Para visualizar más a fondo esta situación, se presenta a continuación, una tabla comparativa
en la que se llevó a cabo un contraste sobre las instrucciones para realizar el diagrama de
Pareto, tomadas de libros de tres importantes autores en materia de ingeniería industrial, más
específicamente de gestión de calidad.
LIBROS
Control Estadístico de la
Calidad (Carot, 1998)
Estadística industrial
moderna diseño y control
de la calidad y la
confiabilidad (Kenett).
Administración y
Control de la Calidad
(Evans, 2008).
Vicente Carot Alonso Ron S. Kenett James R. Evans,William
M. Lindsay
¿Cómo se debe elaborar el diagrama de Pareto?
1. Definir el tipo de problema que
se va a investigar.
Cuando se reúnen
observaciones y se
clasifican en distintas
categorías de acuerdo con
Un diagrama de Pareto
es un histograma de los
datos ordenados de la
frecuencia mayor a la
2. Definir el método y el período
de recolección de los datos.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
14
3. Construir una tabla de conteo
de datos.
criterios válidos y claros se
puede trazar un Diagrama
de Pareto
menor.
4. Construir el diagrama: gráfico
de barras y una curva
acumulada.
El diagrama pondrá de
manifiesto la desigual
distribución de la frecuencia
entre las clases establecidas en
el eje de abscisas.
Tabla 1- Contraste entre métodos para llevar a cabo el Diagrama de Pareto
En el primer libro se especifican los pasos de elaboración, en los otros dos solo se define qué
es el diagrama y su utilidad y luego, en los tres, se muestra un ejemplo ya elaborado. Ninguno
de los autores habla de cómo se van a escoger o cómo se deberían agrupar las causas y
tampoco existe una instrucción clara de en dónde se debe hacer el corte en el diagrama. Esto
es otro ejemplo de la baja estandarización y definición del Principio de los Pocos Vitales y los
Muchos Triviales.
Se muestra a continuación la figura 1 con la función de densidad de la Distribución de Pareto
para diferentes valores del índice α:
( ) {
Ecuación 2
Donde xm es el valor mínimo posible y α es un parámetro positivo.
Ilustración 1- Funciones de densidad de probabilidad para diferentes α con xm = 1 (Wikipedia, 2012)
De la gráfica anterior se observa que al variar los parámetros, cambia considerablemente el
diagrama obtenido. Por lo tanto, al elaborar un diagrama de Pareto sí se debe prestar atención
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
15
en la forma en cómo se escogen las causas y en la forma en cómo éstas se agrupan, y en
general en la forma en cómo se va a trabajar el problema; ya que, así se trate de la misma
situación, los resultados van a ser diferentes y, por lo tanto, también el análisis.
Dada su importancia como herramienta para establecer prioridades en la ingeniería industrial
resulta inconveniente que no exista un principio y un proceso unificado para el uso del mismo,
lo que puede generar elaboración e interpretaciones erróneas al usar este diagrama. Tres de
los puntos más importantes que no están estandarizados para el correcto uso esta herramienta
son:
No existe una forma clara para determinar si un problema es paretizable o no: se usa el
diagrama sin saber si se trata de un problema que es susceptible de abordar mediante
un diagrama del Principio de los Pocos Vitales y los Muchos Triviales; por tanto, puede
haber un abuso de esta regla (Grosfeld, 2007).
En este sentido, un gerente que esté observando un diagrama de Pareto puede
preguntarse qué tanta es la utilidad de este diagrama para guiarlo en cómo se va a
concentrar en un pequeño número de atributos que son una fuente importante de
problemas. Por ejemplo, la figura 2 describe una situación en la que, intuitivamente,
sería conveniente centrarse en los tres primeros atributos (20%). En contraste, la figura
3 muestra una realidad donde el diagrama de Pareto es casi uniforme y, por lo tanto, el
principio de Pareto no debe ser utilizado.
En este aspecto ya se han realizado algunos estudios que se encuentran en
publicaciones científicas, dos de interés en este trabajo son: The Pareto Principle: Its
Use And Abuse (Sanders, 1987) donde se habla acerca de cómo, en muchas ocasiones,
se da un mal uso a esta herramienta ya que se discute la importancia de la Regla de
80/20 y se examina la importancia de la norma aplicada al control estadístico de la
calidad y las aplicaciones potenciales en la comercialización. Aquí se concluye que, si
bien la Regla de 80/20 es una guía valiosa, es obviamente limitada ya que las
circunstancias están en constante evolución. La segunda es The Pareto managerial
principle: when does it apply? (Grosfeld, 2007) donde se explica que, a veces, un
diagrama de Pareto es menos informativo de lo que podría ser, ya que la frecuencia
relativa es casi uniforme en el gráfico. El objetivo del estudio es proporcionar una
herramienta de análisis (índice) basado en la entropía.
Ilustración 2-Diagrama de Pareto diferenciado y diagrama de Pareto casi uniforme (Grosfeld-Nir, Ronen, &
Kozlovsky, 2007)
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
16
No hay un criterio para escoger las causas con las que se va a realizar el análisis y
cómo se deben agrupar o si se deben agrupar las mismas.
Cabe señalar aquí que, en la creación de un diagrama de Pareto, la clasificación es
generalmente una simple acción de recolección de información. Sin embargo, como de
la selección de los atributos que son candidatos a las medidas correctivas dependen los
resultados presentados en el diagrama de Pareto, el esfuerzo de recopilación de
información necesita atención ya que los errores en la clasificación pueden dar lugar a
medidas de corrección irrelevantes. Más específicamente, si se va a realizar un análisis
de Pareto, se puede dar el caso de que se tenga una cantidad grande de causas y muy
pocos datos para realizar el análisis, lo que traería como resultado un diagrama y un
análisis de la situación incorrectos; al igual que si se posee un número extenso de datos
y sólo unas pocas causas. Por eso resulta necesario identificar el número adecuado de
datos con respecto a la cantidad de causas identificadas en el problema a tratar.
No existe una forma estándar para determinar, después de elaborado el diagrama,
cuáles son las causas sobre las que realmente se debe trabajar (los pocos vitales).
Existen algunas técnicas empíricas aplicadas por profesores, una de las cuales se
explicará en el marco teórico.
Dicho de otro modo, no está claro analíticamente cuál debe ser el punto de corte en la
línea de frecuencia acumulada que se obtiene al realizar el diagrama. Por ejemplo, en la
figura 2, donde se presenta un típico diagrama de Pareto si el 80% de la frecuencia
estuviese, aproximadamente originado por las cuatro primeras causas, no se tendría
plena certeza de si allí se debería hacerse el corte. Podría alguien, a criterio personal,
decidir trabajar únicamente en las tres primeras causas o sólo en la primera, dado que
no se utilizó una herramienta de tipo matemática para establecer dónde debería hacerse
el corte.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
17
4. JUSTIFICACIÓN DEL PROYECTO
El Principio de los Pocos Vitales y los Muchos Triviales representa una herramienta importante
dentro de la ingeniería industrial para efectuar mejoras. En general, el diagrama puede ser
usado dentro de esta disciplina (Carot, 1998):
Como herramienta para realizar priorizaciones, por ejemplo, priorizar productos dentro
de una cadena de abastecimiento, problemas a ser atacados, entre otros.
Como técnica de análisis de problemas de calidad pero también de los problemas de la
más diversa naturaleza: causas de defectos en procesos de manufactura, causas del
absentismo laboral, causas de accidentes, causas en las paradas de las máquinas, etc.
Todos estos son también problemas que pueden ser abordados desde la perspectiva del
Principio de Pareto.
Para marcar objetivos concretos: se deben obtener mejoras teniendo en cuenta que se
dispone de recursos materiales y humanos limitados.
Para evaluar los efectos de las mejoras.
Dada la naturaleza empírica de este principio, existen actualmente varias metodologías para la
elaboración y el análisis del diagrama de Pareto, pero no hay una estandarización de esta
herramienta, como se observa en el planteamiento del problema. Por ello, el impacto que puede
tener la estandarización del Principio de los Pocos Vitales y los Muchos Triviales resulta
importante porque llevaría a un correcto uso de esta herramienta en diferentes áreas del
conocimiento, por lo que se pretende generalizar y perfeccionar esta metodología para que deje
de ser solo un principio empírico y sus conclusiones adquieran mayor validez.
Finalmente, cabe resaltar que es importante generar avances en esta herramienta, dado que
existe una indiscutible relación histórica y matemática entre este diagrama y las distribuciones
Power Law, sobre las cuales sí se ha realizado un amplio estudio reciente y se ha demostrado
su importancia. Esto se puede ver en trabajos como Zipf’s law unzipped (Baek, 2011) que serán
definidos en el marco teórico y usados para los fines de este trabajo.
Una refinación del Principio de los pocos vitales y los muchos triviales generaría un impacto en
la toma de decisiones empresariales, en todos los niveles de la organización.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
18
5. MARCO TEÓRICO
5.1 DISTRIBUCIONES DE PROBABILIDAD
5.1.1 Distribuciones Power Law y Zipf’s Law (Mitzenmacher, 2004)
Cuando la probabilidad de medir un valor particular de cierta cantidad varía inversamente como
una potencia de ese valor, se dice que dicha cantidad sigue una distribución Power Law, la
cual, para el caso discreto es también conocida como Zipf’s Law o distribución de Pareto. Las
distribuciones Power Law aparecen frecuentemente en física, biología, ciencias de la tierra,
economía, finanzas, ciencias de la computación y ciencias sociales. Es por eso que la
distribución del tamaño de las ciudades, los terremotos, los cráteres lunares, las guerras y la
fortuna personal de los individuos resultan ser todos, un conjunto de fenómenos que siguen
esta distribución. (Newman, 2005)
Una variable aleatoria X no negativa tiene una distribución Power Law si:
P [X ≥ x] ≈ cx-α Ecuación 3
Para c, α ≥ 0. Aquí, f(x) ≈ g(x) representa que el límite de la proporción tiende a 1 cuando x
aumenta de tamaño. En términos generales, en una Power Law las colas bajan asintóticamente
de acuerdo al índice α. Esta distribución da lugar a colas mucho más pesadas que otros
modelos comunes, tales como la distribución exponencial. Una distribución Power Law de uso
específico, es la distribución de Pareto, que satisface
P [X ≥ x] = (
)
Ecuación 4
Para k, α > 0. La distribución de Pareto requiere X ≥ k. La función de densidad para la
distribución de Pareto es f(x) = . Para una distribución Power Law, α usualmente se
encuentra en el rango 0< α<=2, en cuyo caso, X tiene varianza infinita. Si α 1, entonces X
también tiene media infinita. Esto proporciona una sencilla prueba empírica para saber si una
variable aleatoria tiene una distribución Power Law dada una muestra adecuada. Para el caso
específico de una distribución de Pareto, el comportamiento es exactamente lineal, como
ln (P[X ≥ x] ) = - α (ln x – ln k) Ecuación 5
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
19
De manera similar, en un gráfico log-log, la función de densidad para una distribución de Pareto
es una línea recta:
ln f(x) = (-α -1) ln x- α ln k+ ln α Ecuación 6
Cabe resaltar que el equivalente discreto de la Distribución de Pareto es conocida como Zipf
Law. Zipf’s Law es una ley empírica que fue formulada usando matemática y estadística, y que
se refiere al hecho de que muchos tipos de datos estudiados en física y ciencias sociales
pueden ser aproximados con una distribución de Zipf: una distribución discreta de la familia de
las distribuciones Power Law. La ley recibió este nombre luego de que el lingüista americano
George Kingsley Zipf (1902–1950) la propusiera.
Zipf’s Law es fácilmente observable graficando los datos en una gráfica log-log. Formalmente,
sea:
N: número d elementos
k: rango de los datos
s: valor del exponente que caracteriza la distribución.
Zipf’s Law entonces predice que, de una población de N elementos, la frecuencia de los
elementos de rango k, f (k, s, N), es:
f (k, s, N )=
Ecuación 7
Donde es el n-ésimo número armónico generalizado. Se define el n-ésimo número
armónico como la suma de los recíprocos de los primeros n números naturales:
= ∑
Ecuación 8
5.1.2 La distribución lognormal
En estudios de confiabilidad la distribución exponencial tiene un papel fundamental desde el
punto de vista conceptual y práctico; sin embargo, algunas veces esta distribución no
proporciona ajustes apropiados para modelar los datos obtenidos de un experimento, esto
mismo sucede con otras distribuciones como la Weibull y Gamma; por lo tanto, una buena
opción consiste en analizar los datos usando la distribución lognormal (Chen 1995). Se han
obtenido buenos ajustes usando la distribución lognormal para el caso de conjuntos de datos
observados y datos experimentales (Aitchison & Brown 1957) para modelar fallas en pruebas
de vida (Chen & Papadopoulos 1997) y ha sido usada específicamente en el campo de la
electrónica para analizar tiempos de vida de mecanismos de conducción eléctrica (Howard &
Dodson 1961) y en tiempos de vida de transistores de germanio (Adam 1962).
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
20
La distribución lognormal se utiliza frecuentemente para expresar el comportamiento de
observaciones con asimetría positiva, en donde la mayoría de los valores ocurren en las
proximidades de un valor mínimo. Una condición para la validez de que una variable se
distribuya Lognormal es que x sea la resultante de un número elevado de causas
independientes con efectos positivos, que se componen de manera multiplicativa y cada una de
estas causas tiene un efecto despreciable frente al global.
Esta distribución es característica en conjuntos de datos donde existe mayor frecuencia de
valores pequeños, por lo cual la media se desplaza hacia la derecha y esto hace que el mejor
estadígrafo de posición sea la moda y no la media aritmética Esta consideración se valora, pero
no se comparte en lo referente a la valoración del centro de los datos por considerarse que el
mismo puede hallarse con más exactitud en el valor de la mediana, la cual se conoce no es
influida por valores extremos, lo cual no ocurre con la moda. También se considera que otra
medida de posición válida para esta distribución es la media geométrica.
La distribución lognormal tiende a la función densidad de probabilidad:
( )
√ ( )
Ecuación 9
5.1.3 Distribución Multinomial
En muchas aplicaciones hay más de dos resultados posibles. A menudo la dicotomía
“defectuoso” o “no defectuoso” en situaciones de ingeniería es una simplificación de la realidad,
donde suele haber más de dos categorías que caracterizan artículos o partes de una línea de
producción. Una generalización inmediata de la distribución binomial surge cuando cada ensayo
tiene más de dos resultados posibles, las probabilidades de los resultados correspondientes
son las mismas para cada ensayo, y los ensayos son todos independientes.
La distribución multinomial tiene la función densidad de probabilidad:
( ) (
)
∑ ∑
Ecuación 10
5.2. PROCESOS GENERATIVOS
Los modelos generativos son aquellos fenómenos que explican cómo se da la formación, desde
la naturaleza, de las distribuciones de probabilidad; en otras palabras, explican qué situaciones
son las que dan origen a éstas. Algunos de los modelos generativos más conocidos son el
modelo generativo binomial y el modelo generativo de Poisson.
Para el presente trabajo se tendrán en cuenta los modelos generativos normales y los modelos
generativos multinomiales (basados en modelo binomial). Adicional a ellos, es importante
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
21
explicar dos modelos generativos que serán de utilidad a la hora de realizar la simulación, y que
dan lugar a procesos Power Law y a procesos multinomiales.
5.2.1 Preferential Attachment (Mitzenmacher, 2004)
Modelo generativo que sostiene que los nuevos objetos tienden a adherirse a los objetos más
populares y de esta manera dan origen a distribuciones Power Law para diferentes contextos.
Por ejemplo, la World Wide Web, naturalmente, puede ser considerada como un grafo, con las
páginas correspondientes a los vértices y los enlaces correspondientes a los bordes dirigidos.
El trabajo empírico ha demostrado que las entradas y las salidas de los vértices de este grafo
obedecen a distribuciones Power Law en el caso de la gráfica web: lo que quiere decir que los
enlaces nuevos tienden a ir a las páginas que ya tienen vínculos, o sea a las más populares.
5.2.2. Zipf’s law unzipped (Baek, 2011)
Zipf’s law unzipped es el título del trabajo de los físicos Seung Ki Baek 1 , Sebastian
Bernhardsson2 y Petter Minnhagen1 recientemente realizado y publicado en la revista Nature en
el año 2011. El trabajo desarrolla por qué las leyes de Zipf (Zipf Laws) dan una buena
descripción de los datos de fenómenos que aparentemente no tienen relación alguna. Se
argumenta allí que la razón es que todos esos fenómenos pueden ser descritos como los
resultados de una división en grupos al azar (RGF): los elementos pueden ser ciudadanos de
un país y los grupos, los nombres de varias familias; o los elementos pueden ser todas las
palabras que componen una novela y los grupos, las palabras únicas; o los elementos pueden
ser los habitantes y los grupos, las ciudades en un país y así sucesivamente. Una formación de
grupos al azar se presenta dada una estimación bayesiana que se obtiene sobre la base de
información mínima: proporciona la mejor predicción para el número de grupos con k
elementos, dado el número total de elementos, los grupos y el número de elementos en el
grupo más numeroso. Para cada especificación de estos tres valores, el RGF predice un único
grupo de distribución N (k) exp (-bk) / , donde el índice es una función única de los
mismos tres valores.
La relación de dicho estudio con el análisis de un problema de Pareto es básicamente que
cuando tiene origen un problema de este tipo, existe una división en grupos: hay un
determinado número de elementos (causas) que se agrupan al azar según el fenómeno en
cuestión. Es por ello que se decidió hacer el estudio con base en estos dos parámetros
principales: número de causas y elementos.
1 Integrated Science Laboratory, Department of Physics, Umeå University,901 87 Umeå, Sweden.
2 Center for Models of Life, Niels Bohr Institute, Blegdamsvej 17 DK-2100Copenhagen, Denmark
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
22
Parámetro
Descripción
N
Número de grupos (causas) en las
que se distribuyen los elementos de
la muestra.
M
Número total de elementos de la
muestra.
Tabla 2- Parámetros generales de estudio de las distribuciones
En el caso de este modelo generativo, son desviaciones de la uniformidad de la asignación de
elementos a grupos los que generan Power Laws. Sin embargo, la asignación no uniforme de
elementos a grupos, siempre y cuando la probabilidad de asignación de un elemento a un grupo
sea fija para cada ensayo e independiente de la probabilidad de asignación del mismo elemento
a otro grupo configuran un problema multinomial. Por lo tanto, habría un fenómeno subyacente
común a los problemas multinomial y Power Law que permitirían generar asignaciones de
elementos paretizables.
5.3 Métodos para identificar que una muestra sigue la regla de los pocos vitales
5.3.1 CCDF Test
Hay varias conductas empíricas que se espera ver en una muestra de una distribución Power
Law. Si se grafica la función complementaria de distribución acumulativa (CCDF) en una escala
log-log, se espera una línea recta, al menos en el comportamiento de la cola, y al menos fuera
del límite de la medición (Downey, 2001).
La Figura 4 muestra la CCDF de dos muestras (n = 10.000) de las dos distribuciones:
Lognormal y Pareto con el comportamiento de la cola similar. Hay una disparidad evidente en el
grueso de la distribución (por debajo del percentil 90) pero se superponen las colas.
La característica definitiva de la distribución de cola pesada es que su inclinación no aumenta
en el extremo de cola. Continúa, con pendiente constante, hasta el límite de la muestra.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
23
Tabla 3- CCDF de las muestras de las distribuciones Lognormal y Pareto con comportamiento de la cola
similar.
5.3.2. Estimación del parámetro de escala Alpha de la distribución de probabilidad
(Clauset, 2009)
Determinar el valor del parámetro de escala constituye un buen indicativo de si una muestra
determinada sigue o no una distribución Power Law. Con base en estudios realizados se sabe
que una muestra cuyos datos siguen dicha distribución tiene un parámetro Alpha que toma
valores en el intervalo 1 (Baek, 2011).
Estimar correctamente requiere un valor mínimo (xmin) que en una muestra discreta de datos
es igual a 1. El método usado para estimar dicho parámetro dada una muestra es el de máxima
verosimilitud. Es importante resaltar que el resultado de esta estimación aumenta su precisión
cuando el tamaño de la muestra tiende a infinito.
El valor del estimador para datos discretos es:
[∑
]
Ecuación 11
Valor de la variable
Valor mínimo posible
Todos los detalles y las formalidades matemáticas para la obtención de dicho estimador no son
incluidos aquí dado el propósito de este trabajo, sin embargo pueden ser consultados en
(Clauset, 2009).
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
24
5.3.3. Entropía
La teoría de la información también conocida como teoría matemática de la
comunicación (Mathematical Theory of Communication) o teoría matemática de la información,
es una propuesta teórica presentada por Claude E. Shannon (1916-2001) y Warren Weaver a
finales de la década de los 40 (Shannon, 1972). Esta teoría está relacionada con las leyes
matemáticas que rigen la transmisión y el procesamiento de la información y se ocupa de la
medición de la información y de la representación de la misma, así como también de la
capacidad de los sistemas de comunicación para transmitir y procesar información. La Teoría
de la Información es una rama de la teoría matemática y de las ciencias de la computación que
estudia la información y todo lo relacionado con ella: canales, compresión de
datos, criptografía y temas relacionados.
La teoría de la información mide la cantidad de información contenida en un mensaje por el
número medio de bits necesarios para codificar todos los posibles mensajes de la mejor
manera, la óptima (Shannon, 1972).
La cantidad de información en un mensaje se mide formalmente mediante la entropía del
mensaje. La entropía es una función de la distribución de probabilidad sobre el conjunto de
todos los posibles mensajes. Dado X1,…, Xn siendo n la cantidad de posibles mensajes
ocurriendo con una probabilidad p(X1),…, p(Xn), donde la sumatoria de las p(Xi)=1. La entropía
de un mensaje dado, está definida por el siguiente promedio ponderado:
( ) ∑ ( ) [ ( )] ∑ (
) *
( )+ Ecuación 12
De acuerdo con la investigación elaborada por Grosfeld-Nir et al.(Grosfeld-Nir, Ronen, &
Kozlovsky, 2007) según la cantidad de atributos (causas) en un diagrama de Pareto, un
problema de esta naturaleza se puede considerar como paretizable si el cálculo de la entropía
para el número de causas no supera la siguiente tabla de control:
Límites de Control Basados en Entropía
Número de
Actividades 5 10 15 20 25 30 35 40 45 50
Límite de Control 1,77 2,77 3,55 3,77 4,09 4,36 4,58 4,77 4,94 5,09
Tabla 4- Límites de Control basados en entropía
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
25
Ilustración 3- Límites de control basados en entropía
Si el número de actividades es mayor a 50, el límite control puede ser calculado mediante
regresión logarítmica (Grosfeld-Nir et al., 2007)
5.3.4. Índice de Gini
El índice de Gini es una medida de la desigualdad ideada por el estadístico italiano Corrado
Gini. Normalmente se utiliza para medir la desigualdad en los ingresos, dentro de un país, pero
puede utilizarse para medir cualquier forma de distribución desigual. El índice de Gini es un
número entre 0 y 1, en donde 0 se corresponde con la perfecta igualdad (todos tienen los
mismos ingresos) y donde el valor 1 se corresponde con la perfecta desigualdad (una persona
tiene todos los ingresos y los demás ninguno).
Aunque el coeficiente de Gini se utiliza sobre todo para medir la desigualdad en los ingresos,
también puede utilizarse para medir la desigualdad en la riqueza. Este uso requiere que nadie
disponga de una riqueza neta negativa.
El índice de Gini se calcula como una proporción de las áreas en el diagrama de la curva de
Lorenz. Si el área entre la línea de perfecta igualdad y la curva de Lorenz es a, y el área por
debajo de la curva de Lorenz es b, entonces el coeficiente de Gini es a/(a+b).
Esta proporción se expresa como porcentaje o como equivalente numérico de ese porcentaje,
que es siempre un número entre 0 y 1. El coeficiente de Gini se calcula a menudo con
la Fórmula de Brown:
| ∑ ( )( ) | Ecuación 13
Donde:
G: Coeficiente de Gini
X: Proporción acumulada de la variable población
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
26
Y: Proporción acumulada de la variable ingresos
5.3.5 Regla 80-20
El primer criterio que se va a considerar como una posible regla es que ha sido usado hasta la
fecha. En este caso, puede considerarse un problema específico como paretizable si el 20% de
las causas agrupan el 80% de los problemas. Es importante tener en cuenta que empíricamente
no siempre se sigue dicha distribución, en algunos casos se usa la distribución 70- 30 y 90-10;
por lo tanto éstas también serán estudiadas
5.3.6 Gráficos P-P
Un gráfico percentil- percentil (P-P) muestra que tan bien las estadísticas de rango de una
muestra encajan con una distribución modelo. Para cada valor que aparece en la muestra, el
gráfico P-P muestra el rango actual de valores vs. el rango esperado del valor en el modelo.
Una coincidencia perfecta da como resultado una línea de 45° desde el origen. A pesar de que
estos gráficos son útiles para detectar discrepancias entre el modelo original y la muestra de
datos, no resultan muy útiles para identificar distribuciones Power Law. La razón es que a
diferencia del CCDF Test, el gráfico P-P depende de estimación de parámetros; un gráfico P-P
chequea la coincidencia de un modelo específico, no de una familia de modelos: la
interpretación depende de la forma en cómo se escogen los parámetros (Downey, 2001).
5.3.7 Bondad de Ajuste
Una forma estándar de escoger de entre varios modelos, el que resulta ser el más adecuado
para una muestra de datos, es estimando los parámetros para ajustar la muestra y escoger cuál
o cuáles modelos proveen una mejor bondad de ajuste.
Para identificar distribuciones, este enfoque puede no ser apropiado ya que los estimadores
convencionales no necesariamente revelan el mejor ajuste para el comportamiento de la cola
en una distribución Power Law. Por lo tanto, el ajuste de modelos es de mucha utilidad para
obtener un punto de referencia pero no es una herramienta adecuada, de forma cuantitativa,
para identificar distribuciones Power Law (Downey, 2001).
5.4 Regresión Logística
La regresión logística es un instrumento estadístico de análisis bivariado o multivariado, de uso
tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
27
dependiente dicotómica (un atributo cuya ausencia o presencia se ha puntuado con los valores
cero y uno, respectivamente) y un conjunto de m variables predictoras o independientes, que
pueden ser cuantitativas (que se denominan covariables o covariadas) o categóricas. En este
último caso, se requiere que sean transformadas en variables ficticias o simuladas.
El propósito del análisis es:
Predecir la probabilidad de que a algo o a alguien le ocurra cierto evento: por ejemplo,
“estar desempleado” =1 o “no estarlo” = 0; “ser pobre” = 1 o “no ser pobre” = 0;
“graduarse como sociólogo” =1 o “no graduarse” = 0;
Determinar qué variables pesan más para aumentar o disminuir la probabilidad de que a
alguien le suceda el evento en cuestión.
Esta asignación de probabilidad de ocurrencia del evento a un cierto sujeto, así como la
determinación del peso que cada una de las variables dependientes en esta probabilidad, se
basan en las características que presentan los sujetos a los que, efectivamente, les ocurren o
no estos sucesos. Por ejemplo, la regresión logística tomará en cuenta los valores que asumen
en una serie de variables (edad, sexo, nivel educativo, posición en el hogar, origen migratorio,
etc.) los sujetos que están efectivamente desocupados (= 1) y los que no lo están (= 0). En
base a ello, predecirá a cada uno de los sujetos – independientemente de su estado real y
actual – una determinada probabilidad de ser desocupado (es decir, de tener valor 1 en la
variable dependiente). Es decir, si alguien es un joven no amo de casa, con baja educación y de
sexo masculino y origen emigrante (aunque esté ocupado) el modelo le predecirá una alta
probabilidad de estar desocupado (puesto que la tasa de desempleo de el grupo así definido es
alta), generando una variable con esas probabilidades estimadas. Y procederá a clasificarlo
como desocupado en una nueva variable, que será el resultado de la predicción. Además,
analizará cuál es el peso de cada uno de estas variables independientes en el aumento o la
disminución de esa probabilidad. Por ejemplo, cuando aumenta la educación disminuirá en algo
la probabilidad de ser desocupado. En cambio, cuando el sexo pase de 0 = “mujer” a 1 =
“varón”, aumentará en algo la probabilidad de desempleo porque la tasa de desempleo de los
jóvenes de sexo masculino es mayor que la de las mujeres jóvenes. El modelo, obviamente,
estima los coeficientes de tales cambios.
Cuanto más coincidan los estados pronosticados con los estados reales de los sujetos, mejor
ajustará el modelo. Uno de los primeros indicadores de importancia para apreciar el ajuste del
modelo logístico es el doble logaritmo del estadístico de verosimilitud (likelihood). Se trata de un
estadístico que sigue una distribución similar ji Cuadrado y compara los valores de la
predicción con los valores observados en dos momentos: en el modelo sin variables
independientes, sólo con la constante y una vez introducidas las variables predictoras. Por lo
tanto, el valor de la verosimilitud debiera disminuir sensiblemente entre ambas instancias e,
idealmente, tender a cero cuando el modelo predice bien.
Los modelos de regresión logística binaria resultan los de mayor interés ya que la mayor parte
de las circunstancias analizadas en medicina responden a este modelo (presencia o no de
enfermedad, éxito o fracaso, etc.). La variable dependiente será una variable dicotómica que se
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
28
codificará como 0 ó 1 (respectivamente, “ausencia” y “presencia”). Este aspecto de la
codificación de las variables no es banal (influye en la forma en que se realizan los cálculos
matemáticos), y habrá que tenerlo muy en cuenta si se emplean paquetes estadísticos que no
recodifican automáticamente las variables cuando éstas se encuentran codificadas de forma
diferente (por ejemplo, el uso frecuente de 1 para la presencia y –1 ó 2 para la ausencia).
La ecuación de partida en los modelos de regresión logística es:
( | ) ( ∑
)
( ∑ )
Ecuación 14
Donde:
( | ) Probabilidad de que y tome el valor 1(presencia de la característica estudiada) en
presencia de las covariables X.
x: conjunto de n covariables que forman parte del modelo.
: Constante del modelo
: Coeficientes de las covariables.
5.5 Métricas de la calidad de una predicción
5.5.1 Curva Cor
Una Curva Cor (acrónimo de Receiver Operating Characteristic, o Característica Operativa del
Receptor) es una representación gráfica de la sensibilidad frente a (1 – especificidad) para un
sistema clasificador binario según se varía el umbral de discriminación. Otra interpretación de
este gráfico es la representación de la razón o ratio de verdaderos positivos (VPR = Razón de
Verdaderos Positivos) frente a la razón o ratio de falsos positivos (FPR = Razón de Falsos
Positivos) también según se varía el umbral de discriminación (valor a partir del cual decidimos
que un caso es un positivo). COR también puede significar Relative Operating Characteristic
(Característica Operativa Relativa) porque es una comparación de dos características
operativas (VPR y FPR) según cambiamos el umbral para la decisión.
El análisis de la Curva Cor proporciona herramientas para seleccionar los modelos
posiblemente óptimos y descartar modelos subóptimos independientemente de (y antes de
especificar) el coste de la distribución de las dos clases sobre las que se decide. La curva ROC
es también independiente de la distribución de las clases en la población (en diagnóstico, la
prevalencia de una enfermedad en la población). El análisis COR se relaciona de forma directa
y natural con el análisis de coste/beneficio en toma de decisiones diagnósticas.
La Curva Cor se desarrolló por ingenieros eléctricos para medir la eficacia en la detección de
objetos enemigos en campos de batalla mediante pantallas de radar, a partir de lo cual se
desarrolla la Teoría de Detección de Señales (TDS). El análisis COR se aplicó posteriormente
en medicina, radiología, psicología y otras áreas durante varias décadas. Sólo recientemente ha
encontrado aplicación en áreas como aprendizaje automático y minería de datos.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
29
Ilustración 4- Tabla de contingencia resultado de un análisis Cor
5. 5.2 RMSE
La desviación de la raíz cuadrada media (RMSD) o root-mean-square error (RMSE) es una
medida de uso frecuente de las diferencias entre los valores pronosticados por un modelo o un
estimador y los valores realmente observados. Estas diferencias individuales se denominan
residuos cuando los cálculos se realizan a través de la muestra de datos que se utiliza para la
estimación, y se denominan errores de predicción cuando se calcula fuera de la muestra. El
RMSE sirve para agregar la magnitud de los errores en las predicciones para las varias horas
en una sola medida de la capacidad de predicción. RMSE es una buena medida de la precisión,
pero sólo para comparar los errores de predicción de diferentes modelos para una variable en
particular y no entre las variables, ya que es dependiente de la escala.
El RMSE de los valores previstos para tiempos t de una regresión de la variable
dependiente se calcula para predicciones diferentes como la raíz cuadrada de la media de
los cuadrados de las desviaciones:
RMSE= √∑ ( )
Ecuación 15
5.6 Métodos para identificar el punto de corte en un diagrama de Pareto
5.6.1 Cómo establecer el punto de corte en un diagrama de Pareto según el profesor de
ingeniería industrial Carlos Navarrete.
Para establecer el punto de corte según el Profesor Navarrete3 se elabora una tabla donde se
ordenan las causas de forma descendente y se halla la frecuencia relativa y la frecuencia
acumulada. A continuación se establece el peso acumulado de cada causa, por ejemplo si son
3 Máster en Bioética, Universidad del Bosque; Ingeniero Industrial, Pontificia Universidad Javeriana. Actualmente se
desempeña como profesor de la asignatura Ingeniería de Procesos en la Pontificia Universidad Javeriana.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
30
ocho causas cada una pesa 1/8 y se van acumulando. Luego se lleva a cabo una siguiente
columna en la tabla que contiene la sumatoria de los pesos con la frecuencia acumulada para
cada causa.
Finalmente se hace una columna con la diferencia en valor absoluto de 100 menos la suma
anterior y el punto de corte resultará en aquel causal donde esta diferencia es menor.
5.6.2 Análisis Estadístico de los diagramas de Pareto
Es una prueba estadística que diseñó Ron Kenett (Kenett, 1991) para comparar diagramas de
Pareto a través del tiempo o entre procesos. La prueba tiene como finalidad determinar cuándo
hay diferencias significativas entre dos diagramas de Pareto. Para ello se elabora un diagrama
de referencia de Pareto y se efectúa una prueba basada en el cálculo de los residuales
normalizados:
[ ( )] i= 1,…, k Ecuación 16
N= Cantidad total de observaciones.
= Proporción de observaciones en la categoría i, en el diagrama de referencia.
= Cantidad esperada de observaciones en la categoría i, dado N.
= Cantidad total de observaciones en la categoría i.
K= Cantidad de categorías.
Esta prueba supone que las observaciones se clasifican independientemente en distintas
categorías y según su autor, resulta más poderosa que la prueba ji cuadrada normal, ya que
reconoce diferencias entre un diagrama de referencia de Pareto y uno actual que, de acuerdo
con la prueba ji cuadrada, no serían significativas.
Puesto que este test compara dos diagramas de Pareto, no resulta de utilidad para el presente
trabajo.
5.7 Patrones EBC (Entity-Control-Boundary)
Los patrones de diseño son la base para la búsqueda de soluciones a problemas comunes en
el desarrollo de software y otros ámbitos referentes al diseño de interacción o interfaces. Un
patrón resulta ser una solución a un problema de diseño. Para que una solución sea
considerada un patrón debe poseer ciertas características. Una de ellas es que debe haber
comprobado su efectividad resolviendo problemas similares en ocasiones anteriores. Otra es
que debe ser reutilizable, lo que significa que es aplicable a diferentes problemas de diseño en
distintas circunstancias.
Este concepto introduce un patrón que proporciona un punto de partida para la distribución de
las responsabilidades a un conjunto de elementos de diseño de interacción basado en tres
perspectivas clave en una colaboración. Cuando se identifican los elementos de algún
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
31
escenario del comportamiento del sistema, se puede alinear cada elemento participante con
una de las tres perspectivas principales: Entidad, control o frontera.
5.7.1 Elementos Entidad
Una entidad es un elemento pasivo de larga duración, que es responsable de alguna parte
significativa de la información. Esto no quiere decir que las entidades son "datos", mientras que
otros elementos de diseño son "función". Las entidades realizan comportamiento organizado en
torno a una cierta cantidad de datos.
Un ejemplo de entidad para una aplicación de servicio al cliente sería una entidad de cliente
que administra toda la información acerca del mismo. Un elemento de diseño para esta entidad
debería incluir datos sobre el cliente, el comportamiento de la gestión de los datos, el
comportamiento para validar la información del cliente y realizar otros cálculos de negocios,
tales como "Este es un cliente deja de comprar el producto X?"
5.7.2 Elementos de Control
Un elemento de control administra el flujo de la interacción del escenario. Un elemento de
control podría gestionar el comportamiento de extremo a extremo de un escenario o podría
gestionar las interacciones entre un subconjunto de los elementos. El comportamiento y las
reglas de negocio relacionadas con la información relevante para el escenario deben ser
asignados a las entidades, y los elementos de control son sólo responsables del flujo del
escenario.
5.7.3 Elementos de Frontera
Un elemento de frontera se encuentra en la periferia de un sistema o subsistema, pero dentro
de él. Para cualquier escenario que se considera, ya sea a través de todo el sistema o dentro
de algún subsistema, algunos elementos de frontera serán elementos "front-end" que acepten la
entrada desde fuera del área en proceso de diseño y otros elementos serán "back-end"
gestionando la comunicación de los elementos de apoyo fuera del sistema o subsistema.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
32
6. EVALUACIÓN DE REGLAS CANDIDATAS
6.1 CONJUNTO DE CRITERIOS MÍNIMOS PARA SABER SI UNA REGLA ES SUSCEPTIBLE
DE SER USADA.
La elaboración de un diagrama de Pareto consiste básicamente en el desarrollo de un
algoritmo, dado que éste es una secuencia ordenada de pasos, exenta de ambigüedad, que
conduce a la resolución de un problema determinado en un número finito de pasos (Xhafa &
Vazquez, 2006).
La utilización de las reglas que se pretenden definir en este trabajo de grado, para llevar a cabo
una correcta elaboración de un diagrama de Pareto, consiste en la aplicación de un conjunto
predefinido de pasos (los que indique la regla). Teniendo en cuenta esto, dichas reglas serán
tratadas como algoritmos que conducirán a una solución específica. Por ello, se consultó la
teoría de los algoritmos con el fin de establecer las características que deben cumplir los
mismos. Dichas características serán adoptadas como los criterios mínimos que deben cumplir
las reglas de paretización para que puedan ser consideradas como válidas.
Se consultó bibliografía especializada en análisis y diseño de algoritmos y en programación
para averiguar cuáles eran los criterios y las características que debían tener los algoritmos
para que pudieran ser considerados como tal. De las diferentes consultas se obtuvo la lista de
criterios o características de un algoritmo que se presenta en la tabla 1 (Mohan Pandey, 2008)
(Chang, 2003) (Puntambekar, 2008).
PROPIEDADES QUE DEBE SATISFACER UN ALGORITMO
1. Un algoritmo es capaz de formular un problema y transformarlo en una solución que
es correcta y eficiente
2. Entrada: cero o más cantidades externamente suministradas.
3. Salida: por lo menos una cantidad es producida.
4. Correcto: propiedad que refleja el grado en el cual el algoritmo es capaz de alcanzar
una solución sin errores.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
33
5. Eficiencia: propiedad que considera la rapidez mediante la cual una solución es
alcanzada.
6. Generalidad: propiedad que confiere al algoritmo un valor fundamental: éste debe ser
diseñado para resolver una clase de problemas.
7. Finito: el algoritmo sigue un número finito de pasos para finalizar.
8. Efectivo: Cada acción única puede ser reconocida a través de su resultado: ésta debe
ser reproducible.
9. Comprensible: el algoritmo debe ser comprendido por la persona que lo diseña.
Tabla 5- Listado de Criterios que debe cumplir una regla de paretización: propiedades de los algoritmos
6.2 EVALUACIÓN DE LAS REGLAS CANDIDATAS PARA PARETIZACIÓN
Con base en los criterios que se escogieron como aquellos que deben cumplir las reglas para la
identificación de si un problema es susceptible de ser paretizable, se sometieron las posibles
reglas presentadas en el marco teórico a un análisis comparativo para escoger aquellas que
cumplían a cabalidad con los criterios. A continuación se muestra la tabla con los resultados, es
importante tener en cuenta que ésta no contiene los criterios eficiencia ni correcto, el primero
debido a que el objetivo de este estudio no pretende medir la eficiencia de una regla, ni ésta
resulta un factor determinante en los resultados. El que la regla sea correcta se evalúa adelante
y se determina después de realizar el análisis correspondiente, por ello la tabla no contiene
tampoco dicho parámetro.
Convenciones:
X: la regla cumple con el criterio.
O: la regla no cumple con el criterio.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
34
LISTADO DE CRITERIOS CON LOS QUE DEBE CUMPLIR UNA REGLA DE PARETIZACIÓN
Criterio
Propiedades de los algoritmos
Formular un
problema y
transformarlo en
una solución
que es correcta
y eficiente
Entrada: cero o
más cantidades
externamente
suministradas.
Salida: por lo
menos una
cantidad es
producida.
Generalidad: el
algoritmo debe ser
diseñado para
resolver una clase de
problemas.
Finito: el algoritmo
sigue un número
finito de pasos para
finalizar.
Efectivo: cada acción
única puede ser
reconocida a través de su
resultado: ésta debe ser
reproducible.
Comprensible: el
algoritmo debe ser
comprendido por la
persona que lo
diseña.
1
Estimar el
parámetro de
escala α: máxima
verosimilitud
x x x x x x x
2 Gráficos P-P o x x x x o x
3 CCDF TEST:
Gráfico log-log o x x x x o x
4 Índice de Gini X x x x x x x
5
Prueba de Bondad
de ajuste: analizar
si los datos se
ajustan al modelo
X x x x x x x
7 Regla 80-20 o o x o x o x
8 Entropía x x x x x x x
Tabla 6- Evaluación de los criterios en las posibles reglas de paretización
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
35
De acuerdo con los resultados obtenidos, las reglas que cumplen con los criterios establecidos
son las siguientes:
1. Cálculo del índice de Gini
2. Cálculo de la entropía
3. Cálculo del parámetro de escala
Estas fueron contrastadas en la simulación para, finalmente, determinar cuál de ellas era la
mejor regla para evaluar si un problema es paretizable o no.
6.3 REGLAS CANDIDATAS PARA DEFINIR PUNTO DE CORTE
Para determinar con exactitud el punto de corte en un diagrama de Pareto una vez se ha
verificado que el problema que se está tratando sí es paretizable se analizaron y compararon
tres reglas. La primera de ellas fue diseñada para este estudio y las dos restantes están
basadas en la forma cómo se lleva a cabo la división entre causas vitales y triviales
actualmente.
6.3.1 Regla de corte según cambio de la pendiente en la curva del diagrama
Esta regla se basa en calcular la pendiente entre cada par de categorías consecutivas. Se
espera que esa pendiente vaya disminuyendo. Cuando esa pendiente vuelve a aumentar allí se
encontraría la categoría de corte, puesto que hay una “caída” repentina del conteo de
elementos y las categorías de allí en adelante tendrían menor importancia.
A continuación se presenta un ejemplo sencillo con el objetivo de visualizar de forma práctica
cómo se efectuaría el corte. El problema muestra una situación típica en una compañía en la
que se presentan defectos de calidad debido a 5 causas distintas:
Causa Frecuencia-Número de Defectos
de Calidad
Diferencia
1 15 15- 10= 5
2 10 10- 7= 2
3 8 8- 2= 6
4 2 2- 1= 1
5 1
Total 36
Tabla 7- Datos ejemplo punto de corte
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
36
Ilustración 5- Diagrama de barras ejemplo punto de corte
Ilustración 6- Línea de pendiente ejemplo punto de corte
Según este criterio en el caso del ejemplo se debería realizar el corte en la causa número 3
debido a que en este punto la diferencia entre las frecuencias aumenta después de venir
decreciendo, esto significa que se está en la parte del diagrama donde ocurre un cambio
significativo: las tres primeras causas resultan ser las críticas ya que provocan la mayor parte
de los defectos de calidad; debido a que en la categoría 3 la diferencia en la pendiente es igual
a 6 supone esto que ha ocurrido un cambio “brusco” en el diagrama ya que la pendiente cae de
manera más fuerte desde este punto al siguiente.
Otros Casos
15
10 8
2 1
0
5
10
15
20
1 2 3 4 5
Número de Defectos de Calidad
0
2
4
6
8
10
12
14
16
1 2 3 4 5
Número de Defectos de Calidad
La pendiente decrece de forma
más acelerada
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
37
i. Cuando no ocurre ningún aumento en las diferencias de las frecuencias sino que esta
constituye una secuencia decreciente se estableció que el corte debe hacerse en el
primer grupo o primera causa.
ii. Dada la naturaleza de la Ley de Pareto, en cualquier problema cuya primera causa
contenga el 70% o más de la frecuencia, debe hacerse el corte en esta primera causa.
6.3.2 Regla de Corte 80-20 basada en la frecuencia acumulada de las causas
Esta regla de corte representa la forma convencional de separar las causas vitales de las
triviales: en cualquier problema el corte debe realizarse cuando la frecuencia acumulada sea
igual al 80%.
En el ejemplo de estudio sobre defectos de calidad el corte se realizaría en la causa número 2
debido a que el 80% de la frecuencia es igual a 28,8 (36*0.8).
6.3.3 Regla de Corte 80-20 basada en el número de causas
Al igual que la regla anterior ésta se deriva de la Ley de Pareto con una variación importante:
en cualquier problema el punto corte para separar las causas vitales de las triviales debe
realizarse donde el número de causas sea igual al 20% de las mismas.
En el ejemplo de estudio sobre defectos de calidad el corte se realizaría en la causa número 1
debido a que el 20% de las causas es igual a este valor (5*0.2=1).
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
38
7. LA SIMULACIÓN
Para llevar a cabo los dos primeros objetivos se realizó una simulación con la que se pretendía
estudiar qué tipo de problemas podrían ser clasificados como paretizables. Para ello se estudio
la susceptibilidad de los resultados a las diferentes combinaciones de los parámetros.
La simulación se elaboró con base en cuatro distribuciones de probabilidad:
I. Distribución Multinomial
II. Distribución Normal
III. Distribución Lognormal
IV. Preferential Attachment
Las tres primeras son clásicas y conocidas, la última comprende la representación de un
modelo generativo, estudiado en ciencias de la computación, que da origen a una distribución
Power Law (Mitzenmacher, 2004).
La distribución multinomial es un modelo generativo adecuado para describir un problema
paretizable que asigne los elementos a las posibles categorías (causas) cuando las
probabilidades de que ocurra una categoría son fijas, y cada posible elemento selecciona una
categoría de forma independiente al siguiente elemento. Este modelo generativo representa
aproximadamente bien las aplicaciones de Pareto relacionadas con control de calidad, en las
cuales se puede considerar la generación de un defecto como una variable binomial y, por
ende, la asignación de un defecto a una categoría específica como un problema multinomial,
siendo más probables algunas categorías de defecto que otras, según las dificultades del
proceso productivo, las cuales generan diferentes causas.
De otro lado, Preferential Attachment modela procesos de asignación de elementos a
categorías no independientes, puesto que dado un número de elementos en las posibles
categorías, el siguiente elemento a ser asignado podría tener en cuenta la distribución actual de
elementos en categorías para elegir una categoría. Este caso modela mucho mejor modelos
sicológicos que el modelo multinomial, y sirve para los casos de paretización que requieren
saber por ejemplo, cuáles son las referencias “Pareto” de una cadena de abastecimiento, o los
destinatarios “Pareto” de un producto. En éste caso, la preferencia por una categoría puede
estar influida por la preferencia previa de otros clientes o conocidos del cliente que debe tomar
una decisión, generando un proceso de Preferential Attachment.
Las funciones normales y lognormal modelan otro tipo de fenómeno. En este caso, se trata de
fenómenos continuos que, acumulados, pueden generar una paretización. El caso concreto de
modelación es la distribución del ingreso. Cada persona analizada tiene un ingreso específico
que podría estar determinado por una variable normal (si el ingreso tiene un promedio en el que
caen la mayor parte de personas y extremos simétricos- tanto ricos como pobres) o por una
variable lognormal con asimetría positiva, que es el caso más frecuente (muchas personas con
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
39
ingresos bajos-medios y casos extremos en los valores altos). Cuando se acumulan esos
ingresos y se clasifican por percentiles las personas, la acumulación del ingreso de cada
percentil representa la altura o frecuencia de la categoría y la cantidad de divisiones
(percentiles, deciles, quintiles) el número de categorías.
7.1. Desarrollo de la simulación de los modelos generativos
La simulación, para cada una de las cuatro distribuciones, se llevó a cabo como un proceso que
representara aleatoriamente la forma cómo se repartirían un número M de elementos (el total de
la muestra) en un número N de categorías; con base en las características propias de cada
distribución y de acuerdo a lo mencionado en el marco teórico respecto a procesos generativos.
El resultado obtenido (salida) fue la distribución de la muestra en los grupos determinados; esto
es básicamente lo que sucede en un problema tratado mediante un análisis de Pareto
convencional.
7.1.1 Parámetros de la simulación
I. Distribución Multinomial
Parámetros de entrada:
El usuario le indica al sistema cuatro parámetros de entrada antes iniciar la simulación.
Parámetro Descripción
N Número total de categorías
M Número total de elementos
Tamaño de la partición 1
Frecuencia que corresponde a la mayor parte de la
muestra. Ejemplo: si se desea modelar un problema típico
de Pareto conocido como 80-20, el valor de la partición 1
correspondería a 80%.
Porcentaje de categorías que
contienen la partición 1
Porcentaje de las categorías en donde se va a acumular la
mayor parte de la muestra. Ejemplo: si se desea modelar
un problema típico de Pareto conocido como 80-20, el
valor del porcentaje de categorías que contiene la partición
1 es del 20%.
Tabla 8- Parámetros simulación multinomial
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
40
Estos parámetros permiten que a las causas del porcentaje de categorías de la partición 1 se le
asigne el tamaño de la partición 1. Al interior de la partición, la distribución de probabilidades se
realiza aleatoriamente.
Ilustración 7- Ejemplo inserción parámetros simulación multinomial
Después de que los parámetros de entrada han sido ingresados y se da inicio a la simulación,
el proceso se lleva a cabo de la siguiente forma: En primer lugar el programa asigna a una lista
que corresponde al número de categorías una probabilidad uniforme igual a 1/n. Asimismo se
generan dos listas: la primera tiene el número de categorías que el usuario quiere que
contengan a la partición 1 y la segunda el número restante. Cada una de éstas se llena con
números aleatorios y se normaliza a la diferencia que hay entre el tamaño de la partición 1 y la
cantidad de categorías que contienen la partición 1. La primera lista se suma a las
correspondientes primeras posiciones de la lista uniforme y la segunda se resta a las últimas
posiciones correspondientes. A continuación, se normaliza todo para que cumpla con las
frecuencias correspondientes. Finalmente se generan m números aleatorios correspondientes a
las m elementos, se ubican en cada categoría y se ordenan con el ordenamiento Quick Sort 4
II. Distribución Normal
Parámetros de entrada:
El usuario le indica al sistema cuatro parámetros de entrada antes iniciar la simulación:
Parámetro Descripción
N Número total de categorías
4 El ordenamiento rápido (Quick Sort en inglés) es un algoritmo creado por el científico británico en computación C.
A. R. Hoare basado en la técnica de divide y vencerás, que permite, en promedio, ordenar n elementos en un tiempo proporcional a n log n.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
41
M Número total de elementos
Media Corresponde a la media de la distribución que se quiere
simular.
Desviación estándar Corresponde a la desviación estándar de la distribución
que se quiere simular.
Tabla 9- Parámetros simulación normal
Ilustración 8- Ejemplo inserción parámetros simulación normal
Después de que los parámetros de entrada han sido ingresados y se da inicio a la simulación,
el proceso se lleva a cabo de la siguiente forma:
Se generan m números aleatorios provenientes de una distribución normal con los valores
establecidos para la media y la desviación estándar como parámetros. Para efectos de no
alterar la simulación los números aleatorios que fuesen negativos se reemplazan con cero. A
continuación se obtiene la suma de los m números aleatorios. Se calcula el número de
aleatorios que deben ir cada una de las n categorías realizando el cociente m/n. Los números
aleatorios se ordenan con el método Quick Sort de forma ascendente; se procede a poner en la
primera categoría la suma de los m/n primeros números aleatorios ordenados ascendentemente
y así sucesivamente hasta que se han puesto en las n categorías las sumas correspondientes.
Finalmente se calcula el porcentaje de los elementos (números aleatorios) con el que quedaron
cada una de las categorías.
III. Distribución Lognormal
Parámetros de entrada:
El usuario le indica al sistema cuatro parámetros de entrada antes iniciar la simulación:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
42
Parámetro Descripción
N Número total de categorías
M Número total de elementos
Media
Corresponde a la media de la distribución que se quiere
simular.
Desviación estándar
Corresponde a la desviación estándar de la distribución
que se quiere simular.
Tabla 10-Parámetros simulación lognormal
Ilustración 9- Ejemplo inserción parámetros simulación lognormal
Después de que los parámetros de entrada han sido ingresados y se da inicio a la simulación,
el proceso se lleva a cabo de la siguiente forma:
Se generan m números aleatorios provenientes de una distribución lognormal con los valores
establecidos para la media y la desviación estándar como parámetros. Para efectos de no
alterar la simulación los números aleatorios que fuesen negativos se reemplazan con cero. A
continuación se obtiene la suma de los m números aleatorios. Se calcula el número de
aleatorios que deben ir cada una de las n categorías realizando el cociente m/n. Los números
aleatorios se ordenan con el método Quick Sort de forma ascendente; se procede a poner en la
primera categoría la suma de los m/n primeros números aleatorios ordenados ascendentemente
y así sucesivamente hasta que se han puesto en las n categorías las sumas correspondientes.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
43
Finalmente se calcula el porcentaje de los elementos (números aleatorios) con el que quedaron
cada una de las categorías.
IV. Distribución Preferential Attachment
Parámetros de entrada:
El usuario le indica al sistema tres parámetros de entrada antes iniciar la simulación:
Parámetro Descripción
N Número total de categorías
M Número total de elementos
Alpha
Valor entre 1 y 0 contra el cual se van a contrastar los
números aleatorios (elementos) para determinar en cuál
categoría deben ir asignados.
Tabla 11- Parámetros simulación Preferential attachment
Ilustración 10- Ilustración 8- Ejemplo inserción parámetros simulación Preferential Attachment
Esta simulación recrea un proceso denominado Preferential Attachment que consiste en que
los nuevos objetos tienden a adherirse a los objetos más populares y de esta manera dan
origen a distribuciones Power Law para diferentes contextos.
Después de que los parámetros de entrada han sido ingresados y se da inicio a la simulación,
el proceso se lleva a cabo de la siguiente forma:
En primer lugar, se va a generar una lista con n posiciones correspondientes a las n categorías.
A cada una de estas posiciones, se les va asignar un valor de probabilidad uniforme (1/n). Se
va a generar un número aleatorio y se va a ubicar en la categoría correspondiente mediante el
cálculo de la frecuencia acumulada. Posteriormente todo el proceso será así: Por cada una de
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
44
las m-1 elementos restantes, el sistema generará un número aleatorio y lo va a comparar contra
el valor de Alpha. Si el número aleatorio es menor que el valor del Alpha ingresado por el
usuario esa elemento, representada por el aleatorio, se va a ubicar al igual que la primera, con
probbailidad uniforme para cualquiera de las n categorías. Si el valor del número aleatorio
resulta mayor que el valor del número Alpha la elemento se ubicará recalculando las
probabilidades de cada una de las n categorías de contener a esa elemento, por ejemplo, si
hasta el momento en que sucedió esto se han ubicado tres elementos, cada una en una
categoría diferente, ahora la probabilidad de cada una de estas de contener a la elemento es
igual a 1/3 y para las otras categorías que se encuentran vacías es igual a 0. De esta forma se
está simulando cómo, con base en determinado evento, una elemento puede no repartirse al
azar sino que tendrá una probabilidad más alta de caer en una categoría donde ya se
encuentran asignadas una o más elementos.
7.2 Diseño experimental de la simulación
7.2.1 Objetivos del estudio
Evaluar el desempeño de las tres reglas escogidas para determinar cuál de estas
proporciona el mejor indicador para determinar si un problema es susceptible de ser
paretizable.
Evaluar el desempeño de las tres reglas escogidas para determinar cuál debe ser el
punto correcto de corte en un diagrama de Pareto para un problema susceptible de
ser paretizable.
7.2.2. Factores
Simulación Distribución Multinomial
Simulación Multinomial
Factor Número de
Niveles Descripción
N 10 Comenzando en 10 y cambiando de
10 en 10 hasta 100
Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
45
Partición Categorías y Partición de Elementos
9 50-50, 45-55, 40-60, 35-65%, 30-70,
25-75, 20-80, 15-85, 10-90
Tabla 12- Descripción de factores simulación multinomial
Debido a que la relación entre el tamaño de la muestra y el número de causas constituye un
factor importante de estudio, el tamaño de la muestra M se calculó con base en la relación M/N.
Para la realización del objetivo 3, se escogió un subconjunto de esta simulación igual o superior
a una regla 70/30, es decir, igual o superior a 70% en la partición elementos.
Simulación Distribución Normal
Simulación Normal
Factor Número de
Niveles Descripción
N 10
Comenzando en 10 y cambiando de 10 en 10
hasta 100
Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64
Media 1 En todos los casos igual a 1
Desviación
Estándar 3 0,3; 0,6; 0,9
Tabla 13- Descripción de factores simulación normal
Simulación Distribución Lognormal
Simulación Lognormal
Factor Número de
Niveles Descripción
N 10
Comenzando en 10 y cambiando de 10 en 10
hasta 100
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
46
Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64
Media 1 En todos los casos igual a 0
Desviación
Estándar 3 1,2; 1,5; 1,8; 2,1
Tabla 14- Descripción de factores simulación lognormal
Simulación Preferential Attachment
Simulación Preferential Attachment
Factor Número de
Niveles Descripción
N 10
Comenzando en 10 y cambiando de 10 en 10
hasta 100
Relación M/N 8 1/2, 1, 2, 4, 8, 16, 32, 64
Alpha 10 0,01; 0,1; 0,2; 0,3; 0,4; 0,5; 0,6; 0,7; 0,8; 0,99
Tabla 15- Descripción de factores simulación Preferential attachment
7.2.3 Réplicas
El número de réplicas se basará en el objetivo 2, el cual incluye dos factores de análisis (M/N y
N), sobre el cual se correrá el ANOVA. Para los objetivos 1 y 2 también resulta válido el
siguiente análisis, pues todo está basado sobre la misma variable de respuesta: área bajo la
Curva Cor. La fórmula de tamaño de muestra es, de acuerdo con Dean & Voss (Dean & Voss,
1999).
Ecuación 17
En este caso de:
a= número de niveles de M/N = 8
b= Número de niveles de N=10
2
222
Ab
ar
2
2
A
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
47
Se espera que la relación sea de
para evaluar un tamaño de efecto medio, de 1/3 de la
variabilidad. Iterando sobre las tablas disponibles en el libro de Dean & Voss para hallar el .
Con alfa= 0.05 y potencia del 93%, se encuentra un valor de 1.67. Al utilizarlo en la fórmula se
obtiene r= 78. Dadas las posibilidades computacionales, para reducir aún más los errores tipo y
tipo II se decidió redondear a un total de 100 réplicas por tratamiento.
A continuación se presentan las tablas con el número de réplicas para cada distribución para
los objetivos 1 y 2:
Simulación Multinomial
Niveles
Partición Categorías y Partición de Elementos
Categorías Tamaño de
muestra/número de categorías Réplicas Total
9 10 8 100 72000 Tabla 16- Réplicas simulación multinomial
Simulación Normal
Niveles
Media Varianza Categorías Tamaño de
muestra/número de categorías Réplicas Total
1 3 10 8 100 24000 Tabla 17- Tabla 15- Réplicas simulación normal
Simulación Lognormal
Niveles
Media Varianza Categorías Tamaño de
muestra/número de categorías Réplicas Total
1 4 10 8 100 32000 Tabla 18- Réplicas simulación lognormal
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
48
Simulación Preferential Attachment
Niveles
Alpha Categorías Tamaño de
muestra/número de categorías Réplicas Total
10 10 8 100 80000 Tabla 19- Réplicas simulación Preferential Attachment
Total General: 208000 réplicas.
A continuación se presentan las tablas con el número de réplicas para cada distribución para el
objetivo 3:
Multinomial
Niveles
Partición Categorías y Partición de Elementos
Categorías Tamaño de muestra/número de
categorías Réplicas Total
5 100 8 100 400000 Tabla 20- Réplicas simulación multinomial
7.3 DATOS TÉCNICOS DE LA SIMULACIÓN
1. Las simulaciones fue realizada con el lenguaje de programación JAVA en el compilador
Eclipse IDE for Java Developers.
2. Los datos obtenidos de cada una de las réplicas de la simulación fueron almacenados
en una base de datos creada en MySQL Workbench. (Ver Anexo A. Diagrama Entidad
Relación Base de Datos Objetivos 1 y 2) (Ver Anexo B. Diagrama Entidad Relación Base
de Datos Objetivo 3).
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
49
8. ANÁLISIS DE LOS DATOS
8.1 RESULTADOS REGLAS DE PARETIZACIÓN
8.1.1 Regla de Oro
Para el análisis de los datos y la comparación de las posibles reglas se determinaron las
principales dimensiones que determinan sí un problema es susceptible de ser paretizable desde
el punto de vista teórico; como resultado se obtuvo un criterio para cada una de las
dimensiones denominada “Regla de Oro”. Se muestra a continuación la tabla con el criterio de
la Regla de Oro para cada distribución.
REGLA DE ORO
DISTRIBUCIÓN
MULTINOMIAL
DISTRIBUCIÓN
NORMAL
DISTRIBUCIÓN
LOGNORMAL
PREFERENTIAL
ATTACHMENT
¿Qué casos son susceptibles de ser paretizables?
Todas las simulaciones
donde el 70% de la
frecuencia de las
elementos estuviese
repartida en el 30% de
las categorías o superior
así:
Los parámetros
con los que se
corrió la
simulación
implican que en
ningún caso las
réplicas de la
distribución
normal son
paretizable
Los parámetros
con los que se
corrió la
simulación
implican que en
todos los casos
las réplicas de
la distribución
lognormal son
paretizables
Todas las simulaciones
cuyo valor del parámetro
Alpha fuese menor a 0,9
se consideraron como
paretizables.
Si el valor del parámetro
Alpha era mayor a 0,9 el
resultado era no
paretizable
Frecuencia
de
Elementos
Porcentaje
de las
Categorías
70 30
75 35
80 20
85 15
90 10
Tabla 21- Reglas de Oro paretización para cada distribución
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
50
Para el modelo multinomial, se decidió no cortar en 80/20 exactamente, pues se consideró que
empíricamente una acumulación de 70/30 ya permitiría determinar prioridades; en el caso de las
distribuciones normal y lognormal ocurre que ésta última tiene una íntima relación con las
Power law (Mitzenmacher, 2004), razón por la cual se consideró que todas las lognormales eran
paretizables, mientras que las normales no. En el caso de Preferential Attachment se ha
encontrado que este proceso genera siempre Power Laws, sin embargo cuando el nivel de
attachment a la categoría más frecuente es bajo (>0,9) no se configura perfectamente una
Power Law (Mitzenmacher, 2004), por lo que se escogió este punto para determinar la
posibilidad de priorización.
En la base de datos se creó una nueva columna que, según los criterios anteriores, señalaba si
cada réplica era paretizable o no según la Regla de Oro así:
1: Sí es paretizable
0: No es paretizable
Ilustración 11- Visualización Excel Base de Datos con la regla de oro
8.1.2 Regresión Logística Binaria
Para determinar cuál de las tres reglas: cálculo del índice de Gini, cálculo de la entropía, cálculo
del parámetro de escala era la mejor en determinar si un problema puede ser paretizable o no
se realizó una regresión logística binaria en SPSS v. 19.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
51
La regresión logística es adecuada para hace predicciones binarias, -en este caso, predecir si el
problema es paretizable o no-, a partir de variables escalares (en este caso, los índices
respectivos). Esto nos permite evaluar si es posible hacer predicciones de paretización a partir
de los índices, y adicionalmente permite realizar dicha predicción calculando una probabilidad;
ésta probabilidad es la que permitirá realizar la Curva Cor.
I. Resultados Parámetro Alpha
Variables en la ecuación
B E.T. Wald gl Sig. Exp(B)
Paso 1a parametroAlpha ,001 ,000 1199,798 1 ,000 1,001
Constante ,758 ,005 23762,307 1 ,000 2,133
Tabla 22- Variables en la ecuación resultado de la regresión para el parámetro Alpha
II. Resultados Índice de Gini
Variables en la ecuación
B E.T. Wald gl Sig. Exp(B)
Paso 1a indiceGini 6,517 ,027 58884,848 1 ,000 676,531
Constante -2,132 ,013 28526,158 1 ,000 ,119
Tabla 23- Variables en la ecuación de la regresión para el índice de Gini
III. Resultados Entropía
Variables en la ecuación
B E.T. Wald gl Sig. Exp(B)
Paso 1a entropia -,769 ,005 20164,229 1 ,000 ,463
Constante 3,101 ,018 30027,147 1 ,000 22,212
Tabla 24- Variables en la ecuación de la regresión para la entropía
Como se observa en las tablas de resultados anteriores los parámetros en todos los casos
resultan significativos, esto implica que es posible realizar predicciones a partir de cada uno de
los tres índices; debido a esto se procedió a realizar un análisis Cor que permitiera escoger al
mejor de los tres.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
52
8.1.3 Análisis de la Curva Cor
A continuación se presenta el gráfico resultado de la elaboración de la Curva Cor para las tres
reglas candidatas. El eje Susceptibilidad hace referencia a la potencia y el eje 1-Especificad es
el error tipo I.
Ilustración 12- Curva Cor para las tres reglas candidatas
Área bajo la curva
Variables resultado de
contraste Área
Probabilidad
pronosticadaAlpha
,649
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
53
Probabilidad
pronosticadaGini
,906
Probabilidad
pronosticadaEntropia
,732
La variable (o variables) de resultado de
contraste: Probabilidad
pronosticadaAlpha, Probabilidad
pronosticadaGini, Probabilidad
pronosticadaEntropia tiene al menos un
empate entre el grupo de estado real
positivo y el grupo de estado real
negativo. Los estadísticos pueden estar
sesgados.
Tabla 25- Áreas bajo la Curva Cor reglas de paretización
En la gráfica se observa claramente que el Índice de Gini constituye el parámetro superior de
los tres ya que su área bajo la Curva Cor es superior, esto representa una alta capacidad de
predicción. Debido a los resultados obtenidos en los análisis realizados se escogió al Índice de
Gini como el indicador más adecuado y confiable para determinar si un problema determinado
es susceptible de ser paretizado.
8.1.4 Punto de corte según el análisis de la Curva Cor
Para hallar el límite por debajo del cual el valor del índice de Gini indica si un problema es
paretizable o no, se utilizaron las coordenadas resultantes del gráfico de la Curva Cor con el
objetivo de escoger un punto en el cuál la sensibilidad y el valor de 1-especificidad tuvieran una
suma igual a 1. A continuación se muestra el punto escogido:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
54
Ilustración 13- Coordenadas de la Curva Cor con el punto de corte
Por lo tanto todo cálculo del Índice de Gini, para un problema de paretización, cuyo valor sea
superior a 0,7108 después de utilizar la regresión logística se considerará como paretizable;
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
55
asimismo si el cálculo del Índice de Gini se encuentra por debajo de dicho valor el problema
deberá ser considerado como no paretizable.
8.1.5 Índice de Gini aplicado a Casos Reales
Para evaluar el desempeño del índice de Gini en casos reales se estudiaron dos conjuntos de
datos que están relacionados a continuación:
1. Una investigación donde se estudia a qué áreas se envían los correos electrónicos de
una persona (Ver Anexo C: Caso Real 1: Destinatarios Correos Electrónicos de una
Persona)
El cálculo del índice de Gini en este caso fue igual a 0,765 y al convertirlo con la ecuación de la
regresión para que su valor sea comparable con el del valor de corte del índice de Gini se
obtiene el siguiente resultado:
( ( )) Ecuación 18
Por lo tanto se considera que este problema si es susceptible de ser paretizado ya que el valor
del índice está por encima del límite 0,7108 después de ser aplicado en la ecuación de la
regresión logística.
2. El consolidado de los trabajos y proyectos de grado de la carrera de ingeniería industrial:
acumulación de profesores, directores o evaluadores (Ver Anexo D: Caso Real 2:
Número de Trabajos de Grado dirigidos en los años 2010, 2011 y 2012 en la carrera de
Ingeniería Industrial)
El cálculo del índice de Gini en este caso fue igual a 0,502 y al convertirlo con la ecuación de la
regresión para que su valor sea comparable con el del valor de corte del índice de Gini se
obtiene el siguiente resultado:
( ( )) Ecuación 19
Por lo tanto se considera que este problema si es susceptible de ser paretizado ya que el valor
del índice está por encima del límite 0,7108 después de ser aplicado en la ecuación de la
regresión logística.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
56
3. El consolidado de trabajos de grado evaluados en los años 2010, 2011 y 2012 de la
carrera de ingeniería industrial (Ver Anexo E: Caso Real 3: Número de Trabajos de
Grado Evaluados en los años 2010, 2011 y 2012 en la carrera de Ingeniería Industrial)
El cálculo del índice de Gini en este caso fue igual a 0,447 y al convertirlo con la ecuación de la
regresión para que su valor sea comparable con el del valor de corte del índice de Gini se
obtiene el siguiente resultado:
( ( )) Ecuación 20
Por lo tanto se considera que este problema no es susceptible de ser paretizado ya que el valor
del índice está por debajo del límite 0,7108 después de ser aplicado en la ecuación de la
regresión logística.
8.2 RESULTADOS TAMAÑO DE MUESTRA
Para determinar un tamaño de muestra adecuado, según el número de causas de un problema
de Pareto, que garantice la realización de un diagrama adecuado se realizaron una serie de
análisis estadísticos para determinar la susceptibilidad de los resultados al tamaño de muestra
escogido. A continuación se presentan los análisis y sus resultados.
8.2.1 ANOVA
Para llevar a cabo los análisis se hizo una segmentación por grupos en SPSS para evaluar el
área bajo la Curva Cor en función del tamaño de muestra, considerando importante la relación
entre número de elementos y categorías.
Se realizó un análisis de varianza (ANOVA) a los resultado de la simulación con el objetivo de
determinar si los factores categorías (CATEGORÍAS) y la relación elementos/categorías (MN)
influían sobre la variable de respuesta Índice de Gini. Los resultados se muestran a
continuación:
Pruebas de los efectos inter-sujetos
Variable dependiente: Índice de Gini
Origen
Suma de
cuadrados tipo
III gl
Media
cuadrática F Sig.
Modelo corregido ,055a 16 ,003 55,044 ,000
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
57
Intersección 72,455 1 72,455 1149960,684 ,000
CATEGORÍAS ,004 9 ,000 6,743 ,000
MN ,052 7 ,007 117,145 ,000
Error ,004 63 6,301E-5
Total 72,514 80
Total corregida ,059 79
a. R cuadrado = ,933 (R cuadrado corregida = ,916)
Tabla 26- ANOVA para el índice de Gini
Como se puede observar los resultados sí son significativos, por lo tanto, se puede concluir que
el número de categorías y la relación de éstas con la cantidad de elementos en una muestra sí
influyen en la variable de respuesta, el Índice de Gini.
8.2.2 Prueba DHS de Tukey para el número de categorías
Junto con el ANOVA se llevó a cabo una prueba de Tukey con el objetivo de determinar en
detalle cómo los niveles de la variable categorías influían en la variable de respuesta. A
continuación se muestran los resultados obtenidos:
DHS de Tukeya,b
CATEG
ORÍAS N
Subconjunto
1 2 3
10 8 ,935375
20 8 ,942500 ,942500
30 8 ,950625 ,950625
40 8 ,951375 ,951375
60 8 ,954625 ,954625
50 8 ,954875 ,954875
80 8 ,956250
70 8 ,956500
100 8 ,957000
90 8 ,957625
Sig. ,736 ,076 ,755
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
58
Se muestran las medias de los grupos de subconjuntos
homogéneos.
Basadas en las medias observadas.
El término de error es la media cuadrática (Error) = 6,30E-
005.
a. Usa el tamaño muestral de la media armónica = 8,000
b. Alfa = ,05.
Tabla 27- DHS de Tukey para el número de categorías
De los resultados obtenidos se concluye que a medida que aumenta el número de categorías
en un diagrama de Pareto aumenta el valor del índice. Asimismo, el resultado con 10 ó 20
categorías es estadísticamente similar, pero el valor del índice de Gini aumenta a partir de 30
categorías. A partir de este número el valor de índice no varía significativamente, por lo tanto un
número de categorías igual a 30 o superior se considera adecuado.
8.2.3 Prueba DHS de Tukey para la relación número de elementos-número de categorías
Se realizó una prueba de Tukey con el objetivo de determinar en detalle cómo los niveles de la
variable número de elementos- número de categorías influían en la variable de respuesta. A
continuación se muestran los resultados obtenidos:
DHS de Tukeya,b
M/N N
Subconjunto
1 2 3 4 5
64,0 10 ,905500
32,0 10 ,922000
16,0 10 ,938400
8,0 10 ,954300
1,0 10 ,967300
4,0 10 ,969400
,5 10 ,978200
2,0 10 ,978300
Sig. 1,000 1,000 1,000 1,000 ,055
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
59
Se muestran las medias de los grupos de subconjuntos homogéneos.
Basadas en las medias observadas.
El término de error es la media cuadrática (Error) = 6,30E-005.
a. Usa el tamaño muestral de la media armónica = 10,000
b. Alfa = ,05.
Tabla 28- Prueba DHS de Tukey para la relación número de elementos-número de categorías
De los resultados obtenidos en la prueba de Tukey se puede concluir que la relación número de
elementos- número de categorías de ser de máximo 4. Para reafirmar este resultado se elaboró
un diagrama de caja y bigotes, éste se presenta a continuación:
Ilustración 14- Diagrama de caja área bajo la Curva Cor del índice de Gini
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
60
Apoyado en el diagrama anterior y con base en los resultados de la prueba de Tukey se
observa que la mejor relación para el número de elementos y el número de categorías es de 2
ó de 4 porque en este rango es donde se presenta la menor variabilidad. Las demás resultados
permiten obtener valores menores para el índice de Gini y a pesar de que las relaciones de 0,5
y 1 presentan un valor del índice igual de bueno que con 2 y 4, tienen una mayor variabilidad.
8.2.4 Análisis de Curva Cor
A continuación se presenta el gráfico que se elaboró con las tablas de resultados de las áreas
bajo la Curva Cor. Se gráfica la relación número de número total de elementos en la muestra-
número de categorías (M/N):
Ilustración 15-Áreas bajo la Curva Cor
El gráfico reafirma las conclusiones obtenidas anteriormente, pero mostrando adicionalmente la
combinación de categorías y la relación categorías/elementos, donde se puede apreciar que al
aumentar las categorías en valores bajos de la relación M/N, mejora el área bajo la Curva Cor,
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
61
lo cual no ocurre en valores altos; y simultáneamente, se puede ver que las relaciones M/N
bajas son mejores, de acuerdo a lo escrito anteriormente.
8.3 RESULTADOS PUNTO DE CORTE
8.3.1 Regla de Oro
Para el análisis de los datos y la comparación de las posibles reglas se estableció como Regla
de Oro el parámetro que se le ingresó al sistema para correr la simulación.
8.3.2 Porcentaje de Aciertos de las Reglas
Para evaluar los resultados se decidió usar dos criterios: porcentaje de aciertos y RMSE. La
siguiente tabla muestra los resultados de cada criterio en cuanto a porcentaje de aciertos:
Porcentaje Partición uno y
Porcentaje Categorías
Aciertos
Regla
Pendiente
Aciertos
Regla
Frecuencia
Acumulada
80%
Aciertos
Regla
Categorías
20%
70%- 30% 3,43% 5,56% 0,00%
75%- 25% 0,68% 4,36% 0,00%
80%- 20% 5,93% 39,11% 100%
85%- 15% 3,66% 13,59% 0,00%
90%- 10% 19,78% 31,61% 0,00%
Tabla 29- Porcentaje de aciertos reglas punto de corte
8.3.3 RMSE
La tabla que se muestra a continuación contiene el cálculo del RMSE para cada una de las
reglas:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
62
RMSE Regla
Pendiente
RMSE Regla
Frecuencia
Acumulada
80%
RMSE Regla
Categorías
20%
10,600
3,195
4,387
Tabla 30- RMSE reglas punto de corte
De hecho, al comparar las proporciones de éxito con una prueba de proporciones se demuestra
que la diferencia es significativa; dicha prueba se muestra a continuación:
Prueba de Proporciones para las Reglas 1 y 2
Casos buenos
Total casos División Varianza Diferencia
2677 40000 0,066925 0,002320551 -0,12155
7539 40000 0,188475 -52,37980835 valor z
1 si hay diferencia entre las reglas
Tabla 31- Prueba de Proporciones para las Reglas 1y 2
Prueba de Proporciones para las Reglas 1 y 3
Casos buenos
Total casos División Varianza Diferencia
2677 40000 0,066925 0,002358209 -0,133075
8000 40000 0,2 -56,43052969 valor z
1 si hay diferencia entre las reglas
Tabla 32- Prueba de Proporciones para las Reglas 1 y 3
Prueba de Proporciones para las Reglas 2 y 3
Casos buenos
Total casos División Varianza Diferencia
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
63
7539 40000 0,188475 0,002797106 -0,011525
8000 40000 0,2 -4,120329456 valor z
0,999981083 si hay diferencia entre las reglas
Tabla 33- Prueba de Proporciones para las Reglas 2 y 3
Como se puede observar en los resultados obtenidos, de las tres reglas aquí contrastadas para
encontrar el punto de corte en un diagrama de Pareto, la mejor aquella donde se efectúa el
corte cuando se haya acumulado el 80% de la frecuencia, sin embargo es importante resaltar
que la capacidad de predicción de las tres reglas es aún baja. La regla de la pendiente obtuvo
resultados poco favorables en comparación con las otras dos.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
64
9. DESARROLLO DE APLICACIÓN DE SOFTWARE
Como última instancia de este trabajo se implementaron los resultados obtenidos durante el
desarrollo en una sencilla aplicación cuya principal funcionalidad fuese la obtención de
diagramas de Pareto que cumplieran con las reglas acá estudiadas.
Para llevar a cabo la aplicación se siguieron las siguientes etapas que serán explicadas
posteriormente:
1. Captura y análisis de requerimientos con base en las reglas definidas anteriormente
2. Diseño del sistema: elaborar el modelo del sistema
3. Implementación del sistema
4. Pruebas del sistema: verificación y validación.
5. Documentación del sistema (implementación y manuales de uso).
9.1 Captura y análisis de Requerimientos
En esta primera fase se utilizó como documento guía la plantilla hacer y usos es una plantilla
creada por los ingenieros Luis Carlos Díaz, Deicy Alvarado y Ángela Carrillo del grupo de
investigación ISTAR del departamento de Ingeniería de Sistemas de la Pontificia Universidad
Javeriana (Chaparro, Alvarado, & Ramos, 2010).
Con base en ésta se definieron los requerimientos que constituyen las características
funcionales y no funcionales que debe contener un sistema. Dada esta definición se procedió a
definir los requerimientos, estos se presentan en la siguiente tabla:
R Requerimientos:
Especificación de las necesidades identificadas en la situación problema
Código-Requerimiento
Especificación Requerimiento
F : Funcional U : Facilidad de "Uso" R : Fiabilidad P : Rendimiento S : Soporte + : (Imple, Interfaz, Empaq, ...)
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
65
R01
El sistema debe permitir el ingreso de la información: número de categorías y cantidad de
elementos por categoría (frecuencia)
F
R02
El sistema debe determinar si un conjunto de datos es paretizable o no, empleando el criterio
del índice de Gini
F
R03 El sistema debe determinar si el tamaño de
muestra es adecuado para el análisis de Pareto F
R04 El sistema debe establecer el punto de corte del
diagrama de Pareto F
R05 El sistema debe generar el gráfico del diagrama
de Pareto F
Tabla 34- Especificación de requerimientos de la aplicación
9.2. Diseño del sistema
9.2.1. Representación Arquitectural
Teniendo en cuenta modelo de vistas arquitecturales “4+1” de Philippe Kruchten (Kruchten,
1995), las vistas usadas para documentar la arquitectura del proyecto a desarrollar son:
9.2.1.1. Vista lógica:
En la vista lógica se representa la funcionalidad que el sistema proporcionara a los usuarios
finales. Esta representa lo que el sistema debe hacer así como las funciones y servicios que
este ofrece. Para una mejor documentación de esta vista, se usaran los patrones EBC (Entity,
control, boundary). Se presenta un Overview de la arquitectura del sistema propuesto en el
proyecto. Este es un primer vistazo a lo que podría ser una posible partición de
responsabilidades dentro del sistema. El Overview de la vista lógica se presenta a continuación:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
66
Analizador del Índice
de Gini
SWING Interfaz
gráfica
Analizador del
tamaño de muestra
J FREE CHART
Component
Ilustración 16- Overview de la vista lógica de la aplicación
A continuación se muestra el diagrama EBC de la vista lógica:
Ilustración 17- Diagrama EBC de la vista lógica
9.2.1.2 Vista de proceso
En la vista de procesos se muestran (como su nombre lo indica) los procesos que hay en el
sistema y la forma en la que estos se comunican, es decir, el flujo de trabajo paso a paso de
negocio y de operaciones de los componentes que conforman el sistema. Para ofrecer una
mejor documentación de esta vista, se muestra a continuación el diagrama de componentes
UML5:
5 Un diagrama de componentes UML representa cómo un sistema de software es dividido en componentes y
muestra las dependencias entre estos componentes. Los componentes físicos incluyen archivos, cabeceras, bibliotecas compartidas, módulos, ejecutables, o paquetes. Los diagramas de Componentes prevalecen en el campo de la arquitectura de software pero pueden ser usados para modelar y documentar cualquier arquitectura de sistema.
analysis Domain Model
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
SWING Interfaz gráfica Analizador del Índice
de Gini
Analizador tamaño de
muestraJ FREE CHART
Component
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
67
Ilustración 18- Diagrama de componentes UML vista de proceso
9.2.1.3 Vista de implementación
La vista lógica muestra el sistema desde la perspectiva de un programador y se encarga de
mostrar cómo está dividido el sistema (componentes) y su relación (dependencias). A
continuación se muestra el diagrama de componentes UML de esta vista:
class Domain Model
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
Inicio
Capturar la información
(categorías y frecuencia) de
la interfaz gráfica
Calcular el Índice de Gini Analizar Índice de GiniCumple el criterio (Índice
de Gini mayor a 0,7108)
para ser paretizable?
Excepción de
Pareto Mostrar mensaje de error
para indicar que no es
posible elaborar el diagrama
de Pareto
Excepción de
Pareto
Final
Analizar la relación tamaño de
muestra/número de categorías
Calcular el punto de corte
del diagrama
Elaborar diagrama de
Pareto
Final
El tamaño de
muestra es 2 ó
4 veces mayor
al número de
categorías?
Indicar al usuario que el
tamaño de muestra no es
el adecuado
El usuario
decide
terminar el
proceso?
No
Si
No
Si
SiNo
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
68
Ilustración 19- Diagrama de componentes UML vista de implementación
9.2.1.4 Vista de despliegue
En esta vista se muestran todos los componentes físicos del sistema, así como las conexiones
físicas entre esos componentes según la perspectiva de un ingeniero de sistemas. A
continuación se muestra el diagrama de componentes UML de esta vista:
Ilustración 20- Diagrama de componentes UML vista de despliegue
analysis Domain Model
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
pareto.jar
J FREE CHART
Component
Analizador tamaño de
muestra
Analizador del Índice
de Gini
SWING Interfaz gráfica
analysis Domain ModelEA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version EA 10.0 Unregistered Trial Version
PC
pareto.jar
J FREE CHART
Component
Analizador tamaño de
muestra
Analizador del Índice
de Gini
SWING Interfaz gráfica
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
69
9.2.1.5 Vista de casos de uso
Los casos de uso modelan las funcionalidades del sistema, teniendo en cuenta el objetivo a
cumplir en el sistema, los actores involucrados, las precondiciones y pos condiciones del
sistema, el flujo básico de éxito entre los actores y el sistema, los casos de excepción, caminos
alternativos y requerimientos relacionados con la funcionalidad descrita (Chaparro et al., 2010)
La vista de casos de uso se encarga de relacionar y unir las 4 vistas anteriores. Gracias a esto
se puede tener una trazabilidad de componentes, clases, equipos, etc., para cada caso de uso
que se tenga. A continuación se muestra el caso de uso de la aplicación:
CU-1 Especificación de Caso de Uso
Id Caso de
Uso: CU-1 Nombre: Elaboración Diagrama de Pareto
Objetivo en Contexto
(Resumen):
Con base en la evaluación de los criterios predefinidos,
elaborar, de ser posible, el diagrama de Pareto.
Actores Participantes Usuario de la aplicación
Entradas Número de Categorías
Frecuencia de cada Categoría
Salidas Diagrama de Pareto
Pre-Condiciones
Las categorías debe tener una etiqueta de tipo numérico o
alfanumérico
La frecuencia de cada categoría debe ser un número entero
positivo
Post-Condiciones
Condición final de éxito: Generación del diagrama de Pareto
Condición final de fallo: No generación del diagrama de
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
70
Pareto
FLUJO BÁSICO DE ÉXITO
No. Actor No. Sistema
1 Ingresa las categorías con
su respectiva frecuencia
2 Calcula el Índice de Gini
3 Calcula la relación tamaño de la
muestra/número de categorías
4 Determina el punto de corte del
diagrama de Pareto
5 Elabora el diagrama de Pareto
Variaciones (Caminos
Alternativos):
3.1 Informar que la relación tamaño de la muestra/número
de categorías no es adecuada para elaborar el diagrama de
Pareto.
3.1.1 El sistema pregunta al usuario si desea continuar en
el proceso de generación del diagrama.
3.1.2 Continuar con el paso 4 del flujo básico de éxito si el
usuario desea continuar con la operación.
Variaciones (Caminos de
excepción):
2.1 Si el Índice de Gini es menor a 0,7108 el sistema debe
indicar al usuario que el conjunto de datos no es
paretizable.
2.1.1 El sistema muestra al usuario un mensaje de erro
indicando el índice de Gini calculado y la razón por la que
no es paretizable.
2.1.2 Finaliza la operación actual.
3.1.3 Si el usuario desea terminar la operación finaliza la
operación actual.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
71
Requerimientos
Asociados: R01, R02, R03, R04, R05
Tabla 35- Vista de casos de uso
9.3 Implementación del sistema
Una vez definidos los requerimientos de la aplicación “El Diagrama de Pareto Rediseñado” y de
tener claro el diseño de la misma se procedió a su implementación. Se realizó con el lenguaje
de programación JAVA en el compilador NetBeans IDE v. 7.2.1. La aplicación se encuentra en
el CD anexo a este trabajo, en la ruta:
El Diagrama de Pareto Rediseñado\pareto\dist. En esta carpeta se encuentra la aplicación que
es: pareto.jar.
Nota importante: para poder ejecutar la aplicación se debe descomprimir previamente toda la
carpeta “El Diagrama de Pareto Rediseñado”.
9.4 Pruebas del sistema: verificación y validación.
Las pruebas de software son las investigaciones empíricas y técnicas cuyo objetivo es
proporcionar información objetiva sobre la calidad del producto a la parte interesada.
Las pruebas se llevaron a cabo teniendo en cuenta los tres escenarios que pueden tener lugar
cuando se ejecuta la aplicación:
Escenario 1: el conjunto de datos sí es paretizable y la relación número total de
elementos- número de categorías cumple con los requisitos de estar entre 3 y 4.
Escenario 2: el conjunto de datos sí es paretizable y la relación número total de
elementos- número de categorías no cumple con los requisitos de estar entre 3 y 4.
Escenario 3: el conjunto de datos no es paretizable.
Se generó una tabla de control que contiene los resultados obtenidos al llevar a cabo los
cálculos con los datos de prueba sin usar la aplicación, o sea los resultados que debería
obtener la aplicación de estar funcionando exitosamente. Se corrió la aplicación con los datos y
se hizo un chequeo de los resultados.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
72
9.4.1 Escenario 1: el conjunto de datos sí es paretizable y la relación número total de
elementos- número de categorías cumple con los requisitos de estar entre 2 y 4.
A continuación se presentan los resultados de la prueba. El conjunto de datos y las capturas de
pantalla se encuentran en el Anexo F: Conjunto de datos sí paretizable y relación número total
de elementos- número de categorías que sí cumple con los requisitos de estar entre 2 y 4.
Prueba 1 Resultados de los cálculos
Resultados obtenidos
por la aplicación
¿Correcto?
Valor de Índice de Gini 0,799 0,799
¿Paretizable? Sí Sí
Relación elementos- cantidad de categorías
4 4
¿Cumple con lo establecido para la relación?
Sí Sí
Punto de corte C, acumula el
80% de la frecuencia 16
C
Tabla 36- Prueba 1 aplicación "El Diagrama de Pareto Rediseñado
9.4.2 Escenario 2: el conjunto de datos sí es paretizable y la relación número total de
elementos- número de categorías no cumple con los requisitos de estar entre 2 y 4.
A continuación se presentan los resultados de la prueba. El conjunto de datos y las capturas de
pantalla se encuentran en el Anexo G: Conjunto de datos sí paretizable y relación número total
de elementos- número de categorías que no cumple con los requisitos de estar entre 2 y 4.
Prueba 2 Resultados de los cálculos
Resultados obtenidos
por la aplicación
¿Correcto?
Valor de Índice de Gini 0,945 0,945
¿Paretizable? Sí Sí
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
73
9.4.3 Escenario 3: el conjunto de datos no es paretizable.
A continuación se presentan los resultados de la prueba. El conjunto de datos y las capturas de
pantalla se encuentran en el Anexo
H: Conjunto de datos no paretizable.
Prueba 3 Resultados
de los cálculos
Resultados obtenidos
por la aplicación
¿Correcto?
Valor de Índice de Gini 0,106 0,106
¿Paretizable? No
No, se genera
ventana de error
Relación elementos- cantidad de categorías
NA NA
¿Cumple con lo establecido para la relación?
NA NA
Punto de corte NA NA
Tabla 38- Prueba 3 aplicación "El Diagrama de Pareto Rediseñado
La aplicación fue verificada y validada para su uso, ésta sí cumple con los requisitos requeridos.
9.5 Documentación del sistema (implementación y manuales de uso).
En el CD anexo al trabajo de grado se encuentra la documentación de la implementación al
igual que el manual de uso de la misma. La documentación se encuentra en la ruta:
El Diagrama de Pareto Rediseñado\pareto\dist\javadoc.
Asimismo, el manual de uso es el documento PDF titulado: “Manual de Uso Aplicación El
diagrama de Pareto Rediseñado”.
Relación elementos- cantidad de categorías
458,04 458
¿Cumple con lo establecido para la relación?
No
No, se generó
ventana de advertencia
Punto de corte CEDI, acumula el
80% de la frecuencia 8428
CEDI
Tabla 37- Prueba 2 aplicación "El Diagrama de Pareto Rediseñado
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
74
10. CONCLUSIONES
Aunque en el origen del principio de los pocos vitales Joseph Juran se inspiró en procesos
generativos Power Law, en este trabajo se evidenció que existe por lo menos una alternativa de
proceso generativo de un problema de Pareto: una distribución multinomial con porcentajes
divididos de acuerdo a una regla de priorización. Esto abre las puertas para la investigación
subsiguiente en fenómenos relacionados con el principio de los pocos vitales.
Queda claro que el Índice de Gini, constituye la mejor regla, de las aquí estudiadas, para decidir
si un fenómeno es susceptible de ser paretizable o no debido a que tiene la capacidad de
medir de forma acertada la desigualdad categórica en cualquier tipo de distribución. En este
trabajo se determinó, mediante la regresión logística, que todo problema es susceptible de ser
paretizable si su Índice de Gini tiene un valor igual o superior a 0,7108 una vez aplicada la
ecuación de regresión logística-.
Los criterios de punto de corte aún son insuficientes para garantizar que se están diferenciando
correctamente los pocos vitales de los muchos triviales. Sin embargo el criterio de la
acumulación del 80% de la frecuencia fue escogido como el mejor de los tres debido a que
presenta la mayor cantidad de aciertos en la identificación del punto de corte en problemas
paretizables. Es importante resaltar que la regla de la pendiente aquí planteada puede ser
refinada matemáticamente y estudiada en trabajos de investigación posteriores debido a que, a
pesar de que sus resultados en este trabajo no fueron los mejores, sí se comprobó que tiene
determinada capacidad para identificar el punto de corte en el diagrama de Pareto.
El resultado del tamaño de muestra indica una conclusión paradójica en la que aumentar la
relación elementos/categorías genera una distorsión estadísticamente significativa; sin
embargo, al observar los resultados, el área bajo la Curva Cor del Índice de Gini baja de 98% a
91% de lo que no es tan significativo desde el punto de vista práctico. El aumento del número
de categorías en un diagrama de Pareto ofrece los mejores resultados: a medida que aumenta
el número de categorías en un diagrama de Pareto aumenta el valor del área bajo la Curva Cor.
Asimismo, la mejor relación para el número de elementos y el número de categorías es de 2 ó
de 4.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
75
Mediante este trabajo se evidenció la escasa comunicación entre las ciencias y disciplinas; si
bien el índice de Gini es ampliamente utilizado en las ciencias económicas, se desconoce su
funcionalidad en la ingeniería industrial a pesar de ser uno de los indicadores más utilizados
para el análisis estadístico de la desigualdad debido - entre otros motivos- a su facilidad de
cálculo y de interpretación.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
76
ANEXOS
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
77
ANEXO A: Diagrama Entidad Relación Base de Datos Objetivos 1 y 2
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
78
ANEXO B: Diagrama Entidad Relación Base de Datos Objetivo 3
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
79
ANEXO C: Caso Real 1: Destinatarios Correos Electrónicos de una Persona
Área Frecuenc
ia delta x delta y sumato
ria x sumato
ria y X+x Y-y x*y
1 Presidente 4 0,043 0,000 0,043 0,000 0,043 0,000 0,000
2 Cliente 10 0,043 0,001 0,087 0,001 0,130 0,001 0,000
3 Tecnología 11 0,043 0,001 0,130 0,002 0,217 0,001 0,000
4 Regalías 14 0,043 0,001 0,174 0,004 0,304 0,001 0,000
5 Administrativo 14 0,043 0,001 0,217 0,005 0,391 0,001 0,001
6 Financiero 14 0,043 0,001 0,261 0,006 0,478 0,001 0,001
7 Producción 14 0,043 0,001 0,304 0,008 0,565 0,001 0,001
8 Gestión Humana 23 0,043 0,002 0,348 0,010 0,652 0,002 0,001
9 Crédito 25 0,043 0,002 0,391 0,012 0,739 0,002 0,002
10 Promoción 31 0,043 0,003 0,435 0,015 0,826 0,003 0,002
11 Exportaciones 77 0,043 0,007 0,478 0,022 0,913 0,007 0,007
12 Diseño 78 0,043 0,007 0,522 0,030 1,000 0,007 0,007
13 Costos 88 0,043 0,008 0,565 0,038 1,087 0,008 0,009
14 Operaciones 100 0,043 0,009 0,609 0,048 1,174 0,009 0,011
15 Personal 225 0,043 0,021 0,652 0,069 1,261 0,021 0,027
16
Planeación De La Demanda 226 0,043 0,021 0,696 0,091 1,348 0,021 0,029
17 Ventas 237 0,043 0,022 0,739 0,113 1,435 0,022 0,032
18 Editorial 599 0,043 0,057 0,783 0,170 1,522 0,057 0,087
19 CEDI 618 0,043 0,059 0,826 0,229 1,609 0,059 0,094
20 Varios 730 0,043 0,069 0,870 0,298 1,696 0,069 0,117
21 Mercadeo 1149 0,043 0,109 0,913 0,407 1,783 0,109 0,194
22 Proveedor 2288 0,043 0,217 0,957 0,624 1,870 0,217 0,406
23 COMPRAS 3960 0,043 0,376 1,000 1,000 1,957 0,376 0,735
Total general 10535 1,765
Índice de Gini 0,765
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
80
ANEXO D: Caso Real 2: Número de Trabajos de Grado dirigidos en los
años 2010, 2011 y 2012 en la carrera de Ingeniería Industrial
Directore
s
Trabajo
s
dirigido
s 2010-
11-12
delta x
delta
y
sumatori
a x
sumatori
a y
X+x
Y-y
x*y
1 Antonio
Rivera
1 0,012 0,002 0,012 0,002 0,01
2
0,002 0,000
2 Marroquín
Alberto
1 0,012 0,002 0,025 0,005 0,03
7
0,002 0,000
3 Gabriel
Zambrano
1 0,012 0,002 0,037 0,007 0,06
2
0,002 0,000
4 López
Mauricio
1 0,012 0,002 0,049 0,009 0,08
6
0,002 0,000
5 Lizarazu
Cesar
Germán
1 0,012 0,002 0,062 0,011 0,11
1
0,002 0,000
6 Felipe de
las Casas
1 0,012 0,002 0,074 0,014 0,13
6
0,002 0,000
7 Jorge
David
Hernánde
z Ruiz
1 0,012 0,002 0,086 0,016 0,16
0
0,002 0,000
8 Alex Toro 1 0,012 0,002 0,099 0,018 0,18
5
0,002 0,000
9 David
Hernánde
z
1 0,012 0,002 0,111 0,020 0,21
0
0,002 0,000
1
0
Olga
Lucía
Araoz
1 0,012 0,002 0,123 0,023 0,23
5
0,002 0,001
1
1
Robledo
Diego
1 0,012 0,002 0,136 0,025 0,25
9
0,002 0,001
1
2
González
Sergio
1 0,012 0,002 0,148 0,027 0,28
4
0,002 0,001
1 Carlos 1 0,012 0,002 0,160 0,030 0,30 0,002 0,001
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
81
3 Fúquene 9
1
4
Carlos
Fúquene
1 0,012 0,002 0,173 0,032 0,33
3
0,002 0,001
1
5
Andrés
Torres -
Civil
1 0,012 0,002 0,185 0,034 0,35
8
0,002 0,001
1
6
Páez
Alejandro
1 0,012 0,002 0,198 0,036 0,38
3
0,002 0,001
1
7
Martínez
Ramón
1 0,012 0,002 0,210 0,039 0,40
7
0,002 0,001
1
8
Quintero
Araujo
Carlos
Leonardo
1 0,012 0,002 0,222 0,041 0,43
2
0,002 0,001
1
9
Fernando
Rodríguez
1 0,012 0,002 0,235 0,043 0,45
7
0,002 0,001
2
0
Carlos
Nieto
Porras
2 0,012 0,005 0,247 0,048 0,48
1
0,005 0,002
2
1
Jorge
Silva
2 0,012 0,005 0,259 0,052 0,50
6
0,005 0,002
2
2
Guido
Lacorazza
2 0,012 0,005 0,272 0,057 0,53
1
0,005 0,002
2
3
Leonardo
Quintana
2 0,012 0,005 0,284 0,061 0,55
6
0,005 0,003
2
4
José
Manuel
Medina
2 0,012 0,005 0,296 0,066 0,58
0
0,005 0,003
2
5
Bula
Carlos
2 0,012 0,005 0,309 0,070 0,60
5
0,005 0,003
2
6
Mauro
Rangel
2 0,012 0,005 0,321 0,075 0,63
0
0,005 0,003
2
7
Daniel
Castro
2 0,012 0,005 0,333 0,080 0,65
4
0,005 0,003
2
8
Carlos
Eduardo
Romero
Rojas
2 0,012 0,005 0,346 0,084 0,67
9
0,005 0,003
2
9
Vanegas
Pablo
Emilio
2 0,012 0,005 0,358 0,089 0,70
4
0,005 0,003
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
82
3
0
José
Andrés
Huzgame
2 0,012 0,005 0,370 0,093 0,72
8
0,005 0,003
3
1
Lina
Marcela
Rangel
Martínez
2 0,012 0,005 0,383 0,098 0,75
3
0,005 0,003
3
2
Coronado
Néstor
2 0,012 0,005 0,395 0,102 0,77
8
0,005 0,004
3
3
Fernando
Mariño
2 0,012 0,005 0,407 0,107 0,80
2
0,005 0,004
3
4
Fernando
Salazar
Arrieta
2 0,012 0,005 0,420 0,111 0,82
7
0,005 0,004
3
5
Forero
Estrada
Jairo
2 0,012 0,005 0,432 0,116 0,85
2
0,005 0,004
3
6
Martha
Inés Vera
3 0,012 0,007 0,444 0,123 0,87
7
0,007 0,006
3
7
Guillermo
Andrés
Zapata
Pérez
3 0,012 0,007 0,457 0,130 0,90
1
0,007 0,006
3
8
Álvaro Gil 3 0,012 0,007 0,469 0,136 0,92
6
0,007 0,006
3
9
Juan
Pablo
Caballero
3 0,012 0,007 0,481 0,143 0,95
1
0,007 0,006
4
0
Carlos
Ruiz
3 0,012 0,007 0,494 0,150 0,97
5
0,007 0,007
4
1
Jairo Roa
León
3 0,012 0,007 0,506 0,157 1,00
0
0,007 0,007
4
2
Juan
Carlos
Mora
Uscátegui
4 0,012 0,009 0,519 0,166 1,02
5
0,009 0,009
4
3
Cristina
Martínez
4 0,012 0,009 0,531 0,175 1,04
9
0,009 0,010
4
4
Jairo
Rafael
Montoya
4 0,012 0,009 0,543 0,184 1,07
4
0,009 0,010
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
83
Torres
4
5
Enrique
Romero
Motta
4 0,012 0,009 0,556 0,193 1,09
9
0,009 0,010
4
6
Urrea
Morales
Mónica
4 0,012 0,009 0,568 0,202 1,12
3
0,009 0,010
4
7
Lope
Hugo
Barrero
Solano
4 0,012 0,009 0,580 0,211 1,14
8
0,009 0,010
4
8
Fabio
Aldana
4 0,012 0,009 0,593 0,220 1,17
3
0,009 0,011
4
9
Jorge
Andrés
Alvarado
Valencia
4 0,012 0,009 0,605 0,230 1,19
8
0,009 0,011
5
0
Santiago
Aguirre
5 0,012 0,011 0,617 0,241 1,22
2
0,011 0,014
5
1
Mauricio
López
5 0,012 0,011 0,630 0,252 1,24
7
0,011 0,014
5
2
García
Juan
Carlos
5 0,012 0,011 0,642 0,264 1,27
2
0,011 0,014
5
3
Juan
Guillermo
Galán
5 0,012 0,011 0,654 0,275 1,29
6
0,011 0,015
5
4
José
Alejandro
Páez
Rodríguez
6 0,012 0,014 0,667 0,289 1,32
1
0,014 0,018
5
5
Emilio
Arévalo
6 0,012 0,014 0,679 0,302 1,34
6
0,014 0,018
5
6
Carlos
Rey
6 0,012 0,014 0,691 0,316 1,37
0
0,014 0,019
5
7
Andrés
Posada
6 0,012 0,014 0,704 0,330 1,39
5
0,014 0,019
5
8
Ramón
Mantilla
7 0,012 0,016 0,716 0,345 1,42
0
0,016 0,023
5
9
Oscar
Javier
7 0,012 0,016 0,728 0,361 1,44
4
0,016 0,023
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
84
Jamocó
Ángel
6
0
Carlos
Romero
7 0,012 0,016 0,741 0,377 1,46
9
0,016 0,023
6
1
Vega
Mejía
Carlos
Alberto
7 0,012 0,016 0,753 0,393 1,49
4
0,016 0,024
6
2
Andrés
Zapata
7 0,012 0,016 0,765 0,409 1,51
9
0,016 0,024
6
3
Javier
Hernando
Padilla
Bohórque
z
7 0,012 0,016 0,778 0,425 1,54
3
0,016 0,025
6
4
Manuel
Alejandro
Martá
Quiroz
7 0,012 0,016 0,790 0,441 1,56
8
0,016 0,025
6
5
Ricardo
Ladino
7 0,012 0,016 0,802 0,457 1,59
3
0,016 0,025
6
6
García
Rafael
Guillermo
8 0,012 0,018 0,815 0,475 1,61
7
0,018 0,029
6
7
Jiménez
Gordillo
José
Fernando
9 0,012 0,020 0,827 0,495 1,64
2
0,020 0,034
6
8
Martha
Lucía
Morales
9 0,012 0,020 0,840 0,516 1,66
7
0,020 0,034
6
9
Nicolás
Rincón
10 0,012 0,023 0,852 0,539 1,69
1
0,023 0,038
7
0
Mabel
Olano
Parra
10 0,012 0,023 0,864 0,561 1,71
6
0,023 0,039
7
1
Luis
Enrique
Fajardo
10 0,012 0,023 0,877 0,584 1,74
1
0,023 0,040
7
2
Oswaldo
Prieto
12 0,012 0,027 0,889 0,611 1,76
5
0,027 0,048
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
85
7
3
Carlos
Navarrete
13 0,012 0,030 0,901 0,641 1,79
0
0,030 0,053
7
4
Martha
Manrique
14 0,012 0,032 0,914 0,673 1,81
5
0,032 0,058
7
5
John
Eduardo
Peña
16 0,012 0,036 0,926 0,709 1,84
0
0,036 0,067
7
6
Martha
Patricia
Caro
18 0,012 0,041 0,938 0,750 1,86
4
0,041 0,076
7
7
Camilo
Merchán
18 0,012 0,041 0,951 0,791 1,88
9
0,041 0,077
7
8
Juan
Bernardo
Merino
19 0,012 0,043 0,963 0,834 1,91
4
0,043 0,083
7
9
Rafael
Eduardo
Sandino
23 0,012 0,052 0,975 0,886 1,93
8
0,052 0,101
8
0
Luis
Manuel
Pulido
25 0,012 0,057 0,988 0,943 1,96
3
0,057 0,112
8
1
Gabriel
Gómez
25 0,012 0,057 1,000 1,000 1,98
8
0,057 0,113
Total
general
440 1,5025
3
Índice
de Gini
0,502
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
86
ANEXO E: Caso Real 3: Número de Trabajos de Grado Evaluados en los
años 2010, 2011 y 2012 en la carrera de Ingeniería Industrial
Rótulos de fila
Trabajos evaluados 2010, 2011, 2012
delta x
delta y
sum x
sum y X+x Y-y x*y
1 Daniel Castro 1 0,009 0,002 0,009 0,002 0,009 0,002 0,000
2 Juan Pablo Garzón 1 0,009 0,002 0,018 0,005 0,027 0,002 0,000
3 Daniel Remolina 1 0,009 0,002 0,027 0,007 0,045 0,002 0,000
4 Javier Moreno 1 0,009 0,002 0,036 0,009 0,064 0,002 0,000
5 Sandra Jarro 1 0,009 0,002 0,045 0,011 0,082 0,002 0,000
6 Martha Lucia Morales 1 0,009 0,002 0,055 0,014 0,100 0,002 0,000
7 Paola Hernández 1 0,009 0,002 0,064 0,016 0,118 0,002 0,000
8 Fernando Mariño 1 0,009 0,002 0,073 0,018 0,136 0,002 0,000
9 Carlos Alberto Bula Gazabón 1 0,009 0,002 0,082 0,020 0,155 0,002 0,000
10 Leonardo Quintana 1 0,009 0,002 0,091 0,023 0,173 0,002 0,000
11 Enrique Romero 1 0,009 0,002 0,100 0,025 0,191 0,002 0,000
12 Lindsay Álvarez 1 0,009 0,002 0,109 0,027 0,209 0,002 0,000
13
María Paula Ramírez Tovar 1 0,009 0,002 0,118 0,030 0,227 0,002 0,001
14 Vladimir Castro 1 0,009 0,002 0,127 0,032 0,245 0,002 0,001
15
Daniel Fernando Maya Cerón 1 0,009 0,002 0,136 0,034 0,264 0,002 0,001
16 Javier Padilla 1 0,009 0,002 0,145 0,036 0,282 0,002 0,001
17 Wolfang Pfizenmaier 1 0,009 0,002 0,155 0,039 0,300 0,002 0,001
18 Cristina González 1 0,009 0,002 0,164 0,041 0,318 0,002 0,001
19 Eliana González 1 0,009 0,002 0,173 0,043 0,336 0,002 0,001
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
87
20 Carlos Muñoz 1 0,009 0,002 0,182 0,045 0,355 0,002 0,001
21 César Guzmán 1 0,009 0,002 0,191 0,048 0,373 0,002 0,001
22 Nelson Arce Cortés 1 0,009 0,002 0,200 0,050 0,391 0,002 0,001
23 Alexander Lizcano 1 0,009 0,002 0,209 0,052 0,409 0,002 0,001
24 Jazmín Gaitán 1 0,009 0,002 0,218 0,055 0,427 0,002 0,001
25 Samuel Tirado 1 0,009 0,002 0,227 0,057 0,445 0,002 0,001
26 Carlos Parra 1 0,009 0,002 0,236 0,059 0,464 0,002 0,001
27 Jaime A. Rubiano 1 0,009 0,002 0,245 0,061 0,482 0,002 0,001
28 Jaime Lara 1 0,009 0,002 0,255 0,064 0,500 0,002 0,001
29
Martha Helena Carrillo 1 0,009 0,002 0,264 0,066 0,518 0,002 0,001
30 Oscar Yecid Buitrago 1 0,009 0,002 0,273 0,068 0,536 0,002 0,001
31 Mauricio Rodríguez 1 0,009 0,002 0,282 0,070 0,555 0,002 0,001
32 Alfonso Murillo 1 0,009 0,002 0,291 0,073 0,573 0,002 0,001
33 John Iván Hernández 1 0,009 0,002 0,300 0,075 0,591 0,002 0,001
34 José Manuel Medina 2 0,009 0,005 0,309 0,080 0,609 0,005 0,003
35 Rafael García 2 0,009 0,005 0,318 0,084 0,627 0,005 0,003
36 Oscar Javier Jamocó 2 0,009 0,005 0,327 0,089 0,645 0,005 0,003
37 Juan José Obagi 2 0,009 0,005 0,336 0,093 0,664 0,005 0,003
38 Guido Lacorazza 2 0,009 0,005 0,345 0,098 0,682 0,005 0,003
39 Juliana Sánchez 2 0,009 0,005 0,355 0,102 0,700 0,005 0,003
40
Claudia Liliana Romero Ardila 2 0,009 0,005 0,364 0,107 0,718 0,005 0,003
41 Karen González 2 0,009 0,005 0,373 0,111 0,736 0,005 0,003
42 Paula Mateus 2 0,009 0,005 0,382 0,116 0,755 0,005 0,003
43 Clara Mabel Solano 2 0,009 0,005 0,391 0,120 0,773 0,005 0,004
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
88
44
Diego Ernesto Mendoza Patiño 2 0,009 0,005 0,400 0,125 0,791 0,005 0,004
45 Carlos Fúquene 2 0,009 0,005 0,409 0,130 0,809 0,005 0,004
46
José Fernando Jiménez 2 0,009 0,005 0,418 0,134 0,827 0,005 0,004
47 Martha Manrique 2 0,009 0,005 0,427 0,139 0,845 0,005 0,004
48 Alejandro Páez 2 0,009 0,005 0,436 0,143 0,864 0,005 0,004
49 Álvaro Gil 2 0,009 0,005 0,445 0,148 0,882 0,005 0,004
50 Carlos Navarrete 2 0,009 0,005 0,455 0,152 0,900 0,005 0,004
51 Natalia Tirado 3 0,009 0,007 0,464 0,159 0,918 0,007 0,006
52 Esteban Acuña 3 0,009 0,007 0,473 0,166 0,936 0,007 0,006
53 Oscar Buitrago 3 0,009 0,007 0,482 0,173 0,955 0,007 0,007
54 Hernán Arias 3 0,009 0,007 0,491 0,180 0,973 0,007 0,007
55 Santiago Aguirre 3 0,009 0,007 0,500 0,186 0,991 0,007 0,007
56 Jairo Enrique Roa León 3 0,009 0,007 0,509 0,193 1,009 0,007 0,007
57 Jorge Andrés Alvarado 3 0,009 0,007 0,518 0,200 1,027 0,007 0,007
58 Marcela Cabrera 3 0,009 0,007 0,527 0,207 1,045 0,007 0,007
59 Ricardo Bernal 3 0,009 0,007 0,536 0,214 1,064 0,007 0,007
60 María Olga Silva 3 0,009 0,007 0,545 0,220 1,082 0,007 0,007
61 Ricardo Vásquez 3 0,009 0,007 0,555 0,227 1,100 0,007 0,007
62 Gabriel Zambrano 3 0,009 0,007 0,564 0,234 1,118 0,007 0,008
63
Jean Alexander Pulido 3 0,009 0,007 0,573 0,241 1,136 0,007 0,008
64 Luís Enrique Fajardo 3 0,009 0,007 0,582 0,248 1,155 0,007 0,008
65 Lope Hugo Barrero 4 0,009 0,009 0,591 0,257 1,173 0,009 0,011
66 Ricardo 4 0,009 0,009 0,600 0,266 1,191 0,009 0,011
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
89
Ladino
67 Mauro Rangel 4 0,009 0,009 0,609 0,275 1,209 0,009 0,011
68
Andrés Eduardo Posada 4 0,009 0,009 0,618 0,284 1,227 0,009 0,011
69
Juan Guillermo Galán 4 0,009 0,009 0,627 0,293 1,245 0,009 0,011
70 Gabriel Gómez 4 0,009 0,009 0,636 0,302 1,264 0,009 0,011
71 Martha Inés Vera 4 0,009 0,009 0,645 0,311 1,282 0,009 0,012
72 Gustavo Vivas 4 0,009 0,009 0,655 0,320 1,300 0,009 0,012
73 Cristina Martínez 4 0,009 0,009 0,664 0,330 1,318 0,009 0,012
74
Jairo Rafael Montoya Torres 4 0,009 0,009 0,673 0,339 1,336 0,009 0,012
75 Ángela Niño 4 0,009 0,009 0,682 0,348 1,355 0,009 0,012
76 Juan Carlos García Díaz 4 0,009 0,009 0,691 0,357 1,373 0,009 0,012
77 Oswaldo Prieto 5 0,009 0,011 0,700 0,368 1,391 0,011 0,016
78 Pablo Emilio Vanegas 5 0,009 0,011 0,709 0,380 1,409 0,011 0,016
79 Carlos Alberto Vega Mejía 5 0,009 0,011 0,718 0,391 1,427 0,011 0,016
80 Carlos Rey 5 0,009 0,011 0,727 0,402 1,445 0,011 0,016
81 Andrés Zapata 5 0,009 0,011 0,736 0,414 1,464 0,011 0,017
82
Sergio Remolina Prada 5 0,009 0,011 0,745 0,425 1,482 0,011 0,017
83
Fernando Salazar Arrieta 5 0,009 0,011 0,755 0,436 1,500 0,011 0,017
84 Felipe Nieto 5 0,009 0,011 0,764 0,448 1,518 0,011 0,017
85 NN 5 0,009 0,011 0,773 0,459 1,536 0,011 0,017
86 Camilo Merchán 6 0,009 0,014 0,782 0,473 1,555 0,014 0,021
87 Edgard Jaramillo 6 0,009 0,014 0,791 0,486 1,573 0,014 0,021
88 Manuel Martá 6 0,009 0,014 0,800 0,500 1,591 0,014 0,022
89 Andrés Albán 6 0,009 0,014 0,809 0,514 1,609 0,014 0,022
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
90
90 Ramón Mantilla 7 0,009 0,016 0,818 0,530 1,627 0,016 0,026
91 Fabio Aldana 7 0,009 0,016 0,827 0,545 1,645 0,016 0,026
92 Emilio Arévalo 8 0,009 0,018 0,836 0,564 1,664 0,018 0,030
93 Mónica Morales 8 0,009 0,018 0,845 0,582 1,682 0,018 0,031
94 Claudia González 8 0,009 0,018 0,855 0,600 1,700 0,018 0,031
95 Carlos Nieto 8 0,009 0,018 0,864 0,618 1,718 0,018 0,031
96 Martha Patricia Caro 9 0,009 0,020 0,873 0,639 1,736 0,020 0,036
97 Mabel Olano 9 0,009 0,020 0,882 0,659 1,755 0,020 0,036
98 Mauricio López 9 0,009 0,020 0,891 0,680 1,773 0,020 0,036
99 Rafael Andrés Martínez 9 0,009 0,020 0,900 0,700 1,791 0,020 0,037
100 Camilo Arguello 9 0,009 0,020 0,909 0,720 1,809 0,020 0,037
101 Carlos Rodrigo Ruiz 10 0,009 0,023 0,918 0,743 1,827 0,023 0,042
102 Jorge Silva 11 0,009 0,025 0,927 0,768 1,845 0,025 0,046
103 Carlos Romero 11 0,009 0,025 0,936 0,793 1,864 0,025 0,047
104 Darío Lombana 11 0,009 0,025 0,945 0,818 1,882 0,025 0,047
105 John Peña 11 0,009 0,025 0,955 0,843 1,900 0,025 0,047
106 Nicolás Rincón 12 0,009 0,027 0,964 0,870 1,918 0,027 0,052
107 Alberto Marroquín 12 0,009 0,027 0,973 0,898 1,936 0,027 0,053
108
Juan Bernardo Merino 14 0,009 0,032 0,982 0,930 1,955 0,032 0,062
109 Rafael Sandino 14 0,009 0,032 0,991 0,961 1,973 0,032 0,063
110
Luis Manuel Pulido Moreno 17 0,009 0,039 1,000 1,000 1,991 0,039 0,077
Total general 440 1,447
Índice de Gini 0,447
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
91
ANEXO F: Conjunto de datos sí paretizable y relación número total de
elementos- número de categorías que sí cumple con los requisitos de
estar entre 2 y 4.
Categorías Frecuencia delta x delta y sum x sum y X+x Y-y x*y
A 1 0,2 0,05 0,2 0,05 0,2 0,05 0,01
B 1 0,2 0,05 0,4 0,1 0,6 0,05 0,03
C 2 0,2 0,1 0,6 0,2 1 0,1 0,1
D 2 0,2 0,1 0,8 0,3 1,4 0,1 0,14
E 14 0,2 0,7 1 1 1,8 0,7 1,26
20 1 1,54
16 0,54
( ( ))
Capturas de pantalla de la aplicación:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
92
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
93
ANEXO G: Conjunto de datos sí paretizable y relación número total de
elementos- número de categorías que no cumple con los requisitos
de estar entre 2 y 4.
Categorías Frecuencia delta x delta y sum x sum y X+x Y-y x*y
1 Presidente 4 0,043 0,000 0,043 0,000 0,043 0,000 0,000
2 Cliente 10 0,043 0,001 0,087 0,001 0,130 0,001 0,000
3 Tecnología 11 0,043 0,001 0,130 0,002 0,217 0,001 0,000
4 Regalías 14 0,043 0,001 0,174 0,004 0,304 0,001 0,000
5 Administrativo 14 0,043 0,001 0,217 0,005 0,391 0,001 0,001
6 Financiero 14 0,043 0,001 0,261 0,006 0,478 0,001 0,001
7 Producción 14 0,043 0,001 0,304 0,008 0,565 0,001 0,001
8 Gestión humana 23 0,043 0,002 0,348 0,010 0,652 0,002 0,001
9 Crédito 25 0,043 0,002 0,391 0,012 0,739 0,002 0,002
10 Promoción 31 0,043 0,003 0,435 0,015 0,826 0,003 0,002
11 Exportaciones 77 0,043 0,007 0,478 0,022 0,913 0,007 0,007
12 Diseño 78 0,043 0,007 0,522 0,030 1,000 0,007 0,007
13 Costos 88 0,043 0,008 0,565 0,038 1,087 0,008 0,009
14 Operaciones 100 0,043 0,009 0,609 0,048 1,174 0,009 0,011
15 Personal 225 0,043 0,021 0,652 0,069 1,261 0,021 0,027
16 Planeación de la demanda 226 0,043 0,021 0,696 0,091 1,348 0,021 0,029
17 Ventas 237 0,043 0,022 0,739 0,113 1,435 0,022 0,032
18 Editorial 599 0,043 0,057 0,783 0,170 1,522 0,057 0,087
19 CEDI 618 0,043 0,059 0,826 0,229 1,609 0,059 0,094
20 Varios 730 0,043 0,069 0,870 0,298 1,696 0,069 0,117
21 Mercadeo 1149 0,043 0,109 0,913 0,407 1,783 0,109 0,194
22 Proveedor 2288 0,043 0,217 0,957 0,624 1,870 0,217 0,406
23 Compras 3960 0,043 0,376 1,000 1,000 1,957 0,376 0,735
Total general 10535 1,765
0,765
( ( ))
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
94
Capturas de pantalla de la aplicación:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
95
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
96
ANEXO H: Conjunto de datos no paretizable.
Categorías Frecuencia delta x delta y sum x sum y X+x Y-y x*y
1 1 0,2 0,2 0,2 0,2 0,2 0,2 0,04
2 1 0,2 0,2 0,4 0,4 0,6 0,2 0,12
3 1 0,2 0,2 0,6 0,6 1 0,2 0,2
4 1 0,2 0,2 0,8 0,8 1,4 0,2 0,28
5 1 0,2 0,2 1 1 1,8 0,2 0,36
5 1 1
0
( ( ))
Capturas de pantalla de la aplicación:
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
97
REFERENCIAS
Chang, S. K. (2003). Data structures and algorithms World Scientific.
Chaparro, L. C. D., Alvarado, D., & Ramos, A. C. (2010). Diseño de una asignatura basado en
aprendizaje activo que separa el análisis y diseño de la programación orientada a objetos
active learning design of a course which separates the analysis and the design from the
object oriented. Revista Avances En Sistemas e Informática, 7(1), 59-70.
Dean, A. M., & Voss, D. (1999). Design and analysis of experiments Springer Verlag.
Downey, A. B. (2001). Evidence for long-tailed distributions in the internet. Proceedings of the
1st ACM SIGCOMM Workshop on Internet Measurement, 229-241.
Grosfeld-Nir, A., Ronen, B., & Kozlovsky, N. (2007). The pareto managerial principle: When
does it apply? International Journal of Production Research, 45(10), 2317-2325.
doi:10.1080/00207540600818203
Kruchten, P. B. (1995). The 4+1 view model of architecture. Software, IEEE, 12(6), 42-50.
doi:10.1109/52.469759
Mitzenmacher, M. (2004). A brief history of generative models for power law and lognormal
distributions. Internet Mathematics, 1(2), 226-251. doi:10.1080/15427951.2004.10129088
Mohan Pandey, H. (2008). Desing, analysisand algorithms (1st ed.) Firewall Media.
Newman, M. E. (2005). Power laws, pareto distributions and zipf's law. Contemporary Physics,
46(5), 323-351.
Pontificia Universidad Javeriana El Diagrama de Pareto Rediseñado
____________________________________________________________________________
98
Puntambekar, A. A. (2008). Analysis and design of algorithms Technical Publications.
Xhafa, F., & Vazquez, P. (2006). In Editorial Paraninfo (Ed.), Programacion en C++ para
ingenieros (1st ed.)