Desarrollo de Un Modelo de Minería de Datos Para La Toma de Decisiones Tesis

i

UNIVERSIDAD NACIONAL DE TRUJILLO

FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS

ESCUELA ACADEMICO PROFESIONAL DE INFORMÁTICA

Desarrollo de un Modelo de Minería de Datos para la Toma de Decisiones en la Gestión de Inventarios en Empresas Comerciales.

Informe Final de Trabajo de Graduación

PROPUESTO POR: Ing. Christian Araujo González [email protected]

ELABORADO POR: Mendoza Castillo, Sandra Jaqueline [email protected] Zavaleta Henrriquez, Fernando [email protected]

AREA DEL PROYECTO: Administración de la Información

Trujillo, 17 de Diciembre de 2013

ii

Tabla de contenido

Lista de Tablas o Cuadros .............................................................................................................. iv

Lista de Figuras ................................................................................................................................ v

Introducción ....................................................................................................................................... 1

Planteamiento del Estudio ................................................................................................................ 2

1.1. Realidad Problemática ................................................................................................... 2

1.2. Formulación del Problema ............................................................................................ 3

1.3. Hipótesis ........................................................................................................................... 3

1.4. Objetivos ........................................................................................................................... 3

Objetivo General .............................................................................................................. 3

Objetivos Específicos ...................................................................................................... 4

1.5. Justificación del Problema ............................................................................................. 4

Desde el punto de vista de la ciencia computacional ............................................... 4

Desde el punto de vista organizacional ...................................................................... 4

1.6. Limitaciones del Estudio ................................................................................................ 4

Marco Teórico .................................................................................................................................... 5

2.1. Gestión de Inventarios ................................................................................................... 5

2.1.1. Definición .................................................................................................................. 5

2.1.2. Clasificación Funcional de Inventarios. .............................................................. 5

2.1.3. Factores de Importancia para la Toma de Decisiones en Inventarios. ......... 7

2.2. Minería de Datos. ........................................................................................................... 10

2.2.1. Definición. ............................................................................................................... 10

2.2.2. Proceso de Descubrimiento de Conocimiento ................................................. 11

2.2.3. Modelos y Tareas de Minería de Datos.............................................................. 13

2.2.4. Técnicas de Minería de Datos. ............................................................................ 15

2.3. Toma de Decisiones Empresariales ........................................................................... 23

2.3.1. Definición. ............................................................................................................... 23

2.3.2. Elementos de Toma de Decisiones. .................................................................... 23

2.3.3. Tipos de Toma de Decisiones .............................................................................. 24

2.3.4. Proceso de la Toma de Decisiones. .................................................................... 25

2.3.5. Barreras para la Toma Efectiva de Decisiones. ............................................... 25

2.4. Empresas Comerciales ................................................................................................. 27

iii

2.4.1. Definición. ............................................................................................................... 27

2.4.2. Clasificación ............................................................................................................ 27

2.4.3. Inventarios en Empresas Comerciales. ............................................................. 28

Materiales y Métodos ...................................................................................................................... 29

3.1. Diseño de la Investigación. .......................................................................................... 29

3.2. Población y Muestra. ..................................................................................................... 29

Población......................................................................................................................... 29

Muestra ............................................................................................................................ 29

3.3. Variables de Estudio. .................................................................................................... 30

3.3.1. Variable Dependiente ........................................................................................... 30

3.3.2. Variable Independiente ....................................................................................... 30

3.4. Técnicas e Instrumentos. ............................................................................................. 30

Resultados ........................................................................................................................................ 31

4.1. Análisis Comparativo de Técnicas de Minería de Datos ........................................ 31

4.1.1. Análisis de las Técnicas Según Criterios. .......................................................... 31

4.1.2. Resultados de Análisis de las Técnicas. ............................................................ 33

4.2. Diseño del Modelo Propuesto. .................................................................................... 34

4.2.1. Enfoque del Modelo. .............................................................................................. 34

4.2.2. Arquitectura del Modelo. ..................................................................................... 35

4.2.3. Formalización del Modelo. .................................................................................. 37

Conclusiones .................................................................................................................................... 44

Referencias Bibliográficas ............................................................................................................... 45

iv

Lista de Tablas o Cuadros

Tabla 1. Clasificación de técnicas de Minería de Datos. ................................................................................. 16

Tabla 2. Resultados de Comparación de Técnicas de Minería de Datos. ....................................................... 33

v

Lista de Figuras

Figura 1. Descripción Gráfica de la Realidad Problemática ........................................................................... 3

Figura 2. Asociación de las diversas disciplinas relacionadas a la Minería de Datos. .................................. 11

Figura 3. Proceso de Descubrimiento de Conocimiento (KDD). .................................................................... 11

Figura 4. Representación general de los modelos y tareas de Minería de Datos. ......................................... 14

Figura 5. Árbol de Decisión ............................................................................................................................. 18

Figura 6. Agrupamiento (Clustering) ............................................................................................................. 22

Figura 7. Proceso de Toma de Decisiones. ..................................................................................................... 25

Figura 8. Enfoque del Modelo Propuesto. ...................................................................................................... 35

Figura 9. Arquitectura Del Modelo Propuesto. .............................................................................................. 36

1

Introducción

La gestión de inventarios es una de las actividades más complejas dentro de una empresa y la

toma de decisiones en ésta genera un gran impacto en la productividad de la empresa. Es por

esto que tanto investigadores como empresarios, han trabajado por años en la solución a dicha

complejidad, apoyándose en técnicas matemáticas y estadísticas, desarrollando modelos para

la correcta gestión del inventario.

Sin embargo se evidencia que la mayor proporción de las empresas, toman sus decisiones en

base a criterios o experiencia y no están fundamentando esas decisiones en datos reales, pero

hoy en día estamos en un mundo comercial tan competitivo que no se puede dar el lujo de

equivocarse en una decisión por más pequeña que ésta sea.

Es por ello que se propone el desarrollo de un modelo de minería de datos, que ayude a los

encargados de ésta área a hacer un mejor uso de los datos almacenados que generalmente no

se aprovecha, pero que son de vital importancia como apoyo al proceso de toma de decisiones.

2

Planteamiento del Estudio

1.1. Realidad Problemática

Los sistemas para la gestión y control de inventarios que se encuentran en el mercado,

raramente contienen herramientas que apoyen y soporten el proceso de toma de decisiones,

que permitan definir mejores políticas de control. Los administradores de los inventarios

deben convivir con esta realidad y se ven obligados a tomar decisiones sobre la cantidad de

productos a pedir, el nivel de inventario a mantener y la capacidad de almacenamiento

requerida, con base en supuestos. Esto conlleva a tener exceso de inventario de algunas

referencias y faltantes en otras, afectando el nivel de servicio de la compañía, el capital de

trabajo y el almacenamiento disponible, por mencionar algunos de los posibles efectos

negativos. Para intentar superar estas limitaciones, los administradores de los inventarios

recurren a las hojas de cálculo para apoyar el proceso de toma de decisiones, pero muchas

veces las decisiones se toman aplicando modelos equivocados o con información irreal.

La posibilidad de mejorar la competitividad de una empresa a través de una adecuada gestión

de sus inventarios, es una alternativa que muchas empresas y consultores han venido

explorando desde hace años; pero para ello, se requiere de un adecuado análisis de sus datos

históricos, que permitan obtener información relevante y fundamental como soporte a la toma

de decisiones en la gestión de inventarios dentro de la organización comercial.

En la Figura 1, se concretiza la realidad problemática de una forma gráfica.

3

Figura 1. Descripción Gráfica de la Realidad Problemática

[Elaboración propia]

1.2. Formulación del Problema

¿Cómo mejorar el proceso de toma de decisiones en la gestión de inventarios en las empresas

comerciales?

1.3. Hipótesis

Un modelo de minería de datos permitirá mejorar el proceso de toma de decisiones en la

gestión de inventarios en empresas comerciales.

1.4. Objetivos

Objetivo General

Desarrollar un modelo de minería de datos para mejorar el proceso de toma de decisiones

en la gestión de inventarios en las empresas comerciales.

4

Objetivos Específicos

Realizar una investigación bibliográfica referente al tema de investigación propuesto.

Analizar las diferentes técnicas de la minería de datos para determinar la técnica a

utilizar.

Diseñar un modelo de minería de datos, basada en el análisis de las técnica

seleccionadas.

Implementar el modelo de minería de datos diseñado.

Analizar la mejora en el proceso de la toma de decisiones en la gestión de inventarios al

aplicar el modelo de minería de datos implementado.

1.5. Justificación del Problema

Desde el punto de vista de la ciencia computacional

El resultado de la investigación aportara en el área de administración de la información,

un modelo computacional de minería de datos práctico enfocado a inventarios y un

análisis comparativo de técnicas de minera de datos aplicadas a este enfoque, que

servirá en investigaciones futuras.

Desde el punto de vista organizacional

El modelo de minería de datos permitirá mejorar la eficiencia del proceso de toma de

decisiones en la gestión del inventario, de manera que esta sea más racional y menos

intuitiva con menos posibilidades de equivocación, con el fin de facilitar el logro de

ventajas competitivas.

1.6. Limitaciones del Estudio

El modelo está enfocado sólo para empresas comerciales del tipo mayorista, así mismo se

sustenta sólo a la gestión de inventarios de producto, no de bienes.

5

Marco Teórico

2.1. Gestión de Inventarios

2.1.1. Definición

Según Caldentey, E. y Pizarro, C. [4], se le define como la administración de existencias

de todo producto o artículo que es utilizado para la comercialización dentro de una

organización. Es decir, todo lo relativo al control y manejo de las existencias de

determinados bienes, en la cual se aplican métodos y estrategias que pueden hacer

rentable y productivo la tenencia de estos bienes y a la vez sirve para evaluar los

procedimientos de entradas y salidas de dicho producto.

2.1.2. Clasificación Funcional de Inventarios.

Silver et al. [7], definen seis tipos funcionales de inventarios, a saber: inventario cíclico,

inventario de congestión, inventario de seguridad, inventario de anticipación, inventario

en tránsito e inventario de separación. Éstos de describen a continuación:

Inventario Cíclico

Los inventarios cíclicos resultan del hecho de producir u ordenar en lotes en vez de

unidad por unidad. La cantidad de inventario disponible en cualquier momento como

resultado de dichos lotes se denomina inventario cíclico. Las principales razones

para utilizar producción u órdenes por lotes son las siguientes:

Lograr economías de escala al evitar altos costos de alistamiento u ordenamiento.

Lograr descuentos por cantidad en costos de compra y/o transporte

Satisfacer restricciones tecnológicas de producción por lotes.

Inventario de Congestión

Cuando existen productos que compiten por capacidad limitada, se generan los

denominados inventarios de congestión. Éstos se forman cuando varios ítems

comparten el mismo equipo de producción o cuando existen tiempos de alistamiento

grandes, ya que los ítems deben esperar a que el equipo esté disponible.

6

Inventario de Seguridad

El inventario de seguridad es el inventario que se conserva disponible para

responder a todas las fluctuaciones aleatorias que puedan existir en el sistema. Las

más importantes son la variabilidad de la demanda y de los tiempos de reposición

(“Lead Times”). El inventario de seguridad afecta directamente el nivel del servicio al

cliente, el cual puede definirse como la frecuencia con la que la demanda del cliente

es satisfecha del inventario disponible. El inventario de seguridad es un tema

fundamental.

Inventario de Anticipación

Este es el inventario acumulado con anterioridad para responder a picos de

demanda. Se maneja en empresas para las cuales es más costoso satisfacer picos de

demanda a partir de la contratación adicional de personal, a la programación de

horas extras y/o a la compra a proveedores externos durante los periodos de alta

demanda. También ocurre en empresas donde la naturaleza del producto así lo

determina, como por ejemplo en la producción de salsa de tomate en países donde la

cosecha ocurre en un tiempo relativamente corto del año, y las empresas que

fabrican adornos de navidad.

Inventario en Tránsito ( o en proceso)

Este tipo de inventario incluye productos que se encuentran en tránsito entre

diversas estaciones de producción (inventario en proceso), o en los sistemas de

transporte entre una instalación y otra de la cadena de abastecimiento. Este

inventario es proporcional al nivel de utilización del producto y al tiempo de

transporte entre las instalaciones del sistema y se constituye en un elemento

importante para selección de los modos de transporte en una cadena de

abastecimiento, especialmente internacional.

Inventario de Separación

Se utiliza este término en sistemas de varios puntos de almacenamiento (sistemas de

producción/distribución en etapas o cascadas). Su función es la de separar los

procesos decisorios relacionados con inventarios en las diferentes etapas del sistema

mediante estos inventarios, por ejemplo, una bodega secundaria menor puede tomar

sus propias decisiones sin detrimento de lo que ocurra en la bodega central.

7

2.1.3. Factores de Importancia para la Toma de Decisiones en Inventarios.

a. Factores de Costo

El valor unitario del ítem, v

El valor unitario de cada ítem está expresado en s/unidad. Para que un

comerciante (no-productor), este costo corresponde al precio del articulo pagado

al proveedor incluyendo los fletes y costos relacionados. Puede depender del

tamaño de pedido, de acuerdo con los descuentos por cantidad.

Para productores, este valor es más difícil de determinar. Sin embargo, rara vez se

utiliza el valor en libros del ítem. Se prefiere, en cambio, medir el valor real del

dinero invertido en el ítem (costo variable de producción) para hacerlo apto para

su utilización, bien sea como producto terminado para el consumidor final, o

como componente para otro proceso dentro de la planta. Este costo es muy

importante, ya que el costo de llevar el inventario depende de él.

El costo de llevar o mantener el inventario, r

El costo de llevar o mantener el inventario comprende los costos de

almacenamiento y manejo, el costo del espacio utilizado, los costos de capital, los

seguros e impuestos, y los costos de riesgo en los que se incurre por el hecho de

tener almacenados los ítems, esperando a ser demandados por los clientes.

Ballou (1999) describe con detalle cada uno de estos costos. A continuación se

presentan sus principales características.

Los costos de almacenamiento y manejo se refieren a los costos de operar la

bodega, teniendo en cuenta la mano de obra utilizada, las actividades

desarrolladas, tales como recepción, almacenamiento, inspección y despacho.

Si la bodega es arrendada, estos costos formarán parte del costo global de

espacio dado por el arrendatario y descrito a continuación.

8

El costo de espacio es el reflejo del uso del volumen dentro del edificio de la

bodega. Si la bodega es arrendada, estos costos se expresan generalmente por

unidad de peso por cada período de tiempo, por ejemplo en S/(ton x mes). Si

el espacio es propio de la empresa, los costos de espacio se determinan de

acuerdo con los costos de operación asociados con dicho espacio, tales como

climatización e iluminación, y costos fijos, tales como los costos del edificio y

del equipo, basados en el volumen que se maneja en la bodega. Los costos de

espacio no se incluyen en el cálculo de inventarios en tránsito.

Los costos de capital o costos de oportunidad representan la mayor

proporción de los costos de llevar el inventario. A pesar de esto, es el costo

menos tangible de todos los componentes del costo de inventario. Su

determinación no es fácil, ya que depende de muchos factores. Primero, los

inventarios pueden tratarse de activos a corto plazo o de activos a largo plazo,

dependiendo de su función. Segundo, el costo de capital puede determinarse

de un rango amplio de valores que van desde las tasas de interés del mercado

hasta el costo de oportunidad del capital, que puede estar representado en el

promedio de las tasas mínimas de retorno de la empresa o en las inversiones

más rentables a las que la empresa tiene acceso.

Los seguros e impuestos dependen del inventario disponible y por ello forman

parte del costo de llevar el inventario. Los seguros se toman como prevención

contra incendio, robo, daños, etc. Los impuestos se pagan dependiendo de los

sistemas contables particulares de cada región y generalmente se cobran de

acuerdo con los valores en libros de los inventarios. El tema de valoración de

los inventarios para efectos contables no se considera en esta publicación.

Los costos de riesgo representan los costos de obsolescencia, deterioro y

depreciación del inventario. El deterioro puede deberse a condiciones

naturales de los ítems en inventario, especialmente si se trata de artículos

perecederos. Estos costos pueden determinarse del costo de ítems perdidos, o

del costo de actualización mediante trabajo adicional para recobrar el estado

normal del producto, o de reponer el producto desde otra localización.

9

El Costo de Ordenamiento, A

Cada orden para reponer el inventario tiene varios costos asociados, los cuales en

general son fijos y no dependen del tamaño de la orden. Estos costos

corresponden al procesamiento, transmisión, manejo y compra de la orden.

Específicamente, para un comerciante (nó-productor), el costo de ordenamiento

puede comprender:

Costo de preparación de los formatos de las órdenes.

Costos de correo (o de cualquier sistema que utilice para la transmisión de

órdenes, incluyendo fax, EDI, etc.).

Costos de llamadas telefónicas relacionadas con el pedido.

Costos de autorización del pedido.

Costos de recepción e inspección.

Costos de manejo de las facturas del proveedor.

Otros costos relacionados con el procesamiento de la orden.

Para un productor este costo puede incluir los costos relacionados con el montaje

de maquinaria fija, los costos de alistamiento para preparar las máquinas para

procesar la orden, la transmisión y control de la orden en la planta. En este caso

se prefiere utilizar el término costo de preparación.

El costo de falta de Inventario, B

Este costo se produce cuando se recibe una orden y no hay suficiente inventario

disponible para cubrirla. Generalmente se expresa como un porcentaje del costo

del ítem. Pueden ocurrir entonces tres posibilidades: se genera una orden

pendiente, se pierde la venta o se produce una combinación de ambas, por

ejemplo cuando el cliente decide aceptar una orden pendiente parcial. Cualquiera

de las tres posibilidades que ocurra, genera un costo, el cual es muy difícil de

estimar debido a su naturaleza intangible.

10

2.2. Minería de Datos.

2.2.1. Definición.

En la literatura se cuenta con varias definiciones para la minería de datos, una de ellas

es:

Witten, I.H. & Frank, E. [16], La minería de datos es el proceso de descubrir patrones en

los datos. Los datos se presentan en grandes cantidades. Los patrones descubiertos

deben ser significativos de manera que se permitan ventajas, por lo general, de tipo

económicas.

Otras definiciones consideran además del proceso de descubrir patrones válidos, la

exploración y análisis de series extensas de datos.

Debido a las diversas formas de definir la minería de datos, Hernández et al. [1], resume

el objetivo de la minería de datos como el proceso de convertir datos extraídos de

grandes volúmenes de datos en conocimiento útil.

La minería de datos se considera como un campo interdisciplinario. El cual es

desarrollado de manera conjunta o como apoyo de otras disciplinas como: tecnología de

bases de datos, sistemas para la toma de decisiones, estadística, inteligencia artificial,

aprendizaje automático, redes neuronales, reconocimiento de patrones, visualización de

datos, computación paralela, entre otras. Hernández et al. 2004 [1].

En la Figura 2, se observa la asociación de las diversas disciplinas relacionadas a la

minería de datos.

11

Figura 2. Asociación de las diversas disciplinas relacionadas a la Minería de Datos.

Hernández et al. [1]

2.2.2. Proceso de Descubrimiento de Conocimiento

Para Hernández et al. [1], el KDD es un proceso general de descubrir conocimiento desde

bases de datos, mientras que la minería de datos viene a ser la aplicación de los métodos

de aprendizaje y estadísticos. Asimismo, Fayyad et al. (1996) consideran que el KDD es

un proceso iterativo e interactivo dividido en una secuencia de pasos (Figura 3), de los

cuales la minería de datos es considerada como uno de los pasos más importantes en

todo el proceso, esto es, el corazón del proceso KDD mismo.

Figura 3. Proceso de Descubrimiento de Conocimiento (KDD).


Reconocimiento

de patrones

Inteligencia

Artificial

Tecnología de

base de datos

Estadística

Redes

neuronales

artificiales

Aprendizaje

automático

Computación

paralela

Otras

disciplinas

Minería

de Datos

Integración y

recopilación

Selección, Limpieza

y transformación

Minería de

Datos

Evaluación e

interpretación

Difusión y

uso

Datos

Iniciales Acciones

Almacén de Datos

Datos Seleccionados

Conocimiento Patrones

1 2 3 4 5

12

En términos generales, el KDD es un proceso que incluye el pre-procesamiento de datos,

búsqueda de patrones y evaluación de conocimiento extraído. Estas etapas se presentan

en una serie de pasos que a continuación se resumen:

a. Integración y Recopilación.

En esta fase inicial se determinan las fuentes de información a utilizarse para la

investigación. En ocasiones, este paso es uno de los que más tiempo requiere, puesto

que comúnmente se recopila gran cantidad de datos, los cuales pueden ser obtenidos

de bases de datos y/o almacenes de datos.

b. Selección, Limpieza y Transformación.

En ocasiones, dado que los datos provienen de diferentes fuentes, estas por lo

general contienen ruido o valores atípicos. Conocidos los objetivos y requerimientos

del proyecto, en este paso se selecciona el número efectivo de variables, se eliminan

redundancias en los datos y, de ser necesario, se filtran aquellos que son

considerados relevantes para el proceso de la minería de datos. Asimismo, se

transforman los datos para la aplicación de alguna técnica en particular.

c. Minería de Datos.

En este paso se decide la técnica a utilizar, la cual debe ser cotejada con los objetivos

del proyecto. Posterior a la selección y aplicación de la técnica sobre los datos

previamente preparados, éste debe ser validado de acuerdo al conocimiento y

dominio existente. Puesto que los resultados obtenidos en este paso dependen

considerablemente de los anteriores, existe la posibilidad de volver a iniciar desde

alguno de los pasos precedentes, debido a la necesidad de requerir nuevos datos o

incluso en caso de que se modifique la definición del problema.

13

d. Evaluación e Interpretación.

Los patrones extraídos en el paso anterior son interpretados y evaluados de acuerdo

a mediciones que garanticen la identificación de patrones verdaderamente

significativos (patrones que representen conocimiento). Algunas de estas mediciones

podrían ser : validación cruzada, la cual divide los datos en dos conjuntos

(entrenamiento y prueba); matrices de confusión (empleadas generalmente en

problemas de clasificación), la cual indica cuantas clasificaciones se han hecho

correctamente para cada tipo; entre otras.

e. Difusión y uso del Conocimiento.

En esta parte, el conocimiento extraído es incorporado en algún sistema o

procedimiento para su difusión y uso de los usuarios finales. Este resultado debe ser

examinado para descartar posibles errores en la representación del conocimiento.

Por lo general, en los modelos predictivos se deben comprobar continuamente las

prestaciones del mismo, puesto que los patrones podrían cambiar con el tiempo, de

ser así, se tendría que reevaluar, reentrenar y posiblemente completamente el

modelo.

2.2.3. Modelos y Tareas de Minería de Datos.

Al ser la minería de datos un método para extraer conocimiento útil mediante el análisis

de los datos, ésta recurre a modelos que permitan encontrar relaciones, patrones o

reglas inferidas previamente desconocidas (Hernández et al. [1]). Los modelos

empleados en la minería de datos son el descriptivo y el predictivo.

a. Modelo Descriptivo.

En el modelo descriptivo se identifican patrones que describen los datos mediante

tareas, ej. Agrupamiento y reglas de asociación. Hernández et al. Destacan que

mediante este modelo se identifican patrones que explican o resumen el conjunto de

datos, siendo estos útiles para explorar las propiedades de los datos examinados. Los

modelos descriptivos siguen un tipo de aprendizaje no supervisado, que consiste en

adquirir conocimiento desde los datos disponibles, sin requerir influencia externa

que indique un comportamiento deseado al sistema.

14

b. Modelo Predictivo.

Este modelo se emplea para estimar valores futuros de variables de interés. El

proceso se basa en la información histórica de los datos mediante las cuales se

predice un comportamiento de los datos, ya sea mediante clasificaciones,

categorizaciones o regresiones. Los modelos predictivos siguen un aprendizaje

supervisado, que consiste en aprender mediante el control de un supervisor o

maestro que determina la respuesta que se desea generar del sistema. El atributo a

predecir se conoce como variable dependiente u objetivo, mientras que los atributos

utilizados para realizar la predicción se llaman variables independientes o de

exploración.

c. Tareas de Minería de datos.

Dentro de los modelos descriptivos y predictivos se encuentran diferentes tareas

específicas como: agrupamiento, reglas de asociación, clasificación, regresión, entre

otras. Estas tareas corresponden a un tipo de problema específico en el proceso de

minería de datos.

En la Figura 4, se muestra una representación general de los modelos y tareas

halados en el proceso de minería de datos.

Figura 4. Representación general de los modelos y tareas de Minería de Datos.


Modelos de Minería

de Datos

Correlaciones

Reglas de Asociación

Agrupamiento Descriptivos

Predictivos

Clasificación

Regresión

15

2.2.4. Técnicas de Minería de Datos.

Según Moreno, M. & Quintales, L. & Polo, M. [2]. La minería de datos ha dado lugar a una

paulatina sustitución del análisis de datos dirigido a la verificación por un enfoque de

análisis de datos dirigido al descubrimiento del conocimiento. La principal diferencia

entre ambos se encuentra en que en el último se descubre información sin necesidad de

formular previamente una hipótesis. La aplicación automatizada de algoritmos de

minería de datos permite detectar fácilmente patrones en los datos, razón por la cual

esta técnica es mucho más eficiente que el análisis dirigido a la verificación cuando se

intenta explorar datos procedentes de repositorios de gran tamaño y complejidad

elevada. Dichas técnicas emergentes se encuentran en continua evolución como

resultado de la colaboración entre campos de investigación tales como bases de datos,

reconocimiento de patrones, inteligencia artificial, sistemas expertos, estadística,

visualización, recuperación de información, y computación de altas prestaciones.

Los algoritmos de minería de datos se clasifican en dos grandes categorías: Supervisados

o predictivos y no supervisados o de descubrimiento del conocimiento.

Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de

un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de

datos cuya etiqueta se conoce se induce una relación entre dicha etiqueta y otra serie de

atributos. Esas relaciones sirven para realizar la predicción en datos cuya etiqueta es

desconocida. Esta forma de trabajar se conoce como aprendizaje supervisado y se

desarrolla en dos fases: Entrenamiento (construcción de un modelo usando un

subconjunto de datos con etiqueta conocida) y prueba (prueba del modelo sobre el resto

de los datos).

Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario

para una solución predictiva, en ese caso hay que recurrir a los métodos no

supervisados o de descubrimiento del conocimiento que descubren patrones y

tendencias en los datos actuales (no utilizan datos históricos). El descubrimiento de esa

información sirve para llevar a cabo acciones y obtener un beneficio (científico o de

negocio) de ellas. En la Tabla 1 se muestran algunas de las técnicas de minería de ambas

categorías.

16

SUPERVISADOS NO SUPERVISADOS

Arboles de Decisión Detección de Desviaciones

Inducción Neuronal Segmentación

Regresión Clustering (Agrupamiento)

Series Temporales Reglas de Asociación

Algoritmos Genéticos Patrones Secuenciales

Tabla 1. Clasificación de técnicas de Minería de Datos.

Moreno, M. et al.[2].

a. Supervisados

Arboles de Decisión.

Según Calleja, A. [23]. Un árbol de decisión se utiliza como clasificador para

determinar una acción o decisión apropiada (de entre un conjunto

predeterminado de acciones) para una situación determinada. Un árbol de

decisión nos ayuda a identificar correctamente los factores que se deben

considerar y como cada uno de estos factores se ha asociado históricamente a los

resultados de la decisión. La visión esquemática de este método lo hace uno de los

métodos más sencillos de interpretar y asimilar la información que contienen. Se

denomina árbol de decisión debido a que el resultado del modelo está

representado en forma de árbol.

Los árboles de decisión son un método de los clasificados como métodos de

aprendizaje supervisados, pues deben ser entrenados con información que

contiene un histórico de los propios datos y los resultados que han sido

consecuencia de dichos datos para poder utilizarse con el fin de crear

predicciones.

Para verificar estas predicciones obtenidas como resultado y comprobar la

precisión, podemos ejecutar el modelo entrenado contra otra colección de datos

conocida para evaluar dicha precisión del modelo entrenado.

17

Los pasos serian:

1. Entrenamiento. Se modeliza el árbol para representar los patrones detectados

en el historial de los datos lo mejor posible.

2. Evaluación. En este paso, totalmente opcional no obstante, podemos probar la

validez del modelo entrenado enfrentándolo a otra colección de datos

diferente (misma temática y mismo contenido, pero diferente en si). Si la

precisión alcanzada no es la deseada, deberemos rediseñar el modelo y

repetir el proceso.

3. Predicción. Por último, obtenemos el resultado predicho a partir del modelo

diseñad, esto es, el valor o valores, o la decisión que buscamos tomar, para un

determinado caso dado para nuestro conjunto.

Con esto podemos generar la representación gráfica del árbol. El árbol se

construye con los siguientes componentes:

Nodo Raíz: Como nodo único, forma el punto de entrada del árbol

normalmente en el punto mal alto.

Nodos de Decisión: Estos actúan como enrutadores para decidir que rama

debemos tomar mientras recorremos el árbol de arriba abajo.

Nodos Hoja: Estos nodos son los que no contienen ningún nodo con “éxito”, es

decir, nodos donde se cumple el objetivo, o donde se hace positivo el valor que

intentamos predecir.

Ejemplo: En la Figura 5 podemos observar un sencillo árbol de decisión. Este

árbol se pretende predecir si un individuo compra o no un determinado producto

en base a la edad, el salario y la ocupación del mismo.

18

Figura 5. Árbol de Decisión

Calleja, A. [23].

Regresión

Según Calleja, A. [23]. El análisis regresivo es una técnica utilizada para inter y

extrapolar las observaciones, las cuales pueden clasificarse como regresión lineal

o no lineal. Hablamos de modelo de regresión cuando la variable de respuesta y

las variables explicativas son todas ellas cuantitativas. Si sólo disponemos de una

variable explicativa hablamos de regresión simple, mientras que si disponemos

de varias variables explicativas se trata de un problema de regresión múltiple.

Para visualizar la relación entre la variable de respuesta y una variable

explicativa, obtendremos el diagrama bivariante entre ambas variables. La forma

de dicho diagrama aporta información sobre el tipo de relación entre la variable

de respuesta y la variable explicativa.

Comprara

Edad

Comprara Salario

No comprara Ocupación

No comprara

>= 35

> $ 50.00

Consultor Contable

<= $ 50.00

< 35

19

Regresión Lineal.

Según Calleja, A. [23]. La regresión lineal es una técnica estadística que intenta

construir un modelo para los datos analizados, y a través de éste predecir los

datos futuros. Este modelo cuantifica la relación entre dos variables continuas:

“la variable dependiente o la variable que intentamos predecir y la variable

independiente o la variable predecible”. Funciona encontrando una línea a

través de los datos que minimiza el valor del error cuadrático de cada punto.

La fórmula de regresión lineal es la siguiente:

Dónde:

: Variable dependiente auxiliar; =1 si el evento sucede, =0 si no sucede.

: El coeficiente del término constante.

: El coeficiente en la variable dependiente.

La variable dependiente.

El termino de error.

Regresión no lineal.

Según Calleja, A. [23]. La relación entre dos variables puede no ser lineal, para

resolver este tipo de problemas surgen las diferentes técnicas que existen de

regresión no lineal. La relación puede ser curvilínea o de múltiples líneas.

Entre las curvilíneas se encuentra la regresión logarítmica, “este modelo es

simplemente una transformación no lineal de la regresión lineal”. La diferencia

fundamental entre la regresión lineal y la logarítmica reside en el hecho de que

en la regresión lineal, la variable dependiente es continua, sin embargo, en la

logarítmica es discreta o categórica.

La fórmula que describe esta función puede formularse como sigue:

20

Dónde:

: Probabilidad de que el evento Y ocurra, p (Y =1).

: El coeficiente en la variable dependiente.

El termino de error.

Rango de probabilidades.

[

] Rango de probabilidades logarítmicas.

Algoritmos Genéticos.

El algoritmo genético permite obtener soluciones a un problema que no tiene

ningún método de resolución descrito de forma precisa, o cuya solución exacta, si

es conocida, es demasiado complicada para ser calculada en un tiempo aceptable.

Es el caso particular de cuando se encuentran restricciones múltiples y complejas,

e incluso contradictorias, que deben ser satisfechas simultáneamente como, por

ejemplo, para formar equipos de trabajo, planificar rondas de entregas, implantar

puntos de venta de manera óptima, construir modelos estadísticos.

Según el algoritmo genético, numerosas soluciones más o menos correctas

inherentes a dicho problema son creadas al azar, según una forma ya definida:

itinerario, horarios, base de reglas de decisión, evaluación por puntuación, red

neuronal, etc. Cada solución será representada a través de una cadena de 0 y de 1

en cromosomas que se verán entonces sometidos a una imitación de la evolución

de las especies: mutaciones y reproducción por hibridación. Al favorecer la

supervivencia de los más aptos (las soluciones más correctas), se provoca la

aparición de híbridos cada vez mejores que sus padres. La población inicial da

paso de esta manera a generaciones sucesivas mutadas y procreadas por

hibridación a partir de sus padres. Al despejar los elementos más aptos presión de

la evolución se garantiza que las generaciones sucesivas serán cada vez más

adaptadas a la resolución del problema. Este mecanismo sorprendente de

clasificación ha sido validado matemáticamente con el rigor que le corresponde.

21

El mecanismo de evolución y de selección es independiente del problema por

resolver: sólo varían la función que descodifica el genotipo en una solución

posible (cualquier tipo de descodificación tiene la posibilidad de ser utilizado de

la manera más sencilla posible) y la función que evalúa la justeza de la solución

(en el caso de los previsores probándolos en unas cuantas centenas de casos).

Esta técnica es de aplicación general. El algoritmo genético puede aplicarse a la

producción de una variedad de objetos mientras sea posible obtener una

calificación que represente la justeza de la solución. En particular, es posible

fabricar previsores estadísticos no a través de cálculos de datos como en la

estadística clásica sino haciendo evolucionar los datos por algoritmo genético

(inducción. Por problemas de clasificación o de segmentación, la justeza significa

simple y llanamente la tasa de reordenación del previsor con respecto a un

conjunto dado de ejemplos. El mecanismo de estimulación de lo más apto permite

entonces la aparición del previsor que reordenará los datos lo mejor posible. Este

tipo de construcción de previsor forma parte de las técnicas de algoritmo genético

utilizadas en DM.

La técnica del algoritmo genético da enfoque un poco brutal que necesita un gran

poder de cálculo pero que posee la inmensa ventaja de proporcionar soluciones

no muy lejos de lo óptimo incluso sin conocer métodos de soluciones. El algoritmo

genético no exige ningún conocimiento acerca de la manera más idónea de

resolver el problema; sólo es necesaria la capacidad de evaluar la calidad de una

solución. También es muy ligero para ponerlo en práctica (el motor es común, no

hay mucha programación específica que hacer). En la resolución de un mismo

problema el enfoque algorítmico es específico, muy rápido, mientras el algoritmo

genético se caracteriza por ser general pero muy lento.

22

b. No Supervisados.

Clustering (Agrupación)

Según Calleja, A. [23]. El clustering se utiliza para agrupar los datos en conjuntó

bien cohesionados y definidos. Podemos diferenciarlo de los métodos de

clasificación normales en el hecho siguiente: las clases en las que se agrupan los

datos no están predefinidas como en las clasificaciones normales, si no que se

determinan a partir de los datos. Se trata de un método de aprendizaje sin

supervisión.

Los resultados que podemos obtener al aplicar este método pueden utilizarse

para resumir y analizar los contenidos de una colección de datos dada

considerando las características de cada conjunto más que las características de

cada registro. Este método puede utilizarse de manera descriptiva como

predictiva (a qué grupo pertenecerá un nuevo dato).

Ejemplo: En la Figura 6, podemos observar como en la gráfica obtenida al

representar una serie de datos, según las características por las que estemos

representando dichos datos, se puede ver cómo, si elegimos los atributos

adecuados, se forman estos agrupamientos de los datos al coincidir

características similares unos con otros.

Figura 6. Agrupamiento (Clustering)

Calleja, A. [23].

23

2.3. Toma de Decisiones Empresariales

2.3.1. Definición.

Koontz, H. & Weihrich, H. [21], definen la Toma de Decisiones como la selección de un

curso de acción entre distintas alternativas.

2.3.2. Elementos de Toma de Decisiones.

Según Peter, F. [22], Los elementos relevantes en la toma de decisiones son:

Se debe verificar si la decisión a tomar es programada o no programada. En el primer

caso nos referimos a decisiones que se toman sobre problemas estructurados o

rutinarios, problemas comunes en la organización, por lo cual estas decisiones se

toman basándose en los conocimientos previos y criterios previamente definidos,

reglas, pautas o principios.

Por otro lado, las decisiones no programadas son aquellas que se toman frente a

problemas sin estructurar, problemas nuevos, no rutinarios, que requieren una

solución específica. “La mayoría de las decisiones no son ni completamente

programadas ni completamente no programadas, sino una combinación de ambas

cosas”. Las decisiones no programadas se toman mayoritariamente en los niveles

altos de la organización, mientras que las decisiones programadas son tomadas

básicamente en los niveles más bajos de la misma.

Se deben definir las condiciones límites, estas son: los fines, metas y condiciones que

debe satisfacer la decisión. Cuanto más claramente estén éstas definidas más

probable es que se llegue a una buena decisión y se alcancen los fines buscados. Si

por otro lado las condiciones límites no están bien establecidas, es probable que la

decisión que se alcance no sea efectiva.

Se debe confirmar que la decisión a la cual se llegó es la correcta antes de ponerla en

práctica. Por correcta entendemos que la decisión que se tomó va a cumplir las

condiciones límite y que se ajusta a las especificaciones del problema.

24

Llevar la decisión a la práctica. Esta es la parte que exige más tiempo. El curso de

acción para poner en práctica la decisión debe estar adecuada a quienes vayan a

ponerla en práctica. Un problema común en la toma de decisiones es que los planes

no tienen compromisos de acción, y no le adjudican a nadie ni la realización de la

tarea, ni la responsabilidad por ésta realización.

La retroalimentación. Es muy importante que luego de poner en práctica la decisión

se analice si la misma está llevando a los resultados buscados.

2.3.3. Tipos de Toma de Decisiones

Según Benjamín, E. [20]. Nos dice que de acuerdo con la magnitud y/o complejidad de lo

que hay que resolver, las empresas pueden adoptar distintos tipos de soluciones, que

van desde las conocidas y bien definidas hasta las poco comunes y ambiguas, las cuales

sirven como punto de partida para clasificar las decisiones: de rutina, de adaptación e

innovadoras.

a. Decisiones de Rutina.

Las decisiones de rutina son aquellas elecciones que se toman ante circunstancias

relativamente comunes, si mayor complicación. Por lo mismo, de una manera u otra,

están contempladas en las normas, procedimientos o criterios operativos que las

empresas siguen cotidianamente.

b. Decisiones de Adaptación.

Las decisiones de adaptación se refieren a las elecciones que se hacen ante una

combinación de factores que se salen un poco de lo habitual. De allí que implican una

mejora o modificación de las rutinas habituales.

c. Decisiones Innovadoras.

Las decisiones innovadoras son elecciones que se basan en el descubrimiento, la

identificación y el diagnóstico de problemas inusuales y ambiguos y/o el desarrollo

de soluciones alternativas únicas o creativas.

Por su naturaleza, estas decisiones entrañan una ruptura con el pasado casi nunca se

presentan en secuencia lógica y ordenada. Normalmente se basan en información

25

que cambia a gran velocidad. Es más, tal vez se tomen antes de que los problemas

hayan sido definidos y entendidos a fondo. Por lo tanto, para que las personas tomen

decisiones efectivas deben poner especial atención en definir correctamente los

problemas y en reconocer que las primeras acciones afectan de forma ostensible las

decisiones posteriores.

2.3.4. Proceso de la Toma de Decisiones.

La Figura 7, nos muestra el proceso de toma de decisiones como una serie de ocho pasos

que comienza con la identificación de problema, los pasos para seleccionar una

alternativa que pueda resolver el problema, y concluyen con evaluación de la eficacia de

la decisión. Este proceso se puede aplicar tanto a sus decisiones personales como a una

acción de una empresa, a su vez también se puede aplicar tanto a decisiones individuales

como grupales.

Figura 7. Proceso de Toma de Decisiones.

Robbins, S.P. [11]

2.3.5. Barreras para la Toma Efectiva de Decisiones.

Según Benjamín, E. [20]. La implementación de los siete pasos del proceso de toma de

decisiones constituye una excepción, no una regla. Es posible que se tome una decisión

que satisfaga y que no maximice o que optimice y no satisfaga. Este comportamiento

depende de una serie de factores entre los que sobresalen: los prejuicios psicológicos,

presiones de tiempo y realidades sociales.

Identificación

de un

problema

Evaluación de

eficacia de la

decisión

Implantación de la

alternativa

Selección de una

alternativa

Análisis de

alternativas

Desarrollo

de

alternativas

Asignación de

pesos

(ponderados) a los

criterios

Identificación de

los criterios de

decisión

26

a. Prejuicios psicológicos: Los responsables de tomar las decisiones no son objetivos

en la forma en que perciben, evalúan y aplican la información para elegir, esto es,

tienen prejuicios que interfieren con una racionalidad objetiva. Los prejuicios más

significativos son:

La ilusión de controles la creencia de que se puede influir en los acontecimientos

aun cuando no se tiene control sobre lo que sucederá.

Los efectos de encuadre son la manera en que los problemas o las alternativas de

solución se formulan y a la forma en que esta percepción subjetiva puede

imponerse sobre hechos objetivos.

Desestimar el futuro que corresponde al peso que se adjudica a los costos y

beneficios a corto plazo relegando los de largo plazo.

b. Presiones de tiempo: Los responsables de tomar las decisiones reaccionan más en

función de las presiones de tiempo que de la consistencia de su estructura. Ante esto,

las empresas tratan de centrarse en información de tiempo real e involucrar a

expertos en el proceso de toma de decisiones.

c. Realidades sociales: Los responsables de tomar decisiones tienen que hacerlo

inmersos en un contexto social cuyos factores interpersonales, de lento movimiento,

disminuyen la efectividad del proceso en su conjunto.

27

2.4. Empresas Comerciales

2.4.1. Definición.

Las empresas comerciales son las intermediarias entre productor y consumidor, su

función primordial es la compra y venta de productos terminados.

Según López, F. [8], en una empresa comercial las actividades logísticas son menos

numerosas que en el caso de las empresas industriales, debido a que estas empresas

transforman los productos que reciben de sus proveedores.

Estas actividades se resumen de la siguiente manera:

Compra de Mercadería: pedidos, transporte, almacenamiento. Su misión principal es

conseguir unas buenas condiciones de compra de los proveedores, mantener un nivel

de stock suficiente para atender los pedidos de los clientes, sin que este stock sea

excesivo.

Distribución: implica procesar y transportar los pedidos de los clientes.

2.4.2. Clasificación

Según Godas, L. [9], las empresas comerciales se clasifican en:

a. Comercio Mayorista: Este tipo de comercio es el componente de la cadena de

distribución, en el cual se pone en contacto con consumidores finales de los

productos. Es decir, el mayorista es un intercambio entre fabricantes (o productor) y

usuario final. Compra a un productor o intermediario y vende a un fabricante, pero

nunca al consumidor. Los distribuidores mayoristas son especiales en los grandes

volúmenes de venta.

b. Comercio Minorista: El comercio minorista compra productos a grandes cantidades

a fabricantes o importadores, bien directamente o a través de un mayorista. Sin

embargo vende unidades individuales o pequeñas cantidades al público en general,

normalmente, en un espacio físico llamado tienda. Los minoristas se encuentran a la

final de la cadena de suministro.

28

c. Comercio Comisionista: Como su nombre lo dice, se encarga de vender productos,

recibiendo una comisión, la cual puede depender del precio previamente fijado por el

proveedor o por el precio dado por el comisionista.

2.4.3. Inventarios en Empresas Comerciales.

Las operaciones de compra y venta es la actividad principal de una empresa comercial.

Las ventas son la fuente principal de ingresos, pero la mercancía que se vende tiene por

supuesto un costo, a ese costo lo llamamos Costo de venta. La ganancia que se obtiene al

deducir el costo de venta de las ventas, se conoce como Utilidad bruta en ventas

El inventario de mercancías es una cuenta importante del activo circulante de una

empresa. Cuando se compra mercancías con el fin de venderla, la compra se registra al

precio de costo que incluye los fletes pagados, los seguros de compras, y otros gastos

ligados a la compra.

La existencia de mercancías que hay al inicio de un periodo económico es diferente a la

que hay al final. Por lo tanto, hay un inventario inicial y hay un inventario final.

Existen dos métodos que nos ayudan a calcular el inventario final:

Inventario Periódico (o físico): Cada vez que hacemos una compra, cargamos a

“Compras” y abonamos a “Cuentas por Pagar” o “Efectivo en caja o banco” y cuando

hacemos una venta cargamos a “Cuentas por Cobrar” o “Efectivo en Caja o Banco” y

abonamos a “Venta”. El inventario sólo podrá determinarse por medio de un conteo

físico de la mercancía existente al final del período. Así se maneja el Sistema de

inventario periódico. Es muy apropiado para supermercados, ferreterías u otros

negocios por el estilo, que tiene un gran volumen de ventas y costos bajos.

Inventario Permanente (o continuo): Consiste en llevar un registro que muestra

en todo momento la cantidad e importe del inventario en existencia. Es conveniente

para los negocios que venden pocos productos con costos altos. Los cambios en el

inventario se registran a medida que ocurren, mediante cargos y créditos en la

cuenta de “Inventario”. En este método no se utiliza la cuenta “Compras”. Cuando se

vende una mercancía , se requieren dos asientos contables:

Por la venta (registrada al precio de venta)

Por la reducción en el inventario(registrada al costo)

29

Materiales y Métodos

3.1. Diseño de la Investigación.

Para el análisis se aplicará el diseño con Post-Prueba únicamente y grupo de control.

Este diseño incluye dos grupos: Uno (G1) recibe el tratamiento experimental y el otro no (G2

Grupo de control). Los sujetos se asignan a los grupos de manera aleatoria, Cuando concluye la

manipulación, a ambos grupos se les administra una medición sobre la variable dependiente en

estudio.

El diseño se diagrama de la siguiente manera:

Dónde:

X: Modelo de minería de datos aplicado al proceso de toma de decisiones en la gestión de

inventarios.

G1: Grupo experimental.

G2: Grupo Control.

O1: Medición al aplicar X a G1.

O2: Medición sin aplicar X a G2.

3.2. Población y Muestra.

Población

Los procesos de toma de decisiones para el reabastecimiento de productos en la gestión de

inventarios que manejan las distintas empresas comerciales de Trujillo.

Muestra

El proceso de toma de decisiones para el reabastecimiento de productos en la gestión de

inventarios que manejan 2 empresas comerciales mayoristas de Trujillo.

30

3.3. Variables de Estudio.

3.3.1. Variable Dependiente

Mejorar el proceso de toma de decisiones en la gestión de inventarios de empresas

comerciales basándose en el modelo propuesto.

3.3.2. Variable Independiente

Un modelo de minería de datos.

3.4. Técnicas e Instrumentos.

Las técnicas que se utilizaran para la recolección de datos son:

Recopilación Documental: Esta técnica se apoya en la recopilación de antecedentes a

través de documentos, papers, libros y gráficos. Para este proyecto las fuentes serán de tipo

bibliográficas, la cual será la base tanto de fundamentos como de complemento para la

investigación.

Recopilación a través de la observación: Consiste en el estudio de características y

comportamiento de un fenómeno, dentro del medio en donde se desenvuelve. Esta técnica

la utilizaremos para estudiar el proceso de toma de decisiones en la gestión de inventarios

dentro de las empresas, lo que nos permita obtener un informe de estudio de campo, que

servirá para un análisis posterior.

Recopilación de datos experimentales: Se basa en la experimentación que consiste en la

observación dedicada y constante que se hace a un fenómeno, al que se le van modificando

sistemáticamente sus variables conforme a un plan determinado. Esta técnica permitirá

recolectar datos de la experimentación sobre el diseño del modelo propuesto y de la

implementación del mismo, que luego servirán para contrastar y analizar resultados con

respecto a la hipótesis.

31

Resultados

4.1. Análisis Comparativo de Técnicas de Minería de Datos

En éste capítulo se realizara un análisis de las técnicas de minería de datos más usadas; las

técnicas son:

a) Árboles de Decisión.

b) Regresión Lineal Múltiple.

c) Redes Neuronales

d) Algoritmos Genéticos.

e) Clustering.

Para este análisis comparativo se tomara en cuenta los siguientes criterios de comparación

definidos por Galvis, M. & Martínez, F [24]:

Velocidad de Ejecución: Se refiere al costo computacional involucrado en general el modelo

así como la rapidez con la que la técnica es capaz de extraer un modelo exitosamente a partir

de los datos de entrenamiento suministrados.

Clasificación de Datos de Origen: Se refiere a la capacidad de la técnica para lograr clasificar

los registros suministrados, a partir de la o las reglas creadas.

Predicción de Datos Futuros: Se refiere a que el conjunto de reglas generadas por la técnica,

sea capaz de clasificar registros cuyo valor se desea predecir.

Escalabilidad: Se refiere a la habilidad que tiene una determinada técnica para construir un

modelo eficiente dadas grandes cantidades de datos.

Robustez: Se refiere a la habilidad de la técnica para realizar predicciones correctas en bases

de datos con ruidos o datos con valores faltantes.

4.1.1. Análisis de las Técnicas Según Criterios.

A continuación se analizara cada una de las técnicas seleccionadas en base a los criterios

de comparación definidos en el punto anterior:

a. Árboles de Decisión

Velocidad de Ejecución: Costosos en términos computacionales.

Clasificación de Datos de Origen: Son capaces de llevar a cabo la clasificación

multi-clase en un conjunto de datos.

Predecir Datos Futuros: Obtiene un conjunto de patrones y estadísticas que se

pueden usar para explorar las relaciones o para predecir eventos futuros.

32

Escalabilidad: Depende del número de variables y del tipo de dato.

Robustez: Son capaces de manejar ruido en datos de entrenamiento

b. Regresión Lineal Múltiple

Velocidad de Ejecución: Costo computacional bajo.

Clasificación de Datos de Origen: No clasifica.

Predecir Datos Futuros: Predice valores cuantitativos.

Escalabilidad: Cuanto mayor sea la cantidad de datos, el resultado será más

fiable.

Robustez: Trabaja muy bien con datos faltantes o en blanco, garantizando un

resultado óptimo.

c. Redes Neuronales

Velocidad de Ejecución: Presentan un elevado tiempo computacional.

Clasificación de Datos de Origen: Son capaces de clasificar los datos de entrada

en clases de máxima similaridad.

Predecir Datos Futuros: Tiene la capacidad de generar resultados predictivos y

descriptivos.

Escalabilidad: Están diseñados para trabajar con grandes cantidades de datos.

Robustez: Son capaces de trabajar con datos incompletos e incluso paradójicos.

d. Algoritmos Genéticos

Velocidad de Ejecución: lentos

Clasificación de datos de origen: Mecanismo sorprendente de clasificación.

Predicción de datos futuros: predictivo

Escalabilidad: Hay un límite a partir del cual es ineficiente elevar el tamaño de la

población puesto que no se consigue una mayor velocidad en la resolución del

problema.

Robustez: Algoritmo robusto, al resultar útil en cualquier ámbito de acción, pero

a la vez débil, pues no está especializado en ninguno.

e. Clustering

Velocidad de Ejecución: Costo computacional medio.

Clasificación de datos de origen: Alta precisión para clasificar datos.

Predicción de datos futuros: Esta técnica no predice, solo clasifica.

33

Escalabilidad: No escala bien para grandes volúmenes de datos.

Robustez: Puede no funcionar adecuadamente en presencia de ruido.

4.1.2. Resultados de Análisis de las Técnicas.

En este capítulo se analizó cinco técnicas de minería de datos, de las cuales se ha

descrito las principales características basadas en los criterios de comparación

definidos, se hizo una comparación en forma tabular cuyos resultados obtenidos se

muestran en la Tabla 2.

Para la presentación de los resultados se considerara las siguientes valorizaciones y sus

símbolos correspondientes:

: Cumple o Nivel Bajo.

: Cumple Parcialmente o Nivel Medio.

: No cumple o Nivel Alto.

Velocidad ejecución

Clasificación de datos de origen

Predicción de datos futuros

Escalabilidad Robustez

Árbol de Decisión

Regresión Lineal

Múltiple

Redes Neuronales

Algoritmos Genéticos

Clustering

Tabla 2. Resultados de Comparación de Técnicas de Minería de Datos.

Fuente: Elaboración Propia

34

De la Tabla 2, podemos resumir lo siguiente:

Redes Neuronales cumple con la mayoría de los criterios para ser una técnica

adecuada para el desarrollo del modelo propuesto, sin embargo posee un costo

computacional elevado convirtiéndola en una técnica inapropiada para nuestra

investigación.

Clustering presenta debilidades en la mayoría de los criterios seleccionados, por lo

tanto queda descartada en la selección de la técnica.

Algoritmos Genéticos presenta debilidades en cuanto a costo computacional,

escalabilidad y robustez, lo cual no garantiza que el algoritmo encuentra la solución

óptima del problema, por lo cual queda descartado.

4.2. Diseño del Modelo Propuesto.

La presente investigación se orienta al uso de técnicas de minería de datos para lograr un

modelo predictivo, que nos permita tomar decisiones sobre el inventario. El modelo usará el

conocimiento adquirido de los datos, que se vayan a extraer de las empresas, información

relacionada a la gestión de inventarios, y así tener como resultado un modelo útil que ayude a

resolver el problema planteado.

En el diseño del modelo de minería de datos se han definido los siguientes elementos

necesarios para la generación de éste, como son: las variables que influyen en el problema para

determinar la predicción y la herramienta de minería de datos que implementa las técnicas

necesarias para analizar los datos de las variables establecidas.

4.2.1. Enfoque del Modelo.

El modelo de minería de datos, parte de la identificación de los elementos que aportan

características al desarrollo de un modelo de gestión de inventarios, tomando en cuenta

las reglas del negocio y la identificación de los objetos involucrados, todo esto apoyado

de un enfoque orientado a objetos.

El modelo propuesto utilizará las técnicas de minería de datos elegidas en el análisis

comparativo, aportando conceptos estadísticos y algoritmos de árboles de decisión, para

encontrar patrones entre los datos que se puedan definir como un modelo predictivo.

35

Así mismo, el modelo posibilitará las consultas sobre los elementos formales bajo

lenguajes de consultas dentro del enfoque de minería de datos, que permita la gestión

del conocimiento adquirido.

En la Figura 8, resumimos de forma gráfica estos enfoques.

Figura 8. Enfoque del Modelo Propuesto.


4.2.2. Arquitectura del Modelo.

Para la Arquitectura del modelo de minería de datos, se propone una arquitectura por

niveles, en la que cada nivel se describe como una serie de tareas, herramientas y

objetos que se relacionan utilizando los conceptos de minería de datos.

A continuación en la Figura 9, representamos gráficamente el resultado de nuestra

arquitectura para el modelo propuesto.

Enfoque Orientado a

Objetos

Minería de datos:

-Metodología de DM.

-Arboles de Decisión y

Regresión.

-Modelo predictivo

Investigación Operativa:

-Apoyo a la Toma de

Decisiones.

-Modelos De Gestión de

Inventarios.

Modelo Propuesto

+ +

36

Nivel de

Integración de

Datos

Nivel de Minería

de Datos Bodega de Datos

Herramientas de D.M

Nivel de

Presentación

Herramientas de consulta

y análisis

Consultas

Reportes

Patrones

Figura 9. Arquitectura Del Modelo Propuesto.


Nivel de Datos Reglas del Negocio

Diagramas de clase

Base de Datos Transaccional

Extracción

Transformación

Carga

Arboles de Decisión

Regresión

37

Nivel de Datos

El Nivel de Datos es la abstracción del proceso de gestión de inventarios dentro de la

empresa, consiste en la recopilación de datos desde una base de datos externa o interna.

Este nivel incluye las Reglas del Negocio, los Diagramas de Clases y las Bases de datos

transaccionales.

Nivel de Integración de Datos

Este nivel define el proceso que permite mover los datos más representativos desde la

base de datos transaccional con el fin de crear una nueva base de datos con información

en función a las variables de la investigación .Incluye los subprocesos de extracción,

transformación y carga de la información, todo esto apoyado de una herramienta de

ETL.

Nivel de Minería de Datos

Este nivel consiste en la explotación de la Base de Datos con vista al descubrimiento de

información que pueda servir de ayuda al proceso de toma de decisiones, aplicando a

ella los algoritmos de minería de datos basados en arboles de Decision y Regresión,

estos a su vez implementados en una herramienta de minería de datos.

Nivel de Presentación

Este nivel es el encargado de establecer un formato de presentación de los datos y una

apariencia grafica de fácil interpretación a través de la cual se pueden visualizar los

resultados de los patrones obtenidos en el nivel anterior y además permite la ejecución

de consultas para la recuperación del conocimiento.

4.2.3. Formalización del Modelo.

El Modelo de Minería de Datos para la Gestión de Inventario (MGI), es la unión entre

Información Interna y un Esquema de Minería de Datos, así tenemos:

Dónde:

II : Información Interna.

EMD : Esquema de Minería de Datos.

38

Información Interna

La Información Interna (II) se define como la unión de las Reglas del Negocio (RN),

Diagramas de Clase (DC) y las Bases de Datos Transaccionales (BDT) que se manejan

dentro de la organización. Es decir

Donde,

Donde,

P, es el conjunto de Políticas de Inventario.

O, es el conjunto de Operaciones de la Gestión de Inventarios

A, es el conjunto de Actores del Negocio.

R, es el conjunto de Restricciones de la organización.

Políticas de Inventario

Su representación formal es:

Operaciones de la Gestión de Inventarios


39

Actores del Negocio


Restricciones de la Organización


Además Los Diagramas de Clase (DC), se define:

Donde,

NC, es el Nombre de la Clase.

AC, es el conjunto de Atributos de la Clase.

OC, es el conjunto de Operaciones de la Clase.

Donde,

40

Atributos de la Clase

Los atributos o características de una Clase pueden ser de tres tipos, los que definen

el grado de comunicación y visibilidad de ellos con el entorno.


Donde,

Operaciones de la Clase

Las Operaciones de la Clase, representan la forma como esta interactúa con su

entorno.


Donde,

41

Y por último, las Bases de Datos Transaccionales (BDT), se define:

Donde,

Tb, es el conjunto de Tablas de la Base de Datos Transaccional.

ReTb, es la Relación existente entre una y otra Tabla de la Base de datos

Transaccional.

Tablas de Base de Datos Transaccionales


Relaciones de Tablas de las Base de datos Transaccionales.


Esquema de Minería de Datos.

El Esquema de Minería de Datos (EMD) se define como la unión de la Integración de

Datos (ID), Arboles de Decisión (AD) y la Regresión Lineal Múltiple (RLM). Es decir:

42

Donde,

Donde,

I, es la Integración

T, es la Transformación

C, es la Carga

Además los Arboles de Decisión (AD), se define como:

Donde,

A, es el conjunto de Acciones

E, es el conjunto de Eventos,

P, es la Probabilidad

R, es la Respuesta

Acciones


43

Eventos


Y por último, la Regresión Lineal Múltiple (RLM), se define:

Donde,

VD, es el conjunto de las Variables Dependientes.

VI, es la Variable Independiente.

C, es el Coeficiente de cada Variable.

VA, es la Varianza.

Variable Dependiente


44

Conclusiones

De nuestra investigación bibliográfica se determinó que la minería de datos es el conjunto de

herramientas y técnicas de análisis de datos que permiten crear escenarios, de los cuales se

puede obtener información útil para la toma de decisiones.

Del análisis comparativo de las técnicas de minería de datos se pudo observar que la técnica de

redes neuronales presenta la mayoría de los criterios, sin embargo son muy costosas

computacionalmente por lo que se decidió optar por los arboles de decisión apoyados de

regresión lineal múltiple.

Para el diseño del modelo se propuso una arquitectura por niveles de manera que haya una

separación entre los distintos procesos que involucra la minería de datos y de forma que la

mayoría de la interacción ocurra únicamente entre niveles vecinos.

La implementación del modelo propuesto es un objetivo que no se pudo alcanzar, sin embargo,

para llevarlo a cabo será necesario un análisis minucioso sobre los datos recolectados de la

empresa elegida para el caso de estudio.

45

Referencias Bibliográficas

[1]. Hernández J., Ramírez M. J. & Ferri C. (2004). Introducción a la Minería de Datos. Editorial

Pearson Prentice Hall. Madrid (España).

[2]. Moreno, M. & Quintales, L. & Polo, M. (2006). Aplicación de técnicas de minería de datos

en la construcción y validación de modelos predictivos y asociativos a partir de

especificaciones de requisitos de software. (España).

[3]. Velarde, A. (2004). Minería de Datos y su aplicación. Recuperado el 29 de agosto del 2013,

de http://www.uthermosillo.edu.mx/voces/voces42/05.php.

[4]. Caldentey, E. & Pizarro, C. Administración de Inventarios. Recuperado el 29 de agosto del

2013, de http://www.azc.uam.mx/alumnos/tradeoff/docu/adm.pdf.

[5]. Discua, W. (2013). Planificación y control de inventarios. Recuperado el 21 de septiembre

del 2013 de: http://www.prezi.com/qgchtrvfi1bn/gerencia-de-operaciones.

[6]. Cuervo, A. (1994). Introducción a la administración de empresas. Civitas, Madrid

(España).

[7]. Silver E., Pyke D. & Peterson R. (1998). Inventory Management and Production Planning

and Scheduling. ed. 3. John Wiley & Sons, New York.

[8]. López, F. (2008). Logística comercial: segunda edición. Editorial paraninfo. Recuperado el

21 de septiembre del 2013 de:

http://books.google.com.pe/books?id=8Iz1a8iFGCgC&hl=es&source=gbs_navlinks_s

[9]. Godas, L. (2007). La distribución: comercio mayorista y minorista. Recuperado el 21 de

septiembre del 2013 de:

http://apps.elsevier.es/watermark/ctl_servlet?_f=10&pident_articulo=13101022&pident

_usuario=0&pcontactid=&pident_revista=4&ty=28&accion=L&origen=zonadelectura&we

b=http://zl.elsevier.es&lan=es&fichero=4v26n03a13101022pdf001.pdf.

[10]. Molina, J. & Garcia, J. (2011). Técnicas de Minería de Datos Basadas en Aprendizaje

Automático. (chile).

[11]. Robbins, S.P. (1994). Management. Fourth Edition. Englewood Cliffs: NJ, Prentice Hall

[12]. Moreno, G. (2007).Técnicas más usadas en la minería de datos. Recuperado del 10 de

septiembre de 2013 de http://gamoreno.wordpress.com/2007/10/03/tecnicas-mas-

usadas-en-la-mineria-de-datos/

[13]. Vallejos, S.(2006).Minería de datos. Universidad Nacional de Nordeste (Argentina).

[14]. Febles, J. & Gonzales, A. (2002). Aplicaciones de la minería de datos en la bioinformática.

[15]. Ordoñez, M. (2008). La minería de datos y el Negocio: Aplicaciones, metodologías y

técnicas.

http://www.uthermosillo.edu.mx/voces/voces42/05.php

http://www.azc.uam.mx/alumnos/tradeoff/docu/adm.pdf

http://www.prezi.com/qgchtrvfi1bn/gerencia-de-operaciones

http://books.google.com.pe/books?id=8Iz1a8iFGCgC&hl=es&source=gbs_navlinks_s

http://apps.elsevier.es/watermark/ctl_servlet?_f=10&pident_articulo=13101022&pident_usuario=0&pcontactid=&pident_revista=4&ty=28&accion=L&origen=zonadelectura&web=http://zl.elsevier.es&lan=es&fichero=4v26n03a13101022pdf001.pdf



http://gamoreno.wordpress.com/2007/10/03/tecnicas-mas-usadas-en-la-mineria-de-datos/

http://gamoreno.wordpress.com/2007/10/03/tecnicas-mas-usadas-en-la-mineria-de-datos/

46

[16]. Witten, I.H. & Frank, E. (2000). Data Mining: Practical Machine Learning Toolsand

Techniques with Java Implementations. San diego (E.E.U.U).

[17]. Gilberto, G. (2008). Desarrollo de un modelo basado en técnicas de Minería de Datos

para clasificar zonas climatológicamente similares en el estado de Michoacán. (México).

[18]. Macias, M. (2008). Técnicas de Minería de Datos para Retención de Clientes en el Sector

Asegurado. Recuperado del 10 de octubre de 2013 de

http://www.cnsf.gob.mx/Eventos/Premios/2008%20Seguros/ANIVDELAREV.pdf

[19]. Carle, A. (2006). La toma de Decisiones Empresariales. (Uruguay).

[20]. Benjamin, E. (2009). Toma de Decisiones Empresariales. Recuperado del 11 de octubre

de 2013 de http://www.internacionaleventos.com/Articulos/Tomadedecisiones.pdf.

[21]. Koontz, H & Weihrich, H. (1993). Administración: Una perspectiva global. 12 ed.

(México).

[22]. Peter, F. (2009). El ejecutivo Eficaz en Acción: un diario para organizarse bien

(Management).

[23]. Calleja, A. (2010). Minería de datos con weka para la predicción del precio de

automóviles de segunda mano. (España).

[24]. Galvis, M. & Martinez, F. (2004). Confrontación de dos técnicas de minería de datos

aplicadas a un dominio especifico. Colombia (Bogotá).

http://www.cnsf.gob.mx/Eventos/Premios/2008%20Seguros/ANIVDELAREV.pdf

http://www.internacionaleventos.com/Articulos/Tomadedecisiones.pdf

Desarrollo de Un Modelo de Minería de Datos Para La Toma de Decisiones Tesis

Documents

Transcript of Desarrollo de Un Modelo de Minería de Datos Para La Toma de Decisiones Tesis