Post on 08-Jun-2018
TESIS
Formulación de Minería de Datos para la Empresa Distribuidora de
Productos Espinoza Aguilar S.A.
Por
Álvaro Alejandro Alcántara Mori
Alumno de Ingeniería de Sistemas de la
Facultad de Ingeniería Industrial y Sistemas
Para optar el Título Profesional de
INGENIERO DE SISTEMAS
EN LA
UNIVERSIDAD TECNOLOGICA DEL PERU
MAYO 2012
Tesis Dirigida por: MBA Ing. Carlos Zorrilla Vargas
Resumen
El presente trabajo es un estudio de la viabilidad, adaptación y beneficios que puede
ofrecer la metodología de la minería de datos aplicado a la pequeña empresa, que no
cuenta con plan de proyección estructurado de los análisis internos y externos que van
cambiando durante el ciclo de vida de la empresa.
Al final de la investigación se llegará a determinar el beneficio cualitativo y cuantitativo
aproximado de la implementación del sistema, así como estructurar una guía de
implementación.
Resumen
1. Introducción
2. Justificación de la Investigación
a. Objetivos (generales y específicos)
b. Diferenciación con otros proyectos similares.
3. Situación Actual
a. Definición del Problema
b. Volúmenes de Información (del negocio, de los clientes, años anteriores,
mercado local, mercado global, si aplica, información estadística)
4. Marco teórico
5. Solución Propuesta
a. Alcance de la propuesta de Solución
b. Análisis de la solución propuesta
i. Benchmarking
ii. Análisis de estratégico
iii. Análisis funcional
iv. Etapas de la solución
c. EVS
d. Metodología
e. Sistema propuesto
6. Impacto esperado
7. Conclusiones
8. Bibliografía
9. Glosario
10. Anexos
2. JUSTIFICACION
¿Por qué?
Para detectar falencias en las los procesos que generen perdidas por gastos innecesarios
en la logística.
¿Para qué?
Para aumentar la rentabilidad del negocio, eliminado perdidas, y agilizar los procesos
internos de comercialización en todas sus áreas.
Desde sus inicios la rentabilidad en las cuales está orientada la empresa, DIPESA, se
basa en la cantidad de volumen comercializado, dejando de lado la investigación
relacionada con las estadísticas y las proyecciones que puede establecer nuevos
elementos estratégicos al momento de realizar las funciones cotidianas.
Al contar con información orientado a los datos, encontrará elementos que puede
facilitar las operaciones que se realiza para cumplir con los procedimientos del negocio.
a. OBJETIVOS
Objetivo General
Conocer el impacto económico y en la alineación de los posesos al implantar
un sistema de Minería de Datos en la logística de la empresa.
Objetivos Específicos
Calcular la ganancia económica resultante después de la implantación.
Caracterizar los procesos no atendidos adecuadamente, conocer su
influencia.
3. SITUACION ACTUAL
3.1. EL PROBLEMA
3.1.1 Planteamiento del Problema
• Carrera : Informática
• Área : Base de Datos
• Asignatura : Minería de Datos
• Tema : Implantación de un sistema de Minería de Datos.
3.1.2 Formulación del Problema
Medir el beneficio económico y en los procesos con la aplicación de un sistema
de minería de Datos para la empresa DIPESA (Abarrotes-PYMES)
3.1.3 Descripción del Problema
La empresa DIPESA, dedicada a la comercialización de productos de primera
necesidad.
Tiene procesos básicos de comercialización y cuenta con un sistema de
almacenes que solo gestiona parte de sus procesos.
Se ha visto perdidas por el mal ingreso de los datos en algunas de las áreas de
sus procesos y gastos excesivos por el tema de almacenamiento.
También ligeras pérdidas de productos que exceden las fechas de vencimiento y
que aún no han sido distribuidos.
4. MARCO TEORICO REFERENCIAL
4.1. MARCO TEÓRICO
Según CC Steelman de la ACM, el cuerpo de conocimiento de la informática está
compuesto por:
- Estructuras discretas.
- Programación.
- Algoritmos y complejidad.
- Lenguajes de programación.
- Arquitectura y organización de computadores.
- Sistemas operativos.
- Redes de computadoras.
- Interacción humana.
- Gráficos y visualización.
- Sistemas inteligentes e inteligencia artificial.
- Sistemas de información y gestión de información.
- Ingeniería de software.
- Aspectos sociales y profesionales de la informática.
- Ciencia computacional.
Teoría de la computación
Teoría de la computación
Teoría de autómatas
Teoría de la computabilidad.
Teoría de la complejidad computacional
Límites fundamentales (en especial de espacio en memoria y tiempo) de los cómputos.
Algoritmos y estructuras de datos
Análisis de algoritmos
Algoritmos: procesos formales usados para los cómputos, y eficiencia de estos procesos.
Estructuras de datos: organización y manipulación de los datos
Lenguajes de programación y compiladores
Compiladores formas de traducir programas computacionales, usualmente a partir de
lenguajes de alto nivel a lenguajes de bajo nivel.
Teoría de lenguajes de programación, lenguajes formales para expresar algoritmos y las
propiedades de estos lenguajes.
Bases de datos
Minería de datos, estudio de algoritmos para buscar y procesar información en
documentos y bases de datos; muy relacionada con la adquisición de información.
Inteligencia artificial
Inteligencia artificial la implementación y estudio de sistemas que exhiben (ya sea por
su comportamiento o aparentemente) una inteligencia autónoma o comportamiento
propio, a veces inspirado por las características de los seres vivos. Las ciencias de la
computación están relacionadas con la IA, ya que el software y las computadoras son
herramientas básicas para el desarrollo y progreso de la inteligencia artificial.
Razonamiento automatizado Robótica algoritmos para controlar el comportamiento de
los robots.
Visión por computador algoritmos para extraer objetos tridimensionales de una imagen
bidimensional.
Aprendizaje Automático
Ciencias Aplicadas al Negocio
Economía: es la ciencia social que estudia el comportamiento económico de agentes
individuales: producción, intercambio, distribución y consumo de bienes y servicios,
entendidos estos como medios de satisfacer necesidades humanas y resultado individual
o colectivo de la sociedad.
Microeconomía: es una parte de la economía que estudia el comportamiento
económico de agentes económicos individuales, como son los consumidores, las
empresas, los trabajadores y los inversores; así como de los mercados. Considera las
decisiones que toma cada uno para cumplir ciertos objetivos propios. Los elementos
básicos en los que se centra el análisis microeconómico son los bienes, los precios, los
mercados y los agentes económicos. La gran mayoría de los modelos que se exponen en
el presente artículo tienen como base la existencia de un marco económico y social de
economía descentralizada, en el que existe propiedad privada.
Macroeconomía: es la parte de la teoría económica que se encarga del estudio global
de la economía en términos del monto total de bienes y servicios producidos, el total de
los ingresos, el nivel de empleo, de recursos productivos, y el comportamiento general
de los precios. La macroeconomía puede ser utilizada para analizar cuál es la mejor
manera de influir en objetivos políticos como por ejemplo hacer crecer la economía,
conseguir la estabilidad de precios, fomentar el empleo y la obtención de una
sustentable y equilibrada balanza de pagos.
Administración: ciencia social y técnica encargada de la planificación, organización,
dirección y control de los recursos (humanos, financieros, materiales, tecnológicos, el
conocimiento, etc) de la organización, con el fin de obtener el máximo beneficio
posible; este beneficio puede ser económico o social, dependiendo esto de los fines
perseguidos por la organización.
Psicología Social: es la psicología que se encarga del estudio especializado de las
conductas pero a su vez estudia la forma y el por qué el hombre lo hace de una manera o
de otra según sea su sociabilización por medio de los padreso familiares o amigos
estudiándolo desde su forma mental
Relaciones Públicas: Rama de la comunicación que se encarga de crear, modificar y/o
mantener la imagen positiva ya sea de una empresa, organización, ente público o
privado, o persona; y fortalecer los vínculos con todos sus públicos (Internos, externos o
indirectos), utilizando diferentes estrategias, técnicas e instrumentos, su misión es
generar un vínculo entre la organización, la comunicación y los públicos relacionados (
Stakeholder), además de convencer e integrar de manera positiva.
Contabilidad de Costos: es un sistema de información para predeterminar, registrar,
acumular, distribuir, controlar, analizar, interpretar e informar de los costos de
producción, distribución, administración y financiamiento.
Logística: conjunto de medios y métodos necesarios para llevar a cabo la organización
de una empresa, o de un servicio, especialmente de distribución.1 En el ámbito
empresarial existen múltiples definiciones del término logística, que ha evolucionado
desde la logística militar hasta el concepto contemporáneo del arte y la técnica que se
ocupa de la organización de los flujos de mercancías, energía e información.
PYMES
En el Perú, las PYME representan el 99.5% del total de empresas del país, son
responsables del 49% de la producción nacional y producen el 49% del PBI nacional.
Según estadísticas del ENAHO, son las PYME las que concentran el 60% de los
empleos totales, siendo la microempresa la que más empleos genera: 53% de la PEA
ocupada a nivel nacional (el restante 7% pertenece a la pequeña empresa). En la última
década, el sector PYME ha sido el más dinámico en relación a la creación de nuevos
puestos de trabajo creciendo a tasas de 9% anual mientras que la gran empresa creció a
tasas de 2% anual.
- Centro de Documentación para la Innovación de la Cadena de Suministro
Mayo 15, 2011 (15/05/2011)
El costo de la logística en la mayoría de empresas varía entre el
10 y 20% de sus ventas”
Edward Frazelle Ph.D., fundador de The Supply Chain Logistics Institute en
Georgia Tech, y presidente y CEO de Logistics Resources International
- PLANEAN TENER UN INDICADOR PARA EL PERÚ EN DICIEMBRE
Costos logísticos para pymes de la región llegan al 33%
"Según el Centro Logístico para América Latina (LALC, por sus siglas en
inglés) el promedio de los costos logísticos sobre las ventas es de 14,7% en la
región, pero en el Perú no hay un 'benchmark' formal, aunque se habla de un
19% o 20% como referencia", señala Wong.
2.2. MARCO CONCEPTUAL
2.2.1 Data Mining, la extracción de información oculta y predecible de grandes bases
de datos, es una poderosa tecnología nueva con gran potencial para ayudar a las
compañías a concentrarse en la información más importante de sus Bases de
Información (Data Warehouse). Las herramientas de Data Mining predicen futuras
tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas
y conducidas por un conocimiento acabado de la información (knowledge-driven). Los
análisis prospectivos automatizados ofrecidos por un producto así van más allá de los
eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte
de decisión. Las herramientas de Data Mining pueden responder a preguntas de
negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a
los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas
herramientas exploran las bases de datos en busca de patrones ocultos, encontrando
información predecible que un experto no puede llegar a encontrar porque se encuentra
fuera de sus expectativas.
Hay cuatro tipos de tareas que normalmente se involucran en la minería de datos:
Clasificación – la tarea de generalizar una estructura familiar para utilizarla en
los nuevos datos
Agrupamiento – la tarea de encontrar grupos y estructuras en los datos que son
de alguna manera u otra lo mismo, sin necesidad de utilizar las estructuras
observadas en los datos.
Aprendizaje de reglas de asociación – Busca relaciones entre las variables.
Regresión – Su objetivo es encontrar una función que modele los datos con el
menor error.
2.2.2 Los Fundamentos del Data Mining
Las técnicas de Data Mining son el resultado de un largo proceso de investigación y
desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron
almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a
los datos, y más recientemente con tecnologías generadas para permitir a los usuarios
navegar a través de los datos en tiempo real. Data Mining toma este proceso de
evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega
de información prospectiva y proactiva. Data Mining está lista para su aplicación en la
comunidad de negocios porque está soportado por tres tecnologías que ya están
suficientemente maduras:
Recolección masiva de datos
Potentes computadoras con multiprocesadores
Algoritmos de Data Mining.
2.2.3 Datos, información, conocimiento
¿En qué se diferencia el conocimiento de los datos y de la información? En una
conversación informal, los tres términos suelen utilizarse indistintamente y esto puede
llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más
sencilla de diferenciar los términos sea pensar que los datos están localizados en el
mundo y el conocimiento está localizado en agentes de cualquier tipo (personas,
empresas, máquinas...), mientras que la información adopta un papel mediador entre
ambos.
Datos
Los datos son la mínima unidad semántica, y se corresponden con elementos primarios
de información que por sí solos son irrelevantes como apoyo a la toma de decisiones.
También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre
el porqué de las cosas y no son orientativos para la acción.
Un número telefónico o un nombre de una persona, por ejemplo, son datos que, sin un
propósito, una utilidad o un contexto no sirven como base para apoyar la toma de una
decisión. Los datos pueden ser una colección de hechos almacenados en algún lugar
físico como un papel, un dispositivo electrónico (CD, DVD, disco duro...), o la mente
de una persona. En este sentido las tecnologías de la información han aportado mucho a
recopilación de datos.
Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la
organización, pudiendo ser de carácter objetivo o subjetivo, o de tipo cualitativo o
cuantitativo, etc.
2.2.4 El Alcance de Data Mining
El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de
negocios en grandes bases de datos - por ej.: encontrar información de la venta de un
producto entre grandes montos de Gigabytes almacenados - y minar una montaña para
encontrar una veta de metales valiosos. Ambos procesos requieren examinar una
inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente
donde residen los valores. Dadas bases de datos de suficiente tamaño y calidad, la
tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer
estas capacidades:
Predicción automatizada de tendencias y comportamientos. Data Mining
automatiza el proceso de encontrar información predecible en grandes bases de
datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora
pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de
problema predecible es el marketing apuntado a objetivos (targeted marketing). Data
Mining usa datos en mailing promocionales anteriores para identificar posibles
objetivos para maximizar los resultados de la inversión en futuros mailing. Otros
problemas predecibles incluyen pronósticos de problemas financieros futuros y otras
formas de incumplimiento, e identificar segmentos de población que probablemente
respondan similarmente a eventos dados.
Descubrimiento automatizado de modelos previamente desconocidos. Las
herramientas de Data Mining barren las bases de datos e identifican modelos
previamente escondidos en un sólo paso. Otros problemas de descubrimiento de
modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e
identificar datos anormales que pueden representar errores de tipeado en la carga de
datos.
¿QUE PUEDE HACER EL DATA MINING?
Una empresa en posesión de unas bases de datos de calidad y tamaño suficiente puede
emplear el Data Mining para generar nuevas oportunidades de negocio, dada su
capacidad para proporcionar:
� Predicción automática de comportamientos.
Generalmente se trata de problemas de clasificación. Como ejemplo podemos citar el
marketing dirigido. Data Mining usa los resultados de campañas de marketing
realizadas anteriormente para identificar el perfil de los clientes que son más propensos
a comprar el producto y de este modo permitirnos substituir el correo masivo por el
correo dirigido.
� Predicción automática de tendencias.
Basándonos en base de datos históricas, Data Mining creará un modelo para predecirlas
tendencias. Como ejemplos podemos citar la predicción de ventas en el futuro ola
predicción en mercados de capitales.
� Descubrimiento automatice de comportamientos desconocidos anteriormente.
Las herramientas de Data Mining de visualización y clustering, permiten «ver» nuestros
datos desde una perspectiva distinta y por ello descubrir nuevas relaciones entre ellos.
2.2.5. Software
Cinco de las mejores herramientas de software de código abierto para minería de datos
que puedes obtener de forma gratuita:
Orange
Orange es una suite de software para minería de base de datos y
aprendizaje automático basado en componentes que cuenta con un
fácil y potente, rápido y versátil front-end de programación visual
para el análisis exploratorio de datos y visualización, y librerias para Python y
secuencias de comando. Contiene un completo juego de componentes para
preprocesamiento de datos, característica de puntuación y filtrado, modelado,
evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su
interfaz gráfica de usuario se basa en la plataforma cruzada del frameworkQt.
RapidMiner
RapidMiner, antes llamado YALE (Sin embargo, otro
ambiente de aprendizaje), es un ambiente de
experimentos en aprendizaje automático y minería de
datos que se utiliza para tareas de minería de datos tanto en investigación como en el
mundo real. Permite a los experimentos componerse de un gran número de operadores
anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz
gráfica de usuario de RapidMiner. RapidMiner ofrece más de 500 operadores para todos
los principales procedimientos de máquina de aprendizaje, y también combina
esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka.
Está disponible como una herramienta stand-alone para el análisis de datos y como
motor para minería de datos que puede integrarse en tus propios productos.
WEKA
Escrito en Java, Weka (Entorno Waikato para el Análisis del
Conocimiento) es una conocida suite de software para
máquinas de aprendizaje que soporta varias tareas típicas de
minería de datos, especialmente pre procesamiento de datos,
agrupamiento, clasificación, regresión, visualización y características de selección. Sus
técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo
plano o relación, donde cada punto marcado es etiquetado por un número fijo de
atributos. WEKA proporciona acceso a bases de datos SQL utilizando conectividad de
bases de datos Java y puede procesar el resultado devuelto como una consulta de base
de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad
puede ser accedida desde la línea de comandos o a través de la interfaz de flujo de
conocimientos basada en componentes.
JHepWork
Diseñado para los científicos, ingenieros y estudiantes, jHepWork es
un framework para análisis de datos libre y de código abierto que fue
creado como un intento de hacer un entorno de análisis de datos
usando paquetes de código abierto con una interfaz de usuario
comprensible y para crear una herramienta competitiva a los programas comerciales.
Esto se hace especialmente para las ploteos científicos interactivos en 2D y 3D y
contiene bibliotecas científicas numéricas implementadas en Java para funciones
matemáticas, números aleatorios, y otros algoritmos de minería de datos. jHepWork se
basa en Jython un lenguaje de programación de alto nivel, pero codificación en Java
también puede ser usada para llamar librerías jHepWork numéricas y gráficas.
KNIME
KNIME (Konstanz Information Miner) es una plataforma de
código abierto de fácil uso y comprensible para integración de datos, procesamiento,
análisis, y exploración. Ofrece a los usuarios la capacidad de crear de forma visual
flujos o tuberías de datos, ejecutar selectivamente algunos o todos los pasos de análisis,
y luego estudiar los resultados, modelos y vistas interactivas. KNIME está escrito en
Java y está basado en Eclipse y hace uso de sus métodos de extensión para soportar
plugins proporcionando así una funcionalidad adicional. A través de plugins, los
usuarios pueden añadir módulos de texto, imagen, procesamiento de series de tiempo y
la integración de varios proyectos de código abierto, tales como el lenguaje de
programación R, WEKA, el kit de desarrollo de Química y LIBSVM.
4.3. MARCO REFERENCIAL
a. FOROS
www.dataminingperu.info es una iniciativa para compartir las experiencias de los
autores en la aplicación directa de la estadística en el día a día
Intentaremos centrarnos exclusivamente en temas como:
Minería de Datos
Data Warehouse
Business Intelligence
Herramientas de Análisis de Datos
Aplicaciones diversas en el ámbito privado y gubernamental.
b. Casos de Éxito
Rainforest
Rainforest Expeditions (fundado en 1989) es una empresa de Ecoturismo que opera tres
albergues en la Amazonía ampliamente reconocidos: Posada Amazonas, Refugio
Amazonas y el Centro de Investigaciones de Tambopata.
Objetivo. Ingreso de encuestas sobre el nivel de satisfacción de turistas de forma
mensual.
Poder Judicial Huaura
Ente del Estado perteneciente a la sede Central de Lima del Poder Judicial.
Objetivo. Ingreso de expedientes Judiciales al nuevos Sistema Integrado Judicial.
Instituyo Apoyo
Organización sin fines de lucro, focalizada en la ejecución de proyectos educativos,
dirigidos a mejorar la enseñanza de la Economía, las Matemáticas y la Gestión
Empresarial en el Perú.
Objetivo. Ingreso de fichas del programa Aula Empresa de los años 2009 y 2010 por
doble digitación.
Maestristas Universidad Cesar Vallejo
La universidad César Vallejo – Campus Lima, forma parte del más grande consorcio
universitario del Perú. Se fundó en Trujillo hace 16 años, y hoy tiene sedes en Piura,
Chimbote, Tarapoto y Chiclayo, donde también se encuentra la Universidad Señor de
Sipán y, próximamente en el distrito de Villa el Salvador, con la Universidad Autónoma
del Perú.
Objetivo. Realizar el análisis estadístico de los proyectos de tesis de los alumnos de
maestría en Educación.
2.4. HIPÓTESIS
La implantación de un Sistema de Minería de Datos, en la empresa DIPESA,
logrará reducir en un 20% los costos de logística.
La implantación de Sistemas basados en análisis de Data Minig, implicara la
reingeniería de los procesos en la empresa.
Tipo de Hipótesis:
Hipótesis de correlación - causalidad
Variables:
Costos logísticos.
Tiempo de implantación.
Implantación de Sistema
2.5 LIMITACIONES
Las limitaciones que se encuentran en el estudio e investigación, son con referencia a la
falta de cultura que tienen las empresas en la inversión para conocer sus datos
estadísticos y proyecciones de inversión. Así como en la estructura cerrada de las
compañías que por seguridad y estrategias comerciales limitan a nula la información de
sus logros internos en la implantación de alguna metodología de investigación de
procesos.