Informe Practicas Pre
-
Upload
angelka-harumi-machay-chavez -
Category
Documents
-
view
386 -
download
4
Transcript of Informe Practicas Pre
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 1
UNIVERSIDAD SAN PEDRO
FACULTAD DE INGENIERÍA ESCUELA PROFESIONAL DE INGENIERÍA INFORMÁTICA Y DE
SISTEMAS
PROYECTO:
“SISTEMA PARA EVITAR EL DESABASTECIMIENTO DEL AREA DE FARMACIA APLICANDO MINERIA DE DATOS”
ALUMNOS:
Campos Reyes Raúl Cano Morales Augusto
CURSO:
INGENIERIA DEL SOFTWARE II
Chimbote 09 junio de 2009
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 2
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 3
DEDICATORIA A nuestros queridos padres que con su esfuerzo
y dedicación han logrado hacer posible el
desarrollo de este proyecto.
Al orientador del presente curso, por habernos
dado las pautas necesarias y básicas para poder
guiarnos y así tener la satisfacción de conocer
un poco mas sobre el tema.
A nuestros compañeros por la dedicación merecida
del curso y así tener la satisfacción de haber sobrellevado
una competencia limpia que ayudo a la mejora
de nuestros conocimientos.
A nuestra Alma Mater por brindarnos sus aulas
donde a diario adquirimos los conocimientos
esenciales para nuestra carrera y así mismo
la formación necesaria para el camino de la vida.
“Cogito Ergo Sum”
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 4
AGRADECIMIENTO Agradecemos a Dios por darnos la oportunidad
de poder emprender un viaje a través de las
valiosas aulas de la universidad privada san pedro
donde día a día los docentes encargados nos llenan
de conocimientos que posteriormente nos servirán
como armas ante cualquier problemática que se nos
presente en la vida.
Agradecemos a nuestros padres por apoyarnos
en cada momento de nuestra vida frente a las decisiones
que tomamos. Agradecemos también su comprensión
y el esfuerzo que hacen por nosotros
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 5
INDICE
Carátula…………………………………………………………………………………………….1
Contra carátula………………………………………………………………………………….2
Dedicatoria………………………………………………………………………………………..3
Agradecimiento……………………………………………….………………………………..4
Índice General………………………………………………….……………………………….5
Índice De Tablas……………………………………………….……………………………….9
Índice De Figuras……………………………………………….………………………………9
Resumen……………………………………………………………………………………………10
Abstract………………………………………………………………………. …………………..12
Introducción………………………………………………………………………………………14
CAPITULO I:
GENERALIDADES……………………………………………………….…………15
Descripción……………………………………………………………………………..…………17
INTEGRANTES……………………………………..……………………………………………..18
LOGOTIPO DE LA ORGANIZACIÓN……………………………………..……………….18
Reseña Histórica……………………………………………………………………..………….19
Visión………………………………………………………………………………………………….20
Misión…………………………………………………………………………………….………….20
Organigrama……………………………………..………………………………………………..21
Pictograma……………………………………..……………………………………………………22
CAPITULO II:
MARCO TEORICO……………………………………………………..……………23
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 6
2.1 Antecedentes…………………………………………………………………………….24
2.2 Conceptos sobre Data Warehouse, Data Mart y Olap
2.2.1 Data Warehouse………………………………………………………….………24
2.2.2 Data Mart…………………………………………………………………….………30
2.2.3 Almacenamiento Olap………………………………………………………….31
2.3 Conceptualización sobre transformación y carga de datos………………….36
2.3.1 Migración De Datos: Extracción, Transformación Y Carga………..36
2.4 Concepto Sobre Minería De Datos……………………………………………............39
2.4.1 Data Mining……………………………………………………………………………..39
CAPITULO III:
DESCRIPCION DE LA METODOLOGIA…………………………………..41
3. Metodología Crisp- DM……….……….……….……….……….……….……….…………..42
3.1 Interrupción Jerárquica……….……….……….……….……….……………….42
3.1.1 Modelo De Referencia……….……….……….……….……………43
3.2 Modelo Genéricos a Especializados……….……….……….……………….43
3.2.1 Contexto de Minería De Datos……….……….…………………43
3.2.2 Pasaje de contextos……….……….……….……….……………….44
3.2.3 Pasaje……….……….……….……….……….……….…………………..44
3.3 Descripción de partes……….……….……….……….……….…………………..45
3.3.1 Contenido……….……….……….……….……….……….……………..45
3.3.2 Objetivo……….……….……….……….……….……….………………..45
3.4 Comprensión del negocio……………..……….…………..…………………….48
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 7
3.4.1 Determinación del objetivo de negocio……………………49
3.4.2 Evaluación de la situación……….……….……….…………….49
3.4.3 Determinación de objetos de minería de datos………50
3.4.4 Producir el plan del proyecto……….……….………………..51
3.5 Comprensión de datos……….……….……….……….……….……………..51
3.5.1 Recolección de datos iniciales.….……….…………………..52
3.5.2 Describir los datos……….……….……….……………………….52
3.5.3 Explorar los datos……….……….……….………………………..52
3.5.4 Verificar la calidad de datos…………………………………….52
3.6 Preparación de datos……….……….……….……….………………………..53
3.6.1 Selección de datos……….……….……….……………………….54
3.6.2 Limpieza de datos……….……….……….………………………..54
3.6.3 Construir datos……….……….……….……….…………………..54
3.6.4 Integrar Datos……….……….……….……….…………………….54
3.6.5 Formatear Datos…….……….……….……….……………………55
3.7 Modelado……….……….……….……….……….……….……………………….55
3.7.1 Selección de la técnica de modelado………………………56
3.7.2 Generación de la prueba de diseño………………………..56
3.7.3 Construcción del modelo……….……….……………………..56
3.7.4 Evaluación del modelo……….……….………………………….57
3.8 Evaluación……….……….……….……….……….……….………………………..57
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 8
3.8.1 Evaluación de los resultados……….……….…………..58
3.8.2 Proceso de revisión……….……….……….……………….58
3.8.3 Determinación de próximos pasos……………………58
3.9 Desarrollo……….……….……….……….……….………………59
3.9.1 Desarrollo Del Plan……….……….……….………………..59
3.9.2 Plan De Supervisión y mantenimiento………………59
3.9.3 Información del producto……….……….……………….60
3.9.4 Revisión del Producto……….……….……….…………….60
CAPITULO IV:
APLICACIÓN DE LA METODOLOGIA……………………………61
4.1 Determinar los objetivos del negocio………………………………………….62
4.1.1 Contexto……………………………………………………………………………….62
4.1.2 Objetivos de negocio…………………………………………………………….66
4.1.3 Criterios de éxito de negocio…………………………………..…………….67
4.2 Evaluación de la situación…………………………………………………………..68
4.2.1 Inventario de recursos…………………………………………………………68
4.2.2 Requerimientos, presunciones y restricciones…………………….69
4.2.3 Riesgos y contingencias……………………………………………………….69
4.2.4 Terminología………………………………………………………….……………70
4.2.5 Costos Y Beneficios………………………………………………..……………70
4.3 Determinación de los objetivos de la minería de datos….……………70
4.3.1 Objetivos de la minería de datos…………………………….……………70
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 9
4.3.2 Criterio de éxito de la minería de datos………………….………………71
4.4. Producir el plan proyecto……………………………………………….…………….72
4. 4.1 Plan del proyecto…………………………………………………………………72
4. 4.2 Evaluación inicial de herramientas y técnicas……………………..73
INDICE TABLAS
Tabla 3.1.……………………………………………………………………………………………..41
INDICE FIGURAS
Figura 1.1 Logotipo EGB.……………………………………………………………………..18
Figura 1.2 Organigrama EGB………………………………………………………………. 21
Figura 1.3 Pictograma EGB………………………………………………………………… 22
Figura 2.1. Esquema Estrella. …………………………………………………………….. 27
Figura 2.2. Esquema Copo de Nieve…………………………………………………… 28
Figura 2.3. Cubo Multidimensional……………………………………………………. 33
Figura 2.4. Dimensiones y Jerarquías. ……………………………………………..... 34
Figura 2.5. Ejemplos de Transformación…………………………………………….. 38
Figura 3.1. Niveles de interrupción ..………………………………………………….. 43
Figura 3.2 Fases del Modelo……….. ..………………………………………………….. 46
Figura 3.3 Fases Genéricas………… ..………….………………………………………… 48
Figura 3.4.Comprensión del negocio….……………………………………….. …… .48
Figura 3.5. Comprensión de datos ..………………………………………………….. .51
Figura 3.6 Preparación de datos ..………………………………………………………53
Figura 3.7. Modelado…………………....………………………………………………….. .55
Figura 3.8 .Evaluación……………….. ..……………………………………………………. 57
Figura 3.9. Desarrollo……………….. ..………………………………………………….. …59
Figura 4.1 Plan Del Proyecto………………………………………………………………..72
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 10
RESUMEN
El presente informe consta de a elaboración de sistema para evitar el desabastecimiento de la
farmacia del Hospital Eleazar Guzmán Barron utilizando minería de datos.
En dicho sistema intervienen: Jefa De Farmacia, Jefa de ventas, Encargado del kárdex ,
Secretaria De Farmacia pero en este caso solo la jefa de farmacia y la jefa de ventas serán
quienes interactúen con el sistema
Basados en nuestras investigaciones a fondo y entrevistas con los diferentes actores que
intervienen en este Sistema establecemos las relaciones de dicha manera:
Las compras son solicitadas por la jefatura de ventas quien envía un documento hacia
la jefatura de ventas para su aprobación.
La secretaria acepta el documento recepcionando el cargo.
El documento se envía a la jefa de farmacia quien revisa el pedido para su aprobación.
La compra se realiza de 3 maneras:
o Nacional: Se realiza una vez al año en el mes de junio, los pedidos son
enviados al MINSA (ministerio de salud) quien junta los pedidos que llegan de
todo el país y las compras totales se dan en licitación.
o Regional: Realizada cuando por alguna razón necesitan medicamentos para
reserva, envían su pedido a Huaraz quien junta el pedido. La venta también se
realiza por licitación,
o Local: En caso de emergencia se realiza a algún agente vendedor que tenga
el Hospital.
Este es el ciclo de compras, la idea es crear un software para simular agentes extraños como el clima,
virus estacionarios, ya que estos pedidos se hacen en relación a ventas realizados en el mes anterior.
Con este software seria posible evitar el desabastecimiento ya que estaríamos preparados para
mayores ventas.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 11
Habiendo detallado todo nuestro Sistema procedemos a elaborar nuestros procesos a seguir para así
obtener un buen Sistema Informático que brindar al Hospital Regional Eleazar Guzmán Barron
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 12
ABSTRACT
The formless present consists of to system elaboration to avoid the desabastecimiento
of the pharmacy of the Hospital Eleazar Guzmán Barron using mining of data.
In this system they intervene: Boss Of Pharmacy, Boss of sales, Taken charge of the
kardex, Secretary Of Pharmacy but in this alone case the pharmacy boss and the boss
of sales will be who interactúen with the system
Thoroughly based on our investigations and you interview with the different actors that
intervene in this System we establish the relationships in a this way:
The purchases are requested by the headquarters of sales who sends a
document toward the headquarters of sales for their approval.
The secretary accepts the document recepcionando the position.
The document is sent the pharmacy boss who revises the order for its approval.
The purchase is carried out in 3 ways:
o National: He/she is carried out once a year in the month of June, the
orders are correspondents to the MINSA (ministry of health) who it joins
the orders that they arrive of the whole country and the total purchases
are given in bid.
o Regional: Carried out when for some reason they need medications for
reservation, they send their order to Huaraz who joins the order. The sale
is also carried out for bid,
o Local: In the event of emergency he/she is carried out to some agent
salesperson that has the Hospital.
This is the cycle of purchases, the idea it is to create a software to simulate strange
agents as the climate, stationary virus, since these orders are made in relation to sales
carried out in the previous month. With this serious software possible to avoid the
desabastecimiento since we would be prepared for further sales.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 13
Having detailed all our System we proceed to elaborate our processes to continue
he/she stops this way to obtain a good Computer System that to offer to the Regional
Hospital Eleazar Guzmán Barron
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 14
INTRODUCCION
Hoy en día, y está claro que se trata de una tendencia válida para los próximos años,
el almacenamiento de la información es algo sencillo y barato. Nuestros sistemas
informáticos cada vez tienen una capacidad mayor, y lo que ahora es normal encontrar
“de serie” en un ordenador personal, quedará anticuado dentro de unos meses.
Este incremento de los sistemas de almacenamiento tiene un efecto que es realmente
interesante: es poco costoso guardar datos del funcionamiento de nuestros procesos,
o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras
bases de datos (en el sentido más amplio del término) crecen hasta límites
insospechados.
Cuando decidimos iniciar ese proceso de almacenamiento de datos, lo solemos hacer
con la intención de analizarlos posteriormente. Sin embargo, cuando llega el momento,
el análisis que se realiza suele ser bastante superficial y guiado por los resultados que
esperamos encontrar al analizarlos. Lo normal es utilizar algún paquete estadístico
(una hoja de cálculo en el caso más simple) para localizar correlaciones entre
variables, establecer medias y varianzas e intentar modelar de esta forma nuestra
información.
Sin embargo, en esa montaña de datos existe información que no puede ser
encontrada con los procedimientos habituales de trabajo. La minería de datos nos
ayuda a dar un paso más en ese análisis sacando a la luz relaciones ocultas entre los
datos: información desconocida que pueda ayudarnos a gestionar mejor nuestro
negocio o proceso.
El propósito de este proyecto es lograr establecer los puntos más importantes y los
actores principales que participan, proponemos construir un sistema dinámico y de
acceso restringido en donde se pueda elaborar los principales registros estableciendo
así una base de datos que constantemente se va actualizar ante la entrada o salida de
datos
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 15
CAPITULO I
GENERALIDADES
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 16
SISTEMA PARA EVITAR
EL
DESABASTECIMIENTO
DEL AREA DE FARMACIA
APLICANDO MINERIA DE
DATOS
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 17
DESCRIPCION: EL SIGUIENTE PROYECTO PRESENTADO FUE ELABORADO CON LA INTENCION DE EVITAR QUE LA FARMACIA DEL HOSPITAL SE VEA DESABASTECIDA.
LA TAREA DEL SISTEMA ES CAPTAR LOS DATOS QUE CONTIENE ALMACENADOS EN SU BASE DE DATOS PARA GENERAR ALTERNATIVAS DE SOLUCION EN ESTE CASO ANTE EL DESABASTECIMIENTO.
EL ALGORITMO NOS SERVIRA COMO HERRAMIENTA PARA PERMITIRNOS LA TOMA DE DECISIÓNES PARA BENEFICIO DEL HOSPITAL YA QUE CON ESTO SE GENERARA MAS INGRESO SIENDO FARMACIA QUIEN MAYOR INGRESO LE PROPORCIONA AL DETERMINADO HOSPITAL.
ADEMAS PERMITIRA QUE LOS PACIENTES SE SIENTAN MAS SATISFECHOS CADA VEZ QUE SE ATIENDAN EN EL HOSPITAL Y QUE TENGAN QUE COMPRAR MEDICAMENTOS EN LA FARMACIA DE ESTE.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 18
1.1 INTEGRANTES
DIRECCION EJECUTIVA
FERNANDEZ NEYRA CARLOS ENRIQUE
DESIGNADO Director Ejecutivo
CUENTAS BARRENECHEA WASHINGTON
1.2 LOGOTIPO DE LA ORGANIZACIÓN
Figura 1.1 Logotipo EGB
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 19
1.3 RESEÑA HISTORICA
Posterior al terremoto de 1970, en la se destruyo gran parte de Chimbote, el Ministerio de Salud
en 1974 solicita a CRYRSA la adjudicación de un terreno para la construcción de un nuevo
hospital al sur de Chimbote. En 1975 en conformidad con Decreto Ley No 19967, se establece
el ámbito de influencia para las provincias de Santa, Casma y Huarmey, para servir a una
población estimada de quinientos mil habitantes, la construcción se hizo con financiamiento de
la cooperación del Gobierno Alemán.
Se inauguró el 10 de Octubre de 1981 por el Presidente Fernando Belaunde Terry. El edificio
comprende un bloque central de cinco pisos con los departamentos médicos, centro Quirúrgico
y Centro Obstétrico, en el primer piso se encuentra la Dirección y las Áreas Administrativas y
dos bloques laterales Módulos de tres pisos para residencia, Área de Mantenimiento y un
edificio de para residencia.
En 1991 sirvió como Unidad de Tratamiento del Cólera en la septima pandemia teniendo como
estigma a Chimbote “La capital del Colera”, fue controlada en 1995; año en que es calificado
como Hospital Amigo de la Madre y del Niño por la UNICEF. En 1996 se inaugura el primer
modulo de Atención Integral del Niño del país. En 1998 el Hospital Regional EGB es calificado
como Hospital Docente de Capacitación Materno Infantil y por el Ministerio de Salud y ESAN;
asimismo hospital docente de Medicina Humana; se crea el primer Centro de adolescentes de la
Región Ancash ; durante el Fenómeno del Niño se realizo el primer estudio de investigación
viral por el síndrome febril convulsivo en colaboración con OPS, INS y OGE. El mismo año se
inaugura la unidad de Shock Trauma, la Clínica Regional y la Informatización de los Sistemas
Administrativos, e introducción del SIAF.
En 1999 se reapertura la Unidad de Cuidados Intensivos. En el 2000 se culmina la
Informatización con Intranet e Internet en los servicios; control de Aedes en Casma.
El 2001 se inaugura la Unidad de cuidados Intensivos Neonatales. 2002 se reinaugura la Unidad
de Shock Trauma por la colaboración del Gobierno Israeli. En el 2003 se instala la marcación de
la tarjeta magnética y digital. En el 2004 se replantea la clínica se elaboran proyectos de
equipamiento del hospital cercano a dos millones de soles.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 20
1.4 VISION
Al año 2011 ser un hospital modelo, competente y docente de categoría III-1, líder en la región,
con personal calificado, especializado y comprometido que brinda respuestas efectivas, eficiente
y de calidad de atención integral de la salud con equidad, calidez, facilitando el acceso y la
participación ciudadana para el autocuidado de la salud y el desarrollo de estilos de vida
saludable que favorezcan el desarrollo integral y sostenible de la Ciudadanía mediante la
planificación estratégica y tecnología de punta para la satisfacción del usuario.
1.5 MISION
Somos una institución que brindamos atención de salud integral, para mejorar la calidad de vida
de la persona, familia y comunidad, articulando esfuerzos con la sociedad organizada para
promover la salud, prevenir los riesgos, recuperar del daño y rehabilitar las capacidades, con
trabajadores capaces y mística de servicio para las personas desde la preconcepción hasta su
muerte, con el enfoque de salud como derecho, respeto a la diversidad cultural y equidad de
genero.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 21
1.6 ORGANIGRAMA
Figura 1.2 Organigrama EGB
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 22
1.7 PICTOGRAMA
Figura 1.3 Pictograma EGB
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 23
CAPÍTULO II
MARCO TEÓRICO
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 24
2.1 ANTECEDENTES.
Como fruto de la búsqueda realizada por el autor, se ha encontrado algunas conceptualizaciones
sobre la investigación, que han servido para la elaboración del presente trabajo y aparecen
consignados en el marco conceptual.
Sin embargo, cabe indicar que hasta el presente no se han desarrollado trabajos sobre Data Mart,
Datamining y Toma de Decisiones en el ámbito del Consumo de Medicamentos y,
específicamente, en el Hospital Regional Eleazar Guzmán Barron.
Asimismo, con relación a las variables del tema, no se han encontrado investigaciones que
hayan abordado estos temas aplicados a la problemática planteada, con lo cual consideramos
que la presente investigación reúne las condiciones metodológicas suficientes para ser
considerada inédita.
2.2 CONCEPTOS SOBRE DATAWAREHOUSE, DATAMART Y OLAP.
2.2.1 DATAWAREHOUSE. Un Data Warehouse es un repositorio central o colección
de datos en la cual se encuentra integrada la información de la organización y que se usa
como soporte para el proceso de toma de decisiones gerenciales.
El concepto de Data Warehouse comenzó a surgir cuando las organizaciones tuvieron la
necesidad de usar los datos que cargaban a través de sus sistemas operacionales para
planeamiento y toma de decisiones.
Para cumplir estos objetivos se necesitan efectuar consultas que sumarizan los datos, y
que si se hacen sobre los sistemas operacionales reducen mucho la performance de las
transacciones que se están haciendo al mismo tiempo. Fue entonces que se decidió
separar los datos usados para reportes y toma de decisiones de los sistemas operacionales
y así, diseñar y construir los llamados DataWarehouses para almacenar estos datos.
Las principales características que posee un Data Warehouse son:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 25
• Es orientado a la información relevante de la organización:
En un Data Warehouse la información se clasifica en base a los aspectos de
interés para la empresa, es decir, se diseña para consultar eficientemente
información relativa a las actividades básicas de la organización, como ventas,
compras y producción, y no para soportar los procesos que se realizan en ella,
como gestión de pedidos, facturación, etc.
• Es integrado: integra datos recogidos de diferentes sistemas operacionales de la
organización y/o fuentes externas. Esta integración se hace estableciendo una
consistencia en las convenciones para nombrar los datos, en la definición de las
claves, y en las medidas uniformes de los datos.
• Es variable en el tiempo: los datos son relativos a un periodo de tiempo y deben
ser incrementados periódicamente. La información almacenada representa
fotografías correspondientes a ciertos períodos de tiempo.
• Es no volátil: la información no se modifica después de que se inserta, solo se
incrementa. El periodo cubierto por un Data Warehouse varía de 2 a 10 años.
[PATRICIA ZVENGER]
Arquitectura Data Warehouse
Podemos dividirla en dos tipos:
• Diseño Lógico.
De acuerdo a [PATRICIA ZVENGER], existen algunos requerimientos que debe cubrir un
diseño lógico para un Data Warehouse.
- Preparar el Data Warehouse para soportar la recuperación de una gran cantidad de filas de
datos en forma rápida.
- La mayoría de los analistas de negocios van a querer ver datos totalizados. Estos datos en lo
posible deben precalcularse y almacenarse de antemano para que esta recuperación sea rápida y
eficiente. Es importante además discutir el nivel de granularidad y de detalle esperado por los
analistas cuando hacen operaciones de DRILLDOWN.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 26
- El diseño debe estar conducido por el acceso y por el uso, es decir, teniendo en cuenta qué tipo
de reportes o resúmenes son los más frecuentes, y cuáles los más urgentes.
- Un diseño normalizado no es bueno, no solo por lo mencionado en la sección anterior, sino
porque no resulta demasiado intuitivo para una persona de negocios, y podría volverse
demasiado complejo.
- Todos los datos que se incluyan ya deben existir en las fuentes de datos operacionales, o ser
derivables a partir de ellos. [PATRICIA ZVENGER]
Las dos técnicas de diseño más populares de almacenamiento lógico de un DataWarehouses son
las siguientes:
Esquema Estrella.
Este esquema está formado por un elemento central que consiste en una tabla llamada la Tabla
de Hechos, que está conectada a varias Tablas de Dimensiones.
Las tablas de hechos contienen los valores precalculados que surgen de totalizar valores
operacionales atómicos según las distintas dimensiones, tales como clientes, productos o
períodos de tiempo.
Las tablas de hechos representan un evento crítico y cuantificable en el negocio, como ventas o
costos.
Su clave está compuesta por las claves primarias de las tablas de dimensión relacionadas (las
FOREIGN KEYS). Pueden existir varias tablas de hechos con información redundante, porque
podrían contener distintos niveles de agregación de los mismos datos.
Por ejemplo podría existir una tabla de hechos para las Ventas por Sucursal, Región y Fecha,
otra para Ventas por Productos, Sucursal y Fecha, y otra para Ventas por Cliente, Región y
Fecha.
En general las tablas de hechos tienen muchas filas y relativamente pocas columnas.
Las tablas de dimensión representan las diferentes perspectivas desde donde se ven y analizan
los hechos de la tabla de hechos. A diferencia de las anteriores, su clave primaria está formada
por un solo atributo, y su característica principal es que están denormalizadas. Esto significa que
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 27
si la dimensión incluye una jerarquía, las columnas que la definen se almacenan en la misma
tabla dando lugar a valores redundantes, lo cual es aceptable en este esquema.
En general suelen tener muchas columnas pero pocas filas. Siempre que sea posible, es
conveniente compartir las tablas de dimensión entre distintas tablas de hechos.
Una de las dimensiones mas comunes es la que representa el tiempo, con atributos que
describen periodos para años, cuatrimestres, periodos fiscales, y periodos contables.
Otras dimensiones comunes son las de clientes, productos, representantes de ventas, regiones,
sucursales.
El esquema estrella es el más usado porque maneja bien la performance de consultas y reportes
que incluyen años de datos históricos, y por su simplicidad en comparación con una base de
datos normalizada.
En la siguiente figura vemos un ejemplo de esquema Estrella, donde la tabla de hechos es la
tabla Ventas, y el resto son las tablas de dimensiones. [PATRICIA ZVENGER]
Figura 2.1. Esquema Estrella.
Esquema Copo de Nieve.
Es una variante del esquema estrella en el cual las tablas de dimensión están normalizadas, es
decir, pueden incluir claves que apuntan a otras tablas de dimensión.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 28
Las ventajas de esta normalización son la reducción del tamaño y redundancia en las tablas de
dimensión, y un aumento de flexibilidad en la definición de dimensiones.
Sin embargo, el incremento en la cantidad de tablas hace que se necesiten más operaciones de
unión para responder a las consultas, lo que empeora la performance, además del mantenimiento
que requieren las tablas adicionales.
En la siguiente figura vemos un esquema similar al anterior, donde la tabla de dimensión
Sucursal se expande en las tablas Distrito y Región. Ahora la tabla Sucursal contiene una
columna clave DistritoId que apunta a la tabla Distrito, y esta a su vez tiene una columna
RegionId que apunta a la tabla de dimensión Región. [PATRICIA ZVENGER]
Figura 2.2. Esquema Copo de Nieve
• Diseño Físico.
Entre las decisiones de implementación que se deben tomar se incluyen el tamaño del espacio
libre, el tamaño del buffer, el tamaño del bloque, y si se usa o no una técnica de compactación
de la base de datos.
Todas estas cuestiones afectarán la performance del DataWarehouse. Algunos temas que
impactan sobre el rendimiento del Datawarehouse son:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 29
- Particionamiento. Generalmente cuando se hablan de base de datos enormes, donde las tablas
de hechos ocupan varios cientos de gigabytes. El particionamiento permite que los datos de una
tabla lógica, esté en varios datos físicos.
El particionamiento es importante, pues permite realizar respaldos de porciones de una tabla, sin
impactar en su accesibilidad. Por otro lado, permite guardar información mas frecuentemente
accedidos, en dispositivos más rápidos. [PATRICIA ZVENGER]
- Clustering. Es una técnica útil, para el acceso secuencial de grandes cantidades de datos. Se
obtiene definiendo un índice de clustering para una tabla, el cual determina el orden secuencial
físico en el que se almacenan las filas en los conjuntos de datos.
Esta técnica mejora drásticamente el acceso secuencial, y es la técnica mas usada para
procesamiento OLAP. Cuando las filas de la tabla no permanezcan almacenadas en el orden
correspondiente a su índice clustering, situación conocida como fragmentación, la performance
bajará y habrá que reorganizar la tabla. [PATRICIA ZVENGER]
- Indexado. Existen dos estrategias extremas de indexado: una es indexar todo, y la otra es no
indexar nada, pero ninguna de las dos es conveniente. Las columnas que se elijan para indexar
deben ser las que se usan más frecuentemente para recuperar las filas, y las que tienen una alta
distribución de valores, no una baja como por ejemplo Código Postal.
Una vez que se determinan las columnas a indexar, hay que determinar la estrategia de índice.
La mayoría de las DBMSs proveen varios algoritmos, entre ellos B-tree, Hash, archivo
Invertido, Sparse y Binario. Se debería optar por el más óptimo para el producto DBMSs que se
está usando. [PATRICIA ZVENGER]
- Reorganizaciones. Las cargas incrementales de las bases de datos irán fragmentando las tablas,
y esta fragmentación puede resultar en un decaimiento de la performance. La mayoría de las
DBMSs proveen rutinas de reorganización para reclamar el espacio fragmentado y mover
registros.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 30
Las actividades básicas involucradas en la reorganización de una base de datos implican copiar
la base de datos vieja en otro dispositivo, rebloquear las filas y recargarlas. Estas tareas no son
triviales en un Data Warehouse, pero todos los DBMSs permiten reorganizar particiones, lo cual
es otra buena razón para particionar las tablas.[PATRICIA ZVENGER]
- Backup y Recupero. Los DBMSs proveen utilidades para hacer backups completos y también
incrementales. Muchas organizaciones tienen la errónea impresión de que los DataWarehouses
siempre se pueden recrear a partir de las fuentes de datos originales. Sin embargo, además de
que esta tarea puede llevar mucho tiempo porque hay que reejecutar los programas de
extracción, transformación y carga, es posible que estos programas y los datos mismos ya
no estén disponibles. [PATRICIA ZVENGER]
- Ejecución de las consultas en paralelo. Para mejorar la performance de una consulta es mejor
dividirla en componentes que ejecuten concurrentemente. Algunos DBMSs ofrecen ejecución
paralela en forma transparente, es decir, dividen la consulta por si solos. [PATRICIA
ZVENGER]
2.2.2 DATAMART.
Las corporaciones de hoy se esfuerzan por conducir sus negocios hacia una base internacional.
Vemos compañías que surgieron en Estados Unidos y se expandieron a Europa, Asia y África.
La expansión del negocio crea la necesidad de acceder a datos corporativos que están ubicados
en diferentes puntos geográficos. Por ejemplo, un ejecutivo de ventas de una compañía con
origen en Brasil que está situado en Chile puede necesitar acceso a la base de datos de la
empresa para identificar los clientes potenciales que residen solo en Chile.
Este problema se soluciona creando versiones más pequeñas del Data Warehouse, los datamarts.
Estas versiones se crean usando algún criterio particular, como por ejemplo el lugar geográfico.
En el ejemplo anterior los datos de los clientes que residen en Chile se deben almacenar en el
datamart de la sucursal en ese país.
La existencia de los datamarts crea nuevas formas de pensar cuando se diseñan los repositorios
corporativos de datos.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 31
Algunas corporaciones reemplazan completamente el concepto de tener un DataWarehouse
central, por varios datamarts más pequeños que se alimenten directamente de los sistemas
operacionales.
Otras compañías usan datamarts para complementar sus DataWarehouses. Mueven datos desde
el DataWarehouses hacia varios datamarts con el fin de permitir un análisis más eficiente. La
separación de los datos se determina según criterios como departamentos, áreas geográficas,
periodos de tiempo, etc.
Finalmente, algunas organizaciones usan sus datamarts como el primer paso de almacenamiento
de datos operacionales.
Luego los datos de todos los datamarts se replican en un DataWarehouse corporativo central.
[PATRICIA ZVENGER].
2.2.3 Almacenamiento OLAP.
OLAP se define como el análisis multidimensional e interactivo de la información de negocios a
escala empresarial. El análisis multidimensional consiste en combinar distintas áreas de la
organización, y así ubicar ciertos tipos de información que revelen el comportamiento del
negocio. [PATRICIA ZVENGER]
Los usuarios de herramientas OLAP se mueven desde una perspectiva de negocio a otra, por
ejemplo, pueden estar observando las ventas anuales por sucursal y pasar a ver las sucursales
con más ganancias en los últimos tres meses, y además con la posibilidad de elegir entre
diferentes niveles de detalle, como ventas por día, por semana o por cuatrimestre. Es esta
exploración interactiva lo que distingue a OLAP de las herramientas simples de consulta y
reportes. [PATRICIA ZVENGER]
El análisis multidimensional, permite a los analistas de negocios examinar sus indicadores clave
o medidas, como ventas, costos, y ganancias, desde distintas perspectivas, como periodos de
tiempo, productos, regiones. Estas perspectivas constituyen las dimensiones desde las que se
explora la información.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 32
La escala empresarial, se refiere a que OLAP trabaja con fuentes de datos corporativos, que
contienen datos de toda la empresa.
Para proveer estas características, toda herramienta OLAP tiene tres principales características:
• Un modelo multidimensional de la información para el análisis interactivo.
• Un motor OLAP que procesa las consultas multidimensionales sobre los datos.
• Un mecanismo de almacenamiento para guardar los datos
que se van a analizar. Este componente puede ser externo a la herramienta, como un RDBMS o
un Data Warehouse.
La herramienta no solo permite flexibilidad en cuanto a la navegación por el modelo
multidimensional de la información, sino que también es flexible en la definición de los reportes
y aplicaciones que se construyen a partir de ella. [PATRICIA ZVENGER]
CUBOS MULTIDIMENSIONALES
En una base de datos multidimensional, el modelo de datos esta constituido por lo que se
denomina un Cubo multidimensional o simplemente Cubo. En un cubo la información se
representa por medio de matrices multidimensionales o cuadros de múltiples entradas, que nos
permite realizar distintas combinaciones de sus elementos para visualizar los resultados desde
distintas perspectivas y variando los niveles de detalle. Esta estructura es independiente del
sistema transaccional de la organización, facilita y agiliza la consulta de información histórica
ofreciendo la posibilidad de navegar y analizar los datos.
Aquí vemos como ejemplo un cubo multidimensional que contiene información de ventas
discriminadas por periodos de tiempo, productos y zonas geográficas de la empresa.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 33
Figura 2.3. Cubo Multidimensional
Los ejes del cubo son las Dimensiones, y los valores que se presentan en la matriz, son las
Medidas. [PATRICIA ZVENGER]
DIMENSIONES
Son objetos del negocio con los cuales se puede analizar la tendencia y el comportamiento del
mismo. Las definiciones de las dimensiones se basan en políticas de la compañía o del mercado,
e indican la manera en que la organización interpreta o clasifica su información para segmentar
el análisis en sectores, facilitando la observación de los datos.
Para determinar las dimensiones requeridas para analizar los datos podemos hacer preguntas
como: Cuándo, Dónde, Qué, Quién, Cuál, etc. [PATRICIA ZVENGER]
MEDIDAS O METRICAS
Son características cualitativas o cuantitativas de los objetos que se desean analizar en las
empresas. Las medidas cuantitativas están dadas por valores o cifras porcentuales.
Por ejemplo, las ventas en dólares, cantidad de unidades en stock, cantidad de unidades de
producto vendidas, horas trabajadas, el promedio de piezas producidas, el porcentaje de
aceptación de un producto, el consumo de combustible de un vehículo, etc. [PATRICIA
ZVENGER]
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 34
JERARQUIAS DE DIMENSIONES Y NIVELES
Generalmente las dimensiones se estructuran en jerarquías, y en cada jerarquía existen uno o
mas niveles, los llamados Niveles de Agregación o simplemente Niveles. Toda dimensión tiene
por lo menos una jerarquía con un único nivel. En la figura vemos un ejemplo de una dimensión
de vendedores, que consiste de una única jerarquía, y tres niveles de agregación para agruparlos
por ciudades y por regiones.
Figura 2.4. Dimensiones y Jerarquías.
En el grafico anterior, los niveles de Zonas y Gerencia no están relacionados entre si, a pesar de
que ambos están relacionados con las Áreas. [PATRICIA ZVENGER]
2.2.4 ESTRATEGIAS DE ALMACENAMIENTO. (ROLAP, MOLAP, HOLAP)
Las bases de datos relacionales están optimizadas para obtener una performance óptima en
consultas simples y frecuentes, pero no funcionan de manera ideal para las consultas
multidimensionales y complejas de estas aplicaciones, ya que existen muchas de ellas que no se
pueden expresar en una única consulta SQL, y seguramente se requerirán muchas operaciones
de JOIN, lo cual reduce drásticamente el tiempo de respuesta de la consulta.
Para cubrir estas deficiencias surgieron tres estrategias de almacenamiento:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 35
• Bases de datos multidimensionales especializadas, que proveen almacenamiento y recupero de
datos optimizado para consultas OLAP.
• DataWarehouses, construidos sobre una tecnología relacional, pero la optimización se dirige al
soporte de decisiones en lugar de a las operaciones transaccionales.
• Una tercera estrategia que consiste en la combinación de las dos anteriores.
Las herramientas OLAP que usan almacenamiento multidimensional son llamadas MOLAP,
mientras que a las que almacenan los datos en bases relacionales se les llama herramientas
ROLAP.
Las herramientas que combinan los dos enfoques se conocen como OLAP Híbrido u HOLAP.
Cada alternativa tiene sus ventajas y desventajas. En lugar de discutir cual de las dos es mejor
hay que definir un criterio para optar por una u otra, y evaluar el alcance de HOLAP, que en la
práctica intenta combinar lo mejor de ambos mundos.
Algunas de las ventajas más importantes de cada enfoque son:
MOLAP
• Buena performance en las consultas, ya que el almacenamiento esta optimizado para el análisis
multidimensional.
• La escalabilidad está limitada por la capacidad del Motor de Base de Datos y por el tiempo de
carga de los datos.
• En general el análisis está limitado a los datos totalizados o sumarizados.
• El modelo multidimensional no es lo suficientemente flexible como para acomodarse a las
necesidades constantemente cambiantes del negocio.
• La estructura que guarda los datos está incluida en la herramienta.
• Requiere una capa adicional de manejo de datos.
• No incluye soporte de paralelismo, replicación ni recuperación de datos.
• Puede requerir aprendizaje por ser una tecnología nueva en la organización. [PATRICIA
ZVENGER]
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 36
ROLAP
• La performance de las consultas no es tan óptima como en MOLAP.
• Es capaz de manejar conjuntos de datos muy grandes, por encima de un terabyte.
• Además del análisis de información sumarizada, se pueden analizar datos detallados hasta el
nivel de las transacciones.
• Es capaz de analizar los datos desde cualquier perspectiva en cualquier momento.
• La herramienta ROLAP requiere un DataWarehouse de donde extraer los datos para analizar.
• Las cuestiones técnicas del manejo de los datos está a cargo del Motor de Base de Datos.
• Incluye soporte para replicación, rollback y recuperación, y para acceso multiusuario.
[PATRICIA ZVENGER]
2.3 CONCEPTUALIZACIONES SOBRE TRANSFORMACION Y CARGA DE DATOS.
2.3.1 MIGRACION DE DATOS: EXTRACCION, TRANSFORMACION Y CARGA
La migración de los datos desde las fuentes operacionales al DataWarehouse requiere la
necesidad de procesos para extraer, transformar y cargar los datos, actividad que se conoce
como ETL.
La mayoría de los datos de origen son los datos operacionales actuales, aunque parte de ellos
pueden ser datos históricos archivados.
Si los requerimientos de datos incluyen algunos años de historia es necesario desarrollar tres
conjuntos de programas ETL: una Carga Inicial, una Carga Histórica, y una Carga Incremental.
Carga Inicial
La carga inicial se asemeja mucho al proceso de conversión entre sistemas que se da en
las organizaciones cuando pasan, por ejemplo, de sus viejos sistemas operacionales a un
producto ERP.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 37
Carga Histórica
Este proceso debe verse como una extensión de la carga inicial, pero la conversión aquí
es un poco diferente porque los datos históricos son datos estáticos.
A diferencia de los datos operacionales, los datos estáticos ya se archivaron en
dispositivos de almacenamiento offline. Es común que con el transcurso del tiempo se
eliminen elementos de datos que ya no sirven, se agreguen nuevos, se modifiquen los
tipos de ciertos datos o los formatos de los registros, lo que implica que los datos
históricos no necesariamente se puedan sincronizar con los datos operacionales. Por lo
tanto los programas de conversión escritos para la carga inicial quizá no sean aplicables
a la carga de datos históricos sin algunos cambios previos.
Carga Incremental
Una vez que el DataWarehouse está cargado con datos iniciales e históricos, hay que
desarrollar otro proceso para la carga incremental, que se ejecutará mensual, semanal o
diariamente. Existen dos formas de diseñar la carga incremental:
• Extraer todos los registros: Se extraen todos los registros operacionales,
independientemente de los valores que hayan cambiado desde la última carga
realizada.
En general esta opción no es viable debido al volumen de los datos, por eso la
mayoría opta por la siguiente opción.
• Extraer Deltas solamente: Solo se extraen registros nuevos o registros que
contengan valores que cambiaron desde la última carga realizada.
Diseñar programas ETL para extracciones delta es más fácil cuando las fuentes
consisten en bases de datos relacionales y contamos con una columna
“timestamp” para determinar los deltas. [PATRICIA ZVENGER]
Expliquemos ahora, lo que debe contemplar este proceso:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 38
A. Extraer los Datos. Que consiste en determinar técnicas, para combinar
en el uso de la data de origen, así como detectar redundancias y datos y algún
otro ruido. Además, hay que distinguir un dato que puede estar duplicado en
distintas tablas.
B. Transformar Datos. Este proceso es el más crítico, debido a que debe controlar
algunos factores: Claves primarias inconsistentes, valores inconsistentes, datos
con diferentes formatos, valores erróneos, sinónimos y homónimos, Lógica
embebida, Integración y Derivación, etc. descritos en [PATRICIA ZVENGER]
En la figura vemos algunos ejemplos de transformación de datos: El primero
referente a sexo, el segundo referente a unidades de medida, el tercero se refiere a
estandarizar nombres, y por último, estandarizar formatos de fecha.
Figura 2.5. Ejemplos de Transformación
C. Cargar Datos. Este paso, es el más simple, y seria el que completaría el
proceso ETL. Aquí se tendría que tenercuidado, básicamente con los índices, y a
la integridad referencial.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 39
2.4 CONCEPTOS SOBRE MINERIA DE DATOS.
2.4.1 DATA MINING.
Data Mining, la extracción de información oculta y predecible de grandes bases de datos,
es una tecnología para ayudar a las compañías a descubrir información relevante en sus
bases de información. Las herramientas de Data Mining clasifican y predicen futuras
tendencias y comportamientos. Los análisis prospectivos automatizados ofrecidos por la
automatización del Data Mining van más allá de los eventos pasados provistos por las
herramientas usuales de sistemas de soporte de decisión.
Estas herramientas exploran las bases de datos en busca de patrones ocultos,
encontrando información predecible que un experto no puede llegar a encontrar.
Muchas compañías ya colectan y refinan cantidades masivas de datos. Las técnicas de
Data Mining pueden ser implementadas rápidamente en plataformas ya existentes de
software y hardware para acrecentar el valor de las fuentes de información existentes y
pueden ser integradas con nuevos productos y sistemas.
Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde
hace 10 años, pero que sólo han sido implementadas recientemente como herramientas
maduras y confiables.
[MAGDALENA SERVENTE] otorga ciertas capacidades a la tecnología de Data
Mining:
- Descripción de clases: Provee una clasificación (caracterización) concisa y
resumida de un conjunto de datos y los distingue (discriminación) unos de otros.
- Asociación: Es el descubrimiento de relaciones de asociación o correlación en
un conjunto de datos.
- Clasificación: Analiza un conjunto de datos de entrenamiento cuya clasificación
de clase se conoce y construye un modelo de objetos para cada clase. Puede
representarse en árboles de decisión o reglas de clasificación.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 40
- Predicción: Esta función de la minería predice los valores posibles de datos faltantes o
la distribución de valores de ciertos atributos en un conjunto de objetos.
- Clustering: Identifica clusters en los datos, donde un cluster es una colección de datos
“similares”. La similitud puede medirse mediante funciones de distancia, especificadas
por los usuarios o por expertos. La Minería de Datos trata de encontrar clusters de buena
calidad que sean escalables a grandes bases de datos y a datawarehouses
multidimensionales.
- Análisis de Series a través de Tiempo:
Analiza un gran conjunto de datos obtenidos con el correr del tiempo para encontrar en
él regularidades y características interesantes, incluyendo la búsqueda de patrones
secuenciales, periódicos, modas y desviaciones.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 41
CAPITULO III:
Descripción de la
metodología
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 42
3. La metodología CRISP-DM 3.1 Interrupción jerárquica
La metodología de CRISP-DM está descrita en términos de un modelo de proceso jerárquico, consistente en un conjunto de tareas descritas en cuatro niveles de abstracción (de lo general a lo específico): fase, tarea genérica, tarea especializada, e instancia de procesos. (Ver la figura 1.) En el nivel superior, el proceso de minería de datos es organizado en un número de fases; cada fase consiste de varias tareas genéricas de segundo nivel. Este segundo nivel lo llaman genérico porque esta destinado a ser bastante general para cubrir todas las situaciones posibles de minería de datos. Las tareas genéricas están destinadas a ser tan completas y estables como sea posible. Completo significa que cubre tanto al proceso entero de minería de datos y todas las aplicaciones de minería de datos posibles. Estable significa que el modelo debería ser válido para acontecimientos normales y aún para desarrollos imprevistos como técnicas de modelado nuevo. El tercer nivel, el nivel de tarea especializado, es el lugar para describir como las acciones en las tareas genéricas deberían ser realizadas en ciertas situaciones específicas. Por ejemplo, en el segundo nivel podría haber una tarea genérica llamada limpieza de datos. El tercer nivel describe como esta tarea se diferencia en situaciones diferentes, como la limpieza de valores numéricos contra la limpieza de valores categóricos, o si el tipo de problema es agrupamiento o el modelado predictivo. La descripción de fases y tareas como pasos discretos realizados en un orden específico representa una secuencia idealizada de eventos. En la práctica, muchas de las tareas pueden ser realizadas en una orden diferente, y esto a menudo será necesario volver a hacer tareas anteriores repetidamente y repetir ciertas acciones. Nuestro modelo de proceso no intenta capturar todas estas posibles rutas del proceso de la minería de datos porque esto requeriría un modelo de proceso demasiado complejo. El cuarto nivel, la instancia de proceso, es un registro de las acciones, decisiones, y de los resultados de una minería de datos real contratada. Una instancia de proceso esta organizado según las tareas definidas en los niveles más altos, pero representa lo que en realidad pasó en un contrato particular más bien que lo que pasa en general.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 43
Figura 3.1: Cuatro niveles de interrupción de la metodología CRISP-DM
3.1.1 Modelo de referencia y guía de usuario Horizontalmente, la metodología de CRISP-DM se distingue entre el modelo de referencia y la guía de usuario. El modelo de referencia presenta una descripción rápida de fases, las tareas, y sus salidas, y describen que hacer en el proyecto de minería de datos. La guía de usuario da consejos más detallados e insinuaciones para cada fase y cada tarea dentro de una fase, y representa como realizar un proyecto de minería de datos Este documento cubre tanto el modelo de referencia como la guía de usuario en el nivel genérico. 3.2 Pasaje de modelos genéricos a modelos especializados
3.2.1 Contexto de la minería de datos El contexto de minería de datos traza un mapa entre lo genérico y el nivel especializado en CRISP-DM. Actualmente, distinguimos entre cuatro dimensiones diferentes de contextos de minería de datos: el dominio de aplicación es el área específica en la que el proyecto de minería de datos
toma lugar los tipos de problemas de minería de datos describen la(s) clase(s) específica(s) de
objetivo(s) con el que el proyecto de minería de datos trata (ver también el Apéndice 2) el aspecto técnico cubre cuestiones específicas en minería de datos que describe
diferentes (técnicas) dificultades que por lo general ocurren durante la minería de datos
la herramienta y las especificaciones de dimensión técnica en la que las herramienta(s) de minería de datos y/o técnicas son aplicadas durante el proyecto de minería de datos
La Tabla 1 de abajo resume estas dimensiones de contextos de minería de datos y muestra ejemplos específicos para cada dimensión.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 44
Tabla 3.1. Dimensión de contextos y ejemplos de minería de datos
Un contexto específico de minería de datos es un valor concreto para una o más de estas dimensiones. Por ejemplo, un proyecto de minería de datos tratando con un problema de clasificación que se revuelve con la predicción constituye un contexto específico. Lo más específico (los valores) para las dimensiones de contextos diferentes son fijadas (especificadas), lo mas concreto es el contexto de minería de datos.
3.2.2 Pasaje con contextos Distinguimos entre dos tipos diferentes de pasajes (plan) entre el nivel genérico y un especializado en el CRISP-DM. Pasaje para el presente: Si sólo aplicamos el modelo de proceso genérico para realizar un proyecto de minería simple, e intentar pasar de tareas genéricas y sus descripciones al proyecto específico como requerido, hablamos sobre un pasaje solo para (probablemente) un solo uso. Pasaje para el futuro: Si sistemáticamente especializamos el modelo de proceso genérico según un contexto predefinido (o analizando sistemáticamente de modo similar y consolidando las experiencias de un único proyecto hacia un modelo de proceso especializado para el uso futuro en contextos comparables), hablamos explícitamente de la sobre escritura de un modelo de proceso especializado en términos de CRISP-DM. Cualquiera de los tipos de trazados es apropiado según sus propios objetivos, depende de su contexto de minería de datos específicos y las necesidades de su organización.
3.2.3 Pasaje La estrategia básica para pasar un mapa del modelo de proceso genérico al nivel especializado es la misma para ambos tipos de pasaje: Analizar su contexto específico Quitar cualquier detalle no aplicable a su contexto Agregar cualquier detalle específico a su contexto Especializar (o instanciar) el contenido genérico según las características concretas de
su contexto
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 45
Renombrar el contenido genérico posible para proporcionar significados más explícitos
en su contexto para la aclaración. 3.3 Descripción de partes
3.3.1 Contenido El modelo de proceso de CRISP-DM (este documento) es organizado en cinco partes diferentes: Parte I: es esta una introducción a la metodología de CRISP-DM, que proporciona
algunas directrices generales para pasar un modelo de proceso genérico a modelos de proceso especializados
Parte II: describe el modelo de referencia de CRISP-DM, sus fases, tareas genéricas, y salidas
Parte III presenta la guía de usuario de CRISP-DM, que va más allá de la descripción pura de fases, tareas genéricas, y salidas, y contiene el asesoramiento más detallado sobre como realizar proyectos de minería de datos
Parte IV: Se centra en los informes para ser producidos durante y después de un proyecto, y sugiere contornos para estos informes. Ello también muestra referencias cruzadas entre salidas y tareas.
Parte V es el apéndice, que incluye un glosario de terminología importante y una caracterización de los tipos de problemas de minería de datos 3.3.2 Objetivo
Los usuarios y los lectores de este documento deberían ser conscientes de las instrucciones siguientes: Si usted lee el modelo de proceso de CRISP-DM por primera vez, comience con la Parte
I, la introducción, para entender la metodología de CRISP-DM, todos sus conceptos, y como los distintos conceptos se relacionan uno con el otro. En remotas lecturas, usted podría saltar la introducción y sólo verlo si lo necesita para una aclaración.
Si usted necesita rápido el acceso a una descripción del modelo de proceso de CRISP-DM, referirse a la Parte II, el modelo de referencia de CRISP-DM, otra forma de un proyecto de minería de datos rápidamente o conseguir una introducción a la guía de usuario de CRISP-DM.
Si usted necesita el asesoramiento detallado en la realización de su proyecto de minería de datos, ver Parte IIII, la guía de usuario de CRISP-DM, es lo más parte más importante de este documento. Nota: si usted no ha leído primero la introducción o el modelo de referencia, vuelva y lea estas primeras dos Partes.
Si usted está en la etapa de minería de datos cuando usted sobrescribe sus informes, ver Parte IV. Si usted prefiere generar deliberadamente las descripciones durante el proyecto, muévase hacia adelante y hacia atrás entre Partes III y IV como lo desee.
Finalmente, el apéndice es útil como información adicional de fondo a la MINERÍA de datos y al CRISP-DM. Use el apéndice para buscar varios términos si usted no es aún un experto en el campo.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 46
El modelo de referencia CRISP-DM El modelo de proceso corriente para la minería de datos proporciona una descripción
del ciclo de vida del proyecto de minería de datos. Este contiene las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas. En este nivel de descripción, no es posible identificar todas las relaciones. Las relaciones podrían existir entre cualquier tarea de minería de datos según los objetivos, el contexto, y –lo más importante- el interés del usuario sobre los datos.
El ciclo de vida del proyecto de minería de datos consiste en seis fases, mostrado en la Figura 3.2. La secuencia de las fases no es rígida.
El movimiento hacia adelante y hacia atrás entre fases diferentes es siempre requerido. El resultado de cada fase determina que la fase, o la tarea particular de una fase, tienen que ser realizados después. Las flechas indican las más importantes y frecuentes dependencias entre fases.
El círculo externo en la Figura 2 simboliza la naturaleza cíclica de la minería de datos. La minería de datos no se termina una vez que la solución es desplegada. Las informaciones ocultas (lecciones cultas) durante el proceso y la solución desplegada pueden provocar nuevas, a menudo más - preguntas enfocadas en el negocio. Los procesos de minería subsecuentes se beneficiarán de las experiencias previas. En el siguiente, brevemente perfilamos cada fase:
Figura 3. 2: Fases del modelo de referencia CRISP-DM Comprensión del negocio
Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto y exigencias desde una perspectiva de negocio, luego convirtiendo este conocimiento de los datos en la definición de un problema de minería de datos y en un plan preliminar diseñado para alcanzar los objetivos.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 47
Comprensión de los datos
La fase de entendimiento de datos comienza con la colección de datos inicial y continua con las actividades que le permiten familiarizar primero con los datos, identificar los problemas de calidad de datos, descubrir los primeros conocimientos en los datos, y/o descubrir subconjuntos interesantes para formar hipótesis en cuanto a la información oculta. Preparación de datos
La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto de datos final [los datos que serán provistos en las herramientas de modelado] de los datos en brutos iniciales. Las tareas de preparación de datos probablemente van a ser realizadas muchas veces y no en cualquier orden prescripto. Las tareas incluyen la selección de tablas, registros, y atributos, así como la transformación y la limpieza de datos para las herramientas que modelan. Modelado
En esta fase, varias técnicas de modelado son seleccionadas y aplicadas, y sus parámetros son calibrados a valores óptimos. Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requerimientos específicos sobre la forma de datos. Por lo tanto, volver a la fase de preparación de datos es a menudo necesario. Evaluación
En esta etapa en el proyecto, usted ha construido un modelo (o modelos) que parece tener la alta calidad de una perspectiva de análisis de datos.
Antes del proceder al despliegue final del modelo, es importante evaluar a fondo ello y la revisión de los pasos ejecutados para crearlo, para comparar el modelo correctamente obtenido con los objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio que no ha sido suficientemente considerada. En el final de esta fase, una decisión en el uso de los resultados de minería de datos debería ser obtenida. Desarrollo
La creación del modelo no es generalmente el final del proyecto. Incluso si el objetivo del modelo es de aumentar el conocimiento de los datos, el conocimiento ganado tendrá que ser organizado y presentado en el modo en el que el cliente pueda usarlo. Ello a menudo implica la aplicación de modelos "vivos" dentro de un proceso de toma de decisiones de una organización, por ejemplo, en tiempo real la personalización de página Web o la repetida obtención de bases de datos de mercadeo. Dependiendo de los requerimientos, la fase de desarrollo puede ser tan simple como la generación de un informe o tan compleja como la realización repetida de un proceso cruzado de minería de datos a través de la empresa. En muchos casos, es el cliente, no el analista de datos, quien lleva el paso de desarrollo. Sin embargo, incluso si el analista realizara el esfuerzo de despliegue, esto es importante para el cliente para entender de frente que acciones necesita para ser ejecutadas en orden para hacer uso de los modelos creados actualmente.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 48
La figura 3.3 presenta un contexto de fases acompañadas por tareas genéricas y las
salidas. En las secciones siguientes, describimos cada tarea genérica y sus salidas más detalladamente. Enfocamos nuestra atención en descripciones de tarea y los resúmenes de salidas.
Figura 3.3 : Tareas genéricas (negritas) y salidas (cursivas) del modelo de referencia
CRISP-DM 3.4 Comprensión del negocio
Figura 3. 4. Comprensión del negocio
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 49
3.4.1 Determinación de objetivos de negocio
Tarea Determinar los objetivos de negocio El primer objetivo del analista de datos para un contexto es entender, desde una perspectiva de negocio, lo que el cliente realmente quiere lograr. A menudo el cliente tiene muchos objetivos que compiten y restricciones que deben ser correctamente equilibrados. El objetivo del analista debe mostrar (destapar) factores importantes, en el principio, esto puede influir en el resultado del proyecto. Una consecuencia posible de la negligencia de este paso es gastar un gran esfuerzo produciendo respuestas correctas a preguntas incorrectas o erradas.
Salida Contexto Registre la información que conoce sobre la situación de negocio de la organización en el principio del proyecto. Objetivos de negocio Describa el objetivo primario del cliente, desde una perspectiva de negocio. Además de los objetivos del negocio primario, allí hay típicamente otras preguntas de negocio relacionadas con lo que al cliente le gustaría administrar. Por ejemplo, el objetivo primario de negocio podría ser mantener a clientes corrientes por predicción cuando ellos son propensos a moverse a un competidor. Los ejemplos de preguntas relacionadas de negocio son “¿Cómo el uso del canal primario (Por ejemplo, ATM, visita al negocio, Internet) afecta si los clientes se quedan o se van? " o "¿Bajar los honorarios de ATM considerablemente reducirá el número de los clientes mas importante que se irán?” Criterios de éxito de negocio Describa los criterios para un resultado acertado o útil al proyecto desde el punto de vista del negocio. Esto podría ser bastante específico y capaz de ser medido objetivamente, por ejemplo, la reducción de clientes se revuelve a un cierto nivel o valor, o esto podría ser general y subjetivo, como “dar ideas útiles en las relaciones”. En este último caso, esto debería indicarse quien hace el juicio subjetivo.
3.4.2 Evaluación de la situación Tarea Evaluar la situación Esta tarea implica la investigación más detallada sobre todos los recursos, restricciones, presunciones, y otros factores que deberían ser considerados en la determinación del objetivo de análisis de datos y el plan de proyecto. En la tarea anterior, su objetivo es para ponerse rápidamente al quid de la situación. Aquí, usted quiere ampliarse sobre los detalles. Salida Inventario de recursos Listar los recursos disponibles para el proyecto, incluyendo el personal (expertos de negocio, expertos de datos, soportes técnicos, expertos en minería de datos), datos (extractos fijos, aproximaciones a la vida, almacenes de datos, u datos operacionales), recursos computacionales (plataformas de hardware), y software (herramientas de minería de datos, otros software relevantes). Requerimientos, presunciones, y restricciones Listar todos los requerimientos del proyecto, incluyendo el programa de terminación, la comprensibilidad y calidad de los resultados, y la seguridad, así como las cuestiones legales. Como parte de esta salida, asegúrese que le permitan usar los datos.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 50
Listar las presunciones hechas por el proyecto. Estas pueden ser presunciones sobre los datos que pueden ser verificados durante la minería de datos, pero también puede incluir presunciones no-comprobables sobre el negocio relacionado con el proyecto. Es en particular importante listar si esto afectará la validez de los resultados. Listar las restricciones sobre el proyecto. Estas pueden ser restricciones sobre la disponibilidad de recursos, pero puede también incluir coacciones tecnológicas como el tamaño de conjunto de datos lo que es práctico para usar el modelado. Riesgos y contingencias Listar los riesgos o los acontecimientos que podrían retrasar el proyecto o hacer que ello falle. Listar los planes de contingencia correspondientes, que acción será tomada si estos riesgos o acontecimientos ocurren. Terminología Compile un glosario de terminología relevante al proyecto. Esto puede incluir dos componentes: (1) Un glosario de terminología relevante del negocio, que forma la parte de la comprensión del negocio disponible al proyecto. La construcción de este glosario es una útil “evocación al conocimiento” y un ejercicio de educación. (2) Un glosario de terminología de minería de datos, ilustrada con ejemplos relevantes al problema del negocio en cuestión. Costos y beneficios Construya un análisis de costo-beneficio para el proyecto, que compare los gastos del proyecto con los beneficios potenciales al negocio si esto es exitoso. La comparación debería ser tan específica como posible. Por ejemplo, use medidas monetarias en una situación comercial.
3.4.3 Determinación de los objetivos de la minería de datos Tarea Determinar los objetivos de la minería de datos Un objetivo de negocio declara objetivos en la terminología de negocio. Un objetivo de minería de datos declara objetivos de proyecto en términos técnicos. Por ejemplo, el objetivo de negocio podría ser “Aumentar catálogos de ventas a clientes existentes.” Un objetivo de minería de datos podrían ser “Predecir cuantas baratijas un cliente comprará, obteniendo datos de sus compras de tres años pasados, información demográfica (edad, sueldo, ciudad, etc.), y el precio del artículo.” Salida Objetivos de la minería de datos Describir las salidas intencionadas del proyecto que permiten el logro de los objetivos de negocio. Criterios de éxito de la minería de datos Definir los criterios de un resultado exitoso para el proyecto en términos técnicos -por ejemplo, un cierto nivel de predicción precisa o un perfil de inclinación-a-comprar con un determinado grado de "elevación". Como con un criterio de éxito de negocio, puede ser necesario describir estos en términos subjetivos, en este caso la persona o las personas que hacen el juicio subjetivo deberían ser identificadas.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 51
3.4.4 Producir el plan del proyecto
Tarea Producir el plan del proyecto Describir el plan intencionado para alcanzar los objetivos de minería de datos y así alcanzar los objetivos de negocio. El plan debería especificar los pasos para ser realizados durante el resto del proyecto, incluyendo la selección inicial de herramientas y técnicas. Salida Plan del Proyecto Listar las etapas a ser ejecutadas en el proyecto, juntos con su duración, recursos requeridos, entradas, salidas, y dependencias. Donde sea posible, haga explícito las iteraciones en gran escala en el proceso de minería de datos -por ejemplo, las repeticiones del modelado y las fases de evaluación. Como parte del plan de proyecto, es también importante analizar dependencias entre la planificación de tiempo y los riesgos. Marcar los resultados de estos análisis explícitamente en el plan de proyecto, idealmente con acciones y recomendaciones si los riesgos se manifiestan. Nota: el plan de proyecto contiene proyectos detallados para cada fase. Decida en este punto que estrategia de evaluación será usada en la fase de evaluación. El plan de proyecto es un documento dinámico en el sentido de que en el final de cada fase, son necesarios una revisión del progreso y logros y una actualización correspondiente del plan de proyecto es recomendado. Los puntos de revisión específicas para estas actualizaciones son parte del plan de proyecto. Evaluación inicial de herramientas y técnicas En la final de la primera fase, una evaluación inicial de herramientas y técnicas debería ser realizada. Aquí, por ejemplo, usted selecciona una herramienta de minería de datos que soporte varios métodos para las distintas etapas del proceso. Es importante evaluar herramientas y técnicas temprano en el proceso desde la selección de herramientas y técnicas y esto puede influir en el proyecto entero.
3.5 Comprensión de datos
Figura 3. 5: Comprensión de datos
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 52
3.5.1 Recolección de datos iniciales
Tarea Recolectar datos iniciales Adquiera en el proyecto los datos (o el acceso a los datos) listados en los recursos del proyecto. Esta colección inicial incluye carga de datos, si es necesario para la comprensión de los datos. Por ejemplo, si usted usa un instrumento específico para la comprensión de los datos, esto perfectamente se entiende para abrir sus datos en esta herramienta. Este esfuerzo posiblemente conduce a los pasos iniciales de preparación de datos. Note: si usted adquiere datos de múltiples fuentes, la integración es una cuestión adicional, aquí o mas tarde en las fases de preparación de datos más. Salida Informe de colección de datos inicial Liste el conjunto de dato(s) adquirido(s), juntos con sus posiciones, los métodos usados para adquirirlos, y algunos de los problemas encontrados. Registre los problemas encontrados y algunas de las resoluciones alcanzadas. Esto ayudará con la réplica (observación) futura de este proyecto o con la ejecución de proyectos similares futuros.
3.5.2 Describir los datos Tarea Describir los datos Examine las propiedades "gruesas" o "superficiales" de los datos e informe adquiridos en los resultados. Salida Informe de descripción de datos Describa los datos que han sido adquiridos, incluyendo el formato de los datos, la cantidad de datos (por ejemplo, el número de registros y campos en cada tabla), los identificadores de los campos, y cualquier otro rasgo superficial que ha sido descubierto. Evalúe si los datos adquiridos satisfacen las exigencias relevantes.
3.5.3 Explorar los datos Tarea Explorar los datos
Esta tarea dirige interrogantes de minería de datos usando preguntas, visualización, y técnicas de reporte. Estos incluyen la distribución de atributos claves (por ejemplo, el atributo objetivo de una tarea de predicción) relacionados entre pares o pequeños números de atributos, los resultados de simples agregaciones, las propiedades de las subpoblaciones significativas, y análisis estadísticos simples. Estos análisis directamente pueden dirigir los objetivos de minería de datos; ellos también pueden contribuir o refinar la descripción de datos e informes de calidad, y alimentar en la transformación y otros pasos de preparación de datos necesarios para análisis futuros. Salida Informe de exploración de datos Describa los resultados de esta tarea, incluyendo primeras conclusiones o hipótesis iniciales y su impacto sobre el resto del proyecto. Si es apropiado, incluya gráficos y plots para indicar las características de datos que sugieren más examen de subconjuntos de datos interesantes.
3.5.4 Verificar la calidad de los datos Tarea Verificar la calidad de los datos
Examine la calidad de los datos, dirigiendo preguntas como: ¿Los datos están completos? (¿Esto cubre todo los casos requeridos)? ¿Son correctos, o estos contienen errores y, si hay errores, que tan comunes son estos? ¿Hay valores omitidos en los datos? Si es así, ¿como se representan estos, donde ocurre esto, y que tan comunes son estos?
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 53
Salida Informe de calidad de datos Liste los resultados de la verificación de calidad de datos; si existen problemas de calidad, liste las posibles soluciones. Las soluciones a los problemas de calidad de datos generalmente dependen tanto del conocimiento de los datos y como del negocio.
3.6 Preparación de datos
Figura3.6: Preparación de datos Salida Conjunto de datos
Este es el conjunto (o conjuntos) producido por la fase de preparación de datos, que será usada para modelar o para el trabajo principal de análisis del proyecto. Descripción del conjunto de datos Describir el conjunto de dato (o conjuntos) que será usado para el modelado y el trabajo principal de análisis del proyecto.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 54
3.6.1 Selección de datos
Tarea Selección de datos Decidir que datos serán usados para el análisis. Los criterios incluyen la importancia a los objetivos de la minería de datos, la calidad, y las restricciones técnicas como límites sobre el volumen de datos o los tipos de datos. Note que la selección de datos cubre la selección de atributos (columnas) así como la selección de registros (filas) en una tabla. Salida Razonamiento para la inclusión/exclusión Listar los datos para ser incluidos/excluidos y los motivos para estas decisiones.
3.6.2 Limpieza de datos Tarea Limpiar datos Elevar la calidad de los datos al nivel requerido por las técnicas de análisis seleccionadas. Esto puede implicar la selección de los subconjuntos de datos limpios, la inserción de datos por defectos adecuados, o técnicas más ambiciosas tales como la estimación de datos faltantes mediante modelado. Salida Informe de la limpieza de los datos Describa que decisiones y acciones fueron tomadas para dirigir los problemas de calidad de datos informados durante la tarea de Verificación de Calidad de Datos de los Datos de la fase de Comprensión de Datos. Las transformaciones de los datos para una apropiada limpieza y el posible impacto en el análisis de resultados deberían ser considerados.
3.6.3 Construir datos Tarea Construir datos Esta tarea incluye la construcción de operaciones de preparación de datos tales como la producción de atributos derivados o el ingreso de nuevos registros, o la transformación de valores para atributos existentes. Salidas Atributos derivados Los atributos derivados son los atributos nuevos que son construidos de uno o más atributos existentes en el mismo registro. Ejemplo: área = longitud * anchura. Registros generados Describa la creación de registros completamente nuevos. Ejemplo: Crear registros para los clientes quienes no hicieron compras durante el año pasado. No había ninguna razón de tener tales registros en los datos brutos, pero para el objetivo del modelado esto podría tener sentido para representar explícitamente el hecho que ciertos clientes no hayan hecho compra nada.
3.6.4 Integrar datos Tarea Integrar datos Estos son los métodos por el cual la información es combinada de múltiples tablas o registros para crear nuevos registros o valores. Salida Combinación de datos La combinación de tablas se refiere a la unión simultánea de dos o más tablas que tienen información diferente sobre el mismo objeto. Ejemplo: una cadena de venta al público tiene una tabla con la información sobre las características generales de cada tienda (Por ejemplo, el espacio, el tipo de comercio), otra tabla con datos resumidos de las ventas (por ejemplo, el beneficio, el cambio porcentual en ventas desde el año anterior), y el otro con información
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 55
sobre los datos demográficos del área circundante. Cada una de estas tablas contiene un registro para cada tienda. Estas tablas pueden ser combinadas simultáneamente en una nueva tabla con un registro para cada tienda, combinando campos de las tablas fuentes. Los datos combinados también cubren agregaciones. La agregación se refiere a operaciones en la que nuevos valores son calculados de información resumida de múltiples registros y/o tablas. Por ejemplo, convirtiendo una tabla de compra de clientes donde hay un registro para cada compra en una tabla nueva donde hay un registro para cada cliente, con campos tales como el número de compras, el promedio de la cantidad de compra, el porcentaje de ordenes cobrados a tarjeta de crédito, el porcentaje de artículos bajo promoción, etc.
3.6.5 Formatear datos Tarea Formatear datos Formateando transformaciones se refiere a modificaciones principalmente sintácticas hechas a los datos que no cambian su significado, pero podría ser requerido por la herramienta de modelado. Salida Datos reformateados Algunas herramientas tienen requerimientos sobre el orden de los atributos, tales como el primer campo que es un único identificador para cada registro o el último campo es el campo resultado que el modelo debe predecir. Podría ser importante cambiar el orden de los registros en el conjunto de datos. Quizás la herramienta de modelado requiere que los registros sean clasificados según el valor del atributo de resultado. Comúnmente, los registros del conjunto de datos son ordenados al principio de algún modo, pero el algoritmo que modela necesita que ellos estén en un orden moderadamente arbitrario. Por ejemplo, cuando se usa redes neuronales, esto es generalmente mejor para los registros para ser presentados en un orden aleatorio, aunque algunas herramientas manejen esto automáticamente sin la intervención explicita del usuario. Además, hay cambios puramente sintácticos hechos para satisfacer las exigencias de la herramienta de modelado específica. Ejemplos: el quitar de comas de adentro de campos de texto en ficheros de datos delimitados por coma, corta todos los valores a un máximo de 32 caracteres
3.7 Modelado
Figura 3. 7: Modelado
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 56
3.7.1 Selección de la técnica de modelado
Tarea Escoger la técnica de modelado Como primer paso en modelado, seleccionar la técnica de modelado real que está por ser usado. Aunque usted haya podido seleccionar una herramienta durante la fase de Comprensión del negocio, esta tarea se refiere a la técnica de modelado específico, por ejemplo, un árbol decisión construido con C4.5, o la generación de red neuronales Back-Propagación. Si múltiples técnicas son aplicadas, se realizan esta tarea separadamente para cada técnica. Salida Técnicas de modelado Documente la técnica de modelado real que está por ser usado. Presunciones del modelado Muchas técnicas de modelado hacen presunciones específicas sobre los datos -por ejemplo, que todos los atributos tengan distribuciones uniformes, no encontrar valores no permitidos, el atributo de clase debe ser simbólico, etc. Registrar cualquiera de tales presunciones hechas.
3.7.2 Generación de la prueba de diseño Tarea Generar la prueba de diseño Antes de que nosotros en realidad construyamos un modelo, tenemos que generar un procedimiento o el mecanismo para probar la calidad y validez del modelo. Por ejemplo, en tareas de minería de datos supervisados como la clasificación, esto es común usar tasas de errores como medida de calidad para modelos de minería de datos. Por lo tanto, típicamente separamos el conjunto de datos en una serie y en un conjunto de prueba, construimos el modelo sobre el conjunto de series, y estimamos su calidad sobre el conjunto de prueba separado.
Salida Prueba de diseño Describir el plan intencionado para el entrenamiento, la prueba, y la evaluación de los modelos. Un componente primario del plan determina como dividir un conjunto de datos disponible en datos de entrenamiento, datos de prueba, y conjunto de datos de validación.
3.7.3 Construcción del modelo Tarea Construir el modelo Ejecutar la herramienta de modelado sobre el conjunto de datos preparados para crear uno o más modelos. Salidas Parámetro de ajustes Con cualquier herramienta de modelado, hay a menudo un gran número de parámetros que pueden ser ajustados. Listar los parámetros y sus valores escogidos, también con el razonamiento para elegir los parámetros de ajustes. Modelos Estos son los modelos reales producidos por la herramienta de modelado, no un informe. Descripciones del modelo Describir los modelos obtenidos. Informar sobre la interpretación de los modelos y documentar cualquier dificultad encontrada con sus significados.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 57
3.7.4 Evaluación del modelo
Tarea Evaluar el modelo El ingeniero de minería de datos interpreta los modelos según su conocimiento de dominio, los criterios de éxitos de minería de datos, y el diseño de prueba deseado. El ingeniero de minería de datos juzga el éxito de la aplicación del modelado y descubre técnicas mas técnicamente; él se pone en contacto con analistas de negocio y expertos en el dominio luego para hablar de los resultados de la minería de datos en el contexto de negocio. Por favor note que esta tarea sólo se considera modelos, mientras que la fase de evaluación también toma en cuenta todos los otros resultados que fueron producidos en el curso del proyecto. El ingeniero de minería de datos intenta clasificar los modelos. Él evalúa los modelos según los criterios de evaluación. Tanto como es posible, él también tiene en cuenta objetivos del negocio y criterios de éxito de negocio. En los grandes proyectos de minería de datos, el ingeniero de minería de datos aplica una sola técnica más de una vez, o genera resultados de minería de datos con varias técnicas diferentes. En esta tarea, él también compara todos los resultados según los criterios de evaluación. Salida Evaluación de modelos Resumir los resultados de esta tarea, listar las calidades de los modelos generados (por ejemplo, en términos de exactitud), y clasificar su calidad en relación con cada otro. Parámetros de ajustes revisados Según la evaluación del modelo, revise los parámetros de ajuste y témplelos para la siguiente corrida en la tarea de Construcción del Modelo. Repetir la construcción y evaluación del modelo hasta que crea que usted ha encontrado el/los mejor/es modelo/s. Documentar todo como las revisiones y las evaluaciones.
3.8 Evaluación
Figura 3. 8: Evaluación
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 58
3.8.1 Evaluación de los resultados Tarea Evaluar los resultados
Los pasos de la evaluación anterior trata con factores como la exactitud y la generalidad del modelo. Este paso evalúa el grado al que el modelo responde (encuentra) los objetivos de negocio y procura determinar si hay alguna decisión de negocio por el que este modelo es deficiente. Otra opción de evaluación es probar el/los modelo/s sobre aplicaciones de prueba en la aplicación real, si el tiempo y las restricciones de presupuesto lo permiten. Además, la evaluación también verifica otros resultados generados por la minería de datos. Los resultados de la minería de datos implican modelos que necesariamente son relacionados con los objetivos originales de negocio y todas los otros descubrimientos que no son relacionados necesariamente con los objetivos originales de negocio, pero también podría revelar desafíos adicionales, información, o insinuaciones para futuras direcciones. Salida Evaluación de los resultados de la minería de datos en lo que concierne a criterios de éxito de negocio Resumir los resultados de evaluación en términos de criterios de éxito de negocio, incluyendo una declaración final en cuanto si el proyecto ya encuentra los objetivos iniciales de negocio. Modelos aprobados Después de la evaluación de modelos en lo que concierne a criterios de éxito de negocio, los modelos generados que encuentran los criterios seleccionados son los modelos aprobados.
3.8.2 Proceso de revisión Tarea Revisar el proceso En este punto, los modelos resultantes pasan a ser satisfactorios y a satisfacer las necesidades de negocio. Ahora es apropiado hacer una revisión más cuidadosa de los compromisos de la minería de datos para determinar si hay cualquier factor importante o tarea que de algún modo ha sido pasada por alto. Esta revisión también cubre cuestiones de calidad -por ejemplo: ¿Construimos correctamente el modelo? ¿Usamos sólo los atributos que nos permitieron usar y que están disponibles para análisis futuros? Salida Revisión de proceso Resumir la revisión de proceso y destacar las actividades que han sido omitidas y/o aquellas que deberían ser repetidas.
3.8.3 Determinación de los próximos pasos Tarea Determinar los próximos pasos Según los resultados de la evaluación y la revisión de proceso, el equipo de proyecto decide como proceder. El equipo decide si hay que terminar este proyecto y tomar medidas sobre el desarrollo si es apropiado, tanto iniciar más iteraciones, o comenzar nuevos proyectos de minería de datos. Esta tarea incluye los análisis de recursos restantes y del presupuesto, que puede influir en las decisiones. Salida Lista de posibles acciones Listar las acciones futuras potenciales, con los motivos a favor y en contra de cada opción. Decisión Describir la decisión en cuanto a como proceder, junto con el razonamiento.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 59
3.9 Desarrollo
Figura 3.9: Desarrollo
3.9.1 Desarrollo del plan Tarea Desarrollar el plan
De acuerdo al desarrollo de los resultados de minería de datos en el negocio, esta tarea toma los resultados de la evaluación y determina una estrategia para el desarrollo. Si un procedimiento general ha sido identificado para crear el/los modelo/s relevante/s, este procedimiento es documentado aquí para el desarrollo posterior. Salida Desarrollo del plan Resumir la estrategia de desarrollo, incluyendo los pasos necesarios y como realizarlos.
3.9.2 Plan de supervisión y mantenimiento Tarea Planear la supervisión y el mantenimiento La supervisión y el mantenimiento son cuestiones importantes si los resultados de minería de datos son parte del negocio cotidiano y de su ambiente. La preparación cuidadosa de una estrategia de mantenimiento ayuda evitar largos periodos innecesarios de uso incorrecto de resultados de minería de datos. Para supervisar el desarrollo de los resultados de la minería de datos, el proyecto necesita un plan detallado de proceso de supervisión. Este plan tiene en cuenta el tipo específico de desarrollo.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 60
Salida Supervisión y plan de mantenimiento Resumir la estrategia de supervisión y mantenimiento incluyendo los pasos necesarios y como realizarlos.
3.9.3 Informe definitivo de producto Tarea Producir el informe final En el final del proyecto, el líder del proyecto y su equipo sobrescribe un informe final. Según el plan de desarrollo, este informe puede ser sólo un resumen del proyecto y sus experiencias (si estas aún no han sido documentadas como una actividad en curso) o esto puede ser una presentación final y comprensiva de los resultados de minería de datos. Salidas Informe definitivo Esto es el informe escrito final del compromiso de la minería de datos. Esto incluye todo el desarrollo anterior, el resumen y la organización de los resultados. Presentación final También a menudo habrá una reunión en la conclusión del proyecto en el que los resultados son presentados verbalmente al cliente.
3.9.4 Revisión del proyecto Tarea Revisar el proyecto Evaluar lo que fue correcto y lo que se equivocó, lo que fue bien hecho y lo que necesita para ser mejorado. Salida Documentación de la experiencia Resumir las experiencias importantes ganadas durante el proyecto. Por ejemplo, trampas, accesos engañosos, o las insinuaciones para seleccionar las mejores técnicas de minería de datos en situaciones similares podrían ser la parte de esta documentación. En proyectos ideales, la documentación de la experiencia también cubre cualquier informe que ha sido escrito por miembros individuales del proyecto durante las fases del proyecto y sus tareas.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 61
CAPITULO IV
Aplicando
Metodología
Crisp-dm
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 62
4.1 COMPRENSION DEL NEGOCIO
4.1.1 Determinar los objetivos del negocio
4.1.1.1 Contexto
El Hospital Eleazar Guzmán Barron consta de 15 módulos:
MODULO DE PSICOLOGIA
MODULO DE MEDICINA FISICA Y REHABILITACION
MODULO DE CIRUGIA
MODULO DE PEDIATRIA
MODULO DE GINECO-OBSTETRICIA
MODULO DE ODONTOESTOMATOLOGIA
MODULO DE ENFERMERIA
MODULO DE EMERGENCIA Y CUIDADOS CRITICOS
MODULO DE ANESTOSIOLOGIA Y CENTRO QUIRURGICO
MODULO DE PATOLOGIA CLINICA Y ANATOMIA PATOLOG.
MODULO DE DIAGNOSTICO POR IMAGENES
MODULO DE NUTRICION Y DIETETICA
MODULO SERVICIO SOCIAL
MODULO DE FARMACIA
MODULO DE CONSULTA EXTERNA Y HOSP.
En este caso el modulo que nos interesa es el de FARMACIA.
Los ingresos que genera el hospital en mención básicamente están dados de dos
maneras:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 63
El pago por consulta.
Ingresos por venta de medicinas en farmacia.
En este caso nuestro proyecto esta basado en que existen ocasiones en las que nos
encontramos con clientes quejándose por la falta de medicamentos en farmacia los
cuales son importantes para ellos, esto en el caso del paciente y en el caso del
hospital de la misma forma es importante porque genera mayores ingresos para el
mismo.
LOGO
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 64
ORGANIGRAMA
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 65
El hospital esta dirigido por el doctor Carlos Enrique Fernández Neyra a su vez el área
encargada de las compras para la jefatura de ventas es el departamento de
Farmacia..
El departamento de farmacia consta de 10 módulos la jefa de este departamento es
la doctora Federinda Doris Álvarez De Osorio.
El problema esta dado por el desabastecimiento de medicamentos en el área de
farmacia lo cual genera malestar en los pacientes según una pequeña encuesta hecha
a pacientes encontrados en los alrededores; además genera pérdidas económicas al
hospital.
Como dato adicional tenemos que en la actualidad no esta implementada la minería
de datos en ninguno de sus sistemas, aunque saben que seria de mucha ayuda aun
no esta implementado.
Hoy los pedidos de farmacia se hacen únicamente de acuerdo a las salidas
establecidas el mes anterior es decir si venden 200 ibuprofeno, emergencia se lleva
30, el seguro otras 30 y por cuestiones sanitarias salen otras 18 entonces el pedido se
hace solo por 280 unidades para el siguiente mes, además hay que tener en cuenta
que existen 3 tipos de compra:
Compra Nacional: Se realiza una vez al año en el mes de junio, los pedidos son
enviados al MINSA (ministerio de salud) quien junta los pedidos que llegan de todo el
país y las compras totales se dan en licitación.
Compra Regional: Realizada cuando por alguna razón necesitan medicamentos para
reserva, envían su pedido a Huaraz quien junta el pedido. La venta también se realiza
por licitación,
Compra Local: En caso de emergencia se realiza a algún agente vendedor que tenga el
Hospital.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 66
En este caso al aplicar la minería de datos la unidad de negocios afectada seria la de
Control de compras de medicamento.
Para lo cual esperamos entregar un sistema operacional para ser entendido por
cualquier usuario.
En entrevistas con los responsables del área de farmacia, se supo que la información
con la que cuentan es a modo de reportes estadísticos, donde se visualizan números
que informan el estado del stock de los medicamentos. Adicionalmente a los reportes
ya existentes, constantemente surgen necesidades para obtener información
basándose en nuevos y diversos criterios, para lo que se recurre al área de sistemas y se
solicita los cambios en la emisión del reporte. Vemos aquí la dependencia que tiene con
el área de sistemas y la inflexibilidad con la que se puede obtener información.
La indisponibilidad de información inmediata que tiene la responsable del área, de
tener que depender de procesos repetitivos para la obtención de la información. El
percibir al negocio en términos estadísticos, mas no con criterios analíticos para
identificar conocimiento, son algunas de las debilidades actualmente reconocidas
4.1.2 Objetivos de negocio
Son Objetivos Estratégicos del Hospital “Eleazar Guzmán Barrón”, los siguientes:
a) Prevenir los riesgos y daños, mediante el desarrollo de un Sistema de Atención Pre-
hospitalaria.
b) El aseguramiento de la calidad administrativa y asistencial mediante un proyecto de.
Sensibilización y motivación del personal para la conformación de equipos de calidad.
c) Reducción de costos hospitalarios mediante el costeo y control; basado en un
Sistema de Información Gerencial.
Los Lineamientos de Política del Hospital "Eleazar Guzmán Barrón", los siguientes:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 67
a) Lograr la recuperación de la salud y la rehabilitación de las capacidades de los
pacientes, en condiciones de oportunidad, equidad, calidad y plena accesibilidad, en
Consulta Externa, Hospitalización y Emergencia.
b) Defender la vida y proteger la salud de la persona desde su concepción hasta su
muerte natural.
c) Lograr la prevención y disminución de los riesgos y daños a la salud.
d) Apoyar la formación y especialización de los recursos humanos, asignando el campo
clínico y el personal para la docencia e investigación, a cargo de las Universidades e
Instituciones educativas, según los convenios respectivos.
e) Administrar los recursos humanos, materiales económicos y financieros para el logro
de la misión y sus objetivos en cumplimiento a las normas vigentes.
f) Mejorar continuamente la calidad, productividad, eficiencia y eficacia de la atención
a la salud, estableciendo las normas y los parámetros necesarios, así como generando
una cultura organizacional con valores y actitudes hacia la satisfacción de las
necesidades y expectativas del paciente y su entorno familiar.
En este sentido ¿Cómo afecta al hospital el hecho de no contar con cierto
medicamento en el momento adecuado?
¿De igual manera como afecta al paciente el tener que buscar otros lugares donde
encontrar el medicamento existiendo y debiendo encontrarse en el mismo hospital?
4.1.3 Criterios de éxito de negocio
El ingreso al hospital puede aumentar si se resuelve el problema de desabastecimiento
de medicamentos.
Mejorar el grado de satisfacción de los clientes en este caso los pacientes.
Démosle respuesta a las siguientes preguntas:
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 68
¿Cómo es que el trasformar la información correspondiente a un periodo de trabajo del
sistema actual almacenado en tablas planas, hacia una base de datos relacional
contribuye a establecer objetivos importantes en la Toma De Decisiones?
¿De Que manera el modelar, construir y cargar una Base De Datos Relacional hacia
Data Mining ayuda a establecer estrategias para la Toma De Decisiones?
¿Cómo es que la generación de pruebas de clasificación, utilizando el algoritmo de
Minería De Datos: Series De Tiempo para encontrar características que nos permitan
implantar procedimientos en la toma de decisiones?
4.2 Evaluación de la situación
4.2.1 Inventario de recursos
El proyecto equipo de trabajo esta formado por los siguientes integrantes:
Raúl Jonathan Campos Reyes
Augusto Cano Morales
Los datos a tratar se encuentran en la base de datos del mencionado hospital, los
cuales se encuentran en SQL SERVER 2000; los datos son ingresados por medio del
sistema hospitalario LOLIMSA.
Todos los datos están almacenados en el servidor del hospital, exactamente en el área
de sistemas.
Nuestras fuentes en este caso son documentos que nos proporciono las doctora
Federinda Doris Álvarez De Osorio, ordenes de compra, kárdex de inventario, PECOSAS,
etc.
También hicimos pequeñas encuestas a los pacientes para saber si estaban satisfechos
con la disponibilidad de los medicamentos en farmacia.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 69
La base de datos se encuentra en el servidor bajo el mando de la Ing. PEREZ LOPEZ
EULOGIA MARIA, es a ella a quien se le solicita los datos de ser necesarios.
4.2.2 Requerimientos, presunciones y restricciones
REQUERIMIENTOS
Por seguridad el uso de la base de datos es restringido así que necesitamos de la
compañía de la jefa del área de estadística y informática la Ing. PEREZ LOPEZ EULOGIA
MARIA.
PRESUNCIONES
Necesitamos que los datos con los que vamos a trabajar sean de buena calidad para
que los datos que explotemos también hereden la buena calidad y permitir tomar
decisiones correctas.
RESTRICCIONES
El tiempo es una de nuestras restricciones ya que el proyecto a de ser terminado antes
de la terminación de nuestro ciclo, es decir antes del 31 de julio del 2009.
El acceso a la base de datos es a través el servidor el cual tiene una validación por
intermedio de un usuario y una contraseña.
El sistema operativo de este es Windows Xp, la base de datos en SQL SERVER 2000.
Los datos de compras y ventas están accesibles al ingresar al Server, o por medio des
sistema LOLIMSA al generar los reportes.
4.2.3 Riesgos y contingencias
Actualmente se encuentran migrando los datos a otro software entonces un riesgo
seria que este proceso nos genere lentitud en el avance, en todo caso ya tenemos un
primer alcance de estos datos.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 70
4.2.4 Terminología
Kárdex de productos: reporte generado para ver el inventario físico del almacén
de ventas.
PECOSA: Pedido Control Salida, documento emitido para controlar la entrada y
salida de productos entre almacén central y almacén de ventas.
MINERIA DE DATOS: consiste en la extracción no trivial de información que
reside de manera implícita en los datos. Dicha información era previamente
desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de
datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
PEDIDO DE COMPRA: pedido generado por parte de jefatura de ventas y
enviado a la jefatura de farmacia para su revisión.
ORDENES DE COMPRA: orden enviada por parte de jefatura de farmacia a la
unidad de logística.
4.2.5 Costos Y Beneficios
El costo del proyecto en este caso seria mínimo ya que se estaría implementando sobre
un software ya existente, el beneficio seria para el hospital ya que le generaría mayores
ingresos y al paciente le causaría un menor grado de malestar porque tendrían la
medicina al alcance el el momento adecuado.
4.3 Determinación de los objetivos de la minería de datos
4.3.1 Objetivos de la minería de datos
Evitar el desabastecimiento de medicamento en la farmacia del Hospital Eleazar
Guzmán Barron, para este caso usaremos un algoritmo de series de tiempo.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 71
Disminuir el grado de malestar de los pacientes al atenderse en el Hospital Regional
Eleazar Guzmán Barron.
Demostrar que con la transformación de la información correspondiente a un periodo
de trabajo del sistema actual almacenado en tablas planas hacia una base de datos
relacional permite establecer objetivos a alcanzar en la toma de decisiones.
Conocer como el modelar, construir y cargar una base de Datos relacional a un Data
Mining coadyuva a establecer estrategias para la toma de decisiones.
Demostrar como el generar pruebas de clasificación, utilizando en algoritmo de Minería
De Datos Series De Tiempo para encontrar características similares en la información
permite identificar conocimiento en la Toma de Decisiones.
4.3.2 Criterio de éxito de la minería de datos
El proyecto con minería de datos nos proporcionara un cierto grado de exactitud
predictiva este grado se ajustara a la realidad si contamos con datos precisos y que se
ajusten a la realidad del negocio.
Es orientado a la información relevante de la organización:
En Minería De Datos la información se clasifica en base a los aspectos de interés para la
empresa, es decir, se diseña para consultar eficientemente información relativa a las
actividades básicas de la organización, como ventas, compras y producción, y no para
soportar los procesos que se realizan en ella, como gestión de pedidos, facturación, etc.
Es integrado: integra datos recogidos de diferentes sistemas operacionales de la
organización y/o fuentes externas. Esta integración se hace estableciendo una
consistencia en las convenciones para nombrar los datos.
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 72
4.4 Producir el plan proyecto
4.4.1 Plan del proyecto
Figura 4.1. Plan Proyecto
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 73
4.4.2 Evaluación inicial de herramientas y técnicas
La información de todos los movimientos del hospital esta almacenada en el gestor SQL
SERVER es por este motivo que elegimos.
Usar las herramientas de minería de datos
Microsoft SQL Server Analysis Services proporciona herramientas que puede utilizar
para crear soluciones de minería de datos que le permitan resolver problemas
empresariales concretos.
En Business Intelligence Development Studio, el Asistente para minería de datos facilita
la creación de estructuras y de modelos de minería de datos basados en orígenes de
datos OLAP y relacionales. Puede utilizar el asistente para definir estructuras y modelos
que utilicen técnicas de minería de datos específicas para analizar datos. Puede utilizar
el Diseñador de minería de datos para perfeccionar la definición de modelos de minería
datos y explorar y trabajar con los resultados del modelo.
SQL Server Management Studio proporciona herramientas que puede utilizar para
administrar y explorar los modelos de minería de datos una vez creados. SQL Server
Integration Services contiene herramientas útiles para limpiar datos, para automatizar
tareas como la creación de predicciones o la actualización de modelos y para crear
soluciones de minería de datos de texto.
Las siguientes secciones proporcionan más información sobre las herramientas de
minería de datos de SQL Server.
Asistente para minería de datos
El Asistente para minería de datos es el punto de partida en Business Intelligence
Development Studio para crear soluciones de minería de datos. El asistente está
diseñado para guiarle en el proceso de creación de una estructura de minería de datos
y un modelo inicial de minería de datos relacionado. Asimismo, incluye las tareas
UNIVERSIDAD SAN PEDRO FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA DE SISTEMAS E INFORMATICA
Ing. Ricardo Mendoza Rivera Practicas Pre-I 74
necesarias para seleccionar un algoritmo y un origen de datos y para definir una tabla
de escenarios.
Diseñador de minería de datos
El Diseñador de minería de datos se abre después de utilizar el Asistente para minería
de datos para crear una estructura de minería de datos y un modelo de minería de
datos inicial. En el diseñador puede administrar las estructuras de minería de datos y
crear nuevos modelos de minería de datos, así como implementar, examinar, comparar
y crear predicciones de los modelos de minería de datos existentes.
SQL Server Management Studio
Después de crear e implementar modelos de minería de datos en un servidor, puede
utilizar SQL Server Management Studio para realizar tareas de administración y
exploración, como ver y procesar los modelos o crear predicciones a partir de ellos.
Management Studio también contiene un editor de consultas que puede utilizar para
diseñar y ejecutar consultas de Extensiones de minería de datos (DMX).
Transformaciones y tareas de minería de datos en Integration Services
SQL Server Integration Services proporciona herramientas que puede utilizar para
automatizar tareas comunes de minería de datos, como procesar un modelo de minería
de datos y crear consultas de predicción. Por ejemplo, si dispone de un modelo de
minería de datos generado a partir de un conjunto de datos de posibles clientes, puede
crear un paquete de Integration Services que actualice automáticamente el modelo
cada vez que el conjunto de datos se actualice con nuevos clientes. A continuación
podría utilizar el paquete para crear una predicción, separando los clientes potenciales
en dos tablas. Una tabla contendría los clientes probables y la otra los clientes que
posiblemente no adquirirán ningún producto.