UNIVERSIDAD DE GUAYAQUILrepositorio.ug.edu.ec/bitstream/redug/9938/1/PTG-783... · 2017-10-22 ·...
Transcript of UNIVERSIDAD DE GUAYAQUILrepositorio.ug.edu.ec/bitstream/redug/9938/1/PTG-783... · 2017-10-22 ·...
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES Y NETWORKING
PROCESO DE MIGRACIÓN DE DATOS DEL MÓDULO
MATRICULACIÓN PARA EL PROTOTIPO DE
SISTEMA ACADÉMICO EN LA FACULTAD
DE CIENCIAS ADMINISTRATIVAS
DE LA UNIVERSIDAD
DE GUAYAQUIL
TESIS DE GRADO
Previa a la obtención del Título de:
INGENIERO EN SISTEMAS COMPUTACIONALES
AUTOR: JOSE ANTONIO SALAME ATIENCIA
TUTOR: ING. LEILI GENOVEVA LOPEZDOMINGUEZ RIVAS
GUAYAQUIL – ECUADOR 2015
REPOSITORIO NACIONAL EN CIENCIAS Y TECNOLOGÍA
FICHA DE REGISTRO DE TESIS
TÍTULO “ Proceso de migración de datos del módulo matriculación para el prototipo de
Sistema Académico en la Facultad de Ciencias Administrativas de la Universidad de
Guayaquil ”
AUTOR: JOSE ANTONIO SALAME ATIENCIA REVISORES: Ing. Sol Lopezdominguez , Ing. Lorenzo Cevallos, Ing. Leili Lopezdominguez
INSTITUCIÓN: UNIVERSIDAD DE GUAYAQUIL FACULTAD: CIENCIAS
MATEMÁTICAS Y FÍSICAS
CARRERA: INGENIERÍA EN SISTEMAS COMPUTACIONALES
FECHA DE PUBLICACIÓN: 22 de Julio de 2015 N° DE PÁGS.: 121
ÁREA TEMÁTICA: Educativa
PALABRAS CLAVES: Migración, Datos, Procesos, Extracción, Selección, SQL Server 2012, Business Intelligence, Integration Services.
RESUMEN: La presente tesis propone establecer un estándar para la ejecución de un proceso de
migración de información utilizando un formato único designado como el contenedor del origen de
datos hacia un repositorio de base de datos destino que será el motor que va a interactuar con el
prototipo de Nuevo Sistema Académico a implementarse dentro de la Universidad de Guayaquil en
la Facultad de Ciencias Administrativas. Con este proceso de desea asegurar la conservación de la
integridad de la información utilizando la herramientas de inteligencia de negocios de Microsoft SQL
Server Integration Services y la información recopilada en nuestro análisis y estudio de los datos de
origen que nos permitirá identificar inconsistencias a nivel de datos o estructuras y plantear
soluciones prácticas para los administradores de base de datos o desarrolladores. La información
que será seleccionada, estudiada y extraída en este proceso de migración corresponden a los
registros de los estudiantes matriculados de las carreras la Facultad de Ciencias Administrativas en
los periodos ordinarios, tomando en cuenta las dependencias que podrían tener los datos del
repositorio origen para garantizar que la información se traslade de manera correcta y completa.
N° DE REGISTRO(en base de datos): N° DE CLASIFICACIÓN: Nº
DIRECCIÓN URL (tesis en la web):
ADJUNTO PDF x SI
NO
CONTACTO CON AUTOR: JOSE ANTONIO SALAME ATIENCIA Teléfono:
0991138303
E-mail: [email protected]
CONTACTO DE LA INSTITUCIÓN:
Universidad de Guayaquil
Nombre:
Teléfono: 2307729
APROBACIÓN DEL TUTOR
En mi calidad de Tutor del trabajo de investigación, “PROCESO DE MIGRACIÓN
DE DATOS DEL MÓDULO MATRICULACIÓN PARA EL PROTOTIPO DE
SISTEMA ACADÉMICO EN LA FACULTAD DE CIENCIAS ADMINISTRATIVAS
DE LA UNIVERSIDAD DE GUAYAQUIL”, elaborado por el Sr. JOSE ANTONIO
SALAME ATIENCIA, egresado de la Carrera de Ingeniería en Sistemas
Computacionales, Facultad de Ciencias Matemáticas y Físicas de la Universidad
de Guayaquil, previo a la obtención del Título de Ingeniero en Sistemas, me
permito declarar que luego de haber orientado, estudiado y revisado, la Apruebo
en todas sus partes.
Atentamente
_________________________________
ING. LEILI LOPEZDOMINGUEZ RIVAS
TUTOR
DEDICATORIA
El presente trabajo de tesis lo dedico a mis
padres, por ser ejemplo de perseverancia
y esfuerzo, por brindarme su apoyo y su
ayuda en todo momento permitiéndome
cumplir este gran objetivo de ser
profesional.
AGRADECIMIENTO
A Dios por sobre todas las cosas
por acompañarme siempre en este
largo camino de lucha,
bendiciéndome con oportunidades
para seguir aprendiendo día a día y
superar los obstáculos, por
permitirme sentir que siempre está
conmigo en los buenos y malos
momentos. A mi madre Ligia de
Salame que me apoyó con sus
palabras y me enseñó lo importante
que es aprender y prepararse día a
día y hacer lo correcto, a mi Padre
Miguel Salame por el apoyo y los
valores brindados y que desde el
cielo me sigue alentando para
seguir adelante, a mi hermano
Daniel Salame por ser ese ejemplo
de buen estudiante y profesional.
TRIBUNAL DE GRADO
Ing. Eduardo Santos Baquerizo, M.Sc. DECANO DE LA FACULTAD
CIENCIAS MATEMATICAS Y FISICAS
Ing. Harry Luna Aveiga, M.Sc. DIRECTOR (E)
CISC, CIN
Ing. Leili Lopezdomínguez Rivas M.Sc
DIRECTOR DE TESIS
Ing. Sol Lopezdomínguez Rivas M.Sc PROFESOR DEL ÁREA –
TRIBUNAL
Ing. Lorenzo Cevallos Torres M.Sc Ab. Juan Chávez A
PROFESOR DEL ÁREA – SECRETARIO TRIBUNAL
i
.
DECLARACIÓN EXPRESA
“La responsabilidad del contenido de esta
Tesis de Grado, me corresponden
exclusivamente; y el patrimonio intelectual
de la misma a la UNIVERSIDAD DE
GUAYAQUIL”
JOSE ANTONIO SALAME ATIENCIA
ii
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS
COMPUTACIONALES Y NETWORKING
“PROCESO DE MIGRACIÓN DE DATOS DEL MÓDULO
MATRICULACIÓN PARA EL PROTOTIPO DE
SISTEMA ACADÉMICO EN LA FACULTAD
DE CIENCIAS ADMINISTRATIVAS
DE LA UNIVERSIDAD
DE GUAYAQUIL”
Tesis de Grado que se presenta como requisito para optar por el título de
INGENIERO EN SISTEMAS COMPUTACIONALES
Auto/a: JOSE ANTONIO SALAME ATIENCIA
C.I.: 0919386672
Tutor: ING. LEILI LOPEZDOMINGUEZ RIVAS
Guayaquil, Julio de 2015
iii
CERTIFICADO DE ACEPTACIÓN DEL TUTOR
En mi calidad de Tutor de Tesis de Grado, nombrado por el Consejo Directivo de la Facultad de Ciencias Matemáticas y Físicas de la Universidad de Guayaquil,
CERTIFICO: Que he analizado el Proyecto de Grado presentado por el egresado SALAME ATIENCIA JOSE ANTONIO, como requisito previo para optar por el título de Ingeniero cuyo problema es:
“PROCESO DE MIGRACIÓN DE DATOS DEL MÓDULO
MATRICULACIÓN PARA EL PROTOTIPO DE
SISTEMA ACADÉMICO EN LA FACULTAD
DE CIENCIAS ADMINISTRATIVAS
DE LA UNIVERSIDAD
DE GUAYAQUIL”
Considero aprobado el trabajo en su totalidad. Presentado por:
Salame Atiencia José Antonio Cédula de ciudadanía N° 0919386672
Tutor: Ing. Leili Lopezdomínguez Rivas.
Guayaquil, Julio de 2015
iv
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
CARRERA DE INGENIERÍA EN SISTEMAS COMPUTACIONALES
Autorización para Publicación de Tesis en Formato Digital
1. Identificación de la Tesis
Nombre Alumno: José Antonio Salame Atiencia
Dirección: Sauces 1 Mz. 29 V.36
Teléfono: 2274949 E-mail: [email protected]
Facultad: Ciencias Matemáticas y Físicas
Carrera: Ingeniería en Sistemas Computacionales
Título al que opta: Ingeniero en Sistemas Computacionales
Profesor guía: Ing. Leili LopezDominguez
Título de la Tesis: PROCESO DE MIGRACIÓN DE DATOS DEL MÓDULO
MATRICULACIÓN, PARA EL PROTOTIPO DE SISTEMA ACADÉMICO EN LA FACULTAD DE CIENCIAS ADMINISTRATIVAS DE LA UNIVERSIDAD DE GUAYAQUIL
Temas Tesis: ETAPAS DEL PROCESO DE MIGRACION DE DATOS, ANALISIS DEL
ORIGEN DE DATOS, ANALISIS DEL DESTINO DE DATOS, ETAPAS DEL PROCESO DE MIGRACION DE DATOS.
2. Autorización de Publicación de Versión Electrónica de la Tesis
A través de este medio autorizo a la Biblioteca de la Universidad de Guayaquil y a la Facultad de Ciencias Matemáticas y Físicas a publicar la versión electrónica de esta tesis. Publicación electrónica:
Inmediata Después de 1 año
Firma Alumno: 3. Forma de envío: El texto de la Tesis debe ser enviado en formato Word, como archivo .Doc. O .RTF y .Puf para PC. Las imágenes que la acompañen pueden ser: .gif, .jpg o .TIFF.
DVDROM X CDROM
v
ÍNDICE GENERAL
APROBACIÓN DEL TUTOR .......................................................................... I
DEDICATORIA...............................................................................................II
AGRADECIMIENTO......................................................................................III
TRIBUNAL DE GRADO ............................................................................... IV
DECLARACIÓN EXPRESA ........................................................................... i
CERTIFICADO DE ACEPTACIÓN DEL TUTOR ...........................................iii
ÍNDICE GENERAL .........................................................................................v
ABREVIATURAS ........................................................................................ viii
SIMBOLOGÍA ...............................................................................................ix
Resumen .....................................................................................................xii
Abstract ...................................................................................................... xiii
INTRODUCCIÓN ............................................................................................1
CAPÍTULO I ...................................................................................................3
EL PROBLEMA .......................................................................................... 3
Planteamiento del Problema ................................................................... 3
Delimitación del Problema ...................................................................... 6
Formulación del Problema ...................................................................... 7
Evaluación del Problema ........................................................................ 7
OBJETIVOS ............................................................................................... 9
OBJETIVO GENERAL ............................................................................ 9
OBJETIVOS ESPECÍFICOS .................................................................. 9
ALCANCES DEL PROBLEMA.............................................................. 10
JUSTIFICACION E IMPORTANCIA...................................................... 11
CAPITULO II ................................................................................................12
Marco Teórico .......................................................................................... 12
Antecedentes del Estudio ..................................................................... 12
FUNDAMENTACION TEORICA ........................................................... 14
Las Herramientas Bi (Business Intelligence) ........................................ 23
PAQUETES EN INTEGRATION SERVICES ........................................ 33
FUNDAMENTACIÓN LEGAL ............................................................... 40
vi
HIPÓTESIS PREGUNTAS A CONTESTARSE ........................................ 41
PREGUNTAS A CONTESTAR PARA PROYECTO FACTIBLE ............ 41
VARIABLES DE LA INVESTIGACIÓN .................................................. 41
CAPÍTULO III ...............................................................................................42
METODOLOGÍA ...................................................................................... 42
Diseño de La Investigación ................................................................... 42
DEFINICIONES BÁSICAS .................................................................... 43
INSTRUMENTOS DE RECOLECCIÓN DE DATOS ............................. 45
TÉCNICA UTILIZADA .......................................................................... 45
LA ENTREVISTA.................................................................................. 45
DIAGNÓSTICO GENERAL DE LA ORGANIZACIÓN ........................... 46
DIAGRAMA CAUSA Y EFECTO (Espina de Pescado) ......................... 51
ANALISIS DE LAS CAUSAS ................................................................ 51
ANÁLISIS DE PROCESOS Y PROPUESTA DE MEJORAS ................ 55
CICLO DEMING ................................................................................... 55
MAPA DE PROCESOS ........................................................................ 56
ANALISIS Y ESTRATEGIA PARA EL PROCESO DE MIGRACION DE DATOS ................................................................................................. 59
DESARROLLO DE LA METODOLOGIA PARA LA MIGRACIÓN DE DATOS ................................................................................................. 62
PROCESO DE MIGRACIÓN DE DATOS ............................................. 67
ETAPAS DEL PROCESO DE MIGRACIÓN DE DATOS ...................... 68
PRIMERA PARTE DEL PROCESO ...................................................... 70
Segunda Etapa: Segmentación y Transformación de Datos ................. 73
DATAFLOW CABECERA TMP y DATAFLOW DETALLE TMP ............ 85
DATAFLOW CABECERA Y DATAFLOW DETALLE ............................ 88
ACCIONES DE MEJORA POR REALIZAR .......................................... 92
PROCEDIMIENTOS DE LA INVESTIGACIÓN......................................... 93
CRITERIOS PARA LA ELABORACIÓN DE LA PROPUESTA ................. 94
CRITERIOS DE VALIDACIÓN DE LA PROPUESTA ............................... 94
CAPITULO IV ...............................................................................................95
MARCO ADMINISTRATIVO ........................................................................95
vii
Cronograma de actividades ..................................................................... 95
PRESUPUESTO ...................................................................................... 97
CAPÍTULO V ................................................................................................98
CONCLUSIONES, RECOMENDACIONES Y RESULTADOS .................. 98
CONCLUSIONES ................................................................................. 98
RECOMENDACIONES........................................................................100
RESULTADOS ....................................................................................101
REFERENCIAS BIBLIOGRÁFICAS ........................................................102
LIBROS ...............................................................................................102
DIRECCIONES WEB ..........................................................................103
ANEXOS .................................................................................................... 106
INTRODUCCIÓN ........................................................................................ 113
REQUERIMIENTOS DE SOFTWARE.....................................................113
CONSIDERACIONES PARA LA EXTRACCION DE DATOS EN EL PROCESO DE MIGRACIÓN ...................................................................113
PAQUETES DE DATOS EN INTEGRATION SERVICES .......................... 114
2DA PARTE DEL PROCESO DE MIGRACIÓN ......................................... 117
POSIBLES CASOS DE ERROR DENTRO DE LOS PROYECTOS DE INTEGRATION SERVICES ........................................................................ 121
viii
ABREVIATURAS
BD Base de Datos
DBA Database Administrator
SQL Structurate Query Language
SGBD Sistema Gestor de Base de datos
ix
SIMBOLOGÍA
PK PRIMARY KEY
FK FOREING KEY
MER MODELO ENTIDAD RELACION
1FN PRIMERA FORMA NORMAL
2FN SEGUNDA FORMA NORMAL
3FN TERCERA FORMA NORMAL
x
INDICE DE CUADROS Cuadro 1 :Matriz De Operacionalización De Variables ................................ 44
Cuadro 2: Detalle de egresos del proyecto de tesis ..................................... 97
xi
INDICE DE GRÁFICOS
Gráfico 1: Reglas de la normalización en base de datos ............................. 22
Gráfico 2: Esquema del Diagrama Causa y Efecto ...................................... 36
Gráfico 3: Ejemplo de un Mapa de Procesos ............................................... 39
Gráfico 4: Organigrama de la organización.................................................. 47
Gráfico 5: Diagrama Espina de Pescado para la migración de datos........... 51
Gráfico 6: Ciclo Deming para la migracion de datos .................................... 55
Gráfico 7: Mapa de procesos Migración de datos ........................................ 57
Gráfico 8: Proceso de migración de datos entre servidores ......................... 59
Gráfico 9: Tabla Matriculación del prototipo Nuevo Sistema Académico ..... 64
Gráfico 10: Tabla DetalleMatriculacion prototipo Nuevo Sistema Académico .................................................................................................................... 65
Gráfico 11: PARTE DEL PROCESO DE MIGRACIÓN ................................ 68
Gráfico 12: ETAPAS DEL PROCESO DE MIGRACIÓN DE DATOS ........... 69
Gráfico 13: Partes del proceso con etapas .................................................. 69
Gráfico 14: Principales tablas implicadas de la BD origen ........................... 71
Gráfico 15: Paquete de datos que genera los datos en Excel ...................... 74
Gráfico 16: Componente File System Task Editor ....................................... 75
Gráfico 17: DataFlow XLS ........................................................................... 75
Gráfico 18: Componente origen de datos .................................................... 76
Gráfico 19: Vinculación y Conversión de campos para Excel ...................... 77
Gráfico 20: Componente Excel Destination Editor ....................................... 78
Gráfico 21: RESUMEN DE LAS ETAPAS DEL PROCESO DE MIGRACION DE DATOS .................................................................................................. 80
Gráfico 22: Conversión de tipo de dato para el Id matricula ......................... 82
Gráfico 23: DATAFLOW CABECERA TMP y DATAFLOW DETALLE TMP . 86
Gráfico 24: Componente Excel Source de los DataFlow .............................. 86
Gráfico 25: Componente OLE DB Destination Editor ................................... 87
Gráfico 26: Mapeo de campos del Componente OLE DB Destination ......... 88
Gráfico 27: DataFlow Cabecera y Detalle .................................................... 89
Gráfico 28: Componentes del DataFlow Cabecera y Detalle ....................... 89
Gráfico 29: Componente OLD DB Source ................................................... 90
Gráfico 30: Componente OLE DB Destination Editor ................................... 90
Gráfico 31: Componente OLE DB Destination del DataFlow ....................... 91
Gráfico 32: Resumen Etapas del proceso de migración 2da Parte .............. 92
xii
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
PROCESO DE MIGRACIÓN DE DATOS DEL MÓDULO MATRICULACIÓN PARA EL PROTOTIPO DE
SISTEMA ACADÉMICO EN LA FACULTAD DE CIENCIAS ADMINISTRATIVAS
DE LA UNIVERSIDAD DE GUAYAQUIL
Autor: José Antonio Salame Atiencia
Tutor: Ing. Leili LopezDominguez
Resumen
La presente tesis propone establecer un estándar para la ejecución de un proceso
de migración de información utilizando un formato único designado como el
contenedor del origen de datos hacia un repositorio de base de datos que será el
motor que va a interactuar con el prototipo de Nuevo Sistema Académico a
implementarse dentro de la Universidad de Guayaquil en la Facultad de Ciencias
Administrativas. Con este proceso de desea asegurar la conservación de la
integridad de la información utilizando la herramientas de inteligencia de negocios
de Microsoft SQL Server Integration Services y la información recopilada en nuestro
análisis y estudio de los datos de origen que nos permitirá identificar inconsistencias
a nivel de datos o estructuras y plantear soluciones prácticas para los
administradores de base de datos o desarrolladores. La información que será
seleccionada, estudiada y extraída en este proceso de migración corresponden a
los registros de los estudiantes matriculados de las carreras la Facultad de Ciencias
Administrativas en los periodos ordinarios, tomando en cuenta las dependencias
que podrían tener los datos del repositorio origen para garantizar que la información
se traslade de manera correcta y completa.
xiii
UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS MATEMATICAS Y FISICAS
CARRERA DE INGENIERIA EN SISTEMAS COMPUTACIONALES
MIGRATION PROCESS OF MODULE DATA REGISTRATION
FOR PROTOTYPE OF ACADEMIC SYSTEM
IN THE FACULTY THE ADMINISTRATIVE
UNIVERSITY OF GUAYAQUIL
Autor: José Antonio Salame Atiencia
Tutor: Ing. Leili LopezDominguez
Abstract
This thesis proposes to establish a standard for the execution of a migration
process information using a single format designated as the data source
container to a database repository that will be the engine that will interact with
the prototype of New System Academic to be implemented in the University
of Guayaquil in the Faculty of Administrative Sciences. With this process want
to ensure the preservation of the integrity of information by using the business
intelligence tools of Microsoft SQL Server Integration Services and
information collected on our analysis and study of the data source that will
allow us to identify inconsistencies in data or structures, and propose
practical solutions for database administrators or developers. The information
that will be checked, studied and extracted in this migration process,
correspond to records of enrolled students in the Faculty of Management
science at regular periods, considering the dependencies that may have the
repository data source to guarantee that the information is transferred
correctly and completely.
1
INTRODUCCIÓN
En las carreras de la Facultad de Ciencias Administrativas de la Universidad De
Guayaquil un gran número de aspirantes desean ingresar a formar parte del gran
grupo de profesionales en el Ecuador, por lo cual siempre ha existido la necesidad
de contar con un sistema académico capaz de procesar un gran volumen de
información a grandes velocidades para la obtención de respuestas en corto tiempo
y de forma integral. Debido a eso es de gran importancia contar con un sistema
académico que permita brindar calidad de servicio y que genere la información de
forma rápida específicamente al momento que se matriculan o se inscriben es sus
periodos lectivos, garantizando la seguridad de la información y brindando alta
disponibilidad de la misma
Actualmente la Facultad de Ciencias Administrativas cuenta con aplicativos que
permiten procesar la información cumpliendo limitadas funciones, sin brindar una
flexibilidad a los diferentes escenarios que puedan darse en el transcurso de los
procesos de matriculación. A demás estos programas se encuentran dispersos sin
garantizar la seguridad de la información y desarrollados con tecnologías obsoletas,
provocando en muchas ocasiones perdida de información y como consecuencia
generando inconsistencia en los datos.
Lo cual implica que se deban realizar más procesos para poder resolver las
inconsistencias generadas por la falta de control en los aplicativos que ingresan la
información a la base de datos. El sistema académico actual no cuenta con valores
parametrizados en los procesos de inscripción y matriculación lo que obliga a
modificar los aplicativas cada vez que existan cambios en las leyes de educación
superior. Considerando que existen procesos paralelos que se ejecutan para poder
trasladar la información al centro de cómputo central de la Universidad de
Guayaquil.
De acuerdo a la mencionado han existido múltiples propuestas de soluciones para
poder brindar calidad de servicios sin embargo todos los intentos han exigido que se
2
tenga que cambiar de aplicativos o generar migraciones de datos a nuevos
esquemas, ocasionando que se generen más inconsistencias y perdidas de
información debido a que no se ha conseguido un estándar o protocolo que permita
la verificación de la información migrada o que se realice un proceso de calidad que
permita garantizar el traslado completo y correcto de los datos, analizando
previamente los datos capaz de identificar las inconsistencias antes ser migrados.
A continuación se presentará la estructura del presente documento de tesis.
En primera instancia en el Capítulo uno se tratará los temas respecto al problema
identificado, causas y consecuencias del mismo, objetivos que proponemos para
contrarrestar el problema y el alcance del proyecto.
Posteriormente se realizará una breve introducción dentro del Capítulo Dos respecto
a conceptos más relevantes que están relacionados con la ejecución de este
proyecto, indicando los antecedentes del estudio realizado al problema, la
fundamentación teórica que tendrá y los estatutos legales de la investigación en
Fundamentos Legales.
En el Capítulo tres realizamos el análisis respecto a la Metodología, se redacta la
modalidad y tipo de investigación seleccionadas para el proyecto, expresando en el
desarrollo los recolectado en nuestra técnica usada como fue la entrevista.
Dentro el Capítulo Cuatro se indicará el cronograma de actividades y el
presupuesto estimado para la ejecución de este proyecto; finalmente para la parte
final de este documento las conclusiones y recomendaciones obtenidas al momento
de concluir el proyecto, indicando los logros obtenidos y posibles mejoras surgidas
durante la investigación.
3
CAPÍTULO I
EL PROBLEMA
Planteamiento del Problema
Desde hace muchos años la Facultad de Ciencias Administrativas de la Universidad
de Guayaquil ha tenido la necesidad de automatizar algunos de sus procesos para
poder brindar mejores servicios a sus estudiantes, sin embargo actualmente no
existe un sistema centralizado y sincronizado directamente con el sistema de la
Universidad de Guayaquil y existen muchos procedimientos que se realizan de
forma manual y la información se encuentra dispersa en algunos medios de
almacenamiento lo que dificulta cumplir con los controles exigidos por la ley
orgánica de educación superior.
Resulta tan importante brindar un servicio y una aplicación que permita agilizar los
procesos de matriculación e inscripción de los estudiantes y del personal
administrativo y sobre todo automatizar procedimientos y reducir tiempos de
respuesta.
Gracias a los avances tecnológicos hoy por hoy la información puede ser consultada
en línea por internet ya que sin importar el lugar donde se encuentre el usuario
podrá acceder directamente a sus datos de una forma fácil y rápida.
Por tales motivos se desarrolló el prototipo del Sistema Académico de la
Universidad Estatal el cual podrá manejar la información centralizada y con una alta
disponibilidad de acceso y para que el sistema tenga toda la información de los
estudiante matriculados debemos realizar el proceso de migración de los datos
correspondientes al módulo de matriculación que se encuentran actualmente en
todas las carreras del actual sistema de la Facultad de Ciencias Administrativas.
4
Ubicación del Problema en un Contexto
En la Facultad de Ciencias Administrativas de la Universidad de Guayaquil día a día
se realizan muchos procesos transaccionales para atender a los estudiantes y en
muchos de esos procesos existen problemas con la información que se le visualiza
al estudiante.
El proceso de matriculación comprende muchos otros subprocesos transaccionales
que demandan operatividad con la base de datos que dependiendo de cada
estudiante se convertirán en escenarios distintos a la hora de darles atención dentro
del sistema.
Es importante recalcar que actualmente la información no se encuentra centralizada
en una sola base de datos, esto demanda una cantidad de tiempo de gestión por
cada requerimiento y por ende una cantidad de tiempo de respuesta para el
estudiante y para los procesos que atiene regularmente el actual sistema
académico, como consecuencia muchos procesos se convierten en un cuello de
botella en los periodos de inscripción y matriculación.
Situación Conflicto Nudos Críticos
Es importante recalcar que migrar información de una base de datos origen a otro
destino demanda el acceso y manipulación directa de los datos, la información no
es alterada pero al final de la migración se debe ofrecer la misma operatividad en el
menor impacto posible.
Determinar la compatibilidad y el impacto que pueden tener los motores de base de
datos podría ser una limitante para realizar la migración de datos.
La falta de un sistema que permita mantener la integridad de los datos dentro del
proceso de matriculación, permite la generación de inconsistencias en la
información y no brinda muchas seguridades ya que la información puede ser
5
ingresada de forma incorrecta, lo cual ha sido una necesidad que se puede
evidenciar actualmente encontrando dentro de la misma base de datos valores en
sus tablas que no ha sido validados bajo ningún procedimiento o protocolo dentro
en su front end.
La integridad referencial en algunos registros se cumplen sin embargo existen
muchos casos en que faltan registros detalles en sus tablas maestro o al permitir
ingresar caracteres especiales dentro de sus campos ID donde normalmente se
ingresa la cedula del estudiante.
Causas y Consecuencias del Problema
Causas Consecuencias
Inexistencia de un proceso o
planificación estándar para la migración
de datos no solo para la facultad de
Ciencias Administrativas sino para
futuras facultades hacia el prototipo de
nuevo sistema académico.
Retrasos en los procesos de migración,
procesos redundantes provocando
confusión en la gestión de la información
a seleccionar para la migración
Falta de un análisis y estudio de las
estructuras de la base de datos origen
para identificar las tablas y campos que
intervienen en el proceso de
matriculación.
Se incurre en la generación de datos
inconsistentes dentro del nuevo sistema
académico, es decir podríamos
mostrarle al estudiante una información
errónea en los periodos que se ha
matriculado, en las materias que se haya
inscrito, así también como los paralelos y
la cantidad de veces que cogió una
materia.
6
No realizar el proceso de migración y no
tener los registros históricos de los
estudiantes matriculados en sus
periodos lectivos anteriores.
No se tendría toda la información
centralizada y como consecuencia se
tendría que manejar 2 sistemas para
poder acceder a toda la información, es
decir el nuevo sistema con los nuevos
datos que vayan ingresando de las
nuevas matrículas y el anterior sistema
para poder ver los periodos anteriores, lo
cual ocasionaría invertir más tiempo de
gestión y más procesos que permitan
que ambos sistemas convivan.
Sistemas aislados y separados que son
desarrollados para resolver problemas
específicos a necesidades individuales
de cada unidad académica.
Dificultad para realizar la unificación de
información obtenida desde diferentes
sistemas, almacenadas en estructuras
diferentes o base de datos dispersas.
Delimitación del Problema
Campo: Ciencias Informática
Área: Gestión Administrativa
Aspecto: Estos procesos fueron analizados usando conocimientos prácticas
para la aplicación paquetes de Integration Services y SQL Server con la
integración de los scripts que contengan la selección de datos a migrar.
Tema: Proceso de migración de datos del módulo matriculación para el
prototipo de sistema académico en la facultad de ciencias administrativas de
la Universidad de Guayaquil.
El origen de los datos que es la información obtenida de la Base de datos de la
Facultad de Ciencias Administrativas ubicada en la Cdla. Universitaria ubicada en la
Av. Delta sector centro-Norte de la Ciudad de Guayaquil Provincia del Guayas.
7
Formulación del Problema
¿Cómo realizar el proceso de migración datos para trasladar la información al
prototipo de nuevo de Sistema Académico garantizando la integridad de los
registros de los estudiantes matriculados en todas las carreras de la Facultad de
Ciencias Administrativas?
Evaluación del Problema
El problema de la presente tesis puede ser evaluada en los siguientes aspectos:
Delimitado: El análisis de la información obtenida de la base de datos de la
Facultad de Ciencias Administrativas está basado en los estudiantes matriculados
en los periodos semestrales y no en periodos extraordinarios, la selección de los
datos incluyen a los estudiantes que cumplan como condición que existan en un
periodo semestral desde el año 2012 hasta la el último registro de matrícula que se
encuentre en la Base de Datos otorgada por Facultad, de esta manera se guardará
la historia de los estudiantes matriculados desde el inicio de sus respectivas
carreras en el nuevo Sistema Académico y podrá ser consulta por el estudiante.
.
Claro: El problema detectado es claro porque debe existir toda la información
histórica de los estudiantes en los periodos semestrales de las carreras que
contengan registros de matriculación de la Facultad de Ciencias Administrativas
garantizando y asegurando la consistencia de todos los registros correspondientes a
la antigua base de datos, tomando en cuenta que cualquier datos inconsistente
detectado en el análisis de la información a migrar será descartado y reportado en el
respectivo informe detallando el motivo por el cual no fueron sujeto de migración
hacia las nuevas estructuras del prototipo de nuevo sistema académico.
Evidente: Actualmente existen muchos métodos para detectar que una base de
datos posee información inconsistente ya sea solo verificando el aplicativo o front
end que accede a la información en forma de consulta o modificación de datos. Aquí
se puede evidenciar que algunos datos pueden ser ingresados de forma fraudulenta
8
o incorrecta sin las respectivas validaciones en los diferentes campos de captación
de datos para la matriculación de los estudiantes y esos datos deben ser
controlados en el proceso de migración para que no las nuevas tablas no se llenen
de forma incorrecta para así evitar futuros fallos o inconsistencias.
Concreto: Es concreto porque se establece que si no existe un correcto estudio
sobre las tablas y campos de la base de datos origen el proceso de migración no
funcionaría correctamente y la información se trasladaría al nuevo sistema
académico de forma inconsistente.
Adicionalmente es importante estudiar la información que se encuentra almacenada
para poder establecer si no existen datos faltantes de la base de datos origen o a su
vez la nueva base de datos necesite para el correcto funcionamiento del prototipo
del nuevo sistema académico para esto luego de la migración se realizan pruebas
internas tomando como ejemplo un grupo estudiantes y comparando la información
desde la base origen con los registros migrados de la base de datos destino, la
información debe coincidir para poder determinar que el traslado de información fue
exitoso.
Relevante: Es relevante porque surge la necesidad de tener un sistema
centralizado y sincronizado con la Universidad de Guayaquil que cuente con toda la
información de los estudiantes matriculados de los periodos semestrales,
actualmente existen muchos procesos que el estudiante debe realizar llenando
papeles y haciendo filas para entregarlos en las respectivas ventanillas, y lo que se
desea que el estudiante acceda desde cualquier parte del mundo vía internet con
sus respectivas credenciales y pueda realizar su proceso de matriculación de forma
automática, esto no solo ayudaría a los estudiantes a agilitar los procesos de
matriculación sino también al personal administrativo reduciendo procesos de
gestión.
9
Factible: Es factible porque una vez teniendo la información migrada permanecerá
centralizada en el prototipo de nuevo sistema académico para poder acceder de
manera directa a la historia de los registros de matriculación que el estudiante tiene
desde que inicio los ciclos en sus periodos semestrales por carrera, la información
no se encuentra dispersa en varios medios de almacenamiento ni es accesible para
cualquier persona, el acceso a la información tiene su propio módulo de seguridad
basado en los parámetros y perfiles que se le otorguen a los usuarios. En caso que
no se procediera a la migración de los datos para poder tener acceso a la
información histórica se deberá mantener el anterior sistema y eso implica tener 2
sistemas funcionando en paralelo lo que tendría como consecuencia emplear más
tiempo de gestión en consultar la información en 2 lugares es decir en 2 sistemas
académicos.
OBJETIVOS
OBJETIVO GENERAL
Migrar la información correspondiente al módulo de matriculación de todas las
carreras de la Facultad de Ciencias Administrativas teniendo como guía el Plan de
migración para la integración de los datos en el prototipo del nuevo Sistema
Académico.
OBJETIVOS ESPECÍFICOS
1. Estudiar las estructuras de la base de datos origen de la Facultad de Ciencias
Administrativas correspondientes al módulo de matriculación.
2. Identificar los campos y las tablas que permitirán llenar las nuevas estructuras
del prototipo del nuevo Sistema Académico en el módulo y esquema
matriculación.
3. Diseñar paquetes de datos en Integration Services de SQL 2012 basado en el
análisis de las estructuras de las bases de datos origen y destino
10
respectivamente determinando el orden de secuencia de ejecución definido en el
análisis y diseño de los mismos.
4. Elaborar un informe de resultado de todo el proceso de migración con las
novedades y observaciones encontradas, detallando la descripción del problema
encontrado con la respectiva propuesta de solución.
ALCANCES DEL PROBLEMA
El paquete de Integration Services diseñado responderá al script de SQL que
seleccionará la información de la matriz de datos de Excel correspondiente a los
datos de los estudiantes matriculados de las carreras de la Facultad de Ciencias
Administrativas con el detalle de las materias, el periodo y el nivel correspondiente a
cada ciclo.
Dentro de la selección de datos se recogerán los periodos semestrales ordinarios
desde 1997 hasta el último registro de matrícula de la plantilla de datos origen y se
excluirán en un reporte de Excel todos aquellos registros que contengan
inconsistencias en el contenido de los datos o inconsistencia referencial en los
campos de las tablas.
Los paquetes de Integration Services serán entregados al grupo de carga de datos
quien confirmara que la ejecución fue exitosa y comprobará los datos migrados en
las tablas destinos del módulo de matriculación del prototipo del nuevo Sistema
Académico.
Se elaborará un informe que estará conformado por las observaciones y novedades
encontradas en todo el proceso de migración de datos del módulo de matriculación
con una propuesta de solución.
11
La migración de la información depende de la estructura elaborada por el
desarrollador del módulo de matriculación del prototipo de nuevo sistema
académico
JUSTIFICACION E IMPORTANCIA
El presente trabajo de tesis permitirá trasladar la información consistente contenida
en la base de datos de la Facultad de Ciencias Administrativas dejando constancia
de los registros que se califiquen como inconsistentes ya que contienen en sus
tablas información que no van de acuerdo a los tipos de datos o que el nuevo
modelo de base de datos no los soporte a causa de la misma inconsistencia, como
por ejemplo en algunos casos ID del estudiante contenía caracteres especiales.
El análisis fue realizado para reducir notablemente el impacto de transición hacia el
nuevo sistema, en este proceso de migración de datos de los estudiantes
matriculados en la Facultad de Ciencias Administrativas permitirá que el prototipo
del nuevo Sistema Académico pueda acceder a los datos históricos utilizando los
esquemas y estructuras en las que fue desarrollado.
Adicionalmente permitirá controlar las inconsistencias que se detectaron en los
registros de la base de datos origen, obteniendo un mejor rendimiento en los
módulos que accedan a la información migrada.
También podemos identificar de forma única a todos los registros gracias al atributo
NEW_ID() del SQL Server que genera un tipo de dato uniqueidentifier para que no
existan valores duplicados a nivel de toda la base de datos no sólo del módulo de
matriculación, sin embargo esta generación de ID debe ser manejada con mucho
cuidado porque podríamos generar un ID nuevo con un contenido duplicado.
12
CAPITULO II
Marco Teórico
Antecedentes del Estudio
En este capítulo nos remontaremos a la antigüedad donde explicaremos como nació
la necesidad de que el hombre tuviera la idea de tener una forma de guardar y
consultar la información que se había investigado, ya sea que ésta haya sido
obtenida de un periódico o de libros de las bibliotecas. Las investigaciones que se
realizaban para poder realizar cálculos de la cosecha de una hacienda o para
censar a las personas de una ciudad eran recopiladas en abundancia sin embargo
la búsqueda era bastante lenta y no existía un proceso eficaz tampoco se contaba
con la ayuda de máquinas o computadoras que permitan agilitar esas
investigaciones.
(Herman Hollerith, 1884).La creación de una Base de Datos tuvo necesidad cuando
las investigaciones comenzaron a obtener grandes volúmenes de información y se
deseaba almacenar todo lo que se había investigado. Cuando comenzaron aparecer
las computadoras también se comenzó a procesar y construir más información
conforme se iba investigando. Especialmente los censos en las ciudades
comenzaron a generar más información y con esto la necesidad de querer
almacenar todo este volumen de análisis y resultados (Herman Hollerith, 1884).
Fue en esa época que (Herman Hollerith, 1884) crea una máquina de tarjetas
perforadas y fue nombrado como el primer estadístico de la historia, precisamente
en esta época los censos se realizaban de forma manual y posteriormente diseño
una maquina tabuladora (Herman Hollerith, 1884).
(Herman Hollerith, 1884) En 1950 se da origen a las cintas magnéticas que
permitían guardar la información en pequeñas cantidades sin embargo se
conseguía automatizar lo investigado, la única desventaja es que solo se podía
almacenar la información de forma secuencial (Herman Hollerith, 1884).
13
(Herman Hollerith, 1884) En 1960 las computadoras bajan de precio y son
adquiridas por empresas y compañías privadas donde las cintas magnéticas se
convirtieron en discos de almacenamiento. En la época 1970 nació un nuevo
concepto para lograr el almacenamiento más estructurado de la información y sea la
solución para las compañías. (Herman Hollerith, 1884)
Según (Edgar Frank Codd, 1970) “Un modelo relacional de datos para grandes
bancos de datos compartidos” (Edgar Frank Codd, 1970).
(Lawrence J. Ellison, 1970) Científico informático Inglés conocido por sus grandes
aportaciones a la teoría de base de datos definió el modelo relacional que constaba
de determinadas reglas para los sistemas que manejaban la información, como
consecuencia a este avance se dio paso a otra generación de sistemas gestores de
base de datos fue así como en esa misma época (Lawrence J. Ellison, 1970)
desarrolló Relational Software System o lo que actualmente se lo conoce como
Oracle.
(Lawrence J. Ellison, 1970) Luego en la época de los 80’s también se desarrolló el
SQL – Structured Query Language que quiere decir lenguaje de consultas, que
permitía tener acceso a bases de datos relacionales con el fin de recuperar
información de interés y realizar cambios dentro de la misma base de datos de una
forma sencilla, además que permitía gestionar grandes volúmenes de información
en discos duros (Herman Hollerith, 1884).
(Lawrence J. Ellison, 1970) En los 90’s se dio otro lanzamiento por parte de
Microsoft quien tuvo la visión de las bases de datos orientadas a objetos, sin
embargo también se desarrollaron aplicativos más pequeños capaces de gestionar
grandes volúmenes de información de distintas formas, de esta manea nació Excel
y Access, de esta forma nació una nueva generación de Bases de datos. (Lawrence
J. Ellison, 1970)
14
FUNDAMENTACION TEORICA
En el presente trabajo de tesis se ha fundamentado en la tecnología, gracias al
avance día a día nos permite la optimización de procesos de migración
otorgándonos seguridad en el traslado de la información. Una migración de datos es
la oportunidad para poder analizar la información que se encuentra en las
estructuras de la base de datos origen y poder seleccionar la información que se
encuentre consistente, para que de esta manera garantizar la seguridad de los
datos.
DATOS
(Murdick, 1988: pág 157) define el concepto de dato como “Un conjunto básico de
hechos referentes a una persona, cosa o transacción. Incluyen cosas como:
tamaño, cantidad, descripción, volumen, tasa, nombre o lugar.” (Murdick, 1988: pág
157).
Otra definición no las brinda Carlo Caballero Uribe (2006) cuando realizaba un
estudio de la AR en Latinoamérica.
“DATOS. Es una representación simbólica (numérica, alfabética,
algorítmica etc.) de un atributo o característica de una entidad.
El dato no tiene valor semántico (sentido) en sí mismo, pero
convenientemente tratados (procesado) se puede utilizar en la
realización de cálculos o toma de decisiones.” (Carlo Caballero Uribe,
2006).
15
INFORMACIÓN
Según (Idalberto Chiavenato, 2006) sostuvo que:
“Información.- Es un conjunto de datos con un significado, o sea, que
reduce la incertidumbre o que aumenta el conocimiento de algo.
En verdad, la información es un mensaje con significado en un
determinado contexto, disponible para uso inmediato y que proporciona
orientación a las acciones por el hecho de reducir el margen de
incertidumbre con respecto a nuestras decisiones.” (Idalberto
Chiavenato, 2006)
BASE DE DATOS
Es importante mencionar que el prototipo de nuevo sistema académico cumple con
una arquitectura de Base de datos que sirve como repositorio para la información
que va hacer ingresada y procesada.
(Alberto Gómez, Nicolas de Abajo Martinez, 1988, p. 80) Una base de datos es un
conjunto de información en forma normalizada, almacenada, en cualquier dispositivo
y entre la que se establece un número limitado o ilimitado de relaciones. Esta
información puede ser de muchas clases, desde registro de venta de un negocio a
una lista de invitados a una cena. (Alberto Gómez, Nicolas de Abajo Martinez, 1988,
p. 80)
(ABC, 2015) Se le llama base de datos a los bancos de información que contienen
datos relativos a diversas temáticas y categorizados de distinta manera, pero que
comparten entre sí algún tipo de vínculo o relación que busca ordenarlos y
clasificarlos en conjunto (ABC, 2015).
(ABC, 2015) Una base de datos puede ser de diverso tipo, desde un pequeño
fichero casero para ordenar libros y revistas por clasificación alfabética hasta una
16
compleja base que contenga datos de índole gubernamental en un Estado u
organismo internacional. Recientemente, el término base de datos comenzó a
utilizarse casi exclusivamente en referencia a bases construidas a partir de software
informático, que permiten una más fácil y rápida organización de los datos. Las
bases de datos informáticas pueden crearse a partir de software o incluso de forma
online usando Internet.
(ABC, 2015)
(Date, 1987) Las bases de datos son importantes para tener una gran cantidad de
datos almacenados los cuales sean visualizados, actualizados y modificados en un
tiempo prudencial, así mismo nos algunos beneficios o ventajas como lo menciona
(Date, 1987)
Compactación: No hay necesidad de archivos en papel voluminosos.
Velocidad: La máquina puede recuperar y actualizar datos más rápidamente
que un humano.
En particular, las consultas específicas sin mucha elaboración pueden ser
respondidas con rapidez, sin necesidad de búsquedas manuales o visuales
que llevan tiempo.
Menos trabajo laborioso: Se puede eliminar gran parte del trabajo de llevar
los archivos a mano. Las tareas mecánicas siempre las realizan mejor las
máquinas.
Actualidad: En el momento que la necesitemos, tendremos a nuestra
disposición información precisa y actualizada.
(Date, 1987) Una base de datos está compuesta por los siguientes elementos:
Hardware. Son las máquinas en las que se guardan las bases de datos.
Software. Es la aplicación gestor de bases de datos. El encargado de
administrar las bases de datos.
Datos. Incluyen los datos que se necesitan almacenar y los metadatos que
son datos que sirven para describir lo que se almacena en la base de datos.
17
Atributos: Son los diferentes campos que conforman la estructura de una
base de datos.
Campos: Se refiere a la unidad más pequeña de datos.
Registro: Es un conjunto de campos o atributos relacionados entre sí.
Archivo: Es un conjunto de registros relacionados.
Usuarios. Personas que manipulan los datos del sistema. Hay tres
categorías:
Usuarios finales. Aquellos que utilizan datos de la base de datos
para su trabajo cotidiano que no tiene por qué tener que ver con la
informática. Normalmente no utilizan la base de datos directamente,
sino que utilizan aplicaciones creadas para ellos a fin de facilitar la
manipulación de los datos. Estos usuarios sólo acceden a ciertos
datos.
Desarrolladores. Analistas y programadores encargados de generar
aplicaciones para los usuarios finales.
Administradores. También llamados DBA (Data Base Administrator),
se encargan de gestionar las bases de datos. (Date, 1987)
Modelos de Base de Datos
Algunos modelos con frecuencia utilizados en las bases de datos:
Bases de datos jerárquicas:
Basado en nuestro estudio las bases de datos jerárquicas nos permiten
identificar las dependencias que pueden tener los diferentes objetos de base
de datos del módulo matriculación de los repositorios origen y destino
respectivamente
(Santos, 2004) Comenta: “Se almacena la información en una estructura
jerárquica, similar a las raíces de un árbol, en donde un nodo padre de
información tiene varios hijos; siendo el nodo que no tiene padre conocido
como raíz y a los nodos que no tienen hijos se les denomina hojas. La
18
principal delimitación de este tipo de bases de datos es su incapacidad de
representar eficazmente la redundancia de datos.” (Santos, 2004)
Base de datos de red
(Santos, 2004) Nos dice: “Es muy parecido al jerárquico, diferenciándose de
la anterior en el concepto de nodo, permitiendo que en un mismo nodo tenga
varios padres, dando solución al problema de la redundancia de datos”.
(Santos, 2004)
Bases de datos transaccionales
Basado en nuestro análisis para el desarrollo del proceso de migración es
importante incorporar querys o procedimientos que permitan trasladar
grandes volúmenes de información a grandes velocidades.
(NETRONYCS, 2015) Son bases de datos cuyo único fin es el envío y
recepción de datos a grandes velocidades, estas bases son muy poco
comunes y están dirigidas por lo general al entorno de análisis de calidad,
datos de producción e industrial, es importante entender que su fin único es
recolectar y recuperar los datos a la mayor velocidad posible, por lo tanto la
redundancia y duplicación de información no es un problema como con las
demás bases de datos, por lo general para poderlas aprovechar al máximo
permiten algún tipo de conectividad a bases de datos relacionales.
(NETRONYCS, 2015)
Bases de datos relacionales
En nuestro proceso es importante recalcar que las tablas del módulo de
matriculación contenidas en la base de datos del nuevo sistema académico
se encuentran relacionadas para controlar el ingreso e inconsistencias de los
datos.
19
(Santos, 2004) Define: “Es el más utilizado actualmente tanto en el modelado
como en la administración de datos. Su estructura se basa en el concepto de
tablas, compuestas de registros (filas) y campos (columnas). La información
es almacenada y recuperada por medio de consultas muy flexibles. El
lenguaje utilizado para la realización de las consultas es SQL (Structurate
Query Language – Lenguaje de Consulta Estructurado)”. (Santos, 2004)
Bases de datos multidimensionales
En la presente tesis se detallan las tablas que nos permitirán acceder a la
información histórica de los estudiantes matriculados de la Facultad de
Ciencias Administrativas y que nos permitirán realizar diferentes reportes
dinámicos o estáticos basados en la necesidad administrativa obteniendo
resultados con cubos de información o datos que permitirán una mejor toma
de decisiones.
(SantaCrusRamos, 2015) Son bases de datos ideadas para desarrollar
aplicaciones muy concretas, como creación de Cubos OLAP. Básicamente
no se diferencian demasiado de las bases de datos relacionales (una tabla
en una base de datos relacional podría serlo también en una base de datos
multidimensional), la diferencia está más bien a nivel conceptual; en las
bases de datos multidimensionales los campos o atributos de una tabla
pueden ser de dos tipos, o bien representan dimensiones de la tabla, o bien
representan métricas que se desean estudiar. (SantaCrusRamos, 2015)
Bases de datos deductivas
Este tipo de base de datos podría incorporarse al prototipo de nuevo sistema
con el fin de pronosticar resultados para un mejor análisis de los estudiantes
matriculados, por ejemplo determinar el número de paralelos a crearse para
el inicio de clases de cada periodo o ciclo.
(basededatos, 2011) Un sistema de base de datos deductiva, es un sistema
de base de datos pero con la diferencia de que permite hacer deducciones a
20
través de inferencias. Se basa principalmente en reglas y hechos que son
almacenados en la base de datos. (basededatos, 2011)
SQL (STRUCTURED QUERY LANGUAGE)
(Donald Chamberlin, 1974) Es un lenguaje para la especificación de las
características de las bases de datos que adoptaban el modelo relacional. Este
lenguaje se llamaba SEQUEL (Structured English Query Language) y se
implementó en un prototipo llamado SEQUEL-XRM entre 1974 y 1975. Las
experimentaciones con ese prototipo condujeron, entre 1976 y 1977, a una revisión
del lenguaje (SEQUEL/2), que a partir de ese momento cambió de nombre por
motivos legales, convirtiéndose en SQL (Donald Chamberlin, 1974).
(Donald Chamberlin, 1974) El prototipo (System R), basado en este lenguaje, se
adoptó y utilizó internamente en IBM y lo adoptaron algunos de sus clientes
elegidos. Gracias al éxito de este sistema, que no estaba todavía comercializado,
también otras compañías empezaron a desarrollar sus productos relacionales
basados en SQL. A partir de 1981, IBM comenzó a entregar sus productos
relacionales y en 1983 empezó a vender DB2. En el curso de los años ochenta,
numerosas compañías (por ejemplo Oracle y Sybase, sólo por citar algunos)
comercializaron productos basados en SQL, que se convierte en el estándar
industrial de hecho por lo que respecta a las bases de datos relacionales (Donald
Chamberlin, 1974).
Migración de Datos
Este es el núcleo que nuestro tema de tesis, realizar el proceso de migración de los
datos entre repositorios y poder trasladar la información hacia el nuevo sistema
académico.
(Donald Chamberlin, 1974).Una migración de datos es el traspaso o transferencia
organizada y segura de la información entre 2 o más sistemas de bases de datos
21
diferentes, considerando el contenido de la información, compatibilidad de tipos de
datos y hardware disponible. (Donald Chamberlin, 1974).
Normalización de Datos
Estudiar y conocer la normalización de los datos es muy importante para poder
manejar y procesar la información, con este estudio logramos conseguir que la
información se traslade de manera consistente e identificar los posibles registros
que no puedan ser migrados dentro de nuestro proceso de migración.
(Microsoft, Normalizacion de datos, 2003). Se refiere a estructurar los datos de tal
forma que se eliminen duplicaciones innecesarias y se proporcione una ruta de
búsqueda rápida para toda la información necesaria. El proceso de perfeccionar
tablas, claves, columnas y relaciones para crear una base de datos eficaz se
denomina normalización. La normalización no sólo es aplicable a archivos
relacionales; también es una actividad de diseño común para archivos
indizados.(Microsoft, Normalizacion de datos, 2003).
Según (Microsoft, Normalizacion de datos, 2003) se enumeran algunas de las
ventajas de la normalización y un resumen de las formas en el Gráfico 1:
Integridad de datos (porque no hay datos redundantes ni omitidos).
Consultas optimizadas (porque las tablas normalizadas generan combinaciones
eficaces y rápidas).
Creación y ordenación de índices más rápidas (porque las tablas tienen menos
columnas).
Ejecución más rápida de la instrucción UPDATE (porque hay menos índices por
tabla).
Resolución de concurrencias mejorada (porque los bloqueos de tabla afectarán
a menos datos). (Microsoft, Normalizacion de datos, 2003)
22
Gráfico 1: Reglas de la normalización en base de datos
Fuente: https://support.microsoft.com/en-us/kb/283878/es
MICROSOFT SQL SERVER
En nuestra tesis es muy importante reconocer cual es el motor de base de datos
que usa el prototipo de nuevos sistema académico ya que actualmente en el
mercado existen muchos motores de base de datos.
Microsoft SQL Server se define como un sistema de gestión de base de datos
relacional (RDBMS - Relational Databse Management System) desarrollado por
la empresa Microsoft. Como que es un producto de software cuya tarea principal
es almacenar y consultar datos según lo solicitado por otras aplicaciones de
software, ya sea los que en el mismo equipo o los que se ejecuta en otro
ordenador a través de una red. Hay al menos una docena de diferentes
ediciones de Microsoft SQL Server dirigidas a diferentes audiencias y con
diferentes cargas de trabajo. Sus lenguajes de consulta principales son T-SQL y
ANSI SQL. Por otro lado, SQL SERVER es usado para desarrollo procesos
transaccionales, también para almacenar y analizar información y para construir
aplicaciones modernas en un entorno computacional distribuido. (Mayer, Agosto
2014)
23
Las Herramientas Bi (Business Intelligence)
Introducción
(Information Builders, 2005) Históricamente, la tecnología de Business Intelligence
ha encontrado lugar en dos niveles primarios entre los altos ejecutivos quienes
necesitan obtener información estratégica y entre los administradores de la línea de
negocios que son responsables del análisis táctico. Estas tradicionales actividades
de soporte a la decisión son importantes, pero ellos solamente muestran
superficialmente el potencial de la inteligencia de negocios dentro de la empresa.,
involucrando quizá el 5% de los usuarios y el 10% de los datos disponibles
(Information Builders, 2005)
(McGeever, C., 2000, Business Intelligence. Computer World) En un tiempo, las
organizaciones dependían de sus departamentos de sistemas de información para
proporcionarles reportes estándar y personalizados. Esto ocurrió en los días
de los mainframes y minicomputadoras, cuando la mayoría de los usuarios no
tenía acceso directo a las computadoras. Sin embargo, esto comenzó a cambiar en
los años 70’s cuando los sistemas basados en servidores se convirtieron en la
moda, aun así estos sistemas eran usados principalmente para transacciones de
negocios y sus capacidades de realizar reportes se limitaba a un número
predefinido de ellos. (McGeever, C., 2000, Business Intelligence. Computer
World)
(Medina Soto Jorge Alfredo, 2010) Los sistemas de información se
sobrecargaban y los usuarios tenían que esperar por días o semanas para obtener
sus reportes en caso que requirieran reportes distintos a los estándares disponibles.
Con la entrada de la PC, y de computadoras en red, las herramientas de BI
proveyeron a los usuarios de la tecnología para crear sus propias rutinas básicas y
reportes personalizados. (Medina Soto Jorge Alfredo, 2010)
Definición De Business Intelligence
24
(CODISYS, 2015) Estas aplicaciones proporcionan a los usuarios un mayor
entendimiento que les permite identificar las oportunidades y los problemas de los
negocios. Los usuarios son capaces de acceder y apalancar una vasta cantidad de
información y analizar sus relaciones y entender las tendencias que últimamente
están apoyando las decisiones de los negocios. Estas herramientas de la
empresa que resulta de una acumulación masiva de información que no es fácil de
leer o de usar. (CODISYS, 2015)
Importancia de BI en las Empresas
(GBIMARK, 2015) El volumen excesivo de información no es poder, pero el
conocimiento si lo es. Con demasiada frecuencia, la transformación y el análisis de
toda la información y reglas de negocio que las propias compañías generan se
convierte en un verdadero problema y, por lo tanto, la toma de decisiones se vuelve
demasiado lenta. (GBIMARK, 2015)
Tipos de Productos De BI
(WorkMeter, 2012). Las herramientas de software de BI son usadas para acceder a
los datos de los diferentes negocios y empresas para proporcionar reportes,
análisis, visualizaciones y alertas a los usuarios. La gran mayoría de las
herramientas de BI generalmente son usadas por usuarios finales para acceder,
analizar y reportar contra los datos que más frecuentemente residen en
data warehouse, data marts y almacenes de datos operacionales.
(WorkMeter, 2012)
(WorkMeter, 2012) Algunos desarrolladores de aplicaciones usan plataformas de BI
para desarrollar y desplegar aplicaciones (a veces no son consideradas
herramientas de BI). Ejemplos de una aplicación de BI son las aplicaciones de
consolidación financiera y presupuestos. Hoy en día en el mercado de herramientas
de Business Intelligence se encuentran constituidos de dos subsegmentos: suites
25
de BI empresarial (EBIS, por sus siglas en inglés) y plataformas de BI. (WorkMeter,
2012)
(WorkMeter, 2012) La mayoría de las herramientas de BI, como las desarrolladas
por los vendedores mencionados en la tabla 1, son BI empresarial y
plataformas de Business Intelligence (WorkMeter, 2012).
(Gartner Dataquest, 2005) realizó un pronóstico a cinco años, basado en una
estimación preliminar de tamaño del mercados y una revisión de los inhibidores e
impulsores, llegando a la conclusión de que el total de mercado de herramientas de
BI proyecta un crecimiento de $ 2.5 billones en 2004 a $ 2.9billones en 2009, con
una tasa de crecimiento anual de 7.4%. (Gartner Dataquest, 2005)
Tecnologías BI
(Microstrategy, 2002) Las compañías han descubierto últimamente nuevas maneras
de usar la información que tiene almacenada para facilitar la toma de decisiones,
realizar una optimización de procesos y realizar reportes operacionales de fácil
ejecución y visualización. Y durante esta era de invenciones, los vendedores de
tecnología de BI han construidos nichos de software para implementar cada nuevo
patrón de aplicaciones que las compañías inventan. Estos patrones de aplicación
resultan en productos de software centrados exclusivamente en cinco estilos de
BI (Microstrategy, 2002), tales como:
REPORTES EMPRESARIALES. Los reportes escritos son usados
para generar reportes estáticos y pero altamente pensando y
destinados para ampliar su distribución con muchas empresas (WorkMeter,
2012)
CUBOS DE ANÁLISIS. Los cubos basados en herramientas de
BI son usados para proveer capacidades analíticas a los
administradores de negocios (WorkMeter, 2012)
26
VISTAS AD HOC QUERY Y ANÁLISIS. Herramientas OLAP relacionales
son usadas para permitir a los expertos visu alizar la base de datos y ver
cualquier respuesta y convertirla en información transaccional de bajo nivel
(WorkMeter, 2012).
DATA MINING Y ANÁLISIS ESTADÍSTICOS. Son herramientas usadas
para desempeñar modelado predictivo o para descubrir la relación causa
efecto entre dos métricas (WorkMeter, 2012).
ENTREGA DE REPORTES Y ALERTAS. Los motores de distribución de
reportes son usados para enviar reportes completos o avisos a un gran
número de usuarios, dichos reportes se basan en suscripciones,
calendarios, etc. (WorkMeter, 2012).
Proceso ETL
(Tools, 2015) ETL - este término viene de inglés de las siglas Extract-Transform-
Load que significan Extraer, Transformar y Cargar y se refiere a los datos en una
empresa). (Tools, 2015)
(Tools, 2015) ETL es el proceso que organiza el flujo de los datos entre diferentes
sistemas en una organización y aporta los métodos y herramientas necesarias para
mover datos desde múltiples fuentes a un almacén de datos, reformatearlos,
limpiarlos y cargarlos en otra base de datos, data mart ó bodega de datos. ETL
forma parte de la Inteligencia Empresarial (Business Intelligence), también llamado
“Gestión de los Datos” (Data Management). (Tools, 2015)
27
SQL Server Y las Herramientas BI
(JMACOE, 2015) Uno de los segmentos de más rápido crecimiento en el mercado
de SQL Server es el área de Inteligencia de Negocios (Business Intelligence). Con
grandes cantidades de datos, gestión de los datos y conocimientos se ha convertido
en ganar más de un desafío. Afortunadamente, muchas organizaciones se están
centrando en productos para mejorar la visión de los datos para los profesionales TI
y los usuarios (JMACOE, 2015).
(JMACOE, 2015). Esto nos da más tiempo para centrarse en nuestras necesidades
y datos, en lugar de tener que construir sofisticados productos personalizados como
parte de las necesidades. Por lo tanto, en este artículo les presento los vendedores
que suministran herramientas de Business Intelligence en el mercado de SQL
Server (JMACOE, 2015).
(JMACOE, 2015) SQL Server constituye una completa solución de datos de extremo
a extremo que aporta a los usuarios de su organización una plataforma segura,
confiable y productiva para las aplicaciones de datos de empresa
e inteligencia empresarial (BI). SQL Server ofrece herramientas conocidas y de
gran eficacia para los profesionales de TI, así como para aquellos que trabajan con
la información. (JMACOE, 2015)
(JMACOE, 2015) Estas herramientas reducen la complejidad que supone el proceso
de crear, implementar, administrar y utilizar datos empresariales y aplicaciones
analíticas en distintas plataformas que abarcan desde dispositivos móviles hasta
sistemas de datos de empresas. (JMACOE, 2015)
(JMACOE, 2015) Gracias a un extenso conjunto de características, interoperabilidad
con los sistemas existentes y automatización de las tareas rutinarias, SQL Server
aporta una completa solución de datos para las empresas de todos los tamaños.
(JMACOE, 2015)
28
SQL SERVER INTEGRATION SERVICES
Introducción
(Kamal Hathi, 2005)
La integración de datos centrada en el ETL tradicional de orígenes de datos
estándar sigue siendo el centro de la mayoría de los almacenes de datos. Sin
embargo, las exigencias para que se incluyan orígenes de datos más diversos, los
requisitos de las disposiciones legales y las operaciones globales y en línea se
están transformando rápidamente en los requisitos tradicionales para la integración
de datos. En este paisaje que cambia y crece rápidamente, la necesidad de extraer
valor de los datos y la necesidad de poder confiar en ellos es más importante que
nunca. La integración de datos efectiva se ha convertido en la base para la toma de
decisiones efectiva. SQL Server Integration Services proporciona una arquitectura
flexible, rápida y escalable que permite una integración de datos efectiva en los
entornos empresariales actuales.
Definición
(Microsoft, SQL Server Integration Services, 2014) Microsoft Integration Services es
una plataforma para la creación de soluciones empresariales de transformaciones
de datos e integración de datos. (Microsoft, SQL Server Integration Services, 2004)
(Microsoft, SQL Server Integration Services, 2014) Integration Services sirve para
resolver complejos problemas empresariales mediante la copia o descarga de
archivos, el envío de mensajes de correo electrónico como respuesta a eventos, la
actualización de almacenamientos de datos, la limpieza y minería de datos, y la
administración de objetos y datos de SQL Server. (Microsoft, SQL Server Integration
Services, 2014)
(Microsoft, SQL Server Integration Services, 2004) Integration Services cuenta con
un ambiente poderoso de diseño a la hora de establecer soluciones prácticas para
los usuarios debido a que las herramientas gráficas se pueden usar para crear
29
soluciones sin escribir una sola línea de código. También se puede programar el
amplio modelo de objetos de Integration Services para crear paquetes mediante
programación y codificar tareas personalizadas y otros objetos de paquete.
(Microsoft, SQL Server Integration Services, 2004)
(Microsoft, SQL Server Integration Services, 2004) Integration Services contiene un
variado conjunto de tareas, procesos y herramientas para la creación de paquetes y
también posee el servicio Integration Services que permite publicar todo el proyecto
desarrollado y pueda ser ejecutado en cualquier hora del día, o a su vez llamado
desde rutina o subrutina de otro proceso como lo expresa el Gráfico 4. (Microsoft,
SQL Server Integration Services, 2014)
Principales funciones de Las Herramientas de Integration Services
Según estudio realizado por (Egea, 2011) algunas de las tareas que podremos
hacer con SQL Server Integration Services de forma sencilla serán:
Recorrer listas de ficheros para incorporarlos a nuestras bases de
datos
Procesar cubos, dimensiones o ejecutar comandos XMLA
Insertar datos de forma masiva
Extraer, limpiar, transformar y cargar datos en datamarts o
datawarehouses
Usar tareas para entender mejor como es la distribución de nuestros
datos
Ejecutar comandos T-SQL
Mover, copiar o eliminar archivos
Obtener o poner datos en un servidor FTP
Leer o escribir datos en colas de Microsoft Message Queue
Enviar correos electrónicos con los resultados de las operaciones
Transferir objetos SQL
30
Logins
Jobs
Procedimientos de master
Objetos de servidor
Invocar a servicios Web XML
Leer datos WMI o suscribirse a eventos WMI
Tareas de mantenimiento de bases de datos
Backups
Chequeos de integridad
Tareas del agente SQL
Tareas TSQL
Limpieza de históricos
Tareas de limpieza de datos
Notificaciones a operadores
Reorganización y reconstrucción de índices
Purgado de bases de datos
Actualización de Estadísticas
Según (Egea, 2011):
Todas estas operaciones pueden realizarse en un servidor distinto de
nuestros motores de bases de datos, usando al máximo los recursos de
la máquina y por lo tanto con una gran capacidad de escalado y un
altísimo rendimiento.
Dentro de las tareas que podremos hacer con datos en sí también
podemos usar alguna de las siguientes:
Orígenes de datos
Leer datos con proveedores de datos .NET
Leer datos de archivos Excel
Leer datos de ficheros planos, estén formados prácticamente
como estén formados
31
Leer datos de cualquier fuente que ofrezca un proveedor OLEDB,
(todos los fabricantes del mercado lo hacen)
Leer datos en formato “crudo” raw
Leer datos en formatos XML
Transformaciones de datos
Agregar información
Guardar y usar datos en caché para evitar leer la misma
información más de una vez
Añadir información de traza a los datos (nombre del paquete, id
de ejecución versión, hora de comienzo…
Realizar transformaciones sencillas de textos (pasar a
mayúsculas o minúsculas, cambiar a lenguajes chinos, disminuir
tamaños,…)
Mandar datos a un lugar o a otro en función de valores
Copiar columnas
Convertir tipos de datos
Completar la información con consultas a modelos de minería de
datos
Obtener columnas con cálculos complejos
Guardar o leer archivos BLOB convirtiéndolos en ficheros y
viceversa
Usar técnicas de lógica difusa tanto para agrupados como para
búsquedas
Combinar datos
Realizar Joins complejos
Crear copias en memoria de los datos para añadir
comportamientos
Ejecutar comandos SQL contra conexiones oldb
Obtener muestreos de datos por porcentaje,
Conteos diversos
Trasposición de matrices (Pivot)
32
Ordenar
Extracción y búsqueda de términos
Asistentes para dimensiones lentamente cambiantes
Destino de datos
Escribir datos con proveedores de datos .NET
Escribir datos a archivos Excel
Escribir datos a ficheros planos
Entrenar modelos de minería de datos
Escribir datos en cualquier destino que ofrezca un proveedor
OLEDB, (todos los fabricantes del mercado lo hacen)
Escribir datos en formato crudo
Devolver Recorsets, y Datareaders
Mandar datos a SQL Server Compact (Egea, 2011)
(Egea, 2011) Todas estas funcionalidades se ven acompañadas además por una
gran versatilidad en la configuración, en la trazabilidad de las ejecuciones, en la
firma digital de paquetes y en el uso y paso de variables para poder parametrizar
adecuadamente el producto. (Egea, 2011)
(Egea, 2011) En resumen estamos ante un producto que ofrece un sin fin de
posibilidades que iremos desgranando en los siguientes capítulos de este tutorial
que nos llevará buena parte del año escribir por completo. (Egea, 2011)
Arquitectura de Integration Services
(Kamal Hathi, 2005) La arquitectura flexible y extensible de SSIS permite superar la
mayoría de los desafíos tecnológicos frente a la integración de datos descritos en
este artículo. Tal como se muestra en la figura 11, SSIS elimina (o al menos
minimiza) el almacenamiento provisional innecesario. (Kamal Hathi, 2005)
33
(Kamal Hathi, 2005) Dado que realiza una compleja manipulación de datos en una
simple operación de canalización, ahora es posible reaccionar ante los cambios y
diseños de los datos bastante rápido, dentro de un margen de tiempo que tenga
sentido para cerrar el bucle y adoptar medidas (Gráfico 5). (Kamal Hathi, 2005)
PAQUETES EN INTEGRATION SERVICES
Introducción
Esta tesis está orientada al uso exclusivo de paquetes previo al análisis de los
scripts que contendrán cada paquete con su respectivo flujo de datos y orden de
secuencia para su correcta ejecución y lograr el traslado de la información
satisfactoriamente.
Definición
(Microsoft, Paquetes de Integration Services (SSIS), 2014) Un paquete como
es llamado dentro del SQL Server Integration Services es una colección
estructurada de conexiones, conformada por elementos de flujo de control,
elementos de flujo de datos, variables, parámetros, controladores de eventos y
configuraciones que se pueden desarrollar con la ayuda de las herramientas
gráficas de diseño proporcionadas por SQL Server Integration Services o mediante
programación. (Microsoft, Paquetes de Integration Services (SSIS), 2014)
Características
(Microsoft, Paquetes de Integration Services (SSIS), 2014) Cuando se crea por
primera vez un paquete, es un objeto vacío que no hace nada. Para agregar
funcionalidad a un paquete, debe agregarle un flujo de control y, opcionalmente, uno
o más flujos de datos. Cada flujo de datos puede desempeñar o realizar una función
diferente y muy independiente. (Microsoft, Paquetes de Integration Services (SSIS),
2014)
34
Un paquete de datos puede conectarse a distintos servidores en una sola ejecución
tomando información de cada uno para trasladarla a un solo destino. Los paquetes
pueden funcionar por separado o conjuntamente con otros paquetes para hacer
frente a las complejas necesidades de la empresa. (Microsoft, Paquetes de
Integration Services (SSIS), 2014)
Integration Services puede extraer y transformar datos de muchos orígenes
distintos, como archivos de datos XML, archivos planos y orígenes de datos
relacionales, y, posteriormente, cargarlos en uno o varios destinos.
A continuación se muestra un diagrama en el Gráfico 6 de un paquete individual que
contiene un flujo de control con una tarea Flujo de datos que, a su vez, contiene un
flujo de datos.
Flujo de Datos (Dataflow)
Microsoft SQL Server Integration Services provee 3 tipos de componentes de flujo
de datos:
Los Orígenes
Extraen datos de almacenes de datos tales como tablas y vistas en bases de
datos relacionales, archivos y bases de datos de Analysis Services.
Las Transformaciones
Se encargan de modificar, resumir y limpiar los datos que se transporten al
destino.
Los Destinos
Cargan datos en almacenes de datos o crean conjuntos de datos
almacenados en la memoria.
Componentes Del Flujo De Datos (Dataflow Components)
(Egea, 2011) La barra de herramientas es la que está orientada al flujo de control.
Además de los componentes que podemos pinchar y arrastrar, es importante
conocer las formas en las que podemos unir cada una de las cajitas, que operación
35
hará que vayamos por un lado del flujo o por el otro como lo indica el Gráfico 7.
(Egea, 2011)
(Microsoft, Tarea flujo de datos, 2015) La tarea Flujo de datos encapsula el motor
de flujo de datos que mueve datos entre orígenes y destinos, y permite al usuario
transformar, limpiar y modificar datos a medida que se mueven. Agregar una tarea
Flujo de datos a un flujo de control de paquetes permite que el paquete extraiga,
transforme y cargue datos, En el Gráfico 8 podemos observar la pantalla para el
diseño de los paquetes de datos en donde se encuentran los componentes para
realizar cada tarea. (Microsoft, Tarea flujo de datos, 2015)
Diagrama de Causa y efecto o Espina De Pescado (Ishikawa)
(EDUTEKA, 2007). Los Diagramas Causa-Efecto ayudan a los estudiantes a pensar
sobre todas las causas reales y potenciales de un suceso o problema, y no
solamente en las más obvias o simples (EDUTEKA, 2007).
(EDUTEKA, 2007) Además, son idóneos para motivar el análisis y la discusión
grupal, de manera que cada equipo de trabajo pueda ampliar su comprensión del
problema, visualizar las razones, motivos o factores principales y secundarios,
identificar posibles soluciones, tomar decisiones y, organizar planes de acción
(EDUTEKA, 2007).
Características
(EDUTEKA, 2007) El Diagrama Causa-Efecto es llamado usualmente Diagrama de
“Ishikawa” porque fue creado por Kaoru Ishikawa, experto en dirección de empresas
interesado en mejorar el control de la calidad; también es llamado “Diagrama Espina
de Pescado” porque su forma es similar al esqueleto de un pez: Está compuesto por
un recuadro (cabeza), una línea principal (columna vertebral), y 4 o más líneas que
apuntan a la línea principal formando un ángulo aproximado de 70º (espinas
principales) (EDUTEKA, 2007).
36
Estas últimas poseen a su vez dos o tres líneas inclinadas (espinas), y así
sucesivamente (espinas menores), según sea necesario como lo indica el siguiente
Gráfico 9. (EDUTEKA, 2007).
Gráfico 2: Esquema del Diagrama Causa y Efecto
Fuente: http://www.eduteka.org/DiagramaCausaEfecto.php
Identificar El Problema
Identifique y defina con exactitud el problema, fenómeno, evento o situación que se
quiere analizar. Éste debe plantearse de manera específica y concreta para que el
análisis de las causas se oriente correctamente y se eviten confusiones (EDUTEKA,
2007).
Los Diagramas Causa-Efecto permiten analizar problemas o fenómenos propios de
diversas áreas del conocimiento. Algunos ejemplos podrían ser: la falta participación
de los alumnos del grado 9-A en las votaciones estudiantiles, la extinción de los
37
dinosaurios, el establecimiento del Frente Nacional en Colombia, la migración de las
aves, entre otros (EDUTEKA, 2007).
Una vez el problema se delimite correctamente, debe escribirse con una frase corta
y sencilla, en el recuadro principal o cabeza del pescado, tal como se muestra en el
siguiente ejemplo: Bajo rendimiento en Matemáticas (EDUTEKA, 2007).
Identificar Las Causas
Mediante una lluvia de ideas y teniendo en cuenta las categorías encontradas,
identifique las causas del problema. Éstas son por lo regular, aspectos específicos
de cada una de las categorías que, al estar presentes de una u otra manera,
generan el problema (EDUTEKA, 2007).
Las causas que se identifiquen se deben ubicar en las espinas, que confluyen en las
espinas principales del pescado. Si una o más de las causas identificadas es muy
compleja, ésta puede descomponerse en sub causas (EDUTEKA, 2007). Éstas
últimas se ubican en nuevas espinas, espinas menores, que a su vez confluyen en
la espina correspondiente de la causa principal (EDUTEKA, 2007).
Analizar y Discutir el Diagrama
Cuando el Diagrama ya esté finalizado, los estudiantes pueden discutirlo, analizarlo
y, si se requiere, realizarle modificaciones. La discusión debe estar dirigida a
identificar la(s) causa(s) más probable(s), y a generar, si es necesario, posibles
planes de acción (EDUTEKA, 2007).
Los Diagramas Causa-Efecto pueden elaborarse tanto en el aula de clase con
tiza y tablero y/o lápiz y papel, como en la sala de informática mediante el uso
de un Software gratuito especializado. Aunque ambas opciones son efectivas,
vale la pena resaltar que el uso de software facilita notablemente la elaboración
de estos diagramas y de otros organizadores gráficos de Aprendizaje Visual, e
incrementa la motivación de los estudiantes para realizarlos (EDUTEKA, 2007).
38
MAPAS DE PROCESO
La gestión basada en procesos no es un fin en sí mismo, sino un medio para que la
organización pueda alcanzar eficaz y eficientemente sus objetivos.
Por ello, los procesos deben formar parte de un sistema que permita la obtención de
resultados globales en la organización orientados a la consecución de sus objetivos,
los cuales podrán estar vinculados a uno o varios grupos de interés en la
organización. (Gonzalez, 2015)
En general, para la consecución de los objetivos globales establecidos, una
organización debe ser consciente de estas relaciones para plantear el despliegue de
los mismos en los diferentes procesos del sistema (Gonzalez, 2015).
El esquema general para llevar a cabo este despliegue según (Gonzalez, 2015)
sería el siguiente:
Determinar los objetivos globales de la organización
Identificar los procesos CLAVE en la estructura de procesos
Establecer los objetivos en los procesos CLAVE
Establecer las metas y/o acciones para la consecución de los objetivos
Detallar los procesos de gestión como lo indica el Gráfico 12.
39
Gráfico 3: Ejemplo de un Mapa de Procesos
Fuente: http://www.k-tion.com/vf2013/images/elmapadeprocesos.jpg
Análisis FODA
El análisis DAFO (o FODA) es una herramienta de gestión que facilita el proceso de
planeación estratégica, proporcionando la información necesaria para la
implementación de acciones y medidas correctivas, y para el desarrollo de
proyectos de mejora. El nombre DAFO, responde a los cuatro elementos que se
evalúan en el desarrollo del análisis: las debilidades, amenazas, fortalezas y
oportunidades. (Olivera, 2013)
40
FUNDAMENTACIÓN LEGAL
Este proyecto de tesis está basado en la Ley Orgánica de Educación Superior y del
Reglamento de Matrículas y Tasas de la Universidad de Guayaquil.
Basado en nuestra investigación podemos hacer referencia al artículo 33 de la Ley
Orgánica De Educación Superior que nos menciona que la matrícula es el acto de
carácter académico-administrativo, mediante el cual una persona adquiere la
condición de estudiante, a través del registro de las asignaturas, cursos o sus
equivalentes, en un periodo académico determinado y conforme a los
procedimientos internos de una IES. (Ley Orgánica de Educación Superior, 2010)
La presente tesis maneja la información de los estudiantes matriculados en los
periodos ordinarios los cuales nos confirman que una persona se encuentra
matriculada como lo indica el Art. 3 de la LOES en su Capítulo II que la matrícula es
el acto administrativo y legal, con el cual una persona adquiere la condición de
estudiante y se vincula académicamente con la Universidad de Guayaquil, accede al
registro de las asignaturas, cursos o sus equivalentes, para el periodo académico
determinado que va a cursar. (Ley Orgánica de Educación Superior, 2010)
La condición de estudiante se mantendrá hasta el inicio del nuevo periodo
académico ordinario o hasta su titulación. En cada matrícula el estudiante se
somete a la normativa que se encuentre vigente a la fecha de su matriculación y los
procedimientos internos que mantenga la Universidad de Guayaquil para formalizar
dicho vínculo. (Ley Orgánica de Educación Superior, 2010)
41
HIPÓTESIS PREGUNTAS A CONTESTARSE
PREGUNTAS A CONTESTAR PARA PROYECTO FACTIBLE
1. ¿Con el estudio y análisis de las bases de datos origen y destino se
desarrollará un proceso de migración que garantice el traslado
correcto de los registros de matriculación a la nueva estructura de
base de datos?
VARIABLES DE LA INVESTIGACIÓN
VARIABLE INDEPENDIENTE
Desarrollar paquetes de datos con la herramienta Integration Services identificando
la información necesaria consistente desde la base de datos origen para llenar la
nueva estructura en el prototipo de nuevo sistema en el módulo de matriculación.
VARIABLE DEPENDIENTE
Garantizar el traslado exitoso de la información al módulo de matriculación para del
prototipo del Nuevo Sistema Académico con datos consistentes.
42
CAPÍTULO III
METODOLOGÍA
Diseño de La Investigación
Modalidad de la Investigación
El presente proyecto de tesis permite contribuir una solución integral para conservar
la información histórica de los estudiantes matriculados en los periodos semestrales
ordinarios de todas las carreras de la Facultad de Ciencias Administrativas al
prototipo de nuevo sistema académico, utilizando las herramientas de Business
Intelligence, y lograr la gestión de la información de forma centralizada en una sola
base de datos.
De tal forma se establece como un proyecto factible, el mismo que está conformado
en un 20% bibliográfico, 20% investigativo, y el 60% corresponde desarrollo del
proceso de migración del módulo de matriculación de la Faculta de Ciencias
Administrativas.
Proyecto Factible
Este proyecto de tesis se considera utilizar la modalidad de proyecto factible,
tomando en cuenta el estudio realizado a las estructuras de las bases de datos del
nuevo sistema académico y del uso y diseño de los proyectos de Integration
Services que tiene la capacidad de migrar la información de diferentes repositorios
sin correr el riesgo de que exista perdida de información y obtener como resultado
un archivos con los registros que tengan alguna novedad y no hayan sido sujeto de
la selección de datos para la extracción y transformación hacia el prototipo de nuevo
sistema académico.
43
DEFINICIONES BÁSICAS
Para una mayor comprensión de este capítulo de nuestro proyecto de tesis es
necesario conocer algunos términos que se usaran en el desarrollo del mismo.
Diagrama Causa-Efecto, o Diagrama Espina de Pescado.- (Ishikawa,
1943), “se usa para representar gráficamente los factores que afectan al
problema de calidad. Se trata de averiguar a través de un efecto las causas
que se producen para tomar acciones correctivas. Cada espina representa
una posible fuente de error.”
Población Objetivo
(PINEDA et al 1994:108) Es el conjunto de personas u objetos de los que se
desea conocer algo en una investigación. "El universo o población puede
estar constituido por personas, animales, registros médicos, los nacimientos,
las muestras de laboratorio, los accidentes viales entre otros". (PINEDA et al
1994:108).
44
Cuadro 1: MATRIZ DE OPERACIONALIZACIÓN DE VARIABLES
Variables Dimensiones Indicadores Técnicas y/o
Instrumentos V. I.
Desarrollar
paquetes de datos
con la herramienta
Integration
Services
identificando la
información
necesaria
consistente desde
la base de datos
origen para llenar
la nueva estructura
en el prototipo de
nuevo sistema en
el módulo de
matriculación.
Análisis y Diseño de
los paquetes de flujo
de datos que
ejecutan el proceso
de migración de
datos de los registros
del módulo de
matriculación.
Tiempo reducido
en la visualización
de datos.
Herramientas
Business
Intelligence de
Microsoft
V.D.
Garantizar el
traslado exitoso
de la información
al módulo de
matriculación
para del prototipo
del Nuevo
Sistema
Académico.
Estudio e
identificación de los
objetos de la plantilla
con los datos origen
con sus respectivos
campos para el
traslado a la base de
datos destino.
Alimenta la base
de datos del
prototipo del
nuevo sistema
académico para
que tenga la
información
centralizada de los
registros
migrados.
Evaluación de la
entrevista realizada
a los encargados de
la base de datos de
las carreras de la
Facultad de
Ciencias
Administrativas de
la Universidad de
Guayaquil.
Elaboración: José Salame Atiencia Fuente: José Salame Atiencia
45
INSTRUMENTOS DE RECOLECCIÓN DE DATOS
(Hernández Sampieri, 2006) Se utiliza la recolección y el análisis de datos para
contestar preguntas de investigación y probar hipótesis establecidas previamente y
confía en la medición numérica, el conteo y frecuentemente en el uso de la
estadística para establecer con exactitud patrones de comportamiento de una
población (Hernández Sampieri, 2006)
TÉCNICA UTILIZADA
En este proyecto de tesis se utilizó la técnica de la entrevista de campo, una de las
técnicas más usadas en los proyectos de investigación y que nos permitió recolectar
información real sobre los diversos escenarios problemáticos que se encuentran en
los datos y en las estructuras que contienen la información de los registros de
matriculación de las carreras de la Facultad de Ciencias Administrativas de la
Universidad de Guayaquil.
Otra de las técnicas usadas son los mapas de procesos que nos ayudan a
identificar el flujo de los procesos que se realizan en la migración o traslado de los
datos.
También usamos el Diagrama causa y efecto o también llamada espina de pescado
que nos permitió identificar las causar que afecten directamente al problema de esta
forma nos permite tomar decisiones para garantizar el objetivo principal.
LA ENTREVISTA
En la presente tesis vamos a mencionar algunos conceptos de esta técnica:
"Es una relación directa entre personas por la vía oral, que se plantea unos
objetivos claros y prefijados, al menos por parte del entrevistador, con una
asignación de papeles diferenciales, entre el entrevistador y el entrevistado, lo que
supone una relación asimétrica" (Pelachano, 1979).
46
"Una conversación organizada con objetivos flexibles usada como medio de
orientación personal, escolar y profesional del alumno, así como una orientación a
padres, resto de profesores y PND" (Román y Pastor 1984, 279).
DIAGNÓSTICO GENERAL DE LA ORGANIZACIÓN
En este capítulo se realiza una recopilación del diagnóstico general de la Facultad
de Ciencias Administrativas.
La Facultad de Ciencias Administrativas tiene como fin la formación y preparación
de sus estudiantes, para que sean líderes en el desarrollo y progreso
socioeconómico del país, tanto en el sector privado como en el público (Facultad de
Ciencias Administrativas, 2015).
Por lo que, en sus programas se incluyen teorías, herramientas y las habilidades
necesarias para lograr, las capacidades y actitudes intangibles de liderazgo: una
actitud de investigación práctica, habilidad para sintetizar ideas y utilizar información
proveniente de todas partes, visión del futuro, participar y motivar el trabajo en
equipo y sobre todo la actitud de combinar acción efectiva (Facultad de Ciencias
Administrativas, 2015).
Desde el aula, el graduado debe ser motivado para mejorar no solamente su propia
vida, sino también la de su comunidad y del país, es decir tenemos la misión de
crear profesionales emprendedores (Facultad de Ciencias Administrativas, 2015).
47
Gráfico 4: Organigrama de la organización
Elaboración: José Salame Atiencia Fuente: Facultad de Ciencias Administrativas
48
Misión
(Facultad de Ciencias Administrativas, 2015) Unidad Académica dedicada a la
formación de profesionales en Administración de Negocios y Contaduría Pública,
fomentando la creatividad y desarrollo de competencias que permitan generar valor
agregado mediante la aplicación de metodologías, acordes a los avances
tecnológicos de un mundo globalizado, propiciando la investigación, vinculación con
la sociedad, que contribuya al desarrollo del país, de acuerdo con el Plan Nacional
de Buen Vivir, con altos valores morales, éticos y cívicos, para ser copartícipe en la
formulación de emprendimientos y la producción de bienes y servicios (Facultad de
Ciencias Administrativas, 2015).
Visión
(Facultad de Ciencias Administrativas, 2015) Al 2015, será líder nacional en la
formación de profesionales en Administración de Negocios, con elevados
estándares académicos y pensamientos para el desarrollo socioeconómicos, con
conocimientos y dominio de la tecnología, con cultura empresarial, altos valores
morales, éticos, cívicos y con conciencia ecológica, maximizando la productividad,
innovación y emprendimiento organizacional, de acuerdo al Plan Nacional del Buen
Vivir. (Facultad de Ciencias Administrativas, 2015)
ANÁLISIS FODA
El análisis DAFO (o FODA) es una herramienta de gestión que facilita el proceso de
planeación estratégica, proporcionando la información necesaria para la
implementación de acciones y medidas correctivas, y para el desarrollo de
proyectos de mejora. El nombre DAFO, responde a los cuatro elementos que se
evalúan en el desarrollo del análisis: las debilidades, amenazas, fortalezas y
oportunidades. (Olivera, 2013)
49
Por medio de nuestro análisis FODA se intenta evaluar desde una perspectiva la
situación actual de la Facultad referente a los datos que almacena y como construir
el proceso para la migración de datos, adicionalmente esto nos permite observar las
dificultades y ventajas externas e internas que se tiene actualmente respecto los
datos, de esta manera podemos proporcionar elementos de juicio que pueden
orientar al diseño y realización de proyectos nuevos. Para el caso de este proyecto
de tesis es proponer una solución utilizando herramientas tecnológicas.
Fortalezas
Dentro de las fortalezas encontradas en la Facultad podemos mencionar:
Se cuenta con la herramienta de inteligencia de negocios que es una de las
más potentes para el manejo masivo de información como es SQL SERVER
Integration Services obteniendo una compatibilidad en los servidores origen
y destino de esta tesis al 100% por ser de la misma fuente Microsoft.
Establecer una metodología para la migración de cualquier facultad que
desee integrarse al prototipo de nuevo sistema académico.
Tener acceso a la información de manera inmediata a los registros históricos
de los estudiantes matriculados en la Facultad de Ciencias Administrativas.
Posibilidad de crecer en el tiempo, el modelo que se encuentra desarrollado
en el prototipo permite almacenar información de varias carreras y facultades
de forma centralizada.
Debilidades
La Facultad no guarda la información directamente al sistema centralizado
de la universidad de Guayaquil, por ende el proceso en su primera fase
deberá empezar con una matriz de Excel para su posterior traslado y
procesamiento de datos.
No cuenta con un plan estratégico para la elaboración de respaldos de la
base de datos.
50
El proceso de migración es muy dependiente de las diferentes tablas que
hagan referencia al módulo de matriculación, como son: Horarios, Notas,
Mallas y Personas.
Debe realizar primero la migración de cada módulo dependiente para que el
proceso de migración del módulo matriculación sea exitoso.
La homologación o transformación código dependientes de otros módulos
debe ser coordinada en conjunto de tal forma que los código que se migren
coincidan en contenido y tipo de dato
Oportunidades
Ofrece un crecimiento del mercado empresarial y educativo.
Ofrece importante motivación para el desarrollo administrativo de la Facultad
de Ciencias Administrativas.
Pertenece a una de las universidades más conocidas del Ecuador con un
gran número de estudiantes activos en distintas facultades.
Las fases en las que está divido el proceso permiten establecer el plan de
ejecución de todo el proceso.
Amenazas
No seguir los pasos establecidos de todo el proceso de migración de datos.
Existencia de poco espacio en disco para el servidor de destino.
Selección incorrecta de los datos para migrar podría dejar afuera a registros
de estudiantes que si deben ser migrados
Modificación de las leyes de educación superior podrían alterar el orden pre
establecido del proceso de migración.
Algunos registros no serán migrados por ser considerados inconsistentes
Existe la probabilidad de que alguna facultad que desee integrarse, cuente
con algún motor de base de datos que no sea SQL SERVER y contenga
algún tipo de dato en sus tablas que necesite una tratamiento especial.
51
DIAGRAMA CAUSA Y EFECTO (Espina de Pescado)
De acuerdo a la información recogida en la entrevista es muy importante identificar
las causas por las cuales nuestro proceso de migración presentaría problemas
ocasionando que nuestro resultado en el traslado de la información no sea
satisfactorio. Para lograr identificar estos problemas nos basamos en el siguiente
diagrama de espina de pescado.
Gráfico 5: Diagrama Espina de Pescado para la migración de
datos
Elaboración: José Salame Atiencia Fuente: Entrevista
ANALISIS DE LAS CAUSAS
A continuación analizaremos cada causal detallado en nuestro diagrama espina de
pescado para determinar las sub causas y explicar más detalladamente los
inconvenientes encontrados y que se encuentran en el diagrama:
52
Administrador
El administrador es el encargado y responsable de la Base de datos donde
se encuentra toda la información de la facultad de ciencias administrativas.
Basado en la entrevista que nos otorgó es importante recalcar esta causa en
nuestro diagrama de espina de pescado debido a que gracias a la
identificación de los campos que realice el administrador se puede cumplir
con el traslado de información correctamente.
Una mala identificación de los campos conlleva inmediatamente a una
inconsistencia de los registros en el repositorio destino, es decir, se estarían
seleccionando datos que no corresponden a los que la nueva base de datos
espera, ocasionando que se migren datos errados de los estudiantes.
Datos
Nos referimos a la DATA, es decir al contenido de la base de datos o plantilla
a gestionarse, para este caso específicamente de los registros contenidos
del módulo de matriculación de los estudiantes de la facultad.
Un punto importante a recalcar en este causal es que en los datos
seleccionados o extraídos en la plantilla de datos origen, pueden contener
registros duplicados que constituyen registros inconsistentes y redundantes
para el nuevo modelo de base de datos destino.
Según el modelamiento de la base de datos destino tiene como clave
primaria un campo único de tipo uniqueidentifier, lo cual es importante
generar un id por cada registro consistente, debido a que también podría
incurrirse en generar un id diferente para un registro duplicado lo cual
estaríamos generando una inconsistencia.
53
Por eso es importante el análisis de los datos que se encuentren en la
plantilla de datos origen y determinar un script genérico que permita abarcar
todos los escenarios garantizando la seguridad y consistencia de la
información que se va a migrar.
Estructura BD
De igual forma como se analiza y estudia el problema también es importante
el análisis y estudio de la estructura de la base de datos destino, debido a
que se debe identificar plenamente los campos que se necesitan llenar.
También es muy importante conocer cómo funciona el modelo entidad
relación (MER) de la base de datos destino, y lograr identificar las
dependencias que puede tener el modelo, esto permitirá llenar
correctamente los campos y las tablas, sin embargo si este análisis no es
correctamente elaborado podríamos truncar totalmente el proceso de
migración, debido a que podríamos encontrar una integridad referencial en
alguna tabla que no nos permita insertar la información.
Esta integridad referencial solo respeta al modelo de base de datos
construido, es decir que no podremos llenar una tabla mientras no llenemos
la otra que le hace referencia, es por eso que no podríamos realizar la
migración si estos casos no fuesen identificados.
De igual forma debemos tomar muy en cuenta los datos la integridad que
puede poseer la plantilla de datos origen y realizar el proceso de extracción
de datos manteniendo dicha integridad, porque podríamos incurrir en no
seleccionar el detalle de alguna tabla maestro y ocasionar una perdida
circunstancial de los datos. Para evitar esto es importante realizar el análisis
para la selección y extracción de los datos.
54
Tipos de Datos
Para garantizar que la información se traslade correctamente debemos
también estudiar los tipos de datos conformados desde la plantilla de datos
origen a la base de datos destino.
Aquí podemos decir que también podríamos incurrir en que todo el proceso
de migración de datos podría fallar porque si no se identifican correctamente
los tipos de datos tendremos una incompatibilidad de los mismos.
Sin embargo también podríamos tener una migración exitosa pero con los
datos incorrectos debido a que existen algunos tipos de datos que podrían
migrarse a pesar de su incompatibilidad pero la información ya no sería la
misma, esto quiere decir que el resultado sería una inconsistencia en los
registros debido a que la información se migró pero con datos incorrectos.
Generar una migración incorrecta pero exitosa suele suceder por ejemplo
con tipo de datos numéricos y decimales, en donde los decimales a veces no
llegan a migrarse o en tipos de datos fecha y hora donde la hora a veces no
se migra sino solo la fecha.
Partiendo del diagrama de espina de pescado elaborado, se realizó un análisis y se
determinó que la principal causa que impida realizar la migración correcta de los
datos es la incorrecta identificación de los campos y la identificación de los tipos de
datos que se tiene en la plantilla de datos origen.
La identificación de los campos a tomar para la selección de los datos es vital para
garantizar que la información que se traslade a la nueva base de datos sea correcta,
con esto podemos decir que todos los datos que se encuentran seleccionados en la
plantilla de datos origen son idénticamente iguales en la base de datos destino.
55
• Verificar • Actuar (Act)
• Hacer (Do)
• Planificar
ANÁLISIS DE PROCESOS Y PROPUESTA DE MEJORAS
Basado en el análisis realizado para conocer y evaluar las principales
características del proceso de migración de datos a realizarse sobre la Facultad de
Ciencias Administrativas en el módulo de matriculación, tomando en cuenta las
estrategias y metodologías escogidas se determinaron dos procesos para mejoras.
CICLO DEMING
Gráfico 6: Ciclo Deming para la migración de datos
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
Para el proceso de migración se
analizan los repositorios y las tablas para Identificar
los objetos de BD origen y destino. Diseño de una matriz de datos estándar identificando los campos necesarios que el DBA
de la facultad seleccionó para poder trasladar la información
consistente al nuevo repositorio.
Generación del XLS siguiendo el formato establecido en la matriz de datos. Diseño de paquetes de datos con la herramienta Integration Services. Realizar procesos de selección, transformación y carga de datos. Diseño y construcción de scripts para Seleccionar y transformar los datos.
Establecer pruebas de registros para comprobar la integridad de los datos Services se debe comprobar la Calidad de los datos y verificar los datos migrados y los datos que Fueron descartados en el proceso Para establecer los correctivos Necesarios dependiendo de cada registro.
Realizar la integración de los scripts diseñados y los paquetes de datos
construidos con la herramienta Integration Services de tal manera que los scripts puedan recolectar l
a información y generar el XLS con los datos y poder trasladar los
registros a la BD destino de
forma masiva y a gran escala
56
MAPA DE PROCESOS
En la investigación realizada en la presente tesis utilizamos la entrevista como
técnica para la recopilación de información, una vez obtenida la información se
procedió a la elaboración de los mapas de proceso para detallar paso a paso los
procesos que se realizan en la migración de información entre repositorios para
garantizar una ejecución ordenada de cada uno de ellos ya que se encuentran
divido basado a la estrategia escogida.
Para nuestro caso es importante recalcar que el nuestro origen de datos es la
plantilla de datos otorgada por la Facultad de Ciencias Administrativas, la entrevista
fue dirigida al Sr. Jairo Castro encargado de desarrollar los requerimientos que
llegan a la facultad y de la estructura de base de datos.
Cada proceso detallado se caracteriza como una etapa dentro del proceso de
migración de datos que nos permite trasladar la información de una manera
ordenada y funcional.
El cliente para nuestro mapa de procesos es la Facultad de Ciencias
Administrativas.
A continuación mostramos nuestro mapa de procesos y explicaremos cada uno de
los procesos establecidos que nos permitieron llevar a cabo nuestro principal
objetivo que fue migrar la información.
57
Gráfico 7: Mapa de procesos Migración de datos
Elaboración: José Salame Atiencia
Fuente: Entrevista
El proceso inicia con la solicitud del requerimiento y concluye con la satisfacción del
usuario final. A continuación detallamos de qué se trata cada proceso de nuestro
mapa.
Proceso Extracción De Datos
Uno de los principales procesos es el análisis de la estructura del prototipo de nuevo
sistema académico, ya que dependiendo de cómo este diseñado el nuevo modelo
de base de datos podemos establecer los campos y datos que vamos a requerir
para que sean llenada correctamente la nueva estructura.
Para este proyecto de tesis se realizó el estudio de las tablas sobre el módulo de
matriculación, también sobre su modelo entidad relación (MER) para identificar las
dependencias en caso que existan, de esta manera se lleva a cabo la elaboración
de un formato para que sea llenado por el encargado de base de datos, ya que
58
directamente no podemos accesar a la base de datos de producción de la Facultad
de Ciencias Administrativas.
Proceso Transformación De Datos
El proceso de transformación de datos arranca una vez identificado los datos
otorgados en la matriz, esto nos va a permitir identificar la compatibilidad de los
datos y de los tipos de datos que tiene cada campo de la plantilla de datos origen y
prepararlos para la etapa de migración y carga de datos.
Proceso Migración De La Información
Una vez identificado la estructura y teniendo la información en nuestro origen de
datos preparado se procede a la elaboración de nuestros paquetes de datos
utilizando la herramienta escogida para la migración de los datos.
En la presente tesis se escogió la herramienta de inteligencia de negocios que está
en el mismo SQL Server llamada Integration Services, ya que existe una directa
compatibilidad con el motor de base de datos destino.
En este proceso se realiza el traslado de la información, sin embargo para poder
realizar este proceso debemos configurar los elementos que conforman el paquete
de datos, aquí se hace una pequeña homologación de los campos, es decir se
realiza la identificación de los campos orden y de los campos destino que
conforman las tablas del módulo de matriculación del prototipo de nuevo sistema
académico.
De esta forma se pueden realizar pruebas de integración y migración de datos,
también podemos realizar las comprobaciones de los datos migrados y constatar la
consistencia.
59
ANALISIS Y ESTRATEGIA PARA EL PROCESO DE MIGRACION DE
DATOS
Estudio y Análisis Preliminar
Los primero que realizamos antes de desarrollar el proceso de migración de datos
fue identificar bien el origen de datos, es decir identificar de dónde íbamos a extraer
los datos que contenía la información de los estudiantes matriculados de la Facultad
de Ciencias Administrativas.
Gráfico 8: Proceso de migración de datos entre servidores
Fuente: José Salame Atiencia
Este proyecto de tesis se encarga de migrar el módulo de matriculación de todas las
carreras que estén incluidas en la base de datos origen, para lo cual se procedió a
realizar un plantilla que nos permita identificar plenamente los campos y los datos
que permitan llenar la nueva estructura en la que funciona el nuevo sistema
académico.
La base de datos origen estuvo instanciada en un servidor cuyo motor de base de
datos es SQL SERVER 2008 y con un nombre lógico llamada FCA a la que
llamaremos en el transcurso de esta tesis como la plantilla de datos origen.
60
Este estudio de la base de datos origen sobre el módulo de matriculación
comprende entender de qué forma se encuentran estructuradas las tablas y de qué
forma se encuentra definido el modelo entidad relación, con esto logramos analizar
más detalladamente las dependencias que tienen todos los objetos tipo tablas y con
sus respectivos campos, también se identificó los tipos de datos para poder
seleccionar y extraer la información correspondiente a las tablas y los campos que
se migraron al prototipo de nuevo sistema académico.
De la misma manera se procedió al análisis y estudio de la base de datos destino,
que como característica principal está diseñada en un motor SQL SERVER 2012
con un nombre lógico BDSistemaAcademico a la que llamaremos en el transcurso
de esta tesis como la base de datos destino, en la que logramos identificar los
objetos que comprenden el módulo de matriculación con sus respectivos objetos de
base de datos como las tablas, campos y tipos de datos respectivamente.
Análisis para la extracción de los datos
Una vez que tenemos identificados los objetos que se deben utilizar procedemos a
la extracción de la información de la base de datos origen procedemos a realizar la
selección de la información a migrar, esta selección comprende identificar el orden
de los campos con su respectiva homologación de tipo de datos, para garantizar
que los datos contenidos en cada campo se migren en el tipo de dato respectivo, es
decir, evaluar los tipos de datos origen y destino y realizar las respectivas
conversiones de tal forma que los datos lleguen a la base de datos destino
correctamente.
Es de carácter importante y critico identificar los datos que se encuentren en la base
de datos origen y que puedan ocasionar que el modelo de la base de datos destino
lo rechace debido a alguna incompatibilidad en sus tipos de datos o a su vez la
información origen tenga alguna inconsistencia que no soporte la base de datos
destino.
61
Sin embargo debido al volumen de datos encontrados en la base de datos origen no
se puede determinar de forma si existe alguna inconsistencia sino hasta la hora que
se realice el proceso pruebas de migración.
Cuando definimos la selección de los datos las traducimos al SQL, de tal manera
que se convierten en scripts que estarán contenidos en los paquetes del nuestro
Integration Services.
Transformación
La transformación es un proceso que requiere identificar las reglas o funciones
sobre la información que se ha obtenido de tal manera que la información que se
haya extraído o seleccionado esté preparada para ser interpretada por el nuevo
modelo entidad relación de la base destino.
Debemos tomar en cuenta que para la transformación de datos existen 2 formas de
realizar una migración como son:
Migración en Sitio: Se refiere a la actualización automática, completa y
directa de los objetos de la base de datos destino, convirtiendo todos los
datos a los formatos nuevos, pero los objetos de la base de datos destino no
podrán ser usados mientras se cumple este proceso.
Migración gradual: El contenido seleccionado y extraído de la base de
datos origen primero puede ser almacenado en tablas o bases de datos
temporales para luego ser migrado a las definitivas estructuras destino.
Considerando el volumen de los datos se pueden realizar pruebas de migración a
pequeñas escalas para poder determinar si la extracción de datos funciona y llena
las tablas de forma correcta, después se pueden realizar más pruebas a mayor
escala para medir el desempeño del proceso.
62
Los resultados de la información fueron analizados tomando de una muestra de
registros y comparando la información que se encentraba tanto en la base de datos
origen como la base de datos destino.
En este proyecto de tesis no se migraran objetos tipo Stored Procedures (SP) sino
solo información contenida en las tablas correspondientes al módulo de
matriculación de la Facultad de Ciencias Administrativas
DESARROLLO DE LA METODOLOGIA PARA LA MIGRACIÓN DE DATOS
Introducción
Un proceso de migración de datos puede ser bastante complejo por el número de
tipos de bases de datos que existen, resultaría difícil dar una solución que funcione
para todos los casos.
Adicionalmente influirá mucho en la complejidad de cada problema encontrado por
los tipos de datos que se manejan entre repositorios.
Por ejemplo los tipos de datos booleanos o numéricos con decimales son los
principales candidatos por las maneras distintas de almacenarse y manejarse entre
algunas bases de datos.
Metodología
Consiste analizar cómo está conformada la estructura de la base de datos destino e
identificar todas las tablas, campos y dependencias con los que fue construida.
Para nuestro caso se detectó que:
Las tablas participantes para la migración son 2 tablas
El modelo de datos de estas 2 tablas responde a un modelo maestro-detalle.
63
El modelo de datos destino está compuesto por varios esquemas para
nuestro estudio utilizaremos el esquema matriculación.
De esta manera se logró obtener la estructura que se necesitan para que las tablas
destino puedan ser llenadas con la información correspondiente a la base de datos
origen de los estudiantes matriculados.
Base De Datos Destino
Según el análisis de la base de datos destino BDSistemaAcademico lo primero
que hay que recalcar de este modelo es que está compuesto por esquemas de base
de datos.
En esta tesis vamos a concentrarnos en el esquema Matriculación que también
corresponde a un esquema maestro-detalle para la información de los estudiantes
matriculados.
Análisis de la Base de Datos Destino
A continuación detallamos los objetos de base de datos tomados en cuenta para
realizar el análisis para luego proceder con el proceso de migración de los datos. Es
importante analizar los atributos de los objetos que en este caso son las tablas que
contienen los registros de los estudiantes matriculados.
Una de las principales observaciones del modelo de base de datos destino es que
cada tabla tiene su propia clave primaria de tipo uniqueidentifier
De esta base de datos se han considerado llenar las tablas que se detallan a
continuación:
64
TABLA: MATRICULACION
ESQUEMA: MATRICULACION
Gráfico 9: Tabla Matriculación del prototipo Nuevo Sistema Académico
Elaboración: José Salame Atiencia
Fuente: Base de datos prototipo de Nuevo Sistema Académico
De esta tabla se llenaran los campos:
ID: Este campo será generado automáticamente por una función que
convierte el campo NUMERO_MATRICULA de la plantilla de datos en el tipo
de dato uniqueidentifiquer.
IDCARRERA: Corresponde al id de la carrera, será tomado del campos
CODIGO_CARRERA convertido en uniqueidentifiquer
IDPERIODO: Corresponde al id de la tabla PeriodoCiclo del Módulo de
horarios.
IDPERSONA: Es el campo ID_ESTUDIANTE convertido en
uniqueidentifiquer
65
ESTADO: Es el ID del estado de la matrícula del estudiante, es homologado
con el campo ESTADO de la base origen.
USUARIOCREACION: Es el usuario genérico que se usó para identificar
que es un registro migrado.
FECHACREACIÓN: Tomado del campo FECHA_CREACION de la base de
datos origen
Estos son los campos que conforman la tabla maestro del módulo de
matriculación del prototipo de nuevo sistema académico.
En esta tabla se considera que los campos que conforman ID’s foráneas
sean migrados inicialmente antes de realizar nuestra migración.
Tabla: DetalleMatriculacion
Esquema: Matriculacion
Gráfico 10: Tabla DetalleMatriculacion prototipo Nuevo Sistema Académico
Elaboración: José Salame Atiencia
Fuente: Base de datos prototipo de Nuevo Sistema Académico
66
Esta tabla corresponde al detalle de la matriculación en la base de datos destino.
De esta tabla se logró identificar que los campos a llenar son los siguientes:
ID: Este campo será generado automáticamente por una función que
convierte el campo NUMERO_MATRICULA de la plantilla de datos origen en
el tipo de dato uniqueidentifiquer
IDMATRICULACIÓN: Corresponde al id de la tabla cabecera Matriculación
NUMEROVECES: Corresponde al campo VEZTOMADA de la tabla
FCA_ESTUDIANTE_MATERIA de la plantilla de datos origen.
OBSERVACIONES: Es el campo COMENTARIO_MATRICULA de la tabla
FCA_MATRICULA_CABECERA de la plantilla de datos origen.
CUPO: Corresponde al campo VEZTOMADA de la tabla
FCA_ESTUDIANTE_MATERIA de la plantilla de datos origen.
ESTADO: Es el ID del estado de la matrícula del estudiante, es homologado
con el campo ESTADO de la plantilla de datos origen.
USUARIOCREACION: Es el usuario genérico que se usó para identificar
que es un registro migrado.
FECHACREACIÓN: Tomado del campo FECHA_CREACION de la plantilla
de datos origen.
DESARROLLO DEL FORMATO MATRIZ DE DATOS
Una vez recopilados la información de la base de datos destino, se elaboró un
formato de matriz de datos con extensión .XLSX que contiene el detalle de la
67
estructura de datos destino, suficientes para poder relacionar cada campo origen
con cada campo destino.
Este formato tiene las siguientes características:
Nombre de los campos: Nombre referencia al campo de la tabla destino.
Descripción: Breve descripción del uso del campo en la tabla destino.
Tamaño de los campos destino
Cada hoja corresponde al contenido de cada tabla de la base de datos
destino.
La elaboración de esta matriz fue diseñada específicamente para llenar las tablas
del módulo de Matriculación del prototipo de nuevo sistema académico de los
estudiantes de la facultad de ciencias administrativas con sus periodos ordinarios.
Este formato en Excel fue entregado al entrevistado para que nos pueda
proporcionar la data y poder realizar nuestras pruebas de migración a un ambiente
local previamente preparado.
En resumen este archivo en Excel es la guía para poder seleccionar los datos
necesarios para poder llenar las tablas destino.
PROCESO DE MIGRACIÓN DE DATOS
Nuestra metodología nos permitió identificar los componentes que participan en el
proceso de migración y segmentarlo en 2 partes, que se describen a continuación:
68
Gráfico 11: PARTE DEL PROCESO DE MIGRACIÓN
Elaboración: José Salame Atiencia Fuente: José Salame Atiencia
Según el análisis realizado nuestra primera parte consiste en generar un archivo de
Excel que contiene un formato especifico con las características de las tablas de la
base de datos destino de tal forma que contenga la información depurada.
Nuestra segunda parte consiste en tomar la información recopilada en Excel y
realizar las transformaciones necesarias para lograr trasladar la información hacia la
base de datos destino.
ETAPAS DEL PROCESO DE MIGRACIÓN DE DATOS
Para la construcción de nuestro proceso de migración de datos se definieron 3
etapas que nos permitieron establecer las pautas para realizar el traslado de la
información garantizando la consistencia en los datos e informando los registros que
se consideren inconsistentes por no cumplir las formas de normalización.
Cada etapa del proceso de migración es secuencialmente ejecutado, de no
cumplirse con alguna etapa correctamente no se garantizar que la migración se
realice correctamente.
69
Gráfico 12: ETAPAS DEL PROCESO DE MIGRACIÓN DE DATOS
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
Cada etapa que se ha establecido fue conjugada por cada segmento establecido en
las partes de la migración obteniendo como resultado la siguiente estructura:
Gráfico 13: Partes del proceso con etapas
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
TERCERA ETAPA
CARGA DE DATOS
SEGUNDA ETAPA
SEGMENTACIÓN Y TRANSORMACIÓN DE DATOS
PRIMERA ETAPA
SELECCIÓN Y EXTRACCIÓN DE DATOS
70
PRIMERA PARTE DEL PROCESO
Esta primera del proceso obtuvimos un archivo de Excel final como repositorio con
los datos depurados de la base de datos origen.
A continuación detallamos el desarrollo de la primera parte en conjunto con las
respectivas etapas del proceso de migración de datos desde la base de datos
origen hacia nuestro archivo de Excel como repositorio de datos destino.
Primera Etapa: Selección y Extracción de Datos
En esta primera etapa se elabora el análisis del origen de los datos, se
identifican las tablas que se necesitan para recopilar la información de tal
manera que sea suficiente para el correcto llenado de las tablas de la base
de datos destino. De igual forma se estudia el modelo de base de datos para
identificar las dependencias que tengan los objetos implicados para la
selección de los datos a extraer de los registros de los estudiantes
matriculados.
Origen De Datos
Para llevar a cabo el proceso de migración de datos se realizó el estudio del
modelo entidad relación de la base de datos de la Facultad de Ciencias
Administrativas denominada FCA y el contenido que tiene cada tabla
implicada los registros de los estudiantes matriculados en periodos
ordinarios.
Análisis del Origen De Datos
La estructura del origen de datos que están implicados en el módulo de
matriculación no se encuentran relacionadas entre sí, sin embargo se
pueden relacionar las tablas porque comparten ciertos ID’s en sus campos.
De esta forma se pueden determinar que algunas tablas tienen relación con
otras.
71
Gráfico 14: Principales tablas implicadas de la BD origen
Elaboración: José Salame Atiencia
Fuente: Base de datos origen
Con la información proporcionada y con la identificación del modelo de datos
origen se procedió a la elaboración del proceso de migración, para lo cual se
pudieron evidenciar algunas inconsistencias de la base de datos origen.
A continuación mencionaremos los problemas encontrados a la hora de la
migración de datos.
Las tablas que se tomaron para la selección de datos de los
estudiantes matriculados no cuentan con una integridad referencial, lo
que ocasiona que puedan existir datos inconsistentes. Se detectó que
la tabla FCA_MATRICULA_CABECERA es como la tabla maestro de
la tabla FCA_ESTUDIANTE_MATERIA puesto que contiene su ID
principal que es el ID de la matrícula.
La Tabla FCA_ESTUDIANTE_MATERIA no cuenta con claves
primarias, esto es una gran desventaja a la hora de controlar la
información que se graba en la tabla, esto permitiría que la tabla
reciba datos duplicados, ocasionando inconsistencias en todo el
modelo de la base de datos.
72
La tabla FCA_MATRICULA_CABECERA contiene un campos
llamado ID_ESTUDIANTE, el cual se detectó mediante el proceso de
migración que era de tipo VARCHAR(15) y contenía a la identificación
de los estudiantes matriculados sin embargo se encontraron registros
que en dicho campos contenía caracteres especiales como pipe,
asteriscos y puntos (|*.).
El mismo campo ID_ESTUDIANTE hacía referencia a la identificación
del estudiante pero con ello no se podía determinar qué tipo de
identificación tenía el estudiante, ya que actualmente se debe
identificar si es de tipo Cedula o pasaporte.
Dentro de los datos se pudo evidenciar que existían registros
constaban en la tabla FCA_MATRICULA_CABECERA pero no tenían
ninguna información en la tabla FCA_ESTUDIANTE_MATERIA que
es la tabla que contiene el detalle de la matrícula.
Varios registros también se encontraban duplicados en la tabla
FCA_ESTUDIANTE_MATERIA probablemente producto de alguna
otra migración puesto que en el campo de usuario hacía referencia a
un proceso de migración antes realizado, sin embargo estos registros
se encontraban inactivos gracias al campo ESTADO de la tabla.
Consideraciones
Se definió un corte de periodo, es decir desde que periodo se tomó en
cuenta para trasladar los datos.
Se identificaron las dependencias de las tablas para establecer el orden
de selección de datos y no se tenga problemas con tablas o datos
dependientes entre sí.
73
Se elaboró la cantidad de querys necesarias como hojas o tablas existan
en la base de datos destino, cada hoja de la matriz de datos corresponde
a una tabla en la base de datos destino.
Segunda Etapa: Segmentación y Transformación de Datos
Esta segunda etapa consiste en el diseño de los querys planteados en la
primera etapa conjuntamente con la elaboración de los paquetes de datos en
la herramienta de negocios Integration Services para lograr obtener la
información y generar el archivo de Excel con los datos depurados y
respetando la matriz de datos elaborada al inicio del proceso.
Requisitos
Creación de carpeta con el contenido de los formatos de Excel que se
van a procesar. (C: \PlantillasDTS\FormatoDatos.xlsx)
Creación de carpeta con el contenido del archivo final de Excel con la
información Migrada (C:\DatosMatriculacion\ DatosMatriculacion.xlsx)
Uso de La Matriz de Datos
Una vez concluida la primera etapa se procede a la comparación de los
scripts diseñados y la matriz de datos en Excel, de tal forma que se
identifiquen los respectivos campos para establecer la vinculación en ambos
repositorios según su uso.
Hay que tomar en cuenta que la matriz de datos es un archivo guía que
permite generar un nuevo archivo de XLS con los datos depurados.
Para llevar a cabo esta vinculación se desarrolla un paquete de datos con la
herramienta Integration Services de Microsoft tomando en cuenta los querys
diseñados en la primera etapa, dando como resultado un archivo de Excel
con los datos recopilados respetando el formato establecido al inicio del
74
proceso. Según el análisis se generará un solo archivo de Excel con 2 hojas
debido a que son 2 tablas las afectadas en la base de datos destino.
Gráfico 15: Paquete de datos que genera los datos en Excel
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
Partes del Paquete de Datos
Limpiar Archivo XLS.- Este componente es llamado File System
Task Editor y permite la manipulación de archivos, para nuestro caso
lo usamos limpiar el archivo final de destino XLS cada vez que se
ejecuta el proceso, es decir lo limpia y lo llena cada vez que se
ejecuta.
75
Gráfico 16: Componente File System Task Editor
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
DATAFLOW XLS Cab y DATAFLOW XLS Det.- Estos componentes
son llamado DataFlow y cada uno contienen diferente rutinas para
realizar una tarea específica. Y para nuestro caso es la generación
del archivo de Excel y cada uno contiene los script que permite
obtener los datos para las tablas cabecera y detalle respectivamente
de la base de datos destino.
También realiza una conversión de los datos para que puedan ser
almacenados en el archivo XLS.
Gráfico 17: DataFlow XLS
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
76
OLE DB SOURCE.- Este componente nos permite conectar al origen
de datos, para nuestro caso es la base de datos origen FCA y
ejecutar nuestro script.
Gráfico 18: Componente origen de datos
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
El componente origen de datos contiene los scripts diseñados en la
primera etapa de este proceso, para nuestro caso se elaboró y Stored
Procedure que contiene los scripts que recopilan la información sujeto
de migración.
Para ambos DataFlow se debe elaborar un script para la recopilación
de información correspondiente al formato de matriz de datos.
Data Conversion.- Permite convertir los tipos de datos origen en
tipos de datos compatibles con el destino de datos.
77
Gráfico 19: Vinculación y Conversión de campos para Excel
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
En el Gráfico se observa la transformación de algunos campos para
que exista compatibilidad desde el origen de datos hacia el archivo de
Excel.
Excel Destination Editor.- Este componente permite crear el
repositorio destino con la información recopilada en un archivo de
Excel previamente configurado.
78
Gráfico 20: Componente Excel Destination Editor
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
Los datos recopilados corresponden solo a datos consistentes ya que los
datos inconsistentes serán reportados al administrador de base de datos en
un archivo XLS. diferente para que se proceda al análisis de esos datos y las
respectivas correcciones.
Consideraciones
Se establece el número de registros a migrar para realizar la respectiva
comparación al final del proceso.
Elaboración de los querys que generen la información cumpliendo la
matriz de datos elaborada.
Se estableció el orden de secuencia de ejecución para cada Query
tomando en cuenta las dependencias de las tablas origen y destino por
las claves primarias y foráneas.
Los querys dotan de información consistente capaz de distinguir los
registros que no cumplan las formas de normalización.
79
Construcción de querys que permitan obtener los registros inconsistentes
clasificados por tipos, los tipos de inconsistencias fueron clasificados en
4 grupos:
o Duplicidad
o Inconsistencia en los registros claves primarias
o Registros huérfanos
o Registros sin hijos.
Tercera Etapa: Carga De Datos
En esta tercera etapa se procedió a la ejecución del paquete de datos
diseñado en la segunda etapa. Estos paquetes están configurados siguiendo
una secuencia que garantiza que los tablas dependientes se llenen en el
orden adecuado.
En caso que la ejecución no sea exitosa se genera un archivo de Excel con
los registros que presentaron problemas durante el proceso, eso ocasionará
que el archivo final con los datos depurados no se genere.
El archivo final con los datos se generará solo si la ejecución fue totalmente
exitosa.
80
Gráfico 21: RESUMEN DE LAS ETAPAS DEL PROCESO DE MIGRACION DE DATOS
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
Una vez concluida las etapas de la migración de datos en su primera parte tenemos
como resultado 2 archivos de Excel.
El primer archivo de Excel contiene los datos respetando el formato de la
matriz diseñado al inicio del proceso.
El segundo archivo de Excel contiene los registros que presentaron
inconsistencias durante el análisis y el proceso de migración, estos registros
estarán clasificados por tipo de error para que sean entregados al
administrados de la base de datos origen y pueda tomar correctivos para
poder realizar la migración de esos registros.
Primera Etapa
•Análisis del origen de datos, estructuras, tablas ,dependencias.
•Creación del Formato para la Matriz de datos
•Definición de periodos a extraer los datos
•Definición de numero de registros a migrar.
Segunda Etapa
•Diseño de los Querys basado en el analisis de la primera etapa
•Diseño de paquete de datos para la extracción de linformación depurada.
•Generació n de archivo de Excel respetando formato correspondiente a la BD destino.
•Datos segmentados para poder distinguir la información inconsistente.
Tercera Etapa
•Ejecución de los Paquetes de datos diseñados en la 2da etapa.
•Datos consistentes e inconsistentes separados.
•Información depurada en Excel como origen de datos
•TIempo estimado de migración 1 hora aprox.
81
SEGUNA PARTE DE LA MIGRACIÓN DE DATOS
Esta segunda parte de la migración de datos consiste tomar como origen de datos
al archivo de Excel generado en la primera parte del proceso y trasladar los datos
hacia la nueva estructura de base de datos destino.
A continuación detallamos el desarrollo de la segunda parte en conjunto con las
respectivas etapas del proceso de migración de datos para el diseño de los
paquetes que nos permitirán llevar la información desde el archivo XLS hacia la
base de datos destino.
PRIMERA ETAPA: SELECCIÓN Y EXTRACCIÓN DE DATOS
En esta primera etapa procedimos al análisis de los datos recopilados en
nuestro archivo de Excel y se procede a confirmar que cumpla con la matriz
de datos diseñada correspondiente a la base de datos destino.
Consideraciones:
El archivo deberá contener todas las hojas llenas según lo indique el
formato de matriz de datos
Se verifica que el número de hojas corresponda al número de tablas
como lo establecer el formato de matriz de datos (Cada tabla es una
hoja en el archivo de Excel)
Se toma en cuenta el número de registros de cada hoja.
El archivo de Excel contiene como cabecera el nombre de cada
campo para que pueda ser identificado dentro del paquete de datos.
En caso que el archivo no cumpla con el formato deberá ser devuelva para
que se corrija y cumpla con el formato solicitado.
82
Segunda Etapa: Segmentación y Transformación de Datos
En esta segunda etapa se procede a la elaboración de scripts y paquete de
datos para poder trasladar la información hacia la nueva estructura de base
de datos destino.
En este proceso es importante recalcar que las tablas de la base de datos
destino contiene algunos campos de tipo uniqueidentifier por lo que tuvimos
la necesidad de crear una función que permita convertir algunos campos de
la base de datos origen en tipos de datos uniqueidentifier y sean
compatibles con la base de datos destino, por ejemplo:
Para la migración de la tabla Matriculacion.matriculacion de la base
de datos destino se utilizó una conversión para poder llenar su ID,
esta conversión consistió en tomar el campo NUMERO_MATRICULA
de la plantilla de datos origen y convertirlo al tipo de datos compatible
correspondiente al ID destino.
Es decir la transformación quedo de la siguiente manera:
Gráfico 22: Conversión de tipo de dato para el Id matricula
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
El campo NUMERO_MATRICULA de la tabla origen fue convertido a tipo de
datos uniqueidentifier que el tipo de dato esperado en la tabla destino del
prototipo de nuevos sistema académico en el módulo matriculación.
83
Para la presente tesis se realizó el análisis de las tablas afectadas en el
módulo de matriculación en la base de datos destino llamada
BDSistemaAcademico, es decir la base que contiene el prototipo de nuevo
sistema académico.
Consideraciones
Una de las principales observaciones del modelo de base de datos destino
es que cada tabla tiene su propia clave primaria de tipo uniqueidentifier, esto
nos obliga a tomar la decisión de genera ese ID de forma automática para
que los datos se trasladen de forma completa, pero para lograr esto
debemos basarnos en la técnica de migración gradual.
Migración Gradual de los Datos
Esta técnica nos indica que primero la información se migrará a
tablas temporales, estas tablas temporales contendrán los datos
otorgados en la plantilla de datos con la misma estructura para que la
información sea preparada y posteriormente sea migrada a la base
de datos destino real.
Preparando los datos
Una vez que tenemos los datos en nuestras tablas temporales
debemos preparar los datos y los campos generando scripts de SQL
de acuerdo a como está diseñado el nuevo modelo de base de datos
destino.
Las tablas destino como lo habíamos mencionado anteriormente son
Matriculacion.Matriculacion que es la cabecera y
Matriculacion.DetalleMatriculacion que es el detalle.
84
Tabla Cabecera
Sin embargo par la tabla cabecera Matriculacion.Matriculacion su ID
será generado por una función desarrollada por nosotros, que
consiste en tomar el número de matrícula original de la base de datos
origen y convertirlo en uniqueidentifier para que sea compatible con el
nuevo modelo.
Tabla Detalle
También debemos tener en cuenta que la tabla
Matriculacion.DetalleMatriculacion contiene un ID que será generado
por la función NEW_ID() del SQL SERVER, este id es su clave
primaria para identificar los campos correspondientes al detalle de la
matriculación.
Sin embargo existe el campo IdMatriculacion que es la clave
foránea de la cabecera y sirve para vinculan ambas tablas creando la
integridad referencial entre la cabecera y el detalle.
De esta forma vamos diseñando los scripts que van configurados en nuestro
paquete de datos en la herramienta Integration Services tomando en cuenta
que primero debemos migrar la información a la tabla cabecera
correspondiente a los datos principales de la matriculación y luego el detalle
de los mismos.
85
Gráfico No. 21 Diseño paquete de migración de datos Parte 2
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
DATAFLOW CABECERA TMP y DATAFLOW DETALLE TMP
Los primeros DataFlow’s de nuestro paquete de datos cumplen una misma
función pero se alimentan de distintas fuentes, es decir del mismo archivo
de Excel pero de distintas hojas de cálculo donde se encuentra la
información respectiva.
Estos flujos de datos recopilan la información correspondiente a la cabecera
y detalle de los registros de los estudiantes matriculados respectivamente.
86
Gráfico 23: DATAFLOW CABECERA TMP y DATAFLOW DETALLE TMP
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
En este paso también se realiza la identificación de los campos origen a
migrar y sus campos destinos correspondientes e indicando cual será el
destino de esos campos.
Gráfico 24: Componente Excel Source de los DataFlow
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
87
A continuación hablaremos de cada componente de este DataFlow Cabecera
y Detalle que cumplen la misma función y contienen los mismos
componentes
Excel Source. Permite seleccionar el archivo de datos origen con sus
respectivas columnas a participa en la extracción.
Data Conversion. Permite identificar los campos que participaran del
origen de datos y realizar la transformación de los campos
dependiendo de los tipos de datos de la tabla destino.
Ole DB Destination. Identifica el destino que tendrán los datos, para
nuestro caso es utilizaremos una estructura temporal para luego
llevarlo a la nueva estructura de base de datos.
Gráfico 25: Componente OLE DB Destination Editor
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
88
Los datos del archivo de Excel primero se almacenan en una tabla temporal
de la base de datos destino para proceder con la conversión de tipos de
datos y longitudes.
Gráfico 26: Mapeo de campos del Componente OLE DB Destination
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
De esta forma se configura el paquete de datos de tal manera que los
campos de origen coordinen con los campos destino y la migración se realice
hacia las tablas temporales.
DATAFLOW CABECERA Y DATAFLOW DETALLE
Estos DataFlow toman la información de las tablas temporales antes
descritas y transforman la información con los tipos de datos compatibles
para la base de datos destino. Tomando en cuenta que algunos campos de
la base de datos destino utilizan el tipo de dato Uniqueidentifier motivo por el
cual se utiliza una función para poder convertir estos campos.
89
Gráfico 27: DataFlow Cabecera y Detalle
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
Execute SQL Task.- Ejecuta una script de SQL, para nuestro caso
limpiamos las tablas destino para proceder con la migración.
Gráfico 28: Componentes del DataFlow Cabecera y Detalle
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
90
OLE DB SOURCE: Permite establecer la conexión con el origen de
datos, y ejecutar el Query de selección y transformación de los datos.
Gráfico 29: Componente OLD DB Source
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
Gráfico 30: Componente OLE DB Destination Editor
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
91
Finalmente este componente nos permite trasladar la información a la tabla
destino final para cada DataFlow Cabecera y Detalle indicando la cadena de
conexión que nos permitirá especificar el servidor destino y cuál es la tabla
que recibirá la información, adicionalmente se realiza el mapeo
correspondiente de los campos.
TERCERA ETAPA: CARGA DE DATOS
La tercera etapa corresponde a la ejecución de los paquetes de datos
diseñados en todo el proceso de migración de esta segunda parte.
Aquí obtendremos como resultado el traslado exitoso de la información hacia
la nueva estructura de datos destino.
Gráfico 31: Componente OLE DB Destination del DataFlow
Elaboración: José Salame Atiencia
Fuente: SQL Server Integration Services
También obtenemos el archivo con los posibles registros que hayan
presentado inconsistencias para que puedan ser corregidos y puedan ser
migrados correctamente a la nueva estructura de base de datos.
92
Gráfico 32: Resumen Etapas del proceso de migración 2da Parte
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
ACCIONES DE MEJORA POR REALIZAR
Durante el desarrollo de la investigación de la presente tesis se pudo observar
algunos procesos que podrían mejorarse a corto plazo. A continuación algunos
presentamos algunas mejoras que podrían incorporarse para un mejor desarrollo en
los procesos de base de datos:
Diccionario de datos de las tablas de la base de datos.
Control de fuentes en procedimiento almacenados de la BD.
Falta de manuales de procedimiento.
Falta de un diagrama entidad relación actualizado en la base de datos.
Depuración de los datos históricos almacenados en el módulo de
matriculación de la facultad.
Depuración de la información inconsistente almacenada en el módulo de
matriculación de la facultad.
Recepción de requerimientos para el sistema académico sin un formato
estándar.
Primera Etapa
•Análisis del origen de datos archivo de Excel
•Script para la Selección de datos desde el archivo de Excel
•Extracción de datos desdeExcel hacia tablas temporales para conversión
Segunda Etapa
•Ejecución de Querys diseñados en la primera etapa.
•Diseño de paquete de datos para la extracción de la información depurada.
•Generación de archivos con datos inconsistentes
Tercera Etapa
•Información depurada en Excel como origen de datos
•Diseño de Querys para la conversión de campos uniqueidentifier para los campos de la BD Destino.
•Desarrollo de paquetes de datos para la migración masiva.
•TIempo estimado de migración 2 horas aprox.
93
PROCEDIMIENTOS DE LA INVESTIGACIÓN
El problema:
Planteamiento del problema
Causar y Consecuencias
Evaluación del problema
Objetivos de la Investigación
Alcances del problema
Justificación o importancia de la investigación
Marco teórico:
Antecedentes del Estudio
Fundamentación teórica
Fundamentación legal
Preguntas a contestarse
Metodología:
Análisis Foda
Diagrama Causa Efecto
Mapas de Proceso
Instrumentos de recolección de datos
La Entrevista
Población Objetivo
Operacionalización de variables, dimensiones e indicadores
Procedimiento de la Investigación
Recolección de la Información
La Entrevista
Observaciones de campo durante la entrevista
Análisis de MER de los repositorios
94
CRITERIOS PARA LA ELABORACIÓN DE LA PROPUESTA
En la propuesta de nuestro proyecto de tesis se determinaron criterios que nos
ayudaron a cumplir con el desarrollo del mismo, tomando como lineamiento general
una secuencia de pasos a seguir respaldando la funcionalidad del tema.
El proyecto toma como base la aplicación de la herramienta SQL SERVER
Integration Services debido a que el motor de base de datos en el que están
desarrollados los módulos del prototipo de nuevo sistema académico es SQL
SERVER 2012. Los paquetes de datos fueron diseñados siguiendo el proceso que
se encuentra detallado en el capítulo 3 de nuestra investigación gracias a la
información recolectada en la entrevista.
La configuración de cada componente o elemento participante en los paquetes de
datos son de vital importancia para lograr que los paquetes se ejecuten
exitosamente definiendo el orden o secuencia correcto según el modelo de datos
destino.
CRITERIOS DE VALIDACIÓN DE LA PROPUESTA
Una vez desarrollado los paquetes de datos para el proyecto propuesto se debe
verificar la validación de los datos y correcto traslado de la información a través de
varios casos de uso que puedan darse dependiendo de los objetivos propuestos o
por medio de ejemplos tomados durante todo el proceso.
95
CAPITULO IV
MARCO ADMINISTRATIVO
Cronograma de actividades Para llevar a cabo el análisis y desarrollo de los procesos de migración de datos se
estableció el siguiente cronograma de actividades.
96
Elaboración: José Salame Atiencia Fuente: José Salame Atiencia
Diagrama de Gantt
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
97
Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
PRESUPUESTO Para el desarrollo del presente proyecto de tesis y cumplimiento de los objetivos
propuestos en la investigación se llevaron a cabo los siguientes costos detallados a
continuación
Cuadro 2: Detalle de egresos del proyecto de tesis
INGRESOS DOLARES
Financiamiento Propio $940
TOTAL $940
EGRESOS DÓLARES
Laptop HP Core i3. $600.00
Impresiones, anillado $50.00
Encuadernado $80.00
Movilización $90.00
Alimentación $120.00
Instalador SQL Server 2012 Enterprise $0
TOTAL $940.00 Elaboración: José Salame Atiencia
Fuente: José Salame Atiencia
98
CAPÍTULO V
CONCLUSIONES, RECOMENDACIONES Y RESULTADOS
CONCLUSIONES
La investigación y el estudio que se realizó sobre las estructuras de la base
de datos origen permitió establecer las pautas principales para la
planificación de los procesos para la migración de los datos, elaborando una
secuencia de pasos a seguir determinando los objetos de base de datos que
se deben tomar en cuenta para la extracción de la información de los
registros de los estudiantes matriculados, utilizando una herramienta de
inteligencia de negocios como es SQL SERVER Integration Services. Sin
una planificación de procesos podríamos incurrir en realizar tareas
redundantes lo que ocasionaría que se emplee tiempo y recursos en
procesos que no garantizan el cumplimiento de los objetivos.
Mediante el estudio de las estructuras de la base de datos origen se elaboró
un análisis de las tablas origen y se logró identificar los campos necesarios
para obtener la información suficiente para llenar las tablas del módulo de
matriculación de la base de datos destino con los estudiantes que consten
como matriculados en el Facultad. Se estableció una matriz que contiene un
formato estándar para que las demás facultades que se vayan a incorporar
al prototipo de nuevos sistema académico puedan migrar su información de
manera correcta y segura. Se detectó que el diseño de las tablas no respeta
el modelo de normalización en el diseño de base de datos, puesto que hay
tablas que no tienen claves primarias, ni claves foráneas que permitan el
control de la información que se almacena.
A través de los registros recogidos de los estudiantes matriculados se logró
diseñar los paquetes de datos en SQL Integration Services que contenían
los scripts para transformar la información y que sea compatible con la base
99
de datos destino, de esta forma también se logró validar que algunos
registros constan con inconsistencia en sus campos.
Gracias al Análisis del Diagrama de espina de pescado se pudo clasificar los
tipos de inconsistencias que se pueden dar cuando se ejecuta el proceso de
migración, determinando los registros que no constan con IdPeriodo y
IdMateria.
Las técnicas utilizadas para la recolección de información apoyaron nuestra
propuesta para poder considerar las fases para la recolección de datos y
proceso de migración, determinando que si se desea realizar la integración
de todos los módulos deben existir en la base de datos destino, los módulos
que se hace referencia al módulo de matriculación como son Mallas,
Horarios, Notas y Personas siendo matriculación el ultimo módulo en ser
migrado.
En nuestra entrevista pudimos observar que el administrador o encargado de
la base de datos no cuenta con un diccionario de datos físico ni lógico o
algún documento donde se encuentren detalladas las estructuras que
maneja el actual sistema académico en la Facultad de Ciencias
Administrativas. Lo que si pudimos constatar es que cuenta con un diagrama
entidad relación que se encuentra en la misma base de datos SQL Server
pero que debido a los cambios que se han realizado en los aplicativos que
accesan no ha sido actualizada hace mucho tiempo. Las personas que
realizan cambios sobre los procedimientos de la base de datos no tienen un
control de cambios en el código. Cualquier cambio que se realice no queda
documentado.
100
RECOMENDACIONES
Realizar un proceso de migración de datos es una tarea muy importante y
delicada debido a que la información en una empresa es el activo más
valioso que puede tener, por eso se debe considerar todos los entornos y la
secuencia de procesos que se van a realizar para cumplir el objetivo.
Se propone elaborar un diccionario de datos de las tablas que conforman la
base de datos de la Facultad de Ciencias Administrativas, todas las tablas
deben de estar debidamente documentadas llevando un estándar o un
formato establecido por el Administrador o encargado de la base de datos,
de tal forma que tenga disponibilidad de este documento debidamente
actualizado.
Para el diseño de la base de datos o de tablas se debe tomar en cuenta los
pasos de normalización 1FN, 2FN y 3FN en el modelo de base de datos, al
no cumplirse estos pasos ocasiona que la información que se almacene en
las tablas sea inconsistente, redundantes o que no tengan integridad
referencial y como secuencia se almacenará información poco confiable.
Se recomienda analizar los aplicativos que insertan la información a las
tablas para confirmar que tengan las validaciones correspondientes según
los tipos de datos y no se permita ingresar información incorrecta a las
tablas, de igual forma se recomienda realizar una depuración de los registros
que cuentan inconsistencias en sus tablas, periódicamente se pueden
examinar los campos con funciones propias de la base de datos.
La matriz deberá ser actualizada cada vez que el modelo de base de datos
destino sea modificado de tal forma que otra base de datos origen desee ser
migrada pueda hacerlo con los campos correctos.
Se recomienda implementar un sistema que controle las modificaciones que
se realicen en los procedimientos en la base de datos, así mismo
101
implementar un protocolo cuando se realicen desarrollos y pases a
producción.
RESULTADOS
Gracias a los pasos establecidos en el ciclo de Deming pudimos segmentar
nuestro proceso y determinar los pasos a seguir para trasladar la información
hacia el nuevo repositorio de datos.
Gracias al estudio y análisis de la base de datos destino pudimos establecer
una plantilla o matriz de datos con los campos necesarios para extraer la
información desde la base de datos origen.
Basado en el mapa de proceso pudimos establecer la metodología y
estrategia de migración de datos, segmentando el proceso en 2 partes y
cada parte en 3 etapas como es la extracción, transformación y carga de
datos.
Siguiendo esta matriz de datos logramos generar un archivo de Excel con los
datos depurados de los registros de estudiantes matriculados solo de los
periodos ordinarios.
Logramos diseñar dos paquetes de datos con la herramienta Integration
Services, el primero seleccionar la información necesaria para generar el
archivo de Excel y el segundo toma el archivo de Excel y lo traslada a la
base de datos destino.
Pudimos obtener los registros que no podían ser migrados por algún tipo de
inconsistencia o dependencia de otros módulos, estos registros fueron
generados por los paquetes de datos en 2 archivo de Excel 1 por cada tabla
intervenida.
102
REFERENCIAS BIBLIOGRÁFICAS
LIBROS
- República del Ecuador (2010). Ley Orgánica de Educación Superior.
- Idalberto Chiavenato. (2006). Introducción a la Teoría General de la
Administración. En C. Idalberto, Introducción a la Teoría General de la
Administración (pág. 110). McGraw-Hill Interamericana.
- Joan Guàrdia Olmos, Maribel Peró. (2001). Esquemas de estadística:
aplicaciones en intervención ambiental. Barcelona: Edicions
Universitat Barcelona.
- Gutierrez Pulido, H., & De la Vara Salazar, R. (2009). Control
Estadístico de Calidad y Seis Sigma. México: McGraw Hill Educación.
- Gutierrez Pulido, H., & De la Vara Salazar, R. (2009). Control
Estadístico de Calidad y Seis Sigma (Segunda ed.). México: McGraw
Hill Educación.
- Builders, I. (2005). Business Intelligence. Business Intelligence.
- Date, C. J. (1987). Introducción a los sistemas de bases de datos,
7ma edición.
- Mayer, J. C. (Agosto 2014). Microsoft SQL Server: Programación y
Administración de Base de Datos.
- Trespalacios Gutiérrez Juan, V. C. (2005). Investigación de Mercados.
International Thomson Editores.
103
DIRECCIONES WEB
ABC, D. (2015). Concepto en Definicion. Obtenido de Concepto en
Definicion: http://www.definicionabc.com/tecnologia/base-de-datos.php
ABC, D. (s.f.). Concepto en Definicion. Obtenido de Concepto en Definicion:
http://www.definicionabc.com/tecnologia/base-de-datos.php
Alberto Gómez, Nicolas de Abajo Martinez. (1988).
basededatos. (1 de 3 de 2011). El blog de la base de datos. Recuperado el
23 de 4 de 2015, de http://basededatos.over-blog.net/article-tipos-de-
bases-de-datos-68319538.html
EDUTEKA. (28 de 08 de 2007). EDUTEKA - Diagrama Causa-Efecto.
Recuperado el 2015, de
http://www.eduteka.org/DiagramaCausaEfecto.php
Egea, M. (25 de 10 de 2011). Portal SQL. Recuperado el 23 de 04 de 2015,
de Portal SQL: http://portalsql.com/index.php/category/tutoriales/sql-
server-integration-services/
Facultad de Ciencias Administrativas. (2015). Facultad de Ciencias
Administrativas. Recuperado el 2015, de
http://www.fca.ug.edu.ec/?page_id=61
GBIMARK. (2015). Software BI (Business Intelligence) . Recuperado el 23 de
4 de 2015, de https://sites.google.com/a/gbi-mark.com/gbi-
mark/soluciones/bi-business-intelligence
104
Gonzalez, I. H. (01 de 04 de 2015). Calidad y Gestion. Recuperado el 2015,
de https://calidadgestion.wordpress.com/tag/mapa-de-procesos/
Kamal Hathi. (01 de 05 de 2005). Introducción a SQL Server 2005 Integration
Services. Recuperado el 23 de 04 de 2015, de
https://www.microsoft.com/latam/technet/productos/servers/sql/2005/in
tro2is.mspx
Medina Soto Jorge Alfredo. (13 de 6 de 2010). Business Intelligence.
Recuperado el 23 de 04 de 2015, de Teoría y conceptos.:
http://www.gestiopolis.com/business-intelligence-teoria-y-conceptos/
Microsoft. (2003). Normalizacion de datos. Recuperado el 2015, de
https://msdn.microsoft.com/es-es/library/aa291817(v=vs.71).aspx
Microsoft. (2004). SQL Server Integration Services. Obtenido de SQL Server
Integration Services: https://technet.microsoft.com/es-
es/library/ms141026(v=sql.105).aspx
Microsoft. (2014). Paquetes de Integration Services (SSIS). Recuperado el
23 de 04 de 2015, de https://msdn.microsoft.com/es-
ec/library/ms141134.aspx
Microsoft. (2014). SQL Server Integration Services. Recuperado el 23 de 04
de 2015, de https://msdn.microsoft.com/es-ec/library/ms141026.aspx
Microsoft. (2015). Tarea flujo de datos. Recuperado el 23 de 04 de 2015, de
https://technet.microsoft.com/es-es/library/ms141122(v=sql.110).aspx
105
NETRONYCS. (2015). NETRONYCS. Obtenido de NETRONYCS:
http://www.netronycs.com/modelos_de_base_de_datos.html
Olivera, A. P. (2013). EL ANÁLISIS DAFO Y LOS OBJETIVOS
ESTRATÉGICOS. Obtenido de
http://www.eumed.net/ce/2011a/domh.htm
Pelachano, S. y. (1979). La entrevista. Valencia: Psicología y Ciencias de la
Educación.
SantaCrusRamos. (2015). Bases de datos mutidimensionales. Recuperado el
23 de 4 de 2015, de
https://santacruzramos.wikispaces.com/1.2+Bases+de+datos+multidi
mensionales+(BDM).
Santos, M. (2004). Introducción a las Bases de Datos. M.A.S.
Tools, E. (2015). Herramientas ETL. Obtenido de http://etl-
tools.info/es/bi/proceso_etl.htm
WorkMeter. (27 de 07 de 2012). Principales herramientas de Business
Intelligence. Recuperado el 23 de 4 de 2015, de
http://es.workmeter.com/blog/bid/192978/Principales-herramientas-de-
Business-Intelligence
106
ANEXOS
UNIVERSIDAD DE GUAYAQUIL CC.MM.FF. – C.I.S.C.
ENCUESTA SOBRE “MIGRACIÓN DE DATOS DE LAS ANTIGUAS
ESTRUCTURAS DE D.B. DE FF.CC.AA AL PROTOTIPO DE NUEVO SISTEMA
ACADEMICO.”
FACULTAD: NOMBRE: CARGO:
ENTREVISTA
1. En cuantas y cuales son tablas que conforman el módulo de matriculación.
2. Como está estructurado el MER y cuál es la versión de la base de datos en
uso.
3. Qué tipo de seguridades tiene la base de datos y cuantas personas acceden
a la base actual.
4. Desde que periodo se encuentra la información registrada de los alumnos
matriculados
5. Desde que periodo Ud. considera que la información es más confiable y
consistente
6. Qué falencias Ud. ha encontrado o tiene conocimiento que existe en la
estructura de la BD.
7. Tiene Ud. conocimiento de alguna inconsistencia en los datos de los
registros de Matriculación.
8. Basado en la plantilla (anexo) que campos de su base de datos son
necesarios para llenar el módulo de matriculación en el nuevo sistema
académico.
107
MATRIZ DE DATOS QUE SERÁ ENTREGADA A LA FACULTAD ORIGEN Y SERÁ
LLENADA CON LA INFORMACIÓN CONSISTENTE.
Información para llenar la base de datos destino Tabla Detalle
Elaboración: José Salame Atiencia Fuente: Base de datos origen
108
Matriz de datos que será entregada a la facultad origen y será llenada con la
información consistente.
Información para llenar la base de datos destino Tabla Detalle
Elaboración: José Salame Atiencia
Fuente: Base de datos origen
109
Modelo Entidad Relación del Módulo Matriculación del prototipo de
Nuevo Sistema Académico
Fuente: Prototipo Nuevo Sistema Académico
110
INFORME DE EJECUCIÓN
1.- MÓDULO / OBJETOS:
Proyecto de Integration Services Matriculacion
Proyecto de Integration Services BDSistemaAcademico
2.- DATOS DE PRUEBA
Consistencia de información de las siguientes tablas de la base de datos del
sistema académico:
MATRICULACION.MATRICULACION
MATRICULACION.DETALLEMATRICULACION
3.- ACTIVIDADES DE PRUEBA
Nombre del paquete Respuesta esperada
Matriculacion.dtsx
Generación del archivo Excel con la información
extraída para cada tabla del módulo de
matriculación.
BdSistemaAcademico.dtsx
Inserción en tablas temporales, conversión y
almacenamiento de los registros en las nuevas
tablas del prototipo.
Nombre de tabla No. Reg.
Candidatos
No. Reg.
Migrados
No. No
migrados
Matriculacion 76082 51495 24587
DetalleMatriculacion 263908 132663 131245
4.- TIEMPO Y OBSERVACION DE EJECUCIÓN
Paquete Tiempo estimado de ejecución
Observación
Matriculacion.dtsx 15 minutos Generación de archivos Excel
BdSistemaAcademico.dtsx 15 minutos Registros migrados
exitosamente
111
4.- CONCLUSIONES Y RECOMENDACIONES
Los registros generados en el archivo de error (ErroresMigracion.XLSX) deben ser
entregados al administrador de base de datos para que puedan corregir o completar
la información necesaria para la migración.
Tipos de Errores
SinMateria: Indica que ese registro contiene un código de materia
(IdMateria) que no se encuentra en el módulo dependiente, es decir en el
módulo de mallas.
Identificación: Indica que esa identificación esta invalida (id_estudiante de
la base de datos origen)
SinPeriodo: Indica que ese registro contiene un código de materia que no
se encuentra en el módulo dependiente, es decir en el módulo de Horarios
112
MANUAL DE TÉCNICO
PROCESO DE MIGRACIÓN DE DATOS DEL MÓDULO
MATRICULACIÓN DE LA FACULTAD DE CIENCIAS
ADMINISTRATIVAS PARA EL PROTOTIPO DEL
SISTEMA ACADÉMICO PARA LA
UNIVERSIDAD DE
GUAYAQUIL
113
INTRODUCCIÓN
Este manual está orientado a la explicación del funcionamiento del proceso de
migración mediante de datos del módulo matriculación con la herramienta
Integration Services.
REQUERIMIENTOS DE SOFTWARE A continuación mencionamos los requerimientos necesarios y con los que el
proceso de migración de datos fue realizado.
Microsoft SQL Server 2012
Visual Studio 2010 SQL Integration Services
Microsoft Excel 2007
CONSIDERACIONES PARA LA EXTRACCION DE DATOS EN
EL PROCESO DE MIGRACIÓN
Establecer un corte de Periodo lectivo, para nuestro caso se
establecieron los periodos ordinarios desde 2012 ciclo 2.
Registro de matrículas validas (V) y Anuladas (X).
Determinar dependencias en el nuevo sistema.
El proceso de migración del módulo matriculación depende de la
información de los módulos:
Mallas
Horarios
Personas
Las tablas son:
select * from [Horarios].[Ciclo]
select * from [Horarios].[Periodo]
select * from [Horarios].[PeriodoCiclo]
select * from [Malla].[Carrera]
select * from [Malla].[Facultad]
select * from [Malla].[BancoMateria]
select * from [Ingreso].[Personas]
114
Para poder realizar la migración se desarrolló una función que permita convertir un
tipo de datos int o varchar a uniqueidentifier debido a que las claves primarias del
prototipo de nuevo sistema académico utilizan ese tipo de dato en sus tablas.
Crear la función genera_newid en la base del sistema académico en caso de que no
exista
PAQUETES DE DATOS EN INTEGRATION SERVICES
El proceso de migración de datos para el módulo de matriculación está segmentado
en 2 partes, cada parte comprende un proyecto de Integration Services.
Para poder proceder con los paquetes de datos primero se deben ejecutar los
scripts con la creación de tablas temporales y procedimientos que se usan en todo
el proceso de migración.
1.- Script creación de tablas temporales de la carpeta Paso 1.
1 Create Tables.sql
2.- Script con los procedimientos almacenados de la carpeta Paso 2.
sp_MigraCabeceraMatricula_EXCEL.sql
sp_MigraDetalleMatricula_EXCEL.sql
sp_MigraCabeceraMatricula.sql
sp_MigraDetalleMatricula.sql
1 sp_MigraCabeceraMatricula_EXCEL.sql 2 sp_MigraDetalleMatricula_EXCEL.sql
3 sp_MigraCabeceraMatricula.sql 4 sp_MigraDetalleMatriculacion.sql
115
1RA. PARTE DEL PROCESO DE MIGRACIÓN DE DATOS
En esta primera parte vamos a generar la información en el archivo de Excel con los
registros candidatos para la migración respetando el formato establecido en el
análisis.
Para lograr este objetivo se deben tomar en cuenta los siguientes puntos para
configurar el proyecto de Integration Services:
Tener creada la carpeta C:\PlantillasDTS
Copiar los siguientes archivos en la carpeta C:\PlantillasDTS
PlantillasDTS.rar
El archivo C:\PlantillasDTS\Formato Matriz de datos.xls contiene el formato
que debemos generar con los datos depurados.
Tener creada la carpeta C:\DatosMatriculacion
Copiar los siguientes archivos en la carpeta C:\DatosMatriculacion
DatosMatriculacion.rar
Abrir Microsoft Visual Studio 2010
Abrir el proyecto Matriculacion
Configurar las conexiones a la base de datos. Esta conexión hace referencia
a la base de datos ORIGEN de donde se van a extraer los datos. Es decir de
la base de datos (FCA) de la Facultad de Ciencias Administrativas.
116
Conexiones del paquete de datos 1ra Parte
Fuente: Proyecto Integration Services Matriculacion
En el icono inferior con nombre DatosFCA y ErroresFCA dar click derecho y
escoger la opción Edit.
Configuración de las conexiones de BD Origen
Nombre del
servidor origen
117
Fuente: Proyecto Integration Services Matriculacion
Realizar este paso con las conexiones DatosFCA y ErroresFCA.
Ejecutar el proceso con la tecla F5 y comprobar los archivos de salida en la
ruta C:\DatosMatriculacion\DatosMatriculacion.xlsx donde estarán
almacenados los datos en 2 pestañas.
La primera pestaña corresponde a los datos cabecera necesarios para el
módulo del prototipo nuevo sistema académico
La primera pestaña corresponde a los datos detalle de la cabecera
necesarios para el módulo del prototipo nuevo sistema académico
Comprobar la ruta C:\DatosMatriculacion\ErroresMigracion.xlsx para
determinar si algunos registros contenían dependencias en el nuevo
prototipo de sistema académico.
El archivo contiene una columna TipoError en donde puede contener el
valor SinIdPeriodo que Indica que ese registro contiene un código de
Periodo que no se encuentra en el módulo dependiente (módulo Horarios).
2DA PARTE DEL PROCESO DE MIGRACIÓN
En esta 2da parte se tomará como origen de datos el archivo de Excel para llevar
los registros a la nueva estructura del prototipo de sistema académico.
Para que otras facultades puedan migrar al nuevo sistema deberán iniciar desde
aquí, es decir tener el archivo de Excel con los datos a migrar en el formato correcto
establecido.
A continuación se debe seguir los siguientes pasos:
Abrir Microsoft Visual Studio 2010
Abrir el proyecto BdSistemaAcademico
Configurar las cadenas de conexión
118
Conexión BdSistemaAcademico y BdSistemaAcademico2
Realizan la conexión a la base de datos destino BdSistemaAcademico hacia
las tablas temporales. Estas conexiones hacen referencia a la Base de datos
DESTINO, es decir donde se encuentra el prototipo de nuevo sistema
académico con la base BdSistemaAcademico.
Configuración de las conexiones de BD Destino
Fuente: Proyecto Integration Services BdSistemaAcademico
Conexión OrigenFCATMP
Realiza la conexión a la base de datos Origen (FCA) para ejecutar los scripts
y extraer los datos de las tablas de la BD destino temporales creadas en el
paso anterior. Cabe recalcar que los scripts son creados en la base de datos
origen pero se hace referencia a las base de datos destino para garantizar la
consistencia.
119
Configuración de las conexiones de BD Destino
Fuente: Proyecto Integration Services BdSistemaAcademico
Conexiones OrigeFCA y OrigenFCA2
Realiza la conexión a la base de datos Origen para leer las tablas con los
registros que tuvieron errores o inconsistencias durante la migración.
120
Configuración de las conexiones de BD Origen
Fuente: Proyecto Integration Services BdSistemaAcademico
Comprobar la ruta C:\DatosMatriculacion\ErroresMatriculacion.xlsx para
determinar los registros que no se migraron al nuevo prototipo de sistema
académico
La columna tipo de error determina el tipo de Error
Tipos de Error del Archivo de Errores
IdMateria: Indica que ese registro contiene un código de materia que no se
encuentra en el módulo dependiente, es decir en el módulo de mallas.
Identificación: Indica que esa identificación es inválida
IPeriodo: Indica que ese registro contiene un código de materia que no se
encuentra en el módulo dependiente, es decir en el módulo de Horarios
121
POSIBLES CASOS DE ERROR DENTRO DE LOS PROYECTOS DE
INTEGRATION SERVICES
Dependencias
Es importante considerar las dependencias de los otros módulos, para este caso se
tienen las dependencias de las tablas [Malla].[Carrera], [Malla].[Facultad] del
sistema académico deben tener la información de la facultad de Ciencias
administrativas con sus respectivas carreras. También de [Horarios].[Ciclo],
[Horarios].[PeriodoCiclo] y [Horarios].[Periodo]
Nombre de repositorios
Asegurarse que la base de datos de datos origen tenga el nombre FCA y
BdSistemaAcademico como nombre de base de datos destino
Error en conexión a los archivos de Excel
Deberá verificar que las plantillas de los archivos Excel se encuentren en la ruta
indicada C:\PlantillasDTS y C:\DatosMatriculacion.
No existe espacio suficiente en el disco
En el componente espacio en disco deberá modificar en la opción para que valide
un espacio menor y permita pasar esta validación, de lo contrario no le permitirá
ejecutar los demás componentes.
1. Click en el componente espacio en disco
2. En la opción escribir consulta SQL cambiar la condición del espacio; en el valor
200 puede ser modificado.