Niveles de Abstracción Referidos a La Información

11
 ALDEA UNIVERSITARIA “CARLOS TOVAR”  MISION SUCRE SISTEMAS Triunfador: Armando José Veloz San Carlos, Septiembre de 2012

description

Explicación de los distintos niveles del manejo de la información en un sistema

Transcript of Niveles de Abstracción Referidos a La Información

  • ALDEA UNIVERSITARIA CARLOS TOVAR MISION SUCRE

    SISTEMAS

    Triunfador: Armando Jos Veloz

    San Carlos, Septiembre de 2012

  • Representacin de la Informacin: Niveles de abstraccin referidos a la informacin:

    El nivel interno: Tiene un esquema interno, que describe la estructura fsica de almacenamiento de la base de datos. El esquema interno emplea un modelo fsico de los datos y describe todos los detalles para su almacenamiento, as como los caminos de acceso para la base de datos.

    El nivel conceptual: Tiene un esquema conceptual, que describe la estructura de toda la base de datos para una comunidad de usuarios. El esquema conceptual oculta los detalles de las estructuras fsicas de almacenamiento y se concentra en describir entidades, tipos de datos, vnculos, operaciones de los usuarios y restricciones. En este nivel podemos usar un modelo de datos de alto nivel o uno de implementacin.

    El nivel externo o de vistas: Incluye varios esquemas externos o vistas de usuario. Cada esquema externo describe la parte de la base de datos que interesa a un grupo de usuarios determinado, y oculta a ese grupo el resto de la base de datos. En este nivel podemos usar un modelo de datos de alto nivel o uno de implementacin.

    Nivel del Mundo Real:

    Uno de los principales objetivos que se persigue con las bases de datos es poder almacenar y recuperar informacin relativa a un determinado contexto o dominio del mundo real.

    En una base de datos, los datos se almacenan siguiendo una determinada estructura que tcnicamente se denominaesquema de la base de datos. Durante el proceso de desarrollo de una base de datos es crucial que el esquema se disee de forma adecuada puesto que de ello depende en gran medida que, por un lado, la base de datos refleje de forma fiel y coherente el dominio pretendidamente representado por la base datos y, por otro, que la base de datos tenga un rendimiento ptimo a la hora de responder a consultas sobre los datos que contiene.

    El problema radica en que el mundo real cambia, as como la forma en que lo percibimos e interpretamos, a lo largo de la vida de la base de datos y como consecuencia de ello el esquema de la base de datos debe evolucionar para que siga siendo coherente con el sistema representado.

    En general, las tareas necesarias para que una base de datos evolucione en el tiempo adaptndose a las nuevas necesidades se consideran de gran importancia prctica tanto porque son necesarias para que la base de datos siga siendo til, como porque consumen una gran cantidad de recursos humanos y tcnicos (agravado por el hecho de que muchas veces los cambios se hacen de forma manual y ad hoc a cada caso). Por ello es importante desarrollar tcnicas que soporten o ayuden en la evolucin de las bases de datos, tcnicas que abaraten los costes en tiempo, dinero y recursos. Nivel del Dominio de las Ideas:

    La Reingeniera de Bases de Datos consiste, en primer lugar, en recuperar toda lainformacin posible sobre la estructura de datos (conceptual, lgica y fsica) presenteen una Base de Datos Legada (LDB) y en uno (o varios) Sistema Software Legado(LSS) para, posteriormente, redisear el esquema conceptual, transformar la LDB enla Base de datos Nueva (NDB) y el LSS en el Sistema Software Nuevo (NSS) y acometerla migracin de los datos de la LDB a la NDB. La primera fase de este procesose denomina Ingeniera Inversa de Bases de Datos y est formada por dos actividadesprincipales que se pueden denominar Anlisis de Datos y Abstraccin Conceptual.

  • La actividad del Anlisis de Datos intenta recuperar un esquema de datos lgico actualizado que est completo estructuralmente y con su semntica bien identificada y documentada. Este esquema lgico enriquecido es la entrada para la segunda actividad, la Abstraccin Conceptual.

    La Abstraccin Conceptual intenta transformar este esquema lgico a un esquemaconceptual equivalente. Las representaciones habituales de este esquema se hacen entrminos del Modelo Entidad-Relacin o del Modelo Orientado a Objetos. Ambosproporcionan el nivel de abstraccin suficiente para acometer las posteriores actividadesde Reingeniera.

    El proceso de la Reingeniera de Bases de Datos no se ajusta a un modelo en cascada,en el que la actividad de Abstraccin Conceptual no se habra de comenzarhasta que no se hubiera terminado la de Anlisis de Datos. Los ingenieros comienzancon las actividades propias de la Ingeniera cuando el esquema lgico an estincompleto o es inconsistente. Segn vayan acumulando ms conocimiento sobre laestructura de la LDB volvern atrs en el proceso e irn completando el esquemalgico inicial.

    Por esta razn se hace imprescindible definir un proceso para la obtencin y transformacinde estos esquemas que pueda ser automatizado, interactivo e iterativo,hasta conseguir obtener el esquema conceptual ms conveniente y, adems, un mtodoque soporte la migracin automtica de los datos de la LDB a la base de datos quefinalmente se construya. Nivel de los Datos:

    El nivel ms alto de abstraccin describe slo parte de la base de datos completa. A pesar del uso de estructuras ms simples en el nivel lgico, queda algo de complejidad, debido a la variedad de informacin almacenada en una gran base de datos. Muchos usuarios del sistema de base de datos no necesitan toda esta informacin. En su lugar, tales usuarios necesitan acceder slo a una parte de la base de datos. Para que su interaccin con el sistema se simplifique, se define la abstraccin del nivel de vistas. El sistema puede proporcionar muchas vistas para la misma base de datos. Relacin de Correspondencia:

    Se entiende por relacin a aquella asociacin o correspondencia existente entre entidades. Llamaremos tipo de relacin a la estructura genrica del conjunto de relaciones existentes entre dos o ms tipos de entidad.

    El tipo de relacin se representa mediante un rombo etiquetado con el nombre de la relacin, unido mediante lneas a los tipos de entidad que asocia. Por ejemplo:

    Entre dos tipos de entidades puede existir ms de un tipo de relacin. Una relacin se define por su nombre y por su grado. El nombre es el identificador que se le da a la propia relacin, y el grado equivale al nmero de tipos de entidad a los que asocia o relaciona. As por ejemplo, en el caso anterior, escribe es una relacin de grado 2. Tambin pueden existir relaciones de grado 1 (o reflexivas), de grado 3, 4,

    En general, las relaciones de grado superior a 2 se suelen reducir a relaciones de grado 2, si la semntica de la relacin lo permite, puesto que se facilita tanto la comprensin del diagrama como la posterior conversin a otros modelos.

  • Otro elemento que caracteriza a las relaciones es el tipo de correspondencia, que es el nmero mximo de ocurrencias de cada tipo de entidad que pueden intervenir en una ocurrencia del tipo de relacin que se est tratando. Grficamente, esto se representa con alguna de estas etiquetas textuales: 1:1, 1:N, N:M. Tambin se puede representar la correspondencia haciendo que las lneas que unen las entidades y la relacin sean flechas, es decir, las distintas relaciones se representaran como:

    El papel o rol es la funcin que cada tipo de entidad realiza en el tipo de relacin. Se representa con su nombre sobre la lnea que une el tipo de entidad con el tipo de relacin. Por ejemplo:

  • Caractersticas del Modelo Relacional: El modelo relacional es un modelo de datos y, como tal, tiene en cuenta los tres aspectos

    siguientes de los datos: 1) La estructura, que debe permitir representar la informacin que nos interesa del mundo real. 2) La manipulacin, a la que da apoyo mediante las operaciones de actualizacin y consulta de los datos. 3) La integridad, que es facilitada mediante el establecimiento de reglas de integridad; es decir, condiciones que los datos deben cumplir.

    Los principios del modelo de datos relacional fueron establecidos por E.F. Codd en los aos 1969 y 1970. De todos modos, hasta la dcada de los ochenta no se empezaron a comercializar los primeros SGBD relacionales con rendimientos aceptables. Cabe sealar que los SGBD relacionales que se comercializan actualmente todava no soportan todo lo que establece la teora relacional hasta el ltimo detalle.

    El principal objetivo del modelo de datos relacional es facilitar que la base de datos sea percibida o vista por el usuario como una estructura lgica que consiste en un conjunto de relaciones y no como una estructura fsica de implementacin. Esto ayuda a conseguir un alto grado de independencia de los datos. Elementos del Modelo Relacional: Una tabla o relacin es una matriz rectangular que almacena lneas con una estructura concreta: La primera lnea de una tabla, es una cabecera que indica el nombre de cada columna. O sea, cada columna tiene asignado un nombre nico, e indica que los temes almacenados en esa columna deben pertenecer a un conjunto de valores concreto: Nmeros, Letras, Frases, etc. Cada lnea (excepto la primera) recibe el nombre de tupla, y almacena temes concretos para cada columna. Todas las filas deben ser diferentes entre s. El orden de las filas y de las columnas carece de importancia a efectos del SGBD. Este hecho es el que verdaderamente diferencia las tablas relacionales del concepto matemtico de relacin, en el que el orden de las columnas es fundamental.

    El grado de la tabla es el nmero de campos que posee. La cardinalidad es el nmero de tuplas concretas que almacena.

    La primera fila de una tabla es la ms importante, ya que nos da su estructura. Esta columna identifica los nombres de campo o atributos de que consta cada tabla. En otras palabras, cada tupla est formada por un conjunto de informacin estructurada en elementos ms simples llamados atributos.

    Por otro lado, est claro que un atributo en una tupla no puede tomar un valor cualquiera. Para evitar este tipo de situaciones anmalas en la medida de lo posible, obligaremos a que cada atributo slo pueda tomar los valores pertenecientes a un conjunto de valores previamente establecido, o sea, un atributo tiene asociado un dominio de valores. Los dominios a que puede pertenecer un atributo, suelen depender de los que proporcione el SGBD que empleemos. Suelen ser comunes dominios como: Decimal, Fecha, Hora, S/No. Claves:

    Como en una tabla, las tuplas pueden estar en cualquier orden, no podemos referenciar una tupla concreta mediante su posicin entre las dems, y necesitamos alguna forma de seleccionar una

  • tupla concreta. La forma de hacerlo es mediante una clave. Una clave es un atributo o conjunto de atributos cuyo valor es nico y diferente para cada tupla.

    Cada tabla puede poseer ms de una clave. De entre todas las claves candidatas, el administrador, cuando define la tabla, debe decidir cul de ellas va a ser la clave principal o clave primaria, mientras que el resto de las claves pasan a denominarse claves alternativas o claves alternas. La distincin entre clave principal y claves alternativas, es slo a efectos de acceso interno a los datos, y para que el SGBD adopte ciertas decisiones sobre cmo almacenar esos datos en los sistemas de almacenamiento masivos. Restricciones:

    Cuando hablamos de restricciones, tenemos en mente una serie normas o reglas que deben cumplir los datos, ya sea por s solos, o en relacin con los dems. El problema reside en cmo expresar esas normas de manera que el ordenador pueda comprenderlas. Para solucionar este problema, es necesario que bajemos un poco al nivel de la mquina, para convertir nuestras ideas en una secuencia de smbolos (sumas, restas, comparaciones) que dan lugar a una expresin final que slo puede tomar dos valores: o es verdad o es falso. Esta expresin final es lo que se llama predicado.

    El predicado ms simple que se puede formar es mediante la comparacin entre dos cosas. Podemos comparar nmeros para saber si son iguales, o uno es mayor que otro, podemos comparar frases (slo desde el punto de vista lexicogrfico, ya que el ordenador no comprende el significado que nosotros le damos a dichas frases) para saber si contienen palabras repetidas, si una frase subsume a otra, o simplemente p ara saber si una precede a otra o no segn el orden alfabtico. De esta forma aparecen los operadores relacionales, que fundamentalmente son: > Mayor que < Menor que = Igual que = Mayor o igual que Distinto a Entre las ventajas de este modelo estn: 1. Garantiza herramientas para evitar la duplicidad de registros, a travs de campos claves o llaves. 2. Garantiza la integridad referencial: As al eliminar un registro elimina todos los registros relacionados dependientes. 3. Favorece la normalizacin por ser ms comprensible y aplicable. Formas normales:

    Las relaciones que describe Codd al definir su modelo relacional, son transformadas en tablas al momento de trabajar con una base de datos. Las Formas Normales buscan optimizar estas estructuras eliminando bsicamente la redundancia utilizando como medio principal las dependencias funcionales. Las Formas Normales son un pequeo nmero de reglas que de cumplirse hacen que las estructuras posean la menor cantidad de redundancia posible. Primera Forma Normal (1NF): No hay campos mltiples (todos los campos son atmicos). Todas las filas deben tener el mismo nmero de columnas. Segunda Forma Normal (2NF): Todo campo que no sea clave debe depender por completo de toda la clave.

  • Tercera Forma Normal (3NF): No hay dependencias transitivas. Un campo debe depender de la clave y no de otro campo. Forma Normal de Boyce-Codd (BCNF): Todos los determinantes de la tabla son clave candidata. Cuarta Forma Normal (4NF): Una fila no debe contener dos o ms campos multi-valorados (aquellos que pueden contener ms de un valor simultneamente) sobre una entidad. Quinta Forma Normal (5NF): Una tabla puede almacenar atributos dependientes a la clave slo por unin. Algebra Relacional: El lgebra relacional consiste de algunas simples pero poderosas maneras de construir nuevas relaciones a partir de otras. Si pensamos que las relaciones iniciales son los datos almacenados entonces las nuevas relaciones se pueden ver como respuestas a algunas consultas deseadas. Conjunto de operaciones en relaciones

    R S, la unin de R y S es el conjunto de elementos que estn en R o S o ambos. Un elemento solo aparece una sola vez.

    R S, el conjunto de elementos que aparecen en ambos R y S R - S, la diferencia de R y S, el conjunto de elementos que estn en R pero no en S. Es importante

    resaltar que R - S es diferente a S - R. R / S, la divisin de una relacin entre otra, debe cumplirse que para toda tupla en R exista su

    correspondiente en S. Restricciones:

    1. R y S deben tener esquemas idnticos. 2. El orden de las columnas debe ser el mismo

    Ejemplos:

    Nombre Direccin Gnero Nacimiento

    Carrie Fisher 123 Maple St. F 9/9/99

    Mark Hamill 456 OakRd. M 8/8/88

    Nombre Direccin Gnero Nacimiento

    Harrison Ford 789 Palm Dr. M 7/7/77

    Carrie Fisher 123 Maple St. F 9/9/99

    Unin

    Nombre Direccin Gnero Nacimiento

    Harrison Ford 789 Palm Dr. M 7/7/77

    Mark Hamill 456 OakRd. M 8/8/88

    Carrie Fisher 123 Maple St. F 9/9/99

    Interseccin

    Nombre Direccin Gnero Nacimiento

    Carrie Fisher 123 Maple St. F 9/9/99

    Resta

    Nombre Direccin Gnero Nacimiento

    Mark Hamill 456 OakRd. M 8/8/88

  • Proyeccin Crea una nueva relacin a partir de otra, pero incluyendo slo algunas de las columnas

    A1,A3,A6 (R)

    Ttulo Ao Duracin Tipo Estudio

    StarWars 1977 124 color Fox

    MightyDucks 1991 104 color Disney

    Wayne'sWorld 1992 95 color Paramount

    Pelcula Ejemplo:

    ttulo,ao,duracin(Pelcula)

    Ttulo Ao Duracin

    StarWars 1977 124

    MightyDucks 1991 104

    Wayne'sWorld 1992 95

    tipo(Pelcula)

    Tipo

    Color

    Seleccin Crea una nueva relacin a partir de otra, pero incluyendo slo algunas de las tuplas a partir de

    un criterio dado. El criterio se basa en restricciones sobre los atributos de la relacin R y no pueden incluirse

    otras relaciones en dicho criterio que no estn en R

    Ttulo Ao Duracin Tipo Estudio

    StarWars 1977 124 color Fox

    MightyDucks 1991 104 color Disney

    Wayne'sWorld 1992 95 color Paramount

    Pelcula Ejemplos:

    duracin>=100 (Pelcula)

    Ttulo Ao Duracin Tipo Estudio

    StarWars 1977 124 color Fox

    MightyDucks 1991 104 color Disney

    duracin>=100 and estudio='Fox' (Pelcula)

    Ttulo Ao Duracin Tipo Estudio

    StarWars 1977 124 color Fox

  • ttulo,estudio( duracin>=100 (Pelcula))

    Ttulo Estudio

    StarWars Fox

    MightyDucks Disney

    Asignacin

  • A R.B S.B C D

    1 2 2 5 6

    1 2 4 7 8

    1 2 9 10 11

    3 4 2 5 6

    3 4 4 7 8

    3 4 9 10 11

    R X S Producto natural |X| Es un producto cartesiano donde nos interesan nicamente algunas tuplas que hacen "match" en algn criterio.

    A R.B S.B C D

    1 2 2 5 6

    1 2 4 7 8

    1 2 9 10 11

    3 4 2 5 6

    3 4 4 7 8

    3 4 9 10 11

    A B C D

    1 2 5 6

    3 4 7 8

    R |X| S

    Bases de Datos Relacionales:

    Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo ms utilizado en la actualidad para implementar bases de datos ya planificadas. Permiten establecer interconexiones (relaciones) entre los datos (que estn guardados en tablas), y a travs de dichas conexiones relacionar los datos de ambas tablas. Tras ser postuladas sus bases en 1970 por Edgar Frank Codd, de los laboratorios IBM en San Jos (California), no tard en consolidarse como un nuevo paradigma en los modelos de base de datos. Lenguaje de Consulta:

    Un lenguaje de consulta es un lenguaje informtico usado para hacer consultas en bases de datos y sistemas de informacin. Los lenguajes de consulta pueden ser clasificados de acuerdo a si son lenguajes de consulta de bases de datos o lenguajes de consulta de recuperacin de informacin. SQL es un lenguaje de consulta muy reconocido para bases de datos relacionales.

  • Diccionario de Datos: Un diccionario de datos es un conjunto de metadatos que contiene las caractersticas lgicas

    de los datos que se van a utilizar en el sistema que se programa, incluyendo nombre, descripcin, alias, contenido y organizacin.

    Estos diccionarios se desarrollan durante el anlisis de flujo de datos y ayuda a los analistas que participan en la determinacin de los requerimientos del sistema, su contenido tambin se emplea durante el diseo del proyecto.

    Identifica los procesos donde se emplean los datos y los sitios donde se necesita el acceso inmediato a la informacin, se desarrolla durante el anlisis de flujo de datos y auxilia a los analistas que participan en la determinacin de los requerimientos del sistema, su contenido tambin se emplea durante el diseo.

    En un diccionario de datos se encuentra la lista de todos los elementos que forman parte del flujo de datos de todo el sistema. Los elementos ms importantes son flujos de datos, almacenes de datos y procesos. El diccionario de datos guarda los detalles y descripcin de todos estos elementos. Ejemplos Nombre = Ttulo + Primer-nombre + Apellido-paterno + Apellido-materno Ttulo = [ Sr | Sra | Dr | Ing] Primer-nombre = {caracter} Apellido-paterno = {caracter} Apellido-materno = {caracter} caracter = [A-Z|a-z| |] a Terminologa para Describir la Estructura Relacional: Relaciones: corresponde a lo que hasta ahora hemos llamado en general tabla. Una tupla: corresponde a una fila de esa tabla y un atributo a una columna. El nmero de tuplas se

    denomina cardinalidad y el nmero de atributos se llama grado. Campo: columna es la vista lista que muestra una categora de informacin como un nmero de

    serie o fecha de compra. Registro: toda la informacin relacionada sobre una persona, lugar o cosa. La clave primaria: es nica para las tablas, es decir, una columna o combinacin de columnas con la

    siguiente propiedad. Nunca existen dos filas de la tabla con el mismo valor en esa columna o combinacin de columnas.

    El dominio es una coleccin de valores, de los cuales uno o ms atributos (columnas) obtienen sus valores reales.