Mod1 Bases de datos

36
Los datos: conceptos introductorios Rafael Camps Paré PID_00171666

description

Mod1 Bases de datos

Transcript of Mod1 Bases de datos

Page 1: Mod1 Bases de datos

Los datos:conceptosintroductorios Rafael Camps Paré PID_00171666

Page 2: Mod1 Bases de datos

© FUOC • PID_00171666 Los datos: conceptos introductorios

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico,químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escritade los titulares del copyright.

Page 3: Mod1 Bases de datos

© FUOC • PID_00171666 Los datos: conceptos introductorios

Índice

Introducción............................................................................................... 5

Objetivos....................................................................................................... 6

1. Los tres mundos: el real, el conceptual y el de las

representaciones................................................................................. 7

1.1. La realidad: los objetos ............................................................... 7

1.2. Las concepciones: la información .............................................. 8

1.3. Las representaciones: los datos ................................................... 9

1.4. La interpretación ......................................................................... 10

2. El mundo conceptual: entidades y atributos............................. 11

2.1. La información: expresión lingüística ........................................ 11

2.2. Entidades, atributos y valores ..................................................... 11

2.3. El tiempo ..................................................................................... 13

2.4. Dominios y valores nulos ........................................................... 15

2.5. Identificadores y claves ............................................................... 15

2.6. Atributos multivalor .................................................................... 16

2.7. La entidad: instancia y tipo ........................................................ 17

3. El mundo de las representaciones................................................. 19

3.1. La representación tabular ........................................................... 19

3.2. Ficheros, registros y campos ....................................................... 20

3.3. Bases de datos ............................................................................. 21

3.4. El registro físico y los soportes ................................................... 23

3.5. Organización ............................................................................... 24

3.6. Acceso a los datos ....................................................................... 25

3.7. Nivel lógico y nivel físico ........................................................... 26

4. La memoria persistente.................................................................... 28

4.1. Justificación de la utilización de la memoria persistente ............ 28

4.2. Esquema de la E/S ....................................................................... 28

4.3. Tiempo de acceso ........................................................................ 29

4.4. Características básicas de los soportes ........................................ 31

Resumen....................................................................................................... 32

Ejercicios de autoevaluación.................................................................. 33

Solucionario................................................................................................ 34

Page 4: Mod1 Bases de datos

© FUOC • PID_00171666 Los datos: conceptos introductorios

Glosario........................................................................................................ 35

Bibliografía................................................................................................. 36

Page 5: Mod1 Bases de datos

© FUOC • PID_00171666 5 Los datos: conceptos introductorios

Introducción

Los datos que se utilizan en los sistemas de información (SI) se acostumbran

a almacenar en bases�de�datos�(BD). Para poder hablar y razonar con cier-

ta propiedad sobre las BD, nos convendrá tener claro qué son los datos y la

información, abstracciones que los informáticos representamos físicamente

sobre dispositivos de almacenamiento externo no volátil. Con este objetivo,

tendremos que adquirir algunas nociones teóricas fundamentales y disponer

de herramientas formales en las que basarnos.

En este módulo didáctico estudiaremos los elementos básicos del mundo de las

representaciones informáticas, y su correspondencia con el mundo real y con

el mundo de las abstracciones. Introduciremos los términos más habituales y

los conceptos fundamentales sobre datos e información, que utilizaremos en

el resto de la asignatura para estudiar las BD.

Page 6: Mod1 Bases de datos

© FUOC • PID_00171666 6 Los datos: conceptos introductorios

Objetivos

En los materiales didácticos de este módulo, el estudiante encontrará las he-

rramientas indispensables para alcanzar los siguientes objetivos:

1. Saber situar los términos básicos más habituales en el campo de los datos

y la información (atributo, clave, entidad, fichero, base de datos, soporte,

etc.) en el marco teórico construido en la asignatura.

2. Saber distinguir claramente el mundo de las representaciones sobre sopor-

tes físicos informáticos del mundo de las concepciones o abstracciones.

3. Poder enumerar los tipos básicos de acceso a los datos y ver los sistemas

de organización como medios para hacerlos eficientes.

4. Entender que las representaciones informáticas se pueden estudiar desde

un nivel o punto de vista puramente lógico, alejado de la realización física

(implementación), o bien desde un nivel físico. En esta asignatura adop-

taremos básicamente un punto de vista lógico.

5. Ser capaz de describir y evaluar las características básicas de los soportes

de las memorias persistentes para el almacenamiento de datos.

Page 7: Mod1 Bases de datos

© FUOC • PID_00171666 7 Los datos: conceptos introductorios

1. Los tres mundos: el real, el conceptual y el de lasrepresentaciones

Para tener un marco donde situar los términos y los conceptos que explicare-

mos en la asignatura, distinguiremos tres ámbitos diferentes:

• El mundo real con los objetos de nuestro interés.

• El mundo de las conceptualizaciones lógicas.

• El mundo de las representaciones informáticas.

Figura 1.

1.1. La realidad: los objetos

Para analizar o construir un sistema de información (SI)1 determinado, nece-

sitamos conocer el mundo real al que este SI debe hacer referencia o modeli-

zar; así, nuestro mundo real podrá ser un hospital, una empresa distribuidora

de productos alimenticios, la matriculación de los estudiantes de una univer-

sidad, etc.

(1)Un SI recoge, almacena y distri-buye información sobre el estadode un dominio.

Page 8: Mod1 Bases de datos

© FUOC • PID_00171666 8 Los datos: conceptos introductorios

Ejemplos de objetos concretos

El enfermo Juan García,la cama 34 de la segundaplanta, el almacén de Soria,el camión B− 3452 − AG, la alumna María Pi, la asignatura Química I, la enfermedad meningitis, ladevolución de un pedido concreto, un determinado accidente de tráfico, etc. son algunosejemplos de objetos que pertenecen al mundo real.

El mundo�real, la parte de la realidad que nos interesa, es lo que perci-

bimos con nuestros sentidos y está compuesto por objetos concretos,

físicos o no.

1.2. Las concepciones: la información

A partir de la observación del mundo real, los humanos somos capaces de de-

ducir conocimientos e información. La observación de los objetos del mundo

real nos conduce a su análisis y su síntesis; después, obtenemos abstracciones

de ello, hacemos clasificaciones (podemos saber que dos objetos son de la mis-

ma clase a pesar de que sean diferentes), deducimos propiedades e interrela-

ciones, etc.

De la observación obtenemos la información

La observación del campo de la matriculación en una universidad nos permitereconocerdiferentes claseso tipos de objetos, como por ejemplo el estudiante o la asignatura. Dedu-cimos que todo estudiante tendrá las propiedades (son abstracciones) fecha de nacimiento,DNI, nombre, etc., y de este modo obtenemos informaciones como las siguientes: el estu-diante de nombre Juan García tiene el DNI 34.567.854 y su año de nacimiento es 1979.

El conjunto de los conocimientos obtenidos a partir de la observación

de un mundo real se denomina mundo�conceptual o mundo�de�las

concepciones. En la esfera de las concepciones construimos un modelo

abstracto, conceptual, del mundo real, y esto nos ayuda a razonar y a

expresarnos.

El proceso�de�observación/abstracción es básicamente un proceso pa-

ra modelizar la estructura, las propiedades y el funcionamiento de la

realidad.

De hecho, existen diferencias entre conocimiento e información. La informa-

ción es un conocimiento transmisible, es decir, que se puede representar. Los

únicos conocimientos que nos interesarán aquí son, por lo tanto, las informa-

ciones.

Un mismo mundo real puede ser visto, concebido y modelizado de distintas

formas por diferentes observadores (incluso por un mismo observador) según

su entorno o marco de referencia. Por ejemplo, un profesor no ve del mismo

modo el ámbito de la gestión de un centro universitario que un administrativo

de secretaría. Tienen marcos de referencia diferentes. No están interesados en

los mismos conceptos. El profesor, a diferencia del administrativo, no necesi-

tará conocer el importe de la matrícula, no querrá distinguir las abstracciones

Page 9: Mod1 Bases de datos

© FUOC • PID_00171666 9 Los datos: conceptos introductorios

estudiante con beca y estudiante sin beca. Los profesores estarán interesados en

la calificación numérica, mientras que el servicio administrativo tal vez sólo

tendrá en cuenta la forma textual de la calificación.

Así, en el paso del mundo real al de las concepciones encontramos pluralismo.

Es posible que la observación y el análisis de una misma parte de una organi-

zación o empresa lleven a concepciones diferentes, todas igualmente válidas,

y que pueden tener que coexistir.

1.3. Las representaciones: los datos

El mundo de las concepciones o de los conocimientos es un mundo

mental. Sin embargo, para trabajar con estos conocimientos y comu-

nicarlos, necesitamos proyectar los pensamientos al exterior, represen-

tándolos físicamente de alguna manera. Éste es el mundo�de�las�repre-

sentaciones.

Nosotros aquí nos ocuparemos de las representaciones informáticas, y habla-

remos de datos, ficheros, bases de datos, registros, campos, bytes, discos, etc.

Damos el nombre de datos a las representaciones físicas de los cono-

cimientos que tenemos de los objetos del mundo real. El paso de los

conocimientos a los datos, o de una concepción a una representación

informática, no es automático. Es un proceso humano: un proceso de

diseño.

Obviamente, en este caso como en el caso del paso del mundo real al de las

concepciones, también hay pluralismo. Un mismo conjunto de conocimien-

tos se puede representar de muchas formas; por ejemplo, en forma de base de

datos relacional o como ficheros tradicionales, con vectores o sin ellos, con

longitud fija o variable, con codificación ASCII o EBCDIC, etc. Una visión o

concepción del mundo real de un hospital, de una universidad o de una dis-

tribuidora de productos se podrá representar de muchas formas sobre soportes

físicos informáticos.

Representación deconocimientos

Podemos representar conoci-mientos escribiendo a manosobre un papel, grabando by-tes en un disco magnético se-gún un formato y una codifica-ción determinados, etc.

Sin ningún tipo de duda, las tareas más importantes del analista/diseñador de

SI o de aplicaciones informáticas son las siguientes:

1) Analizar los objetos del mundo real, y hacer abstracciones y obtener una

concepción lógica de ellos.

2) Diseñar una representación informática concreta que se pueda tratar efi-

cientemente.

Diseños diferentes

Se pueden hacer muchos di-seños diferentes de represen-tación informática que corres-pondan a un único modeloconceptual de una realidad.Todos pueden representar lamisma realidad, pero tendránuna eficiencia diferente segúnla utilización que se haga deellos.

Page 10: Mod1 Bases de datos

© FUOC • PID_00171666 10 Los datos: conceptos introductorios

El hecho de saber observar la realidad y hacer de ella las abstracciones lógicas

más adecuadas, así como la habilidad para el análisis y la síntesis, llegan a

ser cualidades fundamentales que debe tener el desarrollador de SI. Y estas

cualidades se deben educar y cultivar.

Evolución del diseño de aplicaciones

El paso de un mundo conceptual a un mundo de representaciones informáticas se hizomás sencillo a medida que la tecnología informática avanzaba y se simplificaba su utili-zación. En los años sesenta y setenta, el desarrollador de aplicaciones se veía obligado atener en cuenta una multitud de detalles físicos de la representación informática. Actual-mente, la simplificación del proceso de diseño de la representación hace que el procesode observación/abstracción se convierta en la tarea principal del desarrollador de SI.

1.4. La interpretación

Acabamos de ver el camino que nos conduce de la realidad a los cono-

cimientos, y de éstos a los datos o las representaciones. Sin embargo,

nos hará falta interpretar la representación. El proceso inverso al de re-

presentación se denomina interpretación.

Si consideramos un dato, una representación que consta de la serie de símbolos

1 9 9 9, y que está extraída de una base de datos relativa a la matriculación de

estudiantes, no podremos obtener ninguna información de ella si no sabemos

si hace referencia al año de matriculación, al año de nacimiento, al importe

de la matrícula, al número de la matrícula, etc.; además, no sabremos de qué

estudiante concreto (de qué objeto del mundo real) se trata. Vemos, entonces,

que para poder interpretar los datos se debe saber además a quién y a qué (a

qué conceptos) hacen referencia.

Hemos dicho que una información es un conocimiento que se puede repre-

sentar, pero ahora, teniendo en cuenta el camino inverso, podremos decir que

la información es el significado que le damos a los datos.

Para reflexionar

¿Cómo se puede obtener co-nocimientos e información deuna representación?

Page 11: Mod1 Bases de datos

© FUOC • PID_00171666 11 Los datos: conceptos introductorios

2. El mundo conceptual: entidades y atributos

Como ya hemos visto, el mundo conceptual es el mundo de las abstracciones

lógicas y el dominio de la información. Este campo es fundamental para con-

cebir (analizar y diseñar) el SI.

2.1. La información: expresión lingüística

Cuando hablamos de información, nos movemos en el ámbito de las concep-

ciones. Toda información se refiere a un objeto y nos describe una propiedad.

Por ejemplo, una información sobre un estudiante (el objeto) podría ser la

propiedad "nació en 1979".

En términos lingüísticos, una información (un conocimiento elemen-

tal) se puede expresar con un sujeto (el estudiante concreto) y un pre-

dicado ("nació en 1979"). El predicado está formado por el verbo y el

complemento.

Con conectores lógicos (o, y, no) podemos expresar conocimientos más com-

plejos. Por ejemplo, "este estudiante concreto se llama Juan García y nació en

1979".

2.2. Entidades, atributos y valores

Desde un punto de vista informático utilizamos unos términos diferentes de

los que se emplean en lingüística.

Se denominan entidades los objetos que conceptualizamos como dis-

tinguibles unos de otros (es decir, que son identificables), y de los que

nos interesan algunas propiedades. El término entidad se corresponde

con el término sujeto del campo de la lingüística. Es la conceptualiza-

ción del objeto al que hace referencia la información.

El predicado es la propiedad descrita, y sus dos partes, verbo y comple-

mento, las denominamos atributo (año de nacimiento) y valor (1979),

respectivamente.

Ved también

Para ampliar la información so-bre el mundo conceptual, con-sultad el subapartado 1.2 deeste módulo didáctico.

Page 12: Mod1 Bases de datos

© FUOC • PID_00171666 12 Los datos: conceptos introductorios

Figura 2

Toda información se caracteriza por los tres elementos siguientes: entidad, atri-

buto y valor. Si sólo conocemos el atributo (año de nacimiento) y el valor (1979),

no tenemos información, ya que no sabemos a qué entidad (estudiante) hace

referencia. Si no conocemos el atributo, no sabremos a qué hace referencia el

valor (¿el número 1979 es el año de nacimiento?, ¿o tal vez se trata del número

de matrícula o de la altura en milímetros?).

Para aclarar y precisar el significado de estos tres términos, entidad, atributo y

valor, utilizaremos conceptos elementales de la teoría de conjuntos.

Situados en este marco de la teoría de conjuntos, podemos considerar el atri-

buto año de nacimiento como una correspondencia entre los estudiantes y los

años del calendario. Cada estudiante tiene un solo año de nacimiento, y di-

ferentes estudiantes pueden tener el mismo año de nacimiento. Es decir, la

correspondencia entre los estudiantes y los años puede ser vista como una

aplicación (en el sentido de las matemáticas) del conjunto de los estudiantes

sobre el conjunto de los años.

Figura 3

Page 13: Mod1 Bases de datos

© FUOC • PID_00171666 13 Los datos: conceptos introductorios

Si E es un conjunto de entidades individuales (conceptualizaciones de

los objetos del mundo real) y V es un conjunto de valores, podemos

definir el atributo�A como la aplicación de E sobre V. Si expresamos la

aplicación en términos de una función, diremos que V = A(E).

{Entidad} → {Valor}

Atributo

Figura 4.

Para un mismo conjunto origen podemos definir diferentes aplicaciones sobre

diversos conjuntos imagen. Dicho de otro modo, una entidad puede tener más

de un atributo.

Ejemplo�de�entidad�multiatributo

Supongamos que lo que hay que saber de los estudiantes es el número de

matrícula, el número de DNI, el nombre y el año de nacimiento.

Las entidades tendrán cuatro atributos y un valor para cada atributo. Repre-

sentamos ahora, en la figura 5 de la página siguiente, los atributos como apli-

caciones.

2.3. El tiempo

Realmente, la información no es independiente del tiempo. El sueldo de un

empleado, la altura de un estudiante, el número de hijos, etc., varían con el

tiempo. En un SI nos puede interesar mantener el valor actual de los atributos,

Page 14: Mod1 Bases de datos

© FUOC • PID_00171666 14 Los datos: conceptos introductorios

pero tal vez también queremos incluir valores anteriores. Así, de este modo, el

valor 3 del atributo número de hijos de Juan García no constituye una informa-

ción suficientemente completa, si no sabemos a qué momento corresponde.

Incluso los atributos estables, como por ejemplo el DNI de un estudiante, pue-

den cambiar en el mundo real. Sin embargo, aunque no sea así, en un SI todo

atributo puede cambiar de valor en el tiempo. Por ejemplo, hemos introducido

un DNI erróneo, y lo detectamos y lo cambiamos al cabo de unos meses. Dado

que durante estos meses hemos podido comunicar el DNI erróneo al mundo

exterior, nos convendría tener registrado en el SI los dos número de DNI y la

fecha del cambio.

En general, para tener bien caracterizada una información no es sufi-

ciente con los tres elementos entidad, atributo y valor, sino que nos

hará falta el tiempo.

Figura 5

Y tal vez no tendremos suficiente con sólo un tiempo, sino que nos harán

falta varios: el momento en que se produjo el cambio en el mundo real, el

momento en que se introdujo en el SI, etc.

Page 15: Mod1 Bases de datos

© FUOC • PID_00171666 15 Los datos: conceptos introductorios

Tanto las técnicas de modelización conceptual que se utilizan en el ámbito

profesional, como las bases de datos y los ficheros actuales, no dan demasia-

das facilidades para considerar el tiempo como un elemento caracterizador de

la información. En los próximos años esto cambiará, pero mientras tanto, la

responsabilidad de incluir el tiempo en los SI corresponde al diseñador. Por

ejemplo, se podría diseñar un fichero que contuviese los datos actuales, sin

ningún atributo que hiciera referencia al tiempo, y un fichero histórico en el

que cada registro de información fuese acompañado de una fecha y una hora.

2.4. Dominios y valores nulos

El conjunto de todos los valores válidos, o legales, que puede llegar a

tener un atributo, recibe el nombre de dominio�del�atributo.

Puede ocurrir que el valor de un atributo determinado de alguna enti-

dad individual sea desconocido o no exista. Entonces diremos que el

dominio�de�ese�atributo�acepta�el�valor�nulo.

Podemos desconocer el nombre o el año de nacimiento de un determinado es-

tudiante. También puede suceder que algún estudiante no tenga DNI. Cuando

esto ocurre, al definir el dominio del atributo deberemos indicar si aceptamos

o no el valor nulo.

2.5. Identificadores y claves

Recordemos que en la teoría de conjuntos se denomina aplicación�inyectiva

aquella aplicación en la que a cada elemento del conjunto imagen le corres-

ponde un elemento del conjunto origen origen como máximo. De este modo,

el atributo año de nacimiento no es una aplicación inyectiva, porque varios es-

tudiantes pueden haber nacido el mismo año.

Sin embargo, el atributo número de matrícula sí es una aplicación inyectiva, ya

que en nuestro mundo real, en el ámbito de la matriculación de estudiantes,

no se acepta que dos de ellos tengan el mismo número de matrícula. Preci-

samente, este número se utiliza para distinguir unos de otros; es decir, para

identificarlos.

Los atributos que concebimos como aplicaciones inyectivas se denomi-

nan identificadores.

Los atributos son identificadores o no, según los objetos que nos interesa mo-

delar. Si nos referimos a las personas, el DNI de una persona es un identifica-

dor. Sin embargo, si el mundo real que consideramos se refiere a seguros de

Ejemplo

El número entero 981 o la se-rie de símbolos A − 321.6, porejemplo, no forman parte deldominio del atributo año denacimiento de los estudiantesde nuestro mundo real.

Nota

No se debe confundir el valornulo con un cero o con los es-pacios en blanco. Por ejemplo,el color de un importe desco-nocido no es cero.

Page 16: Mod1 Bases de datos

© FUOC • PID_00171666 16 Los datos: conceptos introductorios

accidentes, los objetos de nuestro interés serán los accidentes de tráfico, y en-

tonces el atributo DNI (el DNI del conductor), no será un atributo identifica-

dor, ya que dos accidentes podrían ser del mismo conductor.

Una entidad puede tener más de un identificador, o incluso no tener ninguno.

Los estudiantes pueden quedar identificados tanto por el número de matrícula

como por el DNI. Sin embargo, puede ocurrir que la entidad no tenga ningún

atributo identificador. Por ejemplo, si consideramos los objetos ciudad con los

atributos nombre ciudad, número de habitantes, país y superficie de arbolado, nos

encontramos con que el nombre ciudad no identifica una ciudad, ya que pue-

den existir ciudades con el mismo nombre en diferentes países. Entonces, pa-

ra identificar las ciudades tendremos que utilizar conjuntamente la pareja de

atributos país y nombre ciudad.

Nombres de ciudades

El nombre de las ciudades noes suficiente para identificarlas,porque un solo nombre puedehacer referencia a varias ciu-dades; por ejemplo, en Vene-zuela hay una ciudad que tienepor nombre Barcelona.

Conjuntos de atributos

Como ya hemos visto anteriormente, las entidades corresponden a objetos que podemosidentificar o distinguir. Para distinguir a los estudiantes, podemos utilizar el atributo nú-mero de matrícula, ya que se trata de un atributo identificador. Sin embargo, en el caso delos accidentes de tráfico, el DNI del conductor no nos identifica el accidente. Ya que nohay un atributo identificador, podríamos identificar los accidentes con el par DNI del con-ductor y fecha y hora, o tal vez el conjunto de atributos país, nombre ciudad, calle, número,fecha y hora, o cualquier otro conjunto de atributos que nos diferenciase los accidentes.

Todo atributo o conjunto de atributos que permite identificar las enti-

dades individuales recibe el nombre de clave.

Ved también

Consultad el concepto de enti-dad en el subapartado 2.2 deeste módulo didáctico.

En el caso de los estudiantes, tanto el atributo número de matrícula como el DNI

son claves, y cada uno es un atributo identificador. En el caso de las ciudades,

el par de atributos país y nombre ciudad constituye una clave, pero ninguno de

los dos es identificador.

Otros significados del término clave

En el campo de los ficheros y las bases de datos (BD), el término clave se utiliza tambiéncon otros significados. Por ejemplo, se acostumbra a denominar clave el atributo o con-junto de atributos que se utiliza para efectuar una búsqueda en un fichero.

Podemos buscar dentro de un fichero a los estudiantes que tienen el atributo nota iguala 8,5; es decir, utilizando como "clave" de búsqueda la nota. Sin embargo, obviamente,la nota no es una clave en el sentido que aquí damos a este término.

2.6. Atributos multivalor

Dado que el atributo es una aplicación entre conjuntos, a cada entidad

le puede corresponder como máximo un solo valor. En consecuencia,

un atributo no podrá ser multivalor (o multivaluado).

Nota

Todo atributo identificadoresuna clave, pero no toda cla-vees un atributo identificador.

Page 17: Mod1 Bases de datos

© FUOC • PID_00171666 17 Los datos: conceptos introductorios

Por ejemplo, no será posible un atributo nota tal que cada estudiantes pueda

tener más de una nota, ya que entonces no sería una aplicación, sino una

correspondencia.

Figura 6.

Esta restricción es propia del modelo relacional y ha sido seguida al pie de la

letra por la mayoría de los sistemas de gestión de BD del mercado. Dado que

aquí nos moveremos dentro del ámbito del modelo relacional, no aceptare-

mos los atributos multivalor. En la práctica éstos se utilizan con frecuencia,

especialmente en los ficheros clásicos.

2.7. La entidad: instancia y tipo

Hasta aquí hemos utilizado el término entidad para denominar la conceptua-

lización de un objeto del mundo real (una instancia): un estudiante concreto,

un accidente concreto, etc. Sin embargo, también lo utilizaremos para deno-

minar la entidad genérica, el tipo, la abstracción estudiante o accidente (no un

alumno o un accidente concreto, ni el conjunto de los estudiantes o de los

accidentes). Todas las entidades estudiantes son elementos del conjunto de es-

tudiantes. Todos los estudiantes son individuos o instancias del mismo tipo

(son instancias del tipo de entidad estudiante).

Page 18: Mod1 Bases de datos

© FUOC • PID_00171666 18 Los datos: conceptos introductorios

Así pues, el término entidad tendrá dos acepciones2:

1) La entidad como individuo o instancia.

2) La entidad como clase, o tipo.

Todas las instancias de un mismo tipo (todas las entidades individuales

de una misma entidad genérica) tienen los mismos atributos.

Todos los estudiantes tienen número de matrícula, DNI, nombre y fecha de

nacimiento, y por este motivo los consideramos de la misma entidad tipo es-

tudiante.

Habitualmente sólo concretaremos cuál de las dos acepciones del término en-

tidad utilizamos –instancia o tipo– cuando no quede suficientemente claro por

el contexto.

(2)Algunos autores también inclu-yen una tercera acepción y consi-deran una entidad como el con-junto de instancias de una entidadtipo.

Page 19: Mod1 Bases de datos

© FUOC • PID_00171666 19 Los datos: conceptos introductorios

3. El mundo de las representaciones

Ahora veremos los principales conceptos y términos que se utilizan en el cam-

po de las representaciones informáticas, el mundo de los datos.

3.1. La representación tabular

La información pertenece al dominio conceptual o mental. Sin embargo, para

transmitirla y procesarla necesitamos representarla físicamente. La representa-

ción informática de una información elemental se denomina dato. El mundo

de las representaciones será el mundo de los datos, y para describirlo hablare-

mos de ficheros, registros, campos, BD, soportes, etc.

La figura 5 es, en realidad, una representación gráfica, no informatizada, de la

información de los estudiantes. Se ha hecho utilizando este papel como sopor-

te. Sin embargo, como hemos podido observar, con tantas flechas y conjun-

tos, no resulta demasiado cómoda para procesarla o transmitirla; esto sucede

especialmente en un caso real, en el que habría decenas de atributos y miles

de estudiantes. Resulta mucho más sencillo llevar a cabo una representación

tabular con una fila para cada entidad individual y una columna para cada

atributo.

Figura 7

La tabla anterior es una representación tabular, formalmente muy similar a la

representación típica en ficheros informáticos. Es como un fichero de datos

de estudiantes que tiene un registro para cada estudiante (en estos momentos

sólo tiene tres) con cuatro campos para cada registro.

Ved también

Podéis ver la figura 5 en elsubapartado 2.2 de este mó-dulo didáctico.

Page 20: Mod1 Bases de datos

© FUOC • PID_00171666 20 Los datos: conceptos introductorios

Una representación�tabular de un conjunto de n entidades e i donde

cada una de ellas tiene m atributos aj es, de hecho, un conjunto de n

tuplas de grado m formadas por los valores vij.

El esquema (formato o cabecera) de esta tabla se podría escribir de la si-

guiente forma: E(a1, a2, ..., aj, ..., am). Podríamos considerarlo una repre-

sentación de la entidad tipo E, es decir, el tipo de las entidades instancia

ei, i = 1 a n. Todas las ei tienen la misma estructura; en otros términos,

tienen los mismos atributos aj, donde j = 1 a m.

3.2. Ficheros, registros y campos

Tradicionalmente, los datos han sido almacenados en ficheros sobre soportes

magnéticos. El término fichero se emplea en el ámbito de los sistemas opera-

tivos (SO) en un sentido mucho más genérico que aquí. Evidentemente, en

esta asignatura no hablaremos de ficheros de programas, pero tampoco lo ha-

remos de ficheros de texto libre, ficheros de gráficos, etc. Sólo hablaremos de

ficheros de datos estructurados en registros y de bases de datos, que es lo que

normalmente se utiliza en los SI.

Page 21: Mod1 Bases de datos

© FUOC • PID_00171666 21 Los datos: conceptos introductorios

Un fichero�de�datos es una representación informática equivalente a

la representación tabular:

a)�La representación de una entidad (el equivalente a una fila de la tabla)

recibe el nombre de registro.

b) La representación del valor de un atributo de una entidad se deno-

mina campo.

El conjunto de campos constituye el registro, y el conjunto de registros

constituye el fichero.

Podemos considerar que en el mundo de los ficheros tradicionales de datos,

el equivalente de los atributos son las cabeceras de los campos.

Los datos (las informaciones elementales) de cada uno de nuestros estudian-

tes estarán almacenados en una estructura de cuatro campos, uno para cada

atributo. Cada campo contendrá un valor (un dato). El conjunto de los datos

de un estudiante forma el registro –la "ficha"– del estudiante, y el conjunto de

los registros de los estudiantes forma el fichero de estudiantes.

Figura 8

Campo: un término polivalente

El término campo se utiliza, en la práctica, en varios sentidos parecidos, circunstancia quepuede conducir a confusión. Es frecuente utilizarlo en el sentido de la representación deun valor, pero con frecuencia se utiliza con el significado del continente, es decir, el lugardonde se almacena el valor; también es frecuente utilizarlo para denominar la cabecera.De este modo, se habla del dominio de un campo, de campos identificadores, de clavesformadas por un campo identificador o distintos campos no identificadores, de camposmultivalores, etc.

3.3. Bases de datos

Consideremos ahora un mundo conceptual formado por diferentes entidades

tipo. Su representación informática podría hacerse mediante un conjunto de

ficheros.

Page 22: Mod1 Bases de datos

© FUOC • PID_00171666 22 Los datos: conceptos introductorios

De momento, en este módulo introductorio daremos el nombre de base

de�datos (BD) a un conjunto de ficheros de datos interrelacionados.

Supongamos que los tipos de objetos de nuestro interés son estudiantes, asig-

naturas y profesores, y que los atributos de las tres entidades son los siguientes:

a)�Estudiante: número de matrícula, DNI del estudiante, año de nacimiento, nom-

bre del estudiante.

b)�Asignatura: código, nombre de la asignatura, créditos.

c)�Profesor: DNI del profesor, nombre del profesor, despacho.

Podremos representar estas entidades mediante tres ficheros, uno para cada

entidad, con los campos correspondientes a los atributos. Sin embargo, falta la

información que permite interrelacionar las entidades entre sí. Supongamos

que estas interrelaciones son las siguientes:

1) Cualquier estudiante puede cursar más de una asignatura y, evidentemente,

cualquier asignatura puede ser cursada por muchos estudiantes.

2) Toda asignatura viene dada por un solo profesor, pero cada profesor puede

impartir varias asignaturas.

3) Supongamos también que nos interesa la nota que el estudiante tiene de

cada asignatura. Se trata de un atributo, nota, que no es propiamente del estu-

diante (ya que tiene una por asignatura) ni de la asignatura (ya que tiene tan-

tas como estudiantes la cursan). Equivaldría a un atributo de la interrelación

entre asignatura y estudiante.

Figura 9

Fijémonos ahora en los problemas que plantea la representación informática

de estas interrelaciones:

a) La interrelación�entre�asignaturas�y�profesores se podría representar aña-

diendo a los registros de las asignaturas un campo DNI del profesor con el valor

del DNI del profesor que la da. De este modo, una asignatura tendría un solo

profesor, y un mismo profesor podría aparecer en diferentes asignaturas.

Actividad

¿Cuáles son las interrelacione-sentre alumnos, asignaturas yprofesores?

Page 23: Mod1 Bases de datos

© FUOC • PID_00171666 23 Los datos: conceptos introductorios

b) La interrelación�entre�asignaturas�y�estudiantes es más compleja y se

podría representar mediante campos complejos de tipo vector; de este modo,

se imitarían los atributos multivalor, aquí prohibidos. Sin embargo, podríamos

optar por tener otro fichero (una nueva entidad específica para describir esta

interrelación), que tendría los siguientes campos, todos monovalor: código,

número de matrícula, nota. Este nuevo fichero tendría un registro para cada par

de estudiante-asignatura que realmente exista.

Hemos representado la información de nuestro mundo real con cuatro fiche-

ros de datos. Si tuviésemos que escribir un programa para mostrar una lista de

notas acompañadas del nombre del estudiante, el nombre de la asignatura y

el nombre del profesor, tendríamos que hacer que leyese e interrelacionase los

cuatro ficheros. Los programas que crean o actualizan estos ficheros no pueden

ser demasiado sencillos, ya que deben mantener la coherencia del conjunto.

Por ejemplo, al suprimir a un profesor del fichero de profesores, se debe eli-

minar también de las asignaturas que daba; al incluir la nota de un estudian-

te no se debe poner un código de asignatura que no exista en el fichero de

asignaturas, etc.

Vemos, pues, que los conjuntos�de�ficheros�interrelacionados nos plantean

ciertas dificultades. El software tradicional de gestión de ficheros, los File Ma-

nagement Systems, no se ocupan de las posibles interrelaciones entre ficheros, y

las dejan en manos de los usuarios informáticos. A finales de los años setenta

empezó a salir al mercado software especializado en estos conjuntos comple-

jos de bases de datos bajo el nombre de Database Management Systems o Sis-

temas de Gestión de BD (SGBD). Los SGBD son bastante más sofisticados que

los sistemas de gestión de ficheros, y su objetivo es facilitar el uso de las BD,

el diseño, la programación, el mantenimiento, la utilización simultánea por

muchos usuarios, etc.

3.4. El registro físico y los soportes

La memoria�interna (RAM) de los ordenadores es volátil. De este modo, los

datos que almacena un programa desaparecen cuando termina su ejecución.

Para almacenar los datos de forma persistente, hacen falta memorias externas

–periféricos de almacenamiento– que sean soportes físicos permanentes.

Page 24: Mod1 Bases de datos

© FUOC • PID_00171666 24 Los datos: conceptos introductorios

Tal vez nuestros nietos o biznietos no llegarán a recordar cómo se almacenaban

y se gestionaban los datos permanentes sin los ordenadores, pero para nosotros

todavía son habituales las representaciones físicas sobre papel o cartulinas, en

las que los datos están escritos con un formato determinado, con un cierto

lenguaje, un tipo de letra, tinta, etc.

Sobre los soportes informáticos, los programas escriben registros de datos. El

programa graba los datos de un registro en un cierto formato y con una co-

dificación; por ejemplo, el campo nombre podría ser de longitud variable con

un prefijo que indicase su longitud, y su codificación podría ser ASCII; el DNI

podría estar en binario puro y ocuparía tres octetos, etc.

Generalmente, el diseñador de los ficheros o la BD para un SI concreto puede

decidir detalles sobre el registro de los datos. Es parte del denominado diseño

físico.

3.5. Organización

Las fichas de cartón de los estudiantes de la secretaría no informatizada tal

vez están organizadas o colocadas por orden alfabético según el nombre. Para

facilitar el acceso a las mismas, tal vez haya pestañas separadoras para las dos

primeras letras del nombre. Para buscar una ficha sabiendo sólo el número

de matrícula, sin tener que mirar secuencialmente todas las fichas de los estu-

diantes anteriores (están por orden alfabético), se podría disponer de una lista

ordenada por el número de matrícula que nos diese el nombre del estudiante.

Esta lista actuaría, pues, como un índice que nos ayudaría a hacer más rápidas

las búsquedas.

Ejemplo

• Un libro de registro de mo-vimientos bancarios, quetiene una línea (un registro)para cada movimiento.

• En la secretaría de una es-cuela hay un archivadorcon cajones llenos de fi-chas, donde se registra lainformación de los estu-diantes (una ficha por estu-diante). Es el fichero de losestudiantes.

El software de ficheros y el de BD nos dan unas posibilidades�de�orga-

nización parecidas a las del mundo no informático, y otras mucho más

sofisticadas. Son similares a las que el estudiante conoce como estruc-

turas de datos en memoria interna. Son las secuencias, listas encadena-

das, vectores, índices en forma de árbol equilibrado, hashing, etc. Sin

embargo, se tendrán en cuenta las características propias de los soportes

persistentes.

El diseñador de un SI, cuando realiza el diseño físico de los ficheros o de la BD,

debe tomar decisiones respecto a qué sistemas de organización se utilizarán.

Actividad

¿Cuál será la estructura u orga-nización que daremos a los da-tos en un soporte informático?¿Cómo las colocaremos?

Page 25: Mod1 Bases de datos

© FUOC • PID_00171666 25 Los datos: conceptos introductorios

3.6. Acceso a los datos

Una cosa es cómo están organizados los datos (la colocación) y otra cómo se

accede a ellos (la obtención). Todas las organizaciones aceptan varias formas

de acceder a los datos, y es el propio usuario, o tal vez el software, el que elige

cómo lo hace.

Hay dos formas básicas de acceso a los datos: el acceso�secuencial y

el acceso�directo. La diferencia esencial es que el acceso secuencial a

un registro presupone el acceso previo a todos los registros anteriores,

mientras que el acceso directo, no. El acceso secuencial es un acceso "al

siguiente"; en cambio, el acceso directo es un acceso "al deseado".

Otra dicotomía habitual en las formas de acceso es el acceso�por�valor y

el acceso�por�posición. El acceso por valor nos lleva al registro en fun-

ción del valor de alguno de sus atributos, sin tener en cuenta la posición

que ocupa el registro. El acceso por posición, en cambio, nos lleva a un

lugar –una posición– donde encontramos un registro de datos, sin tener

en cuenta el contenido.

Combinando las dos clasificaciones anteriores, tenemos las cuatro formas de

acceso más habituales:

1)�Acceso�secuencial�por�posición�(SP): después de haber accedido a un re-

gistro que ocupa una posición, se pide acceder al registro que ocupa la posición

siguiente. Este tipo de acceso era el natural en el caso de datos almacenados en

cintas magnéticas, pero también es muy utilizado en soportes físicos de acceso

directo como los discos.

Por ejemplo, para construir un cuadro resumen del fichero de estudiantes, se

podría usar el acceso SP, ya que debe ser posible leer a todos los estudiantes sin

que tenga importancia su orden lógico.

2)�Acceso�directo�por�posición�(DP): se pide acceder al registro que ocupa

la posición p.

Por ejemplo, utilizaríamos accesos directos por posición en el caso de que qui-

siéramos programar una búsqueda dicotómica o una búsqueda hashing.

3)�Acceso�secuencial�por�valor�(SV): después de haber accedido a un registro,

se pide acceder al siguiente respecto al orden de un atributo (campo) determi-

nado.

Por ejemplo, en un acceso SV por número de matrícula, una vez encontrado el

estudiante que tiene el 2.418 de número de matrícula (consultad la figura 7),

encontraremos al estudiante 3.782. Éste sería el tipo de acceso que utilizaría-

La posición p

Cuando aquí hablamos de unaposición p, no nos referimo-sa una posición byte (el bytenúmero p dentro del fichero),sino a una posición registro.Cada registro ocupa unaposi-ción y en cada posición pue-de haber un registro.Recordadque aquí sólohablamos de fi-cheros de datos estructuradosen registros.

Page 26: Mod1 Bases de datos

© FUOC • PID_00171666 26 Los datos: conceptos introductorios

mos en un programa que suministrase una lista de estudiantes ordenada por

número de matrícula, a pesar de que el fichero fuese una secuencia ordenada

por nombre, pero que estuviese equipado de un índice por número de matrícula

(precisamente, éste era el caso de la secretaría no informatizada).

4)�Acceso�directo�por�valor�(DV): se pide acceder al registro que tiene, para

un atributo (campo) determinado, un valor dado.

Por ejemplo, queremos acceder a los datos del estudiante Juan García (el regis-

tro donde el campo nombre vale Juan García).

De este modo, podemos hacer un cuadro resumen de las diferentes formas de

acceso:

Figura 10

Cuatro formas de acceso

  Por posición Por valor

Secuencial SP SV

Directo DP DV

3.7. Nivel lógico y nivel físico

El registro de los datos, la organización y los accesos, se puede considerar desde

un punto de vista más o menos alejado de la realización física.

En el mundo de las representaciones informáticas, se acostumbran a

distinguir dos puntos de vista o niveles: el nivel�físico, cuando es nece-

sario considerar la realización física, y el nivel�lógico, cuando no hace

falta conocerla.

Los programadores trabajan a niveles diferentes en función de sus necesidades:

1)�Nivel�lógico: por ejemplo, el programador de aplicaciones que trabaja con

un lenguaje de alto nivel como el C, el C++, el Java, etc. puede ver o imaginar

que los ficheros están formados simplemente por registros, uno detrás del otro,

y que contienen campos con letras y números. No ve, ni le hace falta conocer,

la realización física que tal vez constará de encadenamientos de registros físicos

(cada uno con distintos registros lógicos), marcas separadoras entre campos,

compresión de datos, índices, etc. El programador de aplicaciones trabajará a

nivel lógico.

Años sesenta y setenta

El actual software especializa-do en ficheros y BD nos pro-porciona la separación de ni-veles deseada (si bien no deltodo completa). Sin embargo,en los años sesenta y setentaesta separación casi no existía.Los programadores de aplica-ciones tenían que incluir en susprogramas consideraciones re-lativas a índices, controles deparidad, tamaño de la pista deldisco, etc.

Page 27: Mod1 Bases de datos

© FUOC • PID_00171666 27 Los datos: conceptos introductorios

2)�Nivel�físico: entramos en el nivel físico cuando tenemos que considerar

la realización física. Un programador de software básico (SGBD, SO, etc.), un

diseñador físico de una BD, un técnico de sistemas que administra una BD,

etc. deben entrar en el nivel físico.

Figura 11.

Para hacer la programación sencilla e independiente de las realizacio-

nes, interesa que los programas no tengan que gestionar la organización

y los accesos en el nivel físico, sino sólo el nivel lógico.

En esta asignatura haremos referencia casi exclusivamente al nivel lógico.

Page 28: Mod1 Bases de datos

© FUOC • PID_00171666 28 Los datos: conceptos introductorios

4. La memoria persistente

Antes de acabar este primer módulo haremos una pequeña incursión en un

tema de nivel muy físico: las memorias externas con soportes permanentes.

4.1. Justificación de la utilización de la memoria persistente

La necesidad de almacenar los datos nos obliga a utilizar memorias externas

con soportes permanentes, como por ejemplo los discos magnéticos, los discos

ópticos, memorias flash, cintas, etc. Sin embargo, la no-volatilidad no es la

única razón que justifica su utilización, sino también su gran�capacidad y el

precio�bajo por byte.

El principal�inconveniente de estos periféricos de almacenamiento persisten-

te es el tiempo�de�acceso, que es significativamente más lento que el de la

memoria interna.

4.2. Esquema de la E/S

El estudiante ya conoce el funcionamiento de la comunicación física entre los

periféricos de almacenamiento y la memoria interna. Sabemos que la unidad

de transferencia entre la memoria externa (permanente) y la interna (no per-

manente) es el bloque. El bloque es aquello que se lee o se escribe de una vez

en una sola operación física de E/S (entrada/salida).

Por ejemplo, en el caso de los discos, el bloque mínimo será un sector, pero se

acostumbra a leer de una vez toda una serie de sectores.

En ocasiones se da el nombre de registro� físico al bloque, y el de registro

lógico a lo que aquí denominamos simplemente registro3. Dado que el tamaño

de un registro suele ser mucho menor que el de un bloque, se agrupan los

registros (lógicos) en bloques (registros físicos). En el mundo de las BD se utiliza

con frecuencia el término página como sinónimo de bloque.

Sabemos que la entrada (o la salida) de�los�bloques se hace hacia (o desde)

los buffers en la memoria interna. Actualmente, es habitual que en un sistema

informático que sirve a un SI multiusuario se ejecuten muchos procesos de

forma simultánea. Cada proceso puede trabajar con más de un fichero de da-

tos; es decir, le puede convenir tener unos cuantos bloques en los buffers. El

tamaño de los bloques está muy condicionado por el espacio disponible en la

memoria interna para todo este gran conjunto de buffers.

(3)Por ejemplo, los datos de un es-tudiante.

Page 29: Mod1 Bases de datos

© FUOC • PID_00171666 29 Los datos: conceptos introductorios

El sistema de ficheros del SO, y eventualmente, el SGBD, se encargan de las

operaciones de E/S de bloques y de gestionar el espacio dedicado a los buf-

fers. Sin embargo, los programas de usuario (los que escribe el programador de

aplicaciones) no entran en este nivel físico, sino que permanecen en un nivel

lógico. De este modo, las operaciones que se realizan son lecturas/escrituras

de registros lógicos4. El software se encarga de pasar registros entre los progra-

mas de usuario y los buffers. El programa de usuario pide/envía un registro y

el software (SO/SGBD) lo sirve/acepta desde/en los buffers de bloques.

Operaciones lógicas y físicas

Si en un bloque caben 100 registros, y se está trabajando secuencialmente, cada 100 lec-turas o escrituras efectuadas por el programa se ejecutará una lectura o una escritura deun bloque. El software será el encargado de llevar a cabo, mediante los buffers, la adapta-ción entre las operacioneslógicas y las físicas.

Del mismo modo que la unidad de transferencia entre la memoria per-

sistente y los buffers es el bloque, la unidad de transferencia entre los

buffers y el programa de usuario es el registro.

Figura 12.

4.3. Tiempo de acceso

Las memorias persistentes pueden tener partes móviles. Esto hace que su tiem-

po de acceso sea mucho mayor que el de la memoria interna. Éste es su in-

conveniente principal y la causa por la que las estructuras de datos para la

memoria persistente tienen particularidades diferentes de las que se utilizan

para las memorias internas.

(4)Leer o escribir los datosde un es-tudiante.

Page 30: Mod1 Bases de datos

© FUOC • PID_00171666 30 Los datos: conceptos introductorios

El tiempo necesario para completar una operación física de lectura o

escritura de un bloque en una memoria permanente móvil consta de

dos partes (tiempo de acceso + tiempo de transferencia):

a) El tiempo�de�acceso es el tiempo necesario para que el mecanismo

se coloque en el inicio del bloque que se debe leer o escribir.

b) El tiempo�de�transferencia es el tiempo necesario para leer o escribir

el bloque.

Con el fin de aclarar estos conceptos, a continuación los explicaremos con

más detenimiento para el caso de los discos magnéticos.

1) El tiempo�de�acceso�en�el�caso�de�los�discos�magnéticos consta de dos

partes: tiempo de búsqueda (seek) + tiempo de espera (latency o rotational delay).

a) En el tiempo�de�búsqueda, el brazo portador de los cabezales se coloca en

el cilindro seleccionado.

b) Después, en el tiempo�de�espera, se aguarda a que la rotación del disco

(que no se detiene nunca) haga pasar por delante del cabezal el sector donde

se inicia la operación. Así pues, este tiempo depende de la velocidad de la

rotación. De este modo, si el disco gira a 7.200 r.p.m., el tiempo de espera

máximo será de 8,3 ms (es decir, 7.200/60) y el medio, de 4,2 ms (tiempo de

espera medio = tiempo de espera máximo/2).

Figura 13.

2) El tiempo�de�transferencia será el tiempo que se tarde en leer o escribir todo

el conjunto de sectores que intervienen en la operación; es decir, el tiempo

que tarde en pasar el bloque por delante del cabezal. Fijémonos en que este

tiempo depende del tamaño del bloque y de la velocidad de rotación.

Page 31: Mod1 Bases de datos

© FUOC • PID_00171666 31 Los datos: conceptos introductorios

Los dispositivos de disco suelen ir equipados con un buffer local para poder

realizar la transferencia a la memoria interna asíncronamente y a gran veloci-

dad, aprovechando el ancho de banda del canal.

4.4. Características básicas de los soportes

Acabamos de recordar una característica básica de los soportes: el tiempo de

acceso. Del resto de características que nos pueden interesar haremos un breve

recordatorio.

En la figura siguiente representamos un triángulo con los tipos de periféricos

más utilizados actualmente para almacenar datos. Las memorias que aparecen

en niveles más altos corresponden a aquellas que permiten mejor tiempo de

acceso y en consecuencia tienen un precio más elevado. Hay otro mecanis-

mo de almacenamiento bastante utilizado durante los últimos años que no se

acostumbra a incluir en la jerarquía de memorias externas: el almacenamien-

to en red. El almacenamiento en red permite almacenar datos remotamente

utilizando una red de computadores.

Es interesante hacer notar que por norma general cuanto más arriba de la

pirámide esté un dispositivo, con más frecuencia cambian los datos que se

almacenan. Así pues, los datos almacenados en memorias Flash, USB y discos

duros acostumbran a ser actualizados muy frecuentemente, mientras que los

datos almacenados en cintas o librerías robotizadas pueden no cambiar nunca.

Las principales características�de�los�soportes a tener en cuenta son las si-

guientes: capacidad, tiempo de acceso, velocidad de transferencia, precio por

megabyte, fiabilidad (hay muchos tipos de medidas, como por ejemplo erro-

res/hora, tiempo media entre dos fallidas, etc.), vida útil, utilidad, transporta-

bilidad (si es extraíble/intercambiable) y compartición (si es de uso exclusivo

o bien lo pueden utilizar simultáneamente varios procesos).

Page 32: Mod1 Bases de datos

© FUOC • PID_00171666 32 Los datos: conceptos introductorios

Resumen

En este primer módulo hemos hecho una introducción a los conceptos básicos

que fundamentan el resto de la asignatura.

Hemos explicado que los conocimientos que obtenemos observando los obje-

tos del mundo real son abstracciones que denominamos información. Una

información expresa el valor�de�un�atributo (propiedad) para una entidad

determinada (objeto). Hemos formalizado algunos de estos conceptos utili-

zando la teoría de conjuntos.

A continuación se ha distinguido entre entidad�genérica (o tipo) y entidad

instancia. Las entidades instancia se deberán diferenciar unas de otras me-

diante un atributo (identificador) o un conjunto de atributos, que denomina-

mos clave.

La representación informática de una información recibe el nombre de dato.

Los datos de cada objeto se agrupan en registros y los registros se estructuran

en ficheros o BD (conjuntos de ficheros interrelacionados). Estos ficheros o

BD se almacenan en memorias�externas permanentes, cuyo tiempo de acceso

es mucho más elevado que el de las memorias internas, que son volátiles.

Page 33: Mod1 Bases de datos

© FUOC • PID_00171666 33 Los datos: conceptos introductorios

Ejercicios de autoevaluación

1. ¿Cuáles son los tres elementos que determinan una información?

2. Indicad a qué podrían corresponder en el mundo de nuestra secretaría no informatizadalos siguientes conceptos:

• Entidad instancia• Entidad tipo• Base de datos• Soporte permanente

3. ¿Los valores de los datos son suficientes por sí solos para ser interpretados y obtener in-formación de ellos?

Page 34: Mod1 Bases de datos

© FUOC • PID_00171666 34 Los datos: conceptos introductorios

Solucionario

Ejercicios de autoevaluación

1. Entidad, atributo y valor (podríamos añadir el tiempo).

2.

• Entidad instancia: ficha de un estudiante.• Entidad tipo: tipo (formato) de la ficha de los estudiantes.• Base de datos: conjunto de ficheros, libretas, papeles, etc. que contiene la información

relativa a los estudiantes, las asignaturas, los profesores y sus interrelaciones.• Soporte permanente: cartón o papel.

3. El valor "1988", por ejemplo, no es suficiente por sí solo para saber si se trata de la fechade nacimiento, de la fecha de matrícula, de un importe de un pago, etc. Si sabemos queel atributo se denomina DAT4, todavía no sabremos gran cosa. Debemos averiguar a quéatributo pertenece el valor y, además, qué semántica tiene el atributo.

Page 35: Mod1 Bases de datos

© FUOC • PID_00171666 35 Los datos: conceptos introductorios

Glosario

atributo  m  Propiedad de una entidad.

base de datos  f  Conjunto de ficheros interrelacionados.

campo  m  Representación del valor de un atributo.

clave  f  Atributo o conjunto de atributos que permite identificar los objetos (distinguirlosunos de otros).

dato  m  Nombre que recibe la información en el mundo de las representaciones informá-ticas.

entidad  f  Conceptualización de un objeto del mundo real. El concepto del cual la entidades una instancia, se denomina también tipo de entidad.

fichero  m  Conjunto de registros relativos a un mismo tipo de entidad.

identificador  m  Un atributo es un identificador, si es una clave (monoatributo).

memoria permanente  f  Memoria auxiliar externa con soporte persistente que se utilizapara mantener almacenados los datos permanentemente.

organización  f  Forma en la que se colocan –o se estructuran– los datos para facilitar suposterior uso.

registro  m  Conjunto de datos relativos a un objeto.

sistema de información (SI)  m  Sistema que recoge, almacena y distribuye informaciónsobre el estado de un dominio.

Page 36: Mod1 Bases de datos

© FUOC • PID_00171666 36 Los datos: conceptos introductorios

Bibliografía

Bibliografía básica

Falkenberg, E.D. (1996). "A Framework of Information System Concepts. The FRISCO Re-port". IFIP WG 8.1 Task Group FRISCO. Desde el año 1998 también está disponible en Internet.

Es conocido como informe FRISCO. Muy interesante para aquellos que queráis profundizaren marcos conceptuales del tipo de los "tres mundos" que hemos utilizado aquí.

Silberschatz, A.; Korth, H. F.; Sudarshan, S. (2006). Fundamentos de diseño de bases dedatos (5.ª ed.). Madrid: McGraw − Hill.

Bibliografía complementaria

Para ampliar vuestros conocimientos sobre las memorias persistentes, los documentos téc-nicos y comerciales de los fabricantes o los distribuidores pueden ser una buena fuente deinformación. Una vía de acceso a estos documentos puede ser Internet.