Indización.pdf diapositiva

Post on 04-Jul-2015

2.976 views 0 download

description

Diapositivas para exposición didactica

Transcript of Indización.pdf diapositiva

INDIZACIÓN

Almacenamiento y Recuperación de la Información II

Lcdo. Guillermo Pérezpguillermoandres@gmail.com

INDIZACIÓN

La indización de los documentos es un proceso complejo, que forma parte del procesamiento de la información, por el cual se representan en algún portador material características esenciales de los documentos que permiten su posterior recuperación sin tener que revisar toda la colección.

Giráldez Rodríguez, R. (2004)

INDIZACIÓN

Representación del contenido de los documentos por medio de símbolos especiales, que extraídos del texto original, están recogidos en un lenguaje de información o de indización.

Norma 5693 (Organización Internacional de Normalización)

INDIZACIÓN

El término INDIZACIÓN se refiere a la asignación de una o más etiquetas que sirvan para identificarlo y/o describirlo y para facilitar su posterior recuperación…

Lancaster W.

Fases fundamentales de la indización de materia

Análisis de contenido

•Se revisa el documento para determinar el contenido.•Seleccionar las palabras clave del contenido.•Autor o del propio indizador.

Traducción de los términos asignadosen el análisis de contenido a los

términos índices del vocabulario dellenguaje de la indización del sistema

•Se consulta el vocabulario controlado del sistema.

Organización del índice

•Se organizan, de acuerdo con la forma que se haya establecido los términos utilizados para indizar los documentos de la colección y se obtiene el índice de materia

Variables asociadas con el proceso de indización

El Indizador

La Colección de Documentos

La política y las reglas

de indización

Grado de exhaustividad

Profundidad

Especificidad

El lenguaje de indización

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Grado de exhaustividad

La materia que abarca el contenido de un documento es la totalidad de tópicos

que tratan en el mismo.la exhaustividad en la indización de

un documento se define como el número máximo de diferentes

tópicos indizados

Giráldez, R. (2004)

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Profundidad

Se define como el número de diferentestérminos seleccionados para indizar eldocumento. Esta variable también sedenomina densidad de la indización.

Giráldez, R. (2004)

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Especificidad

Es una propiedad semántica de lostérminos, es el nivel de detalle y exactitudcon que se representa un concepto dado.

Relación género/especie

Giráldez, R. (2004)

Variables asociadas con el proceso de indización

La política de indización. Reglas de indización

Giráldez, R. (2004)

El lenguaje de indización El vocabulario del lenguaje debe ser en la

medida que sea posible específico, si por lo contrario carece de especificidad se

convertirá en un freno para la indizaciónespecífica.

Consistencia en la indización

Giráldez, R. (2004)

B (indizador 2)(indizador 1) A

Consistencia

Lenguajes de recuperación de la información (LRI)

Los LRI son lenguajes artificiales, es decir, lenguajes creados por el hombre, que se utilizan para indizar los documentos y las solicitudes con la finalidad de recuperar la información almacenada y satisfacer las demandas de los usuarios.

Los LRI tiene, al igual que las lenguas naturales, como mínimo tres componentes fundamentales:

VocabularioSintaxisReglas para su uso

Lenguajes de recuperación de la información (LRI)

Vocabulario

El vocabulario o léxico de un LRI es el conjunto de términos que se utiliza para expresar el contenido

informacional de un documento… y pueden estar representadas por:

•Palabras aisladas o combinaciones de palabras.•Códigos numéricos, alfabéticos o alfa-numéricos.•Códigos en combinación con palabras del lenguaje natural

Vocabulario

Para garantizar que se cumpla el rasgo esencial de todo LRI, o sea que entre los términos y los conceptos exista una relación unívoca, es necesario eliminar de su vocabulario la homonimia y la sinonimia

Homonimia

La homonimia se elimina con aclaracionessobre los significados del término,

las cuales se colocan entre paréntesis y acontinuación de los vocablos que sea

homógrafos, es decir una misma palabraCon dos o más significados.

PLANTA (INSTALACIÓN INDUSTRIAL)

PLANTA (PARTE INFERIOR DEL PIE)

PLANTA (EN BOTÁNICA)

Sinonimia

La sinonimia se elimina estableciendo un conjunto de clases equivalentes entre los sinónimos, o casi-sinónimos,

o sea entre dos o más palabras diferentes que tienen significados iguales o parecidos.

Hidratos de carbono

USE CORBOHIDRATOS

USE o VÉASE

Sintaxis

La sintaxis de un LRI es el conjunto de reglas para combinar los términos del vocabulario en cadenas, frases o unidades sintácticas capaces de expresar conceptos o significados más complejos o más abarcadores, que no podrían ser expresados si se utilizaran los términos del vocabulario de forma aislada…

Formación de profesores. Química. Cuba.

Cumbre de los Países no Alineados. Bolivia

Cómo realizar la indización con descriptores y epígrafes

Tipos de descriptores y epígrafes

a) Descriptores y epígrafes simples:EDUCACIÓNDERECHOEXISTENCIALISMO

b) Descriptores y epígrafes compuestos:MEDICIONES DEL APRENDIZAJEPOLÍTICA CIENTÍFICAARTE Y SOCIEDAD

c) Descriptores y epígrafes biográficos:BARTÓK, BÉLA, 1881-1945.EINSTEIN, ALBERT, 1879-1955.

Tipos de descriptores y epígrafes

d) Descriptores y epígrafes históricos o cronológicos:

EDAD MEDIAEDAD DE PIEDRAHISTORIA ANTIGUA

Tipos de descriptores y epígrafes

e) Descriptores y epígrafes étnicos:AZTECASINDIOS DE NORTEAMÉRICAINDIOS DE SURAMÉRICA

Subepígrafesa) Subepígrafes temáticos o de materiaCIENCIA-ENSEÑANZAEDUCACIÓN-HISTORIA

Tipos de descriptores y epígrafes

a) Subepígrafes de formaQUÍMICA-BIBLIOGRAFÍAFÍSICA-MANUALESEDUCACIÓN-DICCIONARIO

Subepígrafesc) Subepígrafes de ubicación geográficaEDUCACIÓN SUPERIOR-ESPAÑAARTE-POLONIAEDUCACIÓN-CUBA

Tipos de descriptores y epígrafes

Reglas sobre la presentación de los descriptores y epígrafe

1. Forma del términoUtilizar, siempre que sea posible los sustantivos.Ejemplo: EVALUACIÓN en lugar de EVALUATIVONo utilizar verbos

2. Número del términoUtilizar el singular para términos que expresan conceptos que no pueden contarse por unidades.Ejemplo: Nombres de disciplinas (QUÍMICA, FÍSICA, ETC.)Procesos (CAPACITACIÓN, POLITICA CIENTÍFICA)Materiales y propiedades específicas (UREA, FUERZA)

Reglas sobre la presentación de los descriptores y epígrafes

3. Forma de entradaSe utilizará la entrada directa. Únicamente en casos muy excepcionales se hará la inversión de la entrada

4. Se debe evitar la utilización de:Signos de puntuaciónAbreviaturas

Lineamientos generales para la asignación de descriptores y epígrafes

1. Se asignará el epígrafe o descriptor que defina de modo más preciso y específico el asunto que se desea indizar.

2. Se añadirá a cada epígrafe los subepígrafes que sean necesarios para expresar del modo más preciso el asunto.

3. Se utilizarán en la medida que sea posible, palabras en el idioma español.

4. Asignar tantos descriptores o epígrafes que sean necesarios (máximo 8).

Lineamientos generales para la asignación de descriptores y epígrafes

5. Seleccionar entre los sinónimos, un término como epígrafe o descriptor representativo y se hará referencia de los otros términos equivalentes.

6. No se debe dar entrada por la temática y la forma de presentación a un mismo documento.

7. Si el nombre del país se considera un elemento necesario para la recuperación se añadirá el conjunto de descriptores del documento para que aparezca como una entrada en el índice.

8. Se consultará las listas y los repertorios antes de crear nuevos términos.

Precisar las diferencias entre palabras clave y descriptores

Palabras clave

"...colección no depurada (sino puesta en orden alfabéticosin eliminación de sinonimia, ni polisemia) de las palabras significativas, denominadas también no vacías (es decir, todas las palabras que no sean artículos, conjunciones, pronombres, preposiciones, numerales y ciertos verbos y adverbios), extraídas, de forma automática, por el ordenador, a partir del titulo, del resumen y, cada vez mas a menudo, del texto completo de los documentos registrados dentro de un sistema documental dado.“

Van Slype, 1991

Descriptor

Termino (palabra o expresión) que se ha escogido, a partir de unconjunto de sinónimos, de cuasisinónimos y de términos emparentados, para representar, de manera univoca, un concepto susceptible de intervenir en los documentos yen las consultas que se examinan dentro de un sistema documental dado.

Van Slype, 1991

Palabra o grupo de palabras incluidas en un tesauro y escogidasde entre un conjunto de términos equivalentes para representar sin ambigüedad una noción contenida en un documento o en una petición de búsqueda documental.

AFNOR (Asociación Francesa de Normalización).

Los Tesauros

Tesauros

La norma ISO 2788-1986 define un tesauro como "un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento".

Los lenguajes de indización, define un tesauro como "una lista estructurada de conceptos destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado y a ayudar al usuario en la indización de los documentos y de las consultas".

Van Slype,1991

Relaciones Semánticas

Relaciones de equivalencia USE (relación entre el término no preferente y el término preferente)

USE, UP (usado por), UF (usado por)

Tesauros

Tesauros

Relaciones Semánticas

Relaciones jerárquicas: Son relaciones asimétricas, establecidas entre los descriptores, en la que un término es superior o genérico de otro… se van agrupando en disciplinas y sub-disciplinas.

TE (término específico), BT (término más amplio), NT (término más específico)

Tesauros

TesaurosRelaciones Semánticas

Relaciones asociativas: Son las relaciones asimétricas establecidas entre descriptores de distintas familias, distintas a las jerárquicas o de equivalencia, y que designan conceptos capaces de evocar mutuamente, por asociación de ideas, relaciones entre ellos.

TR (término relacionado)

Tesauros

Nota de Alcancese usan para limitar el uso de los

descriptores, para escribir un posible sentido del término cuando este tiene diferentes significados, pues es usado en diferentes disciplinas, no forma parte del descriptor, aunque aparezca en el tesauro.