Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes...

49
fundec- 2013 ISBN: 987 - 9225 - 30 - 3 Hecho el depósito que marca la Ley 11.723 El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento. 1 Gestión de la Información: organización, búsqueda y recuperación en Internet Estela Muelas Índice 1. Introducción 2. Organización de la información 2.1. Técnicas de sistematización 2.2. Sistemas de organización de la información 2.2.1. Clasificación decimal universal –CDU– 2.2.2. Tesauros 2.2.3. Indización manual o automática 2.2.4. Fuentes de información 2.2.5. Distintos indizadores 2.5. La (des)organización de la Web 2.5.1 Esquemas de organización de la información en la Web 2.6. Algunas conclusiones 3. Los usuarios y los contenidos en Internet, hoy 3.1 ¿Internet global o el mito del acceso democrático, la diversidad cultural y el plurilingüismo? 4. Recuperación de información 4.1 Buscadores 4.2 Meta-buscadores 4.3 La nueva generación: Google, Yippy 4.4 De los directorios de información a los portales 4.4.1 Los portales 4.5 Agentes inteligentes 4.6 En síntesis 4.7 ¿Cómo acceder a la Web profunda? 4.7.1 Bases de Datos, Opac y Journals 4.8 Los idiomas y la recuperación en la Web 5. Del tesauro a la Web Semántica 6. ¿Cómo buscar? 6.1 ¿Porqué utilizar una Estrategia de Búsqueda? 6.2 Requisitos para una búsqueda 6.3 Modelos de exploración y búsqueda 6.3.1 Serendipia 6.4 Guía para la búsqueda de información 7. Competencias para el manejo de la información 7.1 PIM –Personal Information Management- 7.2 Acotando el problema 8. Algunas reflexiones… 9. Bibliografía 10. Anexo

Transcript of Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes...

Page 1: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

1

Gestión de la Información: organización, búsqueda y recuperación en Internet

Estela Muelas Índice 1. Introducción 2. Organización de la información

2.1. Técnicas de sistematización 2.2. Sistemas de organización de la información

2.2.1. Clasificación decimal universal –CDU– 2.2.2. Tesauros 2.2.3. Indización manual o automática 2.2.4. Fuentes de información 2.2.5. Distintos indizadores

2.5. La (des)organización de la Web 2.5.1 Esquemas de organización de la información en la Web

2.6. Algunas conclusiones 3. Los usuarios y los contenidos en Internet, hoy

3.1 ¿Internet global o el mito del acceso democrático, la diversidad cultural y el plurilingüismo?

4. Recuperación de información 4.1 Buscadores 4.2 Meta-buscadores 4.3 La nueva generación: Google, Yippy 4.4 De los directorios de información a los portales

4.4.1 Los portales 4.5 Agentes inteligentes 4.6 En síntesis 4.7 ¿Cómo acceder a la Web profunda?

4.7.1 Bases de Datos, Opac y Journals 4.8 Los idiomas y la recuperación en la Web

5. Del tesauro a la Web Semántica 6. ¿Cómo buscar?

6.1 ¿Porqué utilizar una Estrategia de Búsqueda? 6.2 Requisitos para una búsqueda 6.3 Modelos de exploración y búsqueda

6.3.1 Serendipia 6.4 Guía para la búsqueda de información

7. Competencias para el manejo de la información 7.1 PIM –Personal Information Management- 7.2 Acotando el problema

8. Algunas reflexiones… 9. Bibliografía 10. Anexo

Page 2: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

2

1. Introducción El manejo de la información y la producción de conocimiento representan una de

las competencias que todo docente y todo investigador, de cualquier disciplina, debe desarrollar y poseer. Asimismo, la evolución del procesamiento de información ha ido desde unidades aisladas hasta una interconexión global a través de Internet, medio que integra el almacenamiento de información con las telecomunicaciones.

Hoy, “la Web se ha convertido en una torre de Babel no sólo al nivel del lenguaje natural, sino esencialmente al nivel del significado” (Gutierrez, 2008). Hace 30 años un docente o un alumno que buscaba información debía recorrer biblioteca por biblioteca y correlacionar o comparar la información a mano. Hoy en día escribimos un par de palabras en nuestro buscador favorito y encontramos inmediatamente “toneladas” de información, eso sí no siempre acorde a nuestra necesidad.

Buscar información en la Web puede transformarse en una experiencia frustante y decepcionante. Los recursos en la red son significativamente diferentes a los tradicionales dado que están relacionados, combinados, disponibles en múltiples formatos y por sobre todo son dinámicos. Los esquemas de organización y los métodos de acceso también son diversos, tanto como los usuarios y sus diferentes competencias informacionales y aptitudes “tecnológicas”. Muchos usuarios naufragan en su búsqueda de información por la Web, principiantes y expertos constatan la importancia de ser estratégico y disponer de técnicas de búsqueda y criterios de selección de la información. Por ello, enseñar a buscar información en “la Babel actual” resulta un gran desafío en el futuro inmediato. Pero, ¿qué enseñar?

Ante la proliferación de herramientas de búsqueda que están disponibles para los profesores y alumnos, queda planteada la cuestión de extremar los procesos de selección de las mismas a partir de criterios básicos que orienten la toma de decisiones estratégicas según el contexto de aplicación, los grupos destinatarios, los objetivos y necesidades de información del usuario.

Page 3: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

3

2. Organización de la información Desde los inicios de la civilización, el hombre ha manifestado su tendencia para

organizar la información, desde el agrupamiento y clasificación de utensilios de trabajo, de caza, de pesca, etc. o de la propia creación de las estructuras comunitarias -cazadores, guerreros, sabios-, entre otras entidades que surgieron en las primeras formas de sociedad. El hombre organiza para entender, explicar y controlar su entorno. Pero, justamente, como la clasificación la hacen los hombres, hay en potencia tantas clasificaciones como seres humanos.

Si hablamos de información, la organización de estos recursos es una tarea esencial en todo sistema de información. Como es de suponer, en la sistematización de información están trabajando bibliotecarios, documentalistas, gestores de contenidos digitales y especialistas de las distintas disciplinas, en ámbitos tan diversos como bibliotecas, universidades u organizaciones nacionales e internacionales, dado el volumen de la misma y la complejidad que ha alcanzado. Es muy importante señalar que estos avances han superado lo exclusivamente instrumental y han generado una evolución de las Ciencias de la Documentación y de las Ciencias de la Información que supera ampliamente las posibilidades de este texto.

Aún así, las cinco preguntas clásicas -quién, qué, cuándo, dónde y por qué- son un buen punto de partida para convertir las características de un tema en nuestros requerimientos de búsqueda. Pero que exigen tener en cuenta una sexta pregunta: ¿Cómo? 2.1. Técnicas de sistematización

En las tareas de sistematizar y catalogar información es necesario registrar los datos que corresponden a toda clase de documentos, sean libros, artículos científicos, actas de congresos, etcétera. Un repaso a la última edición del Diccionario de la Real Academia Española (D.R.A.E., 2001) permite despejar algunas dudas. Por ejemplo, figura el verbo verbo indizar, pero su definición remite a indexar:

1) Hacer índices. 2) Registrar ordenadamente datos e informaciones.

La necesidad de recurrir a las técnicas de indexación o indización se hace más evidente cuando se tiene en cuenta que el lenguaje natural utilizado –tanto por el autor del documento como por las personas que pretendemos encontrarlos– es a menudo ambiguo y no siempre lógico, lo que permite diversas interpretaciones. Títulos como Las sombras del pasado o Recuerdos del futuro difícilmente nos orienten sobre el qué, el quién, el cuándo o el dónde de esos documentos. Incluso en títulos más precisos la recuperación de información crea problemas derivados de la indización con el lenguaje natural.

Analizando a la organización de la información desde las posibles demandas, la búsqueda puede ser realizada por nosotros o por otras personas: un bibliotecario, un documentalista, o un programa informático, que actuarán de acuerdo a lo que solicitemos. Como puede apreciarse, debemos especificar –con la mayor claridad posible–, qué información estamos buscando.

En principio, para buscar información habría dos caminos: 1) buscar los documentos con la ayuda de las palabras que allí figuran y que

son utilizadas por el propio autor para expresar su pensamiento, y 2) dado el carácter ambiguo del lenguaje natural, organizar un vocabulario

Page 4: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

4

razonablemente estructurado y con su ayuda buscar los documentos, cualesquiera hayan sido los términos que emplearon los autores para enunciar sus ideas.

El primer procedimiento es atractivo por su simplicidad: buscar los conceptos del documento tal cual se encuentran. Obviamente, es sencillo pero no es eficaz.

¿Por qué? Porque los documentos tratan diversas nociones. Es muy raro que un texto trate una sola noción: por el contrario, la riqueza de una información es el resultado, con frecuencia, de la yuxtaposición e integración de varios conceptos de los que el autor muestra las relaciones. Esa integración constituye el tema del documento. Consecuentemente, los conceptos podrán estar enunciados, a su vez, con la ayuda de expresiones compuestas, ya sea de una o de varias palabras. Del mismo modo, las consultas de los usuarios se descomponen en un cierto número de nociones, que no necesariamente coinciden con las que tiene cada documento.

El segundo procedimiento es más depurado, requiere definir la estructura y organización de un vocabulario tipo antes de comenzar realmente la búsqueda propiamente dicha. En este caso tenemos no sólo la búsqueda de los conceptos presentes en el documento, sino también la traducción del lenguaje del autor a lo que habitualmente se llama lenguaje documental –un sistema convencional de signos que permite representar el contenido de los documentos con el fin de encontrar aquellos pertinentes en respuesta a preguntas sobre un tema (Rubio Liniers, 2001)–. Una primera distinción entre lenguaje natural y lenguaje documental puede apreciarse en la tabla que sigue (Tabla Nº 1).

Tabla Nº 1: Diferencias entre lenguaje natural y lenguaje documental. Lenguaje natural Lenguaje documental

Comunicación inmediata Simple Conceptos del lenguaje cotidiano Ambiguo Equívoco Arbitrario No siempre lógico Libre

Comunicación mediata Compleja Conceptos dados por definiciones Preciso Unívoco Controlado Lógico y asociativo Normalizado

Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la

manera en que es empleado el lenguaje en los documentos: la redacción, sus características lingüísticas, el tipo de lenguaje usado, el tratamiento de los conceptos, la terminología propia del tema tratado, el conocimiento del tema por parte del autor. Este último punto será importante a la hora de pensar los términos con que realizaremos la búsqueda, cuando relacionemos nuestros requerimientos con las palabras que el autor ha utilizado para expresar sus ideas. 2.2. Sistemas de organización de la información

El objetivo de cualquier sistema de recuperación de información es proporcionar información pertinente, con un máximo de utilidad y precisión y con un mínimo de gasto, en respuesta a una pregunta. Entre las numerosas clasificaciones de documentos, las más utilizadas son: 1) la alfabética; 2) la numérica; 3) la alfanumérica, 4) la geográfica, 5) la cronológica, 6) la sectorial. 7) la analógica, 8) la jerárquica, etcétera.

Page 5: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

5

La clasificación alfabética comprende tantas clases principales como letras del alfabeto. Es una de las más sencillas y sin sutilezas. Presenta dificultades en el caso de palabras de múltiple ortografía y en las palabras o nombres compuestos. La clasificación numérica es igualmente simple y se sirve de nuestro sistema numérico. Entre ellas figura la Clasificación Decimal, concebida por Melvil Dewey en 1876.

La clasificación alfanumérica asocia las dos clasificaciones precedentes combinando letras del alfabeto y las cifras de la numeración decimal. Se conserva el alfabeto, lo que facilita la búsqueda, permitiendo las cifras la inserción de elementos nuevos posteriormente. La clasificación geográfica es también una clasificación clásica que se basa en la división por países, regiones, departamentos, ciudades, pueblos, etcétera. La clasificación cronológica es sencilla y cómoda, y en la práctica es muy utilizada asociada a la alfanumérica, u otras. De manera análoga, tanto la clasificación sectorial como la analógica y la jerárquica –más complejas y depuradas– permiten estructurar distintas configuraciones, que pueden adaptarse a una institución, a una técnica o a una rama particular de un ámbito específico del conocimiento.

El álgebra booleana –la teoría de conjuntos– y los programas informáticos de búsqueda permiten tener en cuenta la complejidad de los encabezados de las diferentes nociones conceptuales, contenidas en los distintos documentos. 2.2.1. Clasificación decimal universal –CDU–

La Clasificación Decimal de M. Dewey dio origen a la Clasificación Decimal Universal –CDU–. A su vez, al concluir el siglo XIX surgió la Clasificación de la Biblioteca del Congreso –LCC– en los Estados Unidos.

Los diez grandes grupos de la CDU son: 0 = Generalidades (lo que no puede ser colocado de otra manera) 1 = Filosofía; 2 = Religión; 3 = Ciencias sociales y Derecho; 4 = [Vacante]; 5 = Ciencias fundamentales; 6 = Ciencias técnicas y aplicadas; 7 = Bellas Artes, Artes aplicadas; 8 = Literatura; 9 = Historia y Geografía. La aparición del grupo 0 demuestra claramente las dificultades de la clasificación

(una de las cualidades de una buena clasificación es eliminar las imprecisiones en las ubicaciones). Dividida originalmente en diez clases, cada una de ellas contiene diez divisiones, hasta el cuarto decimal y un índice alfabético completa las tablas ideológicas. Los autores y los indizadores conservan la división decimal y afinan el método previendo la posibilidad de expresar, no sólo la subordinación de una idea a otra, sino también la asociación de puntos de vista conexos y diversas relaciones.

El método contó, en su momento, de un inmenso éxito, ya que permite obtener un sistema arboriforme de clases encasilladas, que posibilita afinar la indización hasta el nivel deseado. Cada documento tiene su lugar en una "casilla conceptual" que puede ser todo lo pequeña que se desee y que sólo debe ser explorada durante la búsqueda, lo que reduce considerablemente las operaciones.

Page 6: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

6

La división de las materias se hace desde lo más general a lo más específico y preciso, con números cada vez más altos. Por otra parte, siempre se puede insertar un nuevo elemento conceptual sin modificar el orden de los elementos existentes. Ejemplo de clasificación para el área de educación, en la C.D.U. tendremos:

3: Ciencias Sociales 37: Educación; 371: Organización educativa, métodos de enseñanza 371.2: Alumnado; 371.27: Métodos de evaluación; 371.275: Autoevaluación;

Para los documentos vinculados a la autoevaluación, se puede crear un nuevo apartado, por ejemplo:

371.275. 2: autoevaluación en la educación a distancia Su complejidad permite que un apartado pueda ser abordado con puntos de vista

diferentes. Para nuestro ejemplo partimos de 371 métodos de enseñanza, pero podríamos llegar a esta misma ramificación partiendo de otras nociones. Como puede apreciarse, cuanto mayor es el número que caracteriza un documento más específico es el concepto simbolizado.

Otro ejemplo interesante puede ser aportado por la Base de Datos TESEO. Esta base recupera información de las tesis doctorales leídas y consideradas aptas en las Universidades españolas desde 1976 usando descriptores según la Nomenclatura Internacional de la UNESCO para los campos de ciencia y tecnología. Así en el ámbito de la educación la nomenclatura especifica:

58: pedagogía 5801: teoría y métodos educativos 5801.06: evaluación de alumnos Las clasificaciones universales –CDU, LCC, UNESCO– muchas veces resultan

poco pertinentes como único lenguaje de recuperación ya que parten de una división del conocimiento que tiene en cuenta los "puntos de vista" de las disciplinas científicas y no incluye la interdisciplinariedad y la especificidad actual. Consecuentemente, su estructura jerárquica dificulta la combinación de los múltiples aspectos de una investigación y no siempre permite recoger temas muy específicos, o novedosos. 2.2.2. Tesauros

En el campo de las Ciencias de la Información, un Tesauro es un vocabulario controlado que permite el análisis y la recuperación de documentación especializada. Sus ventajas son la especificidad de sus términos y sus posibilidades de combinación de temas relacionados entre sí de distinta manera. Consecuentemente, es un sistema de organización del conocimiento, cuyos términos de indización se estructuran en un sistema de relaciones explícitas.

Un tesauro de descriptores es una lista estructurada de enunciados de conceptos. Dichos enunciados buscan representar, de forma unívoca, el contenido conceptual de los documentos y de las preguntas en un sistema documental. Un tesauro multilingüe ofrece otra ventaja: las correspondencias entre conceptos idénticos expresados en diferentes lenguas permiten comenzar la búsqueda en la lengua del usuario y encontrar los documentos indizados en cualquiera de las lenguas del mismo.

Page 7: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

7

Habitualmente, el mismo concepto puede expresarse mediante varios sinónimos o términos muy próximos –por ejemplo, educación, sistema educativo–. Sería muy difícil encontrar un documento indizado bajo cualquiera de esos términos a partir de una pregunta referente a uno de sus sinónimos. Otro ejemplo: prensa puede significar tanto una máquina para comprimir como, en sentido figurado, una imprenta, el conjunto de las publicaciones periódicas, o las personas dedicadas al periodismo. Esta homonímia nos remitiría a documentos sin ninguna relación con el tema que nos interesa. Otro de los objetivos de un tesauro consiste en evitar los inconvenientes derivados de la homonímia: todos los descriptores se sitúan en un contexto determinado, de forma que su significado sea unívoco.

Consecuentemente, todo tesauro tiene un vocabulario de indización conformado por descriptores e identificadores. Ambos son términos que permiten describir el contenido de los documentos. También se incluyen no descriptores –sinónimos o cuasisinónimos de los descriptores– cuya función es remitir al término que se usa.

Descriptores: palabras o expresiones que designan sin ambigüedad los conceptos constitutivos del tesauro; por ejemplo sector educativo.

No-descriptores: palabras o expresiones que designan, en lenguaje natural, el mismo concepto, por ejemplo, sistema educativo, o conceptos equivalentes –educación–.

Por su parte, los identificadores o nombres propios, representan una entidad individual y única. Por último, están las relaciones semánticas: relaciones vinculadas al sentido de los términos –relaciones entre descriptores y no-descriptores–, y relaciones de los descriptores entre sí. En un tesauro se hacen explícitos diversos tipos de relaciones: 1) las relaciones de equivalencia, 2) las relaciones de jerarquía y 3) las relaciones de asociación.

Los principales tipos de relación que se utilizan, son: 1) Jerarquía: documentos sobre transporte público conducirán automáticamente a

recibir información sobre, por ejemplo: tren, colectivo, ómnibus, coche, subterráneo, autobús, etcétera.

2) Sinonimia: siguiendo el ejemplo anterior, los términos subterráneo y colectivo pueden ser significativos para un argentino, pero otros usuarios podrían estar más relacionados con la palabra metro, o autobús, respectivamente.

Ejemplo: colectivo: utilizar autobús. autobús: empleado en lugar de colectivo.

3) Asociación: una respuesta comprensiva debe tener en cuenta términos explícitamente relacionados con la búsqueda, por ejemplo: tren y vapor (o electricidad); ómnibus y terminal.

Si bien no son relaciones semánticas también aparecen en los tesauros: 4) Indicadores homógrafos: relación que permite distinguir el sentido.

Ejemplo: seno: matemáticas. seno: biología.

5) Indicadores de función: evitan las falsas combinaciones Ejemplo: 1) historia de la geografía. 2) geografía de la historia.

Page 8: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

8

Los dos descriptores elegidos en los dos casos no tienen el mismo significado y en la búsqueda no saldrán, por lo tanto, los mismos documentos. Para evitar esa situación se aplica un código que los une y que suele indizarse así:

historia (1) geografía (2), geografía (1) historia (2).

6) Polisemia: se evita mediante mayor precisión relacionada con la palabra. Ejemplo: medio (geográfico).

medio (acuoso). Dado al carácter ambiguo del lenguaje natural, muy frecuentemente una noción

puede expresarse a través de varias palabras o expresiones sinónimas. Inversamente, una palabra, o una expresión polisémica, expresa varias nociones. Cabe tener en cuenta que distintos significados de una misma palabra es una característica de la terminología científica e incluso en Educación es el indicio claro de la existencia de distintas posiciones y modelos conceptuales. Las posibles homonimias, sinonomias, polisemias, así como el uso de metáforas, no siempre son resueltas por los lenguajes documentales.

Por último, debe tenerse en cuenta que los tesauros: 1) se construyen en función de un conjunto posible de documentos que pueden

aparecer sobre un tema, es decir, se considera el tema como caso general, de forma impersonal, anónima, objetiva e intemporal.

2) no tienen por qué ser completos, en el sentido de abarcar todo el conocimiento. Generalmente se limitan a un área temática específica, y desde cierta perspectiva específica. Por ello existen innumerables tesauros específicos. Sirvan como ejemplo: el ERIC, que suministra información, recogida por el Education Resources Information Center del Departamento de Educación de Estados Unidos; el Tesauro de la UNESCO; el Boletín Internacional de Bibliografía sobre Educación –BIBE–, etcétera. 2.2.3. Indización manual o automática

En términos generales podemos distinguir tres procedimientos de indización diferentes, a saber:

1) Indización manual: es la realizada por personas sin ninguna intervención informática (algo difícil de aceptar actualmente).

2) Indización semiautomática: es la realizada como interacción entre hombre y programa informático, que presentan al indizador las palabras que ha extraído del texto y que sus algoritmos de funcionamiento ofrecen como relevantes, y la persona toma la decisión de cuales se conservan en el sistema.

3) Indización automática: es la realizada por programas informáticos sin intervención humana mediante algoritmos basados fundamentalmente en técnicas de asignación de pesos a las palabras, construcción de tablas de asignaciones y consideraciones sobre la proximidad de las palabras dentro del texto, dentro de cada párrafo y dentro de cada línea. Puede dar resultados aceptables, pero es difícil de afinar y ajustar dado que cada conjunto de términos tiene características particulares que lo diferencian de los demás.

Este método y el anterior suelen utilizarse actualmente, sobre todo en la indización de documentos digitales.

Page 9: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

9

2.2.4. Fuentes de información El concepto fuente de información ha evolucionado, alcanzando una definición

amplia que considera fuente de información a aquellos recursos que permiten localizar e identificar información, independientemente de su soporte.

Pueden desglosarse en: a. Fuentes de información personales o relacionales. Ofrecen información que

poseen las personas o grupos que se relacionan profesionalmente. Lo más común es la transmisión oral de la información (aunque después puede fijarse en documentos). Destacan los organismos educativos y las asociaciones profesionales. Se caracterizan por su difícil acceso, aunque cualquier persona o grupo puede constituir una fuente personal.

b. Fuentes de información documentales. Proporcionan información a partir o sobre un documento. El documento es el soporte que contiene la información y el que la transmite. Esta tipología, propicia a su vez una nueva clasificación: la de fuentes de información según su contenido

En lo que atañe a nivel de contenido las fuentes pueden claseificarse en: 1) documentos de carácter primario: artículos de revistas científicas y de

información general sobre enseñanza y universidad, noticias de prensa, monografías, publicaciones de universidades e instituciones dedicadas a la política y gestión educativa, universitaria y científica,

2) otros documentos primarios: literatura gris –informes y documentos de trabajo no publicados de instituciones y organismos públicos y privados de carácter nacional e internacional–,

3) documentos secundarios y referenciales: guías y directorios de universidades, memorias, anuarios, planes de estudio, etcétera,

4) otros documentos secundarios: bibliografías y bases de datos de educación como el BIBE –Boletín Internacional de Bibliografía sobre Educación–, el ERIC Database, Bulletin Signaletique Sciences de l´Education, las Bases de datos del Ministerio de Educación, de las universidades, etcétera, y

5) lenguajes documentales: el ERIC Thesaurus, el Tesauro de la Unesco, el Tesauro Europeo de la Educación de la Comisión de las Comunidades Europeas y del Consejo de Europa, etcétera.

2.2.5. Distintos indizadores A su vez, los datos para la búsqueda pueden estar organizados por:

1) el autor del documento, 2) una figura externa al documento –un indexador, o un programa

informático –, o 3) el mismo lector-buscador.

1) el autor del documento Como dijimos, es muy raro que un documento trate una sola noción: por el contrario, la riqueza de una información es el resultado de la inclusión de varios conceptos. Pero muy pocas veces es el autor el que define los conceptos y muestra las relaciones con una o varias palabras, tal como lo solicita el trabajo de indexación.

Page 10: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

10

2) una figura externa al autor del documento –un indexador, o un programa informático–

Si bien la tarea de indexar se ajusta a la personalidad del indexador, es preciso aclarar que diversos indexadores –un experto (habitualmente no interesado en esta tarea), o un estudiante– no aseguran la misma coherencia y eficacia en la indexación. Consecuentemente, esas indexaciones no necesariamente reflejan el mismo juicio de valor acerca del documento y la visión global que surge de la consideración del campo temático. El trabajo de indexación debería seguir, idealmente, los siguientes criterios:

a) relevancia: la determinación de los conceptos relevantes: las principales ideas discutidas en ese documento. b) pertinencia: distinguir los conceptos relevantes de los conceptos derivados. c) especificidad: usar siempre el término más adecuado, respetando en lo posible el lenguaje del autor. Esta condición apunta a las relaciones entre los términos y su interpretación. d) exhaustividad: utilizar tantas palabras como sean necesarias para abrir los aspectos o temas del documento.

3) el mismo usuario-buscador Obviamente, es el usuario-buscador el que subjetivamente le da sentido a toda esa configuración. En este caso no sólo hay una organización estructural que garantiza el significado del documento, sino que hay una organización personal que es la que orienta la búsqueda. Los mismos datos pueden ser organizados de maneras muy diferentes y todas ellas significativas. El orden y la dirección que se dé a los datos pueden acercarnos o alejarnos de la solución. Obviamente, las tecnologías de gestión de la información facilitan el desarrollo de esta capacidad organizativa, en lugar de fijar y reproducir la organización impuesta a los datos por el autor o por el indizador. Una cuestión sumamente importante, relacionada con los casos anteriores, está

vinculada al conocimiento de la terminología del tema y el uso de los conceptos por parte del autor. Si éste maneja la terminología, la recuperación podrá realizarse sin dificultades. Si el autor no utiliza la terminología, está incorporando nuevas expresiones, o si el campo es interdisciplinario, la búsqueda y recuperación de los documentos no será confiable.

A pesar del uso de un buen lenguaje documental, la indización –como todo trabajo intelectual– tiene una alta dosis de subjetividad. Dos o más personas con el mismo modelo conceptual pueden disentir de cuáles son los temas importantes de un trabajo o de los descriptores que deben representarlos. Incluso, una misma persona puede tener criterios diferentes en distintos momentos.

Aún así, creemos que es más fácil poner de manifiesto las características de un autor, que las características de búsqueda de un usuario-buscador, ya que:

1) no es siempre el mismo –psicología, interés–, 2) actitudes cambiantes: hoy formula sus preguntas de una manera, y

mañana se expresa de otra, y 3) cambios en el enfoque del tema.

¿En qué forma se debe utilizar un término, o qué interpretación hay que hacer de la lógica que otra persona le ha conferido a ese término?

Page 11: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

11

¿Qué ocurre cuándo se efectúa una pregunta, a simple vista sencilla, pero que da lugar a situaciones y contestaciones diferentes?

¿Qué ocurre cuándo se opera con otro idioma, a simple vista sencillo, pero que da lugar a situaciones y contestaciones diferentes a las esperadas?

¿Qué ocurre cuándo se opera con distintos modelos conceptuales, que dan lugar a situaciones y contestaciones diferentes? 2.5. La (des)organización de la Web

La WWW –World Wide Web– es un medio de información y comunicación, inmenso, complejo y flexible, sus conexiones son dinámicas y muchas de ellas quedan obsoletas sin ser nunca actualizadas. Ciertos atributos, tales como el carácter hipertextual y el uso de elementos multimediales, estimulan determinados modos de organización y obtención de la información, o la comunicación, y desalientan otros porque no es neutral en su estructura (Burbules, 2001).

En la Web no tiene por qué existir una concordancia entre lo que un autor aporta y lo que el usuario final recibe. El primero puede escribir un artículo y el segundo obtener una página web que incluye dicho artículo, pero también otros elementos. Por ejemplo, en una página podemos encontrar: el artículo, un menú de navegación, un bloque de comentarios, un cuadro de búsqueda, un formulario de sugerencias, etc. Y, por supuesto sin tocar el contenido original, el resultado de la búsqueda podría ser otro, tanto dentro como fuera del contexto de las páginas web.

También una publicación final puede responder únicamente a un fragmento de un contenido original, a la totalidad de varios contenidos simultáneamente, y a todo el rango de ocurrencias posibles entre ambos casos.

Un sitio bien diseñado, que refleje la existencia de una gestión de contenidos permitirá:

- Almacenar diferentes versiones de cada documento. - Compartir y actualizar documentos a varias personas en diferentes entornos y con conocimiento desigual sobre el sistema. - Almacenar un mismo documento en formatos diferentes (XHTML, PDF, etc.). - Contener documentos en formato multimedia - Proporcionar una navegación flexible a partir de la estructura de organización de la información (secuencial, jerárquica, hipertextual, etc). - Disponer de un sistema flexible y eficiente de búsqueda, indexación y consulta de documentos. La naturaleza heterogénea de la Web hace difícil la adopción de un sistema de

organización rígidamente estructurado. Para los recursos tradicionales eso era resuelto por catalogadores, personas especializadas que agregaban metadatos (etiquetas que explicitan información) a los libros: qué tema trata, dónde está ubicado, cuál es el autor, etc. Estos metadatos están accesibles en un catálogo en las bibliotecas. En la Web no tenemos catálogo ni catalogadores. Más aún, con el volumen de información que crece cada día, es imposible que las personas se preocupen en clasificar la información. Además, porque el modelo de la Web es distribuido, quienes publican tienen diversas visiones sobre cómo clasificar sus objetos informativos. Por esta razón, el intento de encontrar un sistema único para organizar los contenidos heterogéneos de la Web es una tarea de difícil solución.

Page 12: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

12

Por otra parte, el concepto de "organizado" cambia de un usuario a otro. Lo que para nosotros puede resultarnos muy "lógico" puede que para otra persona no lo sea.

Para Gómez Reyes (2002) “si se estudia el fenómeno de Internet y de toda la información que ella contiene, se encuentra que sus principales dificultades radican en que no siempre es posible recuperar la información existente sobre un tema determinado porque no se realiza un adecuado proceso de clasificación e indización o se dificulta la recuperación de la información ubicada en una página web por una inadecuada organización de los contenidos”.

No es sorprendente, entonces, que casi un tercio del tiempo que los usuarios pasan en Internet lo dediquen a hacer búsquedas (Navarro, 2008). 2.5.1 Esquemas de organización de la información en la Web

Diariamente nos encontramos navegando por medio de diferentes esquemas de organización: la guía telefónica, diccionarios, nuestra agenda, los diarios, carteleras, etcétera. Todos ellos cuentan con una estructura que facilita el acceso a la información contenida en ellos, se trata de los esquemas de organización de la información.

En la Web existen esquemas de organización de la información, aunque a veces no nos percatemos de ello:

- Esquemas alfabéticos, es el predominante en enciclopedias, diccionarios, ventas en línea, etc.

- Esquemas cronológicos, los encontramos en los diarios, las carteleras de televisión, los archivos de revistas electrónicas, etc.

- Esquemas ambiguos, dividen la información en categorías que proponen definiciones exactas. Están impregnados por la ambigüedad del lenguaje y de la subjetividad humana. En estos esquemas alguien que no es el usuario ha tomado una decisión sobre cómo agrupar los elementos, por ello este esquema soporta un modo "casual" de buscar información a partir de la agrupación de los elementos de manera que puedan comprenderse intelectualmente. Entre los esquemas ambiguos, los más comunes son los que organizan la información:

- según el asunto o la materia, - según los intereses de la audiencia potencial, - a través de metáforas de la vida cotidiana.

Pero, aún suponiendo que todos los sitios disponibles en la Web se encuentren organizados de alguna forma –según la visión del emisor– la Web se vuelve telaraña –y en ese sentido un espacio desorganizado– a partir de la vinculación sin patrones entre los diversos sitios –o páginas de éstos–. Internet nos ofrece una nueva organización que no es rígida, que crece y se modifica diariamente, se autotransforma y por lo tanto tiene la flexibilidad de lo imprevisible y de las incertidumbres En este espacio “global” los contenidos están poco estructurados y organizados y existen necesidades acuciantes de un ordenamiento, clasificación y análisis para facilitar su búsqueda, uso y la disminución del consumo de tiempo para encontrar aquello que realmente necesitamos.

Navegar en la Web nos proporciona enormes cantidades de información, transitamos constantemente del orden al desorden y viceversa. Lo hacemos a través de un sistema de redes que se interconectan entre sí, para proporcionarnos acceso a esa gran cantidad de información, o para permitirnos la comunicación con personas apartadas geográficamente, que se acercan inmediata y simultáneamente mediante Internet. Estamos hablando de experiencias tecnológicas que se insinúan impredecibles,

Page 13: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

13

recorridos llenos de incertidumbres, con innumerables posibilidades. Estamos experimentando transformaciones en los procesos tanto de información como de comunicación, por lo que cabe preguntarnos:

¿Cómo recuperar en un espacio (des)organizado? ¿Son las herramientas de búsqueda las que nos ofrecerán un orden a partir del

desorden? ¿Es la Web semántica la solución?

2.6. Algunas conclusiones En los últimos años, se han planteado nuevos desafíos en relación con la manera

de organizar la información. La era digital ha aportado la posibilidad de gestionar el audio, el video, la fotografía y los textos de manera totalmente integrada aunque no siempre en forma eficaz.

Como hemos visto, hay diversos tipos de índices: alfabético, por categorías, por materias, por palabras-clave, por descriptores, etcétera. Para facilitarnos la organización de la información y, consecuentemente, la búsqueda y la recuperación, la indización puede hacerse sobre: 1) las palabras, 2) los conceptos, o 3) los temas, lo que genera tres tipos de lenguajes documentales.

El entusiasmo con que fueron recibidos los tesauros y los programas informáticos de búsqueda, como es de imaginar, llevó a que no todos adopten el mismo sistema. Unos prefieren el Dewey, otros la CDU, otros el Catálogo por abecedario del Congreso de EEUU. Y no faltan quienes sostienen que clasificar y catalogar datos tan efímeros es una pérdida de tiempo. Ahora se han incorporado los programas informáticos –los motores de búsqueda– que facilitan la recuperación con distintos enfoques simultáneos.

Pero sea cual fuere la organización utilizada, hay que considerar que toda clasificación:

1) es restrictiva, ya que siempre es posible admitir otra clasificación con otras ventajas y desventajas.

2) debe ser satisfactoria conceptualmente y permitir búsquedas rápidas y seguras (obviamente, una clasificación no es inmutable).

3) debe crear un vínculo entre la persona que emite el mensaje y la que lo recibe –un metalenguaje que armonice pregunta y respuesta–.

A menudo, la búsqueda de información es iterativa e interactiva. Lo hallado en los momentos iniciales de la búsqueda puede influir sobre lo que se halle más adelante. En todo este proceso de búsqueda de información están presentes elementos del conocimiento asociativo y el aprendizaje.

Se percibe claramente que siempre se podrá generar una estrategia de búsqueda eficaz, que indicará qué términos deben ser usados y en qué forma deben ser expresados. De eso hablaremos más adelante.

Page 14: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

14

3. Los usuarios y los contenidos en Internet, hoy Uno de los atributos más destacado de Internet reside en ser el primer medio o

conjunto de medios de comunicación masivo que permite la comunicación de doble vía: cualquier persona puede con relativa facilidad ser receptora y emisora de mensajes, y además, Internet parece encarnar un sueño: el acceso de todos a toda la información en todo momento y desde cualquier lugar, aunque ello implique algún tipo de regulación y la consideración de ciertas normas y convenciones consensuadas para su acceso y su uso. Como expresa Raghavan (2005), Internet es la colección más grande de conocimiento, noticias, opiniones, rumores, falsedades, propagandas y contradicciones que la humanidad ha montado. Cada página Web puede estar escrita en cualquier idioma por personas con diferentes niveles de educación, cultura, interés y motivación.

Pero, por mucha tecnología que definamos o que construyamos en los próximos años para continuar almacenando información -se estima que la cantidad de información generada crece a tasas mayores al 30% anual-, probablemente no resolvamos el problema del exceso y la recuperación de información. Todo parece indicar que la información se multiplicará de manera mucho más rápida que la capacidad que tenemos de generar tecnología –y metodologías- para buscar, recuperar y manejar el flujo de información en exceso y dar respuesta a las necesidades de información. 3.1 ¿Internet global o el mito del acceso democrático, la diversidad cultural y el plurilingüismo?

Según la organización Internet World Stats (2013), a junio de 2012 alrededor de 2405 millones de personas –el 34,3% de la población total– se conectaban a Internet. De este porcentaje, el acceso a Internet por lengua nativa (primera lengua) se observa en la Figura Nº 1.

Fig. Nº 1: Personas conectadas a la Web según lengua nativa (IWS, 2012)

Page 15: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

15

Se consideran usuarios de habla inglesa a los habitantes de Estados Unidos, Gran Bretaña, Irlanda, Canadá, Australia, Nueva Zelanda, Sudáfrica y Filipinas. Los usuarios de habla hispana son, aproximadamente, unos 423 millones y corresponden a España, América Central y Sudamérica –excepto Brasil–. El 39% –165 millones– de personas de habla hispana acceden a Internet, lo que representa el 7,8% del total de usuarios de la red. El número de usuarios que hablan español como primera lengua creció el 807,4% en los últimos once años (2000-2011) (Internet World Stats, 2013).

“En teoría, Internet está abierto a todos los idiomas del mundo” (Unesco, 2012), sin embargo el mapamundi de la diversidad lingüística no coincide con la marcada división que se observa en Internet (Tabla Nº 2).

Si bien en general pocos estudios suelen tener en cuenta los correos, los foros electrónicos, las bases de datos o páginas que no son públicas, la representación del español no ha llegado aún a un nivel acorde con su población en el mundo real.

Tabla Nº 2: Producción de contenidos por idiomas

Producción de

contenidos (W3Techs, 2013)

Total de personas por idioma nativo

(IWS, 2012)

Personas conectadas por idioma nativo

(IWS, 2012)

INGLÉS 55,5% 1.302 millones 26,8%

ALEMÁN 5,6% 95 millones 3,6%

FRANCÉS 3,8% 348 millones 3%

ESPAÑOL 4,3% 423 millones 7,8%

RUSO 6,3% 139 millones 3 %

La Organización de las Naciones Unidas para la Educación, la Ciencia y la

Cultura (UNESCO) ha publicado un informe titulado "Hacia las sociedades del conocimiento" (noviembre 2005) en el que alerta el riesgo de desaparecer, a lo largo de este siglo, que tienen cerca de un tercio de los 6.000 idiomas que se hablan hoy en el planeta, posibilidad agravada por el uso de tecnologías como Internet, dado que estas lenguas no se escriben, sino que son exclusivamente orales. El 96% de las lenguas son habladas por 4% de la población mundial, y más de 80% de las lenguas son endémicas y están confinadas a un solo país. Únicamente veinte idiomas del mundo cuentan varios cientos de miles de hablantes en diferentes países. Aunque las cifras varían en función de los métodos de recuento -los datos de Linguasphere, SIL, Ethnologue, Encyclopédie Millenium son sensiblemente comparables, aunque algunas de estas organizaciones suman a los que las tienen como lengua materna y a quienes las hablan como una segunda lengua-, la Encyclopédie Millenium (1998) estima que cerca de la mitad de la población mundial se expresa en una de las ocho lenguas de mayor difusión. Además, según el proyecto de la Alianza para la diversidad lingüística, en la actualidad existen 3054 idiomas en peligro de extinción (http://www.endangeredlanguages.com, 2012)

La UNESCO explica que Internet, a pesar de la ventaja que conlleva, puede acelerar la "extinción" de ciertos idiomas al favorecer la "homogeneización" en lugar de la diversidad: "Tres de cada cuatro páginas en Internet están escritas en inglés. Sin embargo, el número de cibernautas cuya lengua materna no es el inglés excede del 50

Page 16: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

16

por ciento, porcentaje que sigue aumentando", indica el documento (Figura Nº 2). Fig. Nº 2: La extinción de los idiomas en Internet

Hasta ahora, la mayoría de las lenguas que existen están ausentes en Internet en beneficio de las ocho lenguas más utilizadas del mundo, encabezadas por el inglés. Esto no sólo margina a miles de culturas, sino que constituye una posible amenaza para la diversidad de los contenidos.

Un estudio realizado por las organizaciones ISOC, OCDE Y UNESCO (2011) corrobora “que los contenidos locales, la infraestructura y los precios del acceso a Internet son tres elementos que están relacionados entre sí y que se pueden sustentar mutuamente en un círculo virtuoso:

• cuanto mejor es la conectividad, tanto mayor suele ser el nivel de creación de contenidos locales digitales; • los países que cuentan con mayor infraestructura de Internet (a todos los niveles de ingresos) son también los que producen mayor cantidad de contenidos digitales, como lo muestra el número de artículos de Wikipedia y páginas web con determinados códigos de país en dominios de alto nivel”.

Esto permite apreciar que la capacidad de acceso y asimilación que permite tratar la avalancha creciente de información y conocimiento es muy desigual, según los grupos sociales y los países.

El acceso a Internet es menos democrático de lo que parece, a pesar de que se afirma lo contrario con alguna ligereza. Este comentario se verifica cotejando no sólo los porcentajes de población real que accede a este medio, sino también las distintas posibilidades de acceso real a sus contenidos

¿Es, entonces, la ficción de la igualdad de oportunidades?

en peligro de extinición 52%

representadas en Internet

10%

Page 17: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

17

4. Recuperación de información ¿Cómo buscar en la Web?, ¿Cómo recuperar información en la Web? ¿Cómo se reconocen las configuraciones que aseguran la “calidad” de la

información? ¿Cuánto tiempo se pierde buscando dónde está la información? Coincidimos en que:

1) la cantidad de información nos supera; 2) la información se estructura en forma más compleja; 3) existe variabilidad espacial y temporal; 4) los medios de comunicación son imprecisos; 5) esos medios tienen un enorme poder en nuestra sociedad.

Entonces, tenemos que concentrarnos en: 1) eliminar rápidamente la información poco confiable o repetitiva; 2) buscar los puntos de imprecisión, para poner a prueba la consistencia de la realidad que se nos plantea; 3) resistirnos a aceptar la tendencia mayor, sin una crítica lo más objetiva posible.

Mucha información, ¿es sólo cuestión de números? En un estudio realizado en Berkeley, Bergman (2000) distingue dos ámbitos en la Web:

a) la Web visible cuya información puede recuperarse utilizando las herramientas de búsqueda tradicionales, y b) la Web invisible o Web profunda a la que no tienen acceso los motores de búsqueda. En cuanto a esta denominación Codina la refiere como inadecuada, ya que si ese concepto refiere al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público, “debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado, pero claramente alejado de la capacidad sugeridora del término invisible”. (Codina, 2003)

A su vez, Sherman y Price (2001) caracterizan cuatro tipos de contenidos invisibles en la Web profunda, que llaman: 1) Web “opaca", 2) Web “privada", 3) Web “propietaria”, y 4) Web “realmente invisible”.

La Web opaca se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están debido a razones de extensión de la indización. La Web privada consiste de sitios que podrían estar indizados en los motores de búsqueda, pero que son excluidos en forma deliberada, porque sus páginas están protegidas por contraseñas o porque contienen restricciones para esos dispositivos de búsqueda. La Web propietaria incluye a todas aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea en forma gratuita o paga. Y la Web realmente invisible, que se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores.

Según datos de Nefcraft (agosto, 2013) en la Web se registran alrededor de 716 millones de sitios. De este universo y según un estudio de la Universidad de Iowa (Gulli y Signorini, 2005) la Web indizada –la parte de la Web a la que los buscadores pueden acceder– es de alrededor de 11.500 millones de páginas. En cuanto a la Web profunda,

Page 18: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

18

la investigación de Bergman (2001) ha estimado que la información contenida en la Web invisible es aproximadamente 550 veces mayor que la de la web superficial y crece a mucha mayor velocidad. Un estudio de Cyveillance (2000) calcula que el tamaño de la Web profunda es 275 veces mayor que el de la Web visible mientras que estimaciones posteriores señalan que el tamaño de la Web invisible es sólo entre 2 y 50 veces mayor que el de la Web visible (Sherman y Price, 2001). Las diferencias en las cifras se deben a las diferentes metodologías utilizadas en las investigaciones. En cualquier caso, el valor de la información contenida en la llamada Web profunda justifica el estudio de sus formas de acceso.

El volumen de informacion disponible en la Web excede a la capacidad de “rastreo” -crawl- de los motores de búsqueda y el nivel de solapamiento entre buscadores justifica, tal vez, su proliferación, ya que cada uno va cubriendo diferentes áreas del espacio web, sin que por ahora sea técnicamente posible que alguno de ellos alcance la exhaustividad. Se estima que la Web indizada contiene al menos 3500 millones de páginas (WorldWideWebSize, 2013) y el NEC Research Institute ha evaludo que cada motor de búsqueda indiza no más del 16% de la Web visible, por lo tanto cuando los usuarios realizan sus búsquedas pierden la posibilidad de rastrear, no sólo en la Web profunda, sino también en el 84% de la Web visible.

Por otra parte, es preciso desarrollar nuevos instrumentos que faciliten la localización de información relevante para quién la busca; en este sentido, los sistemas de bases de datos y los motores de búsqueda están experimentando una evolución constante.

¿Por qué es importante conocer acerca de los motores de búsqueda? Dado el cambio y crecimiento constante de la Web, que ofrece nuevos contenidos

cada día, conocer el modo de operar de los motores de búsqueda resulta crucial para encontrar respuestas a nuestras preguntas, focalizar nuestros esfuerzos y concebir nuestras estrategias de búsqueda.

Para Jaczynski (1999), existen dos métodos básicos a través de los cuáles los usuarios buscan información en la Web: a) preguntando –querying–y, b) explorando –browsing–.

Querying es una búsqueda basada en palabras claves, en la que el motor de búsqueda coloca la palabra –o combinación de palabras– clave en su índice de palabras y devuelve una lista ordenada de documentos.

Browsing es la navegación a través de vínculos hacia un tema de interés. Los usuarios suelen explorar cuando tienen objetivos generales o no pueden expresar sus objetivos explícitamente como combinación de palabras clave. Algunos estudios dan cuenta de la dificultad de los usuarios con los mecanismos de los motores de búsqueda, ya que la expresión booleana a veces no se acerca al lenguaje natural. Es así que la búsqueda de información resulta, en muchas ocasiones un proceso iterativo, en el que la respuesta a una pregunta produce una reformulación de la propia pregunta y por lo tanto de lo que realmente es relevante para el que busca.

Para avanzar en el tema de recuperación de información, nos vamos a centrar en: • Buscadores y metabuscadores • Directorios de información y portales • Agentes inteligentes • Bases de datos electrónicas

Page 19: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

19

Cada uno de ellos tiene fortalezas y debilidades, así como características particulares y proveen diferentes servicios. Conocerlos y compararlos es importante para los usuarios, ya que ello les permitirá llevar adelante las estrategias adecuadas para optimizar su utilización. Podemos comparar los motores de búsqueda según:

A. las características de la búsqueda: - Concepto de búsqueda: el motor no sólo busca la palabra clave, sino

también sinónimos o similares. - Exclusión: posibilidad de excluir resultados a partir de la inclusión de

términos específicos - Restricciones: búsqueda de términos contenidos en alguna parte de la

página o dentro de una página especial (de imagen o video) o en sitios con dominios específicos (.com, .edu). Restricciones en cuanto a la fecha de creación o actualización de una página, así como la búsqueda en varios idiomas.

B. las características del motor: - Tamaño: qué cantidad de páginas tiene indizada en su base de datos - Lugares en el que busca: en toda la página, en el encabezado, en la URL,

etc. - Recursos indizados: además de la Web, recursos de Internet como

newsgroup, e-mail, etc. C. los resultados obtenidos:

- Métodos de ordenamiento o visualización: diferentes parámetros pueden ser utilizados para especificar el orden de los resultados

- Sugerencias de búsqueda: a partir de la búsqueda inicial - Resultados similares: visualización de páginas con resultado similar

4.1 Buscadores Un buscador es un programa en el que el trabajo de clasificación de las páginas

se realiza de forma completamente automática. Constan de los siguientes elementos: - Arácnidos. Son programas cuya labor se centra en analizar la red e ir

recopilando las páginas que residen en los distintos servidores Web a los cuales se van conectando. A medida que van recopilando las páginas las van “indizando” (registrar ordenadamente datos e informaciones, para elaborar su índice), extrayendo de las mismas las palabras clave más representativas (índices) que serán comparados con una serie de palabras clave en el proceso de búsqueda. Generalmente, para cada buscador existe un elevado número de estos programas, de forma que en un tiempo razonable se tenga analizado un número significativo de servidores Web de la red.

- Portal. Espacio del sistema de búsqueda que es visible al usuario. Su función es el diálogo con el usuario, recibiendo sus consultas. Éstas, por norma general, serán enviadas a otra computadora con una elevada potencia de cálculo cuya función es resolver la consulta en base a comparar los datos suministrados por el usuario con el contenido de la base de datos generada por los arácnidos. Tras la resolución de la consulta, los resultados son devueltos al portal para su presentación.

Page 20: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

20

Las principales características de estas herramientas de búsqueda son: - La búsqueda se realiza por palabras clave. - Los resultados se presentan con una prioridad en función de la posición,

proximidad y número de apariciones de las palabras clave. - El proceso de clasificación de las páginas se realiza de forma automática. - Baja relevancia en las respuestas. La baja relevancia en las respuestas es consecuencia directa del hecho de que

las páginas son clasificadas de forma automática. Buscadores en la Web hay miles y con diferentes grados de importancia. No hay

estudios actuales que indiquen el número exacto de buscadores, como tampoco de directorios y la posible combinación de los mismos.

Algunos de los buscadores más representativos son los siguientes: Yahoo! http://www.search.yahoo.com/ Ask http://www.ask.com/ Buscopio http://www.buscopio.net (buscador de buscadores)

Hay que destacar que la rentabilidad económica de los buscadores inicialmente podría parecer muy discutible, al ser servicios que se prestan con carácter gratuito en la red. No obstante, su rentabilidad se basa fundamentalmente en dos aspectos: la mayoría de los motores de búsqueda destinan espacios específicos a posicionamientos pagos -Sponsored Links–. Mediante el posicionamiento pago los buscadores garantizan que el sitio será incluido en la sección Sponsored Links según una serie de términos o palabras clave relacionados con dicha página Este posicionamiento suele estar dado en función del precio pagado. Por otro lado, hay que tener en cuenta que cada vez un mayor número de empresas están montando “Intranets”', esto es, redes de computadoras con características muy similares a Internet pero cuyo acceso está restringido a los empleados de la empresa. Si la empresa es suficientemente grande, es muy probable que exista un elevado número de servidores Web suministrando información dentro de la Intranet. Empresas como AltaVista proporcionan el motor de búsqueda para construir un buscador que funcione en una Intranet, facilitando, de esta forma, el acceso a la información por parte de las personas que han de trabajar en ella. 4.2 Meta-buscadores

A veces resulta difícil encontrar lo que uno busca en la red, aún haciendo uso de buscadores. Cualquiera que haya realizado una búsqueda algo compleja en la red habrá encontrado que, dependiendo del buscador que utilice, el número y tipo de respuestas puede ser de lo más variado.

Generalmente, el proceso de búsqueda en la red consta de los siguientes pasos: 1. Elegir un buscador 2. Describir la información de interés a través de palabras clave o tópicos, de

acuerdo con la estructura particular de consultas que permita el buscador, el cuál la traducirá a una especificación formal interna, más fácilmente manejable.

3. Iniciar la búsqueda. 4. Esperar (en general, salvo problemas de congestión de la red, la respuesta de los

buscadores a las consultas es bastante rápida). 5. Analizar la lista de respuestas.

Page 21: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

21

En función del número de respuestas obtenidas y de su interés, se refina la búsqueda volviendo al paso 2 o se elige un nuevo buscador, paso 1, repitiéndose el proceso.

Este proceso puede ser automatizado de alguna forma. Existen programas en la red –metabuscadores– que funcionan como buscadores, pero en donde el proceso de búsqueda se realiza entre un conjunto relativamente elevado de otros buscadores, integrando la información resultante de forma que obtengamos mejores resultados. El proceso de integración consiste, entre otras cosas, en eliminar la multiplicidad de las respuestas y establecer un orden en función de las respuestas proporcionadas por los buscadores y por el número de veces que el resultado haya aparecido en distintos buscadores.

En síntesis: los metabuscadores no disponen de una base de datos propia, sino que utilizan la información almacenada en las bases de datos de otros buscadores y directorios, es decir que hacen las búsquedas simultáneamente en varios motores.

Algunos de los meta-buscadores más utilizados son: Ixquick http://ixquick.com/esp/ Dogpile http://www.dogpile.com Metacrawler http://www.metacrawler.com

Se trata de metabuscadores que analizan las salidas suministradas por los buscadores tales como: Google, Yahoo! Search, Bing, Ask, About, MIVA, LookSmart y otros. 4.3 Otras herramientas: Google, Yippy

Google –con alrededor de 40 mil millones de páginas web indexadas (WorldWideWebSize, 2013)- es un buscador que mantiene todas las ventajas de un robot de búsqueda automática, pues consigue rastreos muy amplios, pero elimina el problema de la información de basura y atrasada. Este avance lo logra dado que aplica como criterio principal para ordenar los resultados el número de enlaces que se dirigen desde los millones de páginas rastreadas hacia otras webs y no, como algunos de los buscadores automáticos, el número de veces que una palabra clave se repite en una página. Esto, en definitiva, consigue que sean los propios usuarios de Internet, mediante sus particulares selecciones de páginas favoritas en cada momento, quienes determinen el orden en el que aparecerán los resultados al realizar una búsqueda en Google. En teoría, los resultados de este buscador son de calidad adecuada y actual.

Para ordenar documentos (decidir su importancia respecto de una consulta) Google utiliza un algoritmo propio denominado PageRank. El concepto básico del algoritmo PageRank es que una página es más importante en la medida en que más páginas apuntan hacia ella –principio inspirado en el número de citas que garantiza la calidad de los artículos académicos: cuantos más artículos citan una publicación, más valor adquiere ese trabajo, y más valor y visibilidad adquieren los artículos que ese trabajo cita (Grau, 2013)-. Por lo tanto, según el algoritmo la importancia de una página depende de:

(1) cuántas páginas apuntan a ella, (2) la cantidad de enlaces en estas páginas, y (3) cuántas y cuán importantes son las páginas que apuntan a la página. Con el tiempo Google comenzó a diseñar algoritmos que le permiten: listar sitios

con publicidades (lo que lo ha llevado a ser una de las empresas más ricas), corregir

Page 22: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

22

errores de ortografía y aprender de nuestras búsquedas anteriores. Este último algoritmo que procesa información basada en nuestro comportamiento, filtra los resultados teniendo en cuenta “nuestras búsquedas anteriores”. Estos sistemas de recomendación limitan el espectro de la búsqueda porque sólo nos ofrecen “lo que queremos” desechando la objetividad, lo casual, lo inesperado, lo no-buscado (Grau, 2013).

Por su parte Yippy -http://yippy.com- es un metabuscador que basa su funcionamiento en la técnica de “compilar información”: no se limita a volcar los resultados que envía cada buscador, sino que: (a) unifica resultados (o sea, elimina duplicados); (b) distribuye los resultados por grupos o pseudo categorías que el sistema de agrupación –clustering- es capaz de generar de manera automática. De esta forma ofrece más que la simple clasificación lineal por popularidad de los buscadores tradicionales, procesa los resultados antes de ofrecerlos al usuario.

Por último cabe agregar que los buscadores arrojan resultados sobre las búsquedas realizadas en sus propios índices y no sobre la web directamente. Esto último sería imposible debido al volumen de información y al tiempo requerido para realizar la búsqueda. El rastreo de páginas web que efectúan los spider o robots se realiza con periodicidad variable, por ello siempre existe una diferencia entre lo que pueden recuperar los buscadores y lo que realmente se encuentra en la web. 4.4 De los directorios de información a los portales

Tradicionalmente, los directorios de búsqueda han sido clasificaciones de recursos de información de la Web realizadas por personas en vez de forma automatizada. Son agrupaciones temáticas que permiten ir navegando a través de enlaces hipertextuales. La mayoría de los directorios contienen además un motor de búsqueda que permite buscar sobre las categorías y los elementos dependientes de esas categorías.

Los directorios tienen dos formas de generar sus índices: • Captura pasiva, en la que los propios interesados, los administradores de los

sitios web envían la información al directorio mediante un formulario porque les interesa aparecer en el directorio.

• Captura activa, cuando es la propia organización que genera el directorio la que busca direcciones de acuerdo a unos criterios establecidos.

Este tipo de directorios recoge tan sólo las páginas principales de las diversas organizaciones. O sea, no indexa el contenido de todo el sitio Web sino que simplemente representa mediante la asignación a una categoría la actividad o las actividades que caracterizan al sitio Web (agencias de viajes, ventas de discos, universidades, etc.). El directorio lo que hace es guiar hasta un recurso, por organización o por tema, y el usuario luego tendrá que buscar en él.

Todos los directorios tienen también una opción que permite realizar búsquedas por palabras claves. Pero, la búsqueda se realiza no sobre todos los documentos de Internet sino sobre la base de datos del directorio, que a veces incluye no sólo las categorías sino también una pequeña descripción de los recursos. Últimamente muchos de los directorios existentes en la red se han ocupado de introducir sistemas de búsqueda más potentes o de realizar alianzas con algun/os de los motores de búsqueda existentes en Internet.

Enlazas http://www.enlazas.com

Page 23: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

23

4.4.1 Los portales Los portales (o directorios temáticos) son sitios Web que ofrecen una serie de

servicios a los navegantes: directorios de información, motores de búsqueda, correo electrónico, mensajería instantánea, chat, almacenamiento de información, etc. Los portales segmentan su actividad de acuerdo a criterios temático, los hay especializados en cine, en arte, en arquitectura, en biología, en medicina, en informática, en educación, etc.

Algunos portales educativos en español destacados: Portal de las Américas http://www.educoas.org El Portal de las universidades http://www.universia.com.ar Educ.ar http://www.educ.ar Portaldidáctico http://www.portaldidactico.es

4.5 Agentes inteligentes La definición de qué es un agente inteligente no resulta fácil de establecer debido,

en parte, a la dificultad para definir un concepto tan complejo como la propia inteligencia. Tradicionalmente se concebía un sistema inteligente como aquel capaz de pensar “como un humano”, pero esta definición establece una dificultad inherente a la hora de evaluar un sistema como “inteligente” o “no inteligente” ya que no está establecido cual es verdaderamente el proceso de pensamiento humano.

Otra corriente de opinión es partidaria de establecer la inteligencia de un sistema no en función de su pensamiento, sino de su comportamiento. En cualquier caso, en lo que sí hay coincidencia es que un agente inteligente debería poseer las siguientes características:

• Reactividad: Un agente inteligente debe ser capaz de percibir eventos en el entorno y reaccionar ante ellos.

• Proactividad: Un agente debe ser capaz de exhibir un comportamiento orientado a conseguir objetivos.

• Habilidad social: Los agentes inteligentes deben ser capaces de interaccionar con otros agentes para satisfacer sus objetivos.

• Autonomía: Un agente debe actuar y decidir según un criterio personal, eso sí para satisfacer las necesidades del usuario para quien opere. En la frontera entre un agente inteligente y un metabuscador personalizado,

encontramos a Copernic Agent –http://www.copernic.com–. 4.6 En síntesis

Como hemos visto, los buscadores y directorios se conforman y funcionan de manera diferente. Así, las formas de búsqueda más eficientes varían en unos y otros. Mientras que la búsqueda por palabras -querying- es más adecuada en los buscadores, la navegación –browsing- es más recomendable en los directorios. En general las herramientas hasta aquí descriptas tienen ciertas limitaciones que hemos detallado previamente y que podemos resumir de la siguiente manera:

• Mecanismo de pregunta: las preguntas de los usuarios son introducidas a partir de un conjunto de palabras clave. Muchas veces las necesidades de información no pueden ser formuladas fácilmente a través de la sintaxis booleana.

• Cobertura de páginas web: sólo “barren” una porción limitada de la Web visible

Page 24: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

24

• Largas listas de resultados con baja relevancia respecto a la pregunta del usuario. La relevancia está dada por algún método del motor de búsqueda (análisis estadístico de frecuencia de palabras en el texto, análisis de la frecuencia con que las páginas están ligadas a otras, etc.), método que carece de información acerca del contexto, del comportamiento y de las preferencias del usuario. Según Cornellá (1998) podemos definir “dos tipos fundamentales de relevancia.

La relevancia formal: cuando los resultados de una búsqueda de información responden a la ecuación de búsqueda que se había planteado. Y la relevancia semántica: cuando los resultados obtenidos responden a las necesidades del usuario.” Cuando hablamos de baja relevancia podemos referirnos, entonces, a información poco relevante formalmente: la sintaxis de búsqueda es pobre, está mal definida o el lugar en el que se busca no es el adecuado, y a información irrelevante semánticamente: no sirve para resolver la necesidad de información.

Por todo ello –y si bien los motores de búsqueda han mejorado en su funcionamiento y cobertura– es que usuarios con necesidades específicas no siempre encuentran la información requerida en la Web ya que los motores de búsqueda son incapaces de responder a “la necesidad que hay detrás de la pregunta”.

Podemos describir este problema como el problema de los lenguajes: La necesidad de información se plantea en lenguaje natural Esta necesidad expresada se transforma en un lenguaje documental formalizado A su vez, éste debe transformase en una expresión en lenguaje de recuperación.

En la web, y aún con la ayuda de las interfaces gráficas, el problema se encuentra en la transición entre los lenguajes. 4.7 ¿Cómo acceder a la Web profunda?

Dado que la localización de información útil y de calidad en Internet es una tarea cada día más compleja y difícil, que no se basa únicamente en la utilización de buscadores clásicos, necesitamos caminos que nos permitan acceder a todo este volumen de información "profunda" o "invisible".

Uno de estos caminos consiste en la consulta a buscadores y directorios que nos den enlaces a los sitios donde se encuentran la documentación y las bases de datos. Por ejemplo:

Google Scholar http://scholar.google.com Infomine http://infomine.ucr.edu (Scholarly Internet Resource Collections) CompletePlanet http://aip.completeplanet.com (dynamic searchable dayabases) CiteSeerX http://citeseer.ist.psu.edu (computer and information science)

4.7.1 Bases de Datos, Opac y Journals La mayoría de la información en la Web profunda es mantenida por las

instituciones académicas y suelen ser de mejor calidad que los resultados obtenidos por los buscadores. Los accesos académicos –academic gateways– que pueden ayudarnos a encontrar dicha información son las bases de datos electrónicas –online databases-, las OPAC –online public access catalog- y las publicaciones electrónicas –electronic journals-. Entendemos por OPAC a las bases de datos electrónicas que contienen

Page 25: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

25

información sobre el material existente en las bibliotecas –catálogo-. El acceso puede realizarse desde una estación de trabajo -computer Workstation- ubicada en la biblioteca o a una interface Web –OPAC Web- que permite el acceso público al catálogo vía Internet.

Las bases de datos que dan referencias a bibliografía publicada en un área específica constituyen un buen vehículo para identificar la documentación de calidad (Talbot, 2003). Muchas de estas bases de datos son de acceso restricto, aunque no necesariamente pago.

Como ejemplo podemos listar: Tesauro UNESCO http://databases.unesco.org/thessp/ SciELO http://www.scielo.org.ar/scielo.php SISBI –Sistemas de Bibliotecas y de Información de la UBA– http://www.sisbi.uba.ar/ ERIC Database http://www.eric.ed.gov/ SCOPUS http://scopus.com EBSCOhost http://www.ebscohost.com/ Web of Science http://scientific.thomsonreuters.com/products/wos/

Otro de los recursos disponibles para acceder a información científica son las electronic journals, definidas como publicaciones académicas o colecciones de artículos –algunos con referato- sobre temas relacionados que son publicados periódicamente en formato digital y distribuidos a través de Internet. Estas publicaciones suelen tener antecedentes de publicación tradicional en papel. En general, para acceder a los artículos completos disponibles en dichos sitios hay que estar suscripto, aunque sí es posible obtener los resúmenes –abstract- de los mismos.

REDC –Revista española de Documentación Científica- http://redc.revistas.csic.es/index.php/redc Elsevier http://www.elsevier.com/openaccess IngentaConnect http://www.ingentaconnect.com/

¿Cómo recuperamos información en las bases de datos electrónicas? ¿Por qué los catálogos en línea nos resultan difíciles de usar?

Según Borgman (1988a) los catálogos en línea presentan dificultades en su uso porque su diseño no incorpora conocimiento sobre el comportamiento de búsqueda de los usuarios. La estructura de los registros, contenidos y los campos primarios de búsqueda son diseñados desde el modelo del catálogo tradicional, mientras que las funciones de búsqueda y algunas características de la interface, desde los modelos de recuperación de la información.

Cuando nos referimos al modelo tradicional de estructura de los catálogos –card catalogs- hablamos del modelo del siglo XIX aún presente (Buckland, 1992) y definido por Cutter en 1904 como aquel que está diseñado para:

1.- permitir al usuario encontrar un libro del cual conoce: el autor el título el tema

Page 26: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

26

2. para demostrar lo que una biblioteca tiene: de un autor dado sobre un tema en particular sobre algún género literario

3. asistir en la elección de un trabajo: en cuanto a su edición (bibliográfico) en cuanto a su carácter (literario o temático).

Basados en este modelo se asume que el usuario comienza su proceso de búsqueda sabiendo al menos uno de los tres puntos de acceso (autor, título o tema), sin embargo varios estudios sobre el comportamiento en la búsqueda de información (Borgman y Siegfried, 1992; Chen y Dhar, 1990) –tanto en ámbitos de búsqueda manual o automática– muestran que las personas inician su proceso de búsqueda con información incompleta sobre algunos de los tres puntos de acceso.

En las bases de datos electrónicas, y dependiendo de los campos que conformen sus registros, la indexación suele estar hecha por autor, título, editorial, disciplina, corrientes filosóficas, años, descriptores, etc. Es importante hacer hincapié que la sintaxis booleana de búsqueda -por palabra clave- actuará sobre los campos bibliográficos indexados y que éstos no son índices de ocurrencia de palabras como los generados por los buscadores. Es por ello que si el usuario desconoce los puntos de acceso tradicionales, la forma mas adecuada para comenzar la búsqueda será a partir del uso de los descriptores. Recordemos que los descriptores no son lo mismo que las palabras clave. Son términos organizados en un tesauro que describen el tema con que se relaciona el documento o artículo.

Para la recuperación de información en estos sistemas sugerimos, antes de comenzar la búsqueda, tomar un tiempo para conocer el modelo de indexación por campos y explorar el tesauro, siguiendo los siguientes pasos:

1. Describir el tema con palabras propias 2. Dividir el tema en conceptos principales 3. Utilizar el tesauro para localizar los descriptores apropiados a cada

concepto identificado. La parte más compleja del proceso suele ocurrir “fuera de línea”: analizar la

necesidad de información, identificar los conceptos principales y articularlos. Habiendo analizado las principales herramientas de búsqueda disponibles en la

Web, podemos sintetizar el modelo de búsqueda en dichas herramientas de la siguiente forma:

Buscadores Metabuscadores Portales Directorios Base de Datos OPAC

Querying sobre índices de palabras Browsing Querying sobre descriptores de un tesauro

Page 27: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

27

4.8 Los idiomas y la recuperación en la Web Tal como indicamos en este texto, Internet pone a nuestra disposición

documentos en varios idiomas que provienen, frecuentemente, del inglés, el alemán, el francés, y el español. Estos documentos presentan, por la simple transcripción de ideas de un idioma a otro, dificultades particulares, y es preciso ser prudentes cuando son consultados. Muchos términos técnicos –o específicos de la disciplina en cuestión– son objeto de falsas interpretaciones, o no producen en otros idiomas toda la densidad de búsqueda que tienen en su idioma original. Las palabras, las expresiones, las frases idiomáticas y las interpretaciones no siempre se corresponden. Es preciso desconfiar también de las lenguas aparentemente parecidas, como el español y el italiano, o el alemán y el sueco, en los que los errores de traducción e interpretación son frecuentes. Por ello la simple traducción literal de un término o una expresión de un idioma a otro es peligrosa como única estrategia en el proceso de búsqueda. Por otra parte creemos que a este último problema debemos añadir dos situaciones no menos importantes:

- las modas idiomáticas y el uso de jergas, y - la denominación que se hace en otro idioma del concepto buscado, en el que

intervienen tanto la conceptualización propia de la disciplina, así como los paradigmas desde la que se aborda.

Veamos algunos ejemplos…. Si hablamos de traducciones o interpretaciones incorrectas, aquí hay algunos:

Inglés Interpretación en Castellano Incorrecta Correcta

Billion Billón Mil millones Library Librería Biblioteca

Muchas veces estas interpretaciones incorrectas están “ayudadas” por el uso de servicios de traducción gratuitos. Estos servicios suelen tener serias deficiencias en la traducción, ya que suele no tenerse en cuenta la jerga de la disciplina, así como el contexto en el cual la información toma significado.

Para ilustrar el uso de los modismos en las disciplinas, un buen ejemplo es la palabra buzzword.

¿Cómo traducimos buzzword? O deberíamos mejor plantear ¿cómo explicamos qué es un buzzword?

Es un término utilizado en área específicas (tecnológicas, administrativas, políticas, etc.) que “suena importante y es usado para impresionar a las personas o describir vagamente un concepto en forma intencional”. Si bien difiere de la jerga, ya que ésta es entendida como el lenguaje especial y familiar que usan entre sí los individuos de ciertas profesiones y oficios, para ambos casos nos encontramos que la traducción a otro idioma de un término de esas características resulta dificultosa.

Y si no, ¿cómo traduciríamos al inglés el término infoxicación, y el término infonomía (Cornellá, 2000)?

Y en castellano ¿qué significa la expresión Social Informatics? ¿Algo así como Socioinformática? ¿Y qué queremos decir con Socioinformática?

Este texto también es ejemplo de uso de jergas informáticas en inglés de compleja traducción (nos referimos a traducción con sentido, no a traducción literal):

Page 28: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

28

querying, browsing, crawl, academic gateways, etc. Por último, debemos referirnos a las denominaciones en otros idiomas del

concepto buscado. Este aspecto nos obliga no sólo a saber (o por lo menos tener idea) de la traducción de los conceptos, sino a conocer los paradigmas desde los cuales se aborda la disciplina en cuestión.

Un ejemplo que nos puede interesar: en el ámbito de las ciencias de la educación buscaríamos didáctica para recuperar información sobre metodologías de enseñanza. Su traducción literal “didactics” puede ayudarnos a encontrar documentos de origen europeo, pero si deseamos revisar la literatura norteamericana sobre el tema… poco o nada encontraremos. La clave allí es que para los norteamericanos desde el paradigma desde el cual estudian y analizan los métodos de enseñanza, la expresión bajo la cual definen este concepto es “Instructional Design”. Una simple exploración del Tesauro del ERIC da cuenta de la inexistencia del término “didactics” como descriptor, pero sí encontraremos el término “Instructional Design”.

El carácter flexible, plural y descentralizado de Internet, es una virtud para la diversidad de contenidos en distintos idiomas, pero a la vez una desventaja para la efectividad de la búsqueda de información, requiriendo de una reflexión profunda antes de comenzar a planificar una estrategia.

Hasta aquí hemos visto que el proceso de búsqueda en la Web requiere tres tipos de “conocimiento”:

- conceptual, del proceso de traducción de una necesidad de información a una expresión investigable, - semántico, de cómo expresar la pregunta o expresión investigable en lenguaje de recuperación de un sistema dado, - tecnológico (habilidades) en cómo usar los sistemas de búsqueda basados en computadora.

Page 29: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

29

5. Del tesauro a la Web Semántica Un proyecto que puede servirnos de ejemplo sobre cómo pueden ser los futuros

sistemas de información en línea, es el motor de búsqueda Scirus -http://www.scirus.com-: una interfase única de información a fuentes diversas. Scirus es un proyecto de la editorial científica Elsevier. Este motor de búsqueda indiza alrededor de 575 millones (agosto, 2013) de términos científicos vinculados con instituciones académicas o científicas y al mismo tiempo envía las preguntas de los usuarios a diferentes bases de datos: ScienceDirect, Scitation, ArXiv, Oxford University, Scitation entre otras. De este modo, cuando el usuario realiza una búsqueda en este motor obtiene dos tipos de resultados: 1) páginas o sitios Web cuya fuente son las universidades u otros ámbitos académicos; 2) artículos de revista o registros referenciales procedentes de bases de datos de ciencia y tecnología (o sea, una parte de la Web Invisible).

Por otro lado suele suceder –bastante a menudo- que los motores de búsqueda no “contestan” lo que buscamos. Esto pasa porque los buscadores funcionan de manera puramente “sintáctica”, es decir, no “entienden” las palabras. Desafortunadamente, al nivel del significado (semántica) aún estamos muy por debajo de las necesidades. Estamos lejos de responder preguntas como “todos los museos que exhiban trabajos de Dalí” o “¿Cuál es la biblioteca que tiene la mejor colección de los escritos de Gandhi?” o “¿Cuál es la compañía que ofrece el mejor tour a Tailandia teniendo en cuenta precio y categoría?”. Un motor de búsqueda estándar (como Google, Yahoo!, etc.) no puede responder tales consultas. Sin embargo, la información está allí: hay que relacionarla y agregarla. La limitación obedece a la falta de capacidad de las máquinas para entender el significado y las relaciones entre las partes de información que recolectan. Hoy en día somos los humanos quienes agregamos el contexto, interpretamos y damos sentido a la información que existe en la Web. Entonces, ¿qué hacer?

El proyecto que intenta señalar el futuro de la Web es el promovido por el organismo W3 Consortium: la Web Semántica - Semantic Web-, que intenta transformar la Web actual de tal forma que la información y los servicios sean entendibles y usables tanto por computadores como por personas. Para explicar este concepto, nos permitimos introducir el siguiente ejemplo:

- Año 2009: para un docente de una institución educativa es muy simple solicitar a sus alumnos que busquen información en Internet, sin preocuparse demasiado por el tiempo que les toma y si entienden las razones de la búsqueda. El alumno busca información así: utiliza un browser y en Sitios como Google o Altavista encuentra gran cantidad de enlaces. Los revisa y, si tiene suerte, extrae la información solicitada por su profesor, que recibe la información por parte de su alumno algunas horas después.

- Año ¿2020?: un niño pregunta a “su asistente personal” que lleva puesto (algo así como un monóculo como pantalla y un teclado en su chaqueta): ¿quién era el entrenador cuando mi equipo favorito le hizo dos goles al campeón del mundo en el 2006?”. El asistente personal busca Sitios Web dónde encontrar lo solicitado por el niño, quien en poco más de un minuto recibe la respuesta.

En ambos casos, el alumno y el asistente son agentes que tienen las siguientes características:

• entienden lo que se le pide buscar, • comprenden el contenido de los Sitios Web que visitan,

Page 30: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

30

• validan si lo encontrado corresponde a lo que se le pidió buscar, y • deducen nueva información de la ya obtenida. Pero, en el año 2009 el alumno es un agente humano, mientras que en el año

2020 el asistente es un agente digital. En el ¿2020? se espera que las computadoras puedan desarrollar tareas de gestión que requieran interpretar información y tomar decisiones adaptándolas al contexto.

Actualmente la Web se asemeja a un grafo formado por nodos –sin distinción de tipos- y enlaces igualmente indiferenciados. Por ejemplo, no se hace distinción entre la página personal de un profesor y el portal de una negocio on-line, como tampoco se distinguen explícitamente los enlaces a las asignaturas que imparte un profesor de los enlaces a sus publicaciones. Por el contrario en la Web semántica cada nodo se corresponde a un tipo y los enlaces representan relaciones explícitamente diferenciadas (Figura Nº 3).

Fig. Nº 3: La web semántica

La realización de esta visión –de este proyecto de conocimiento distribuido y de

provisión de contexto a los datos, tal como lo hacen los seres humanos–, tras la cual están, entre otros, Tim Berners-Lee, necesitará de un nuevo lenguaje de codificación de las páginas, de una gramática lógica para que los autores de páginas Web puedan describir las propiedades semánticas de los documentos en una notación estándar, de la incorporación de las muchas herramientas software y tecnologías sobre las que se está trabajando y de la adopción de unos y otras por parte del mercado.

No sabemos si la Web semántica, con todo su potencial imaginado, será realidad algún día. De momento es un proyecto que, de cumplirse, cambiaría de forma substancial la Web tal como la conocemos hoy.

Page 31: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

31

6. ¿Cómo buscar? Recuperar información es un problema complejo porque requiere describir

información que aún no se tiene. Dicha necesidad resulta difícil de trasladar a un lenguaje normalizado y la respuesta será un conjunto de documentos que pueden contener, sólo probablemente, lo deseado y con un evidente nivel de incertidumbre. En la recuperación información, el criterio de valor es el grado en el que la respuesta obtenida satisface las necesidades de información del usuario, es decir, su percepción personal de utilidad (Blair, 1990).

Tramullas (1997) destaca un aspecto importante de las reflexiones de Blair, “la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información”

Buscar información en Internet no implica, necesariamente, “encontrar información”. Por ello, por evidente que pueda parecer, la primera pregunta que hay que formularse cuando se desea encontrar información es:

¿Qué necesito encontrar? Martinet y Martin en su libro L'Intelligence Economique (1995) proponen la

existencia de dos tipos de ignorancia: "ignorancia profunda" e "ignorancia conocedora". Analicemos esta idea mediante un ejemplo aportado por Cornellá (1998): Supongamos una situación en la que alguien precisa una determinada información. Puede ocurrir que ese alguien sea muy conocedor del tema en cuestión, y que, en consecuencia, tenga muy claro cuál es la información que le falta; en esta situación, esa persona es consciente de su ignorancia (sabe lo que no sabe), y conoce bien su horizonte de conocimientos; esta es la situación de la ignorancia conocedora. Pero puede también ocurrir que la persona no sea consciente de mucha información que le podría ser de utilidad; en este caso, que podemos denominar ignorancia profunda, no tenga idea de un gran panorama de información, que ni conoce ni ha manifestado necesitar (no sabe lo que no sabe).

Y aquí surge una cuestión interesante: buscar información en Internet, ¿ayuda a reducir la ignorancia conocedora (nos ayuda a encontrar justo la información que necesitamos), o bien ayuda a darnos cuenta de lo muy profunda que es nuestra ignorancia (encontramos más información de las que imaginábamos)?

Las estrategias para buscar información implican tomar decisiones y escoger las fuentes de información más convenientes para el trabajo en cuestión. Por ello, cuando el problema esté claramente definido, se analiza la gama de posibles fuentes de información.

En el contexto que hemos estado describiendo a lo largo de este artículo, gestionar información se ha transformado en una tarea cada vez más importante ya sea para nuestra actividad personal como para nuestro trabajo. Normalmente dedicamos poco tiempo, lo hacemos mal, de manera poco estructurada, y nadie nos forma para saber manejar información.

Por ello, nuestra siguiente reflexión será: ¿Cómo nos informamos? ¿Cómo debo buscar? (Figura Nº 4).

Page 32: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

32

Fig. Nº 4: El proceso de informarse

El proceso de informarse puede ser descripto, en forma sintética, de la siguiente manera: 1) cuál es la información de interés –la que necesito-, 2) dónde la busco -fuentes-, 3a) cómo la busco –con qué metodologías y herramientas-, 3b) cómo gestiono lo que encuentro por casualidad –tropiezo pasivo, serendipia- y, finalmente, 4) cómo la filtro de acuerdo con lo que a mí me interesa y al final 5) cómo aplico esta información. 6.1 ¿Porqué utilizar una Estrategia de Búsqueda?

Nadie puede negar la importancia y utilidad que tienen los buscadores para encontrar información en la Web. Sin embargo, muchos usuarios pueden decir que su experiencia con ellos no ha sido completamente satisfactoria. Aprender una estrategia de búsqueda de información supone aprender cuándo y por qué utilizar un procedimiento, un concepto o una actitud determinada. Es decir, cuándo y por qué seguir un determinado proceso de búsqueda, cuándo y por qué hacer uso o no de operadores, cuándo y por qué limitar la búsqueda, cuándo y por qué utilizar determinados términos, cuándo y por qué utilizar ciertas opciones de búsqueda que nos ofrecen las diferentes Bases de Datos.

En definitiva, ¿cuál es el trabajo de búsqueda?: 1) recuperar comprensivamente datos de textos de Internet, 2) procesar los datos que se ajusten a la situación planteada, y 3) con el uso de diferentes estrategias cognitivas y metacognitivas,

convertir estos datos e información, en conocimientos significativos. Dicho así, Internet funcionaría como otro recurso más de búsqueda de datos, pero

en realidad un hiper-recurso con una gran superabundancia de datos, que requiere del profesional, del docente, y del alumno, nuevas estrategias de búsqueda y recuperación de información, tales como: comprensión, selección, procesamiento de datos, organización de los mismos en torno a mapas y redes conceptuales. Esto no sólo como instrumento para recuperación de información sino como paso para lograr un dominio de saberes socialmente significativos y para desarrollar competencias y habilidades cognitivas e interpretativas propias del área en estudio.

4.-“Saber” filtrar según los objetivos

2.- Saber buscar

1.- Identificar la información necesitada

5.- Usarla, aplicarla

3a.- Identificar las fuentes 3b.-Aprovechar

el tropiezo pasivo – serendipia–

Page 33: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

33

En lo referente a la búsqueda, una correcta planificación nos permitirá separar el éxito del fracaso más que ninguna otra competencia. (Figura Nº 5).

Obviamente, no hay una receta definida y fiable para buscar información en Internet en tiempo y calidad razonables, pero disponemos de elementos que nos permiten construir estrategias y esquemas de comportamiento para afrontar un uso satisfactorio y encontrar lo deseado.

Figura Nº 5: Decisiones relevantes en el proceso de búsqueda de información

6.2 Requisitos para una búsqueda

¿Cómo llegamos a la definición de los requisitos? El problema de trabajar con datos es determinar los requisitos para obtener la

información que necesitamos. Pero el mundo de los seres humanos y de los objetos físicos en el cual se ubican los requisitos es bastante informal, y no siempre puede ser tratado adecuadamente sin métodos.

¿Cómo establecer y documentar requisitos para obtener determinados datos? Consiste en la caracterización, el análisis, la especificación, la verificación y la

administración de los requisitos –la elicitación–. La falla en el desarrollo y documentación de buenas especificaciones de

requisitos es una de las principales causas de errores en el desarrollo de sistemas de información. Algunas situaciones que originan esa dificultad son:

- el conocimiento del tema, la forma de expresarlo y el tipo de lenguaje que empleamos.

Page 34: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

34

- la inhabilidad para escribir una especificación correcta de requisitos. - la falta de conocimientos para la verificación de los requisitos. - no identificar qué herramienta y/o metodología usar.

Definir correctamente las necesidades de información, disminuye aburridas, inútiles y costosas tareas de búsqueda. Una vez establecido el valor de una buena especificación de requisitos, surgen otras cuestiones:

¿Cómo desarrollarlos? ¿Cómo saber si un conjunto de requisitos es bueno? ¿Qué herramientas y métodos pueden ayudar?

Estas preguntas no tienen una respuesta única y definitiva, puesto que continuamente surgen nuevas herramientas y métodos. Pero lo importante es entender que la caracterización de los requisitos debe realizarse con la mayor claridad posible. Dependiendo de la definición de los requisitos, variarán los métodos, las técnicas y herramientas a utilizar en la búsqueda de información.

Por lo tanto, en la estrategia de búsqueda habrá que tener en cuenta: 1) Ámbito temático que se abarcará: especificidad del tema que se desea desarrollar. 2) Especificidad de los términos: determinar si hay que tomar todos los términos posibles, si bastará un número reducido, si es necesario incluir el conjunto de relaciones con los términos relacionados. 3) Adecuación de los términos: determinar qué términos son los más adecuados para expresar los conceptos del tema de trabajo. 4) Idiomas elegidos: pensar siempre en una búsqueda multilingüe.

En el caso de respuestas no satisfactorias, es posible revisar el proceso. En la mayoría de los casos se trata del uso incorrecto de algún término. En esa situación se sugiere replantear la estrategia de búsqueda modificando los términos que se cree que no son adecuados a esa demanda de información. Aún así, muchas búsquedas terminan con una sensación desagradable, ya sea por la enorme cantidad de documentos relacionados que no nos permiten una concentración en los temas específicos, como por la sensación de “sobrecarga” que se siente al realizar un trabajo con excesiva información. 6.3 Modelos de exploración y búsqueda

Tal como lo hemos descrito hasta el momento, la Web dispone de diversas herramientas para la recuperación de datos en línea. A pesar de esta supuesta flexibilidad en los modelos de recuperación –dada básicamente por la hipertextualidad y la variedad de lenguajes simbólicos-, algunas investigaciones han sugerido que las diferencias en las características individuales de los usuarios pueden ser uno de los factores más influyentes que afectan el comportamiento de la búsqueda.

Y así lo expresa Choo (1999): “para la misma necesidad de información, cada uno de nosotros buscaría de un modo un tanto diferente, según nuestro conocimiento sobre las fuentes, experiencias pasadas, preferencias personales, etc.”

Marchionini (1995) propone tres patrones de búsqueda diferenciados en función de la necesidad de información –objeto de la búsqueda- y las tácticas utilizadas:

- Exploración dirigida -Directed browsing-, la exploración es sistematizada, focalizada a un destino específico (por ejemplo buscar en una base de datos

Page 35: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

35

un tema específico verificando los atributos de la información) - Exploración semidirigida -Semidirected browsing-, la información a buscar es algo indefinida y el proceso de exploración menos sistemático (por ejemplo buscar a partir de términos generales y examinar los resultados) - Exploración sin dirección -Undirected browsing-, no hay un objetivo específico (por ejemplo navego en una web explorando su contenido).

Por otro lado, ampliando la propuesta –previa a la Web– de Aguilar (1967), Choo (1999) describe cuatro modos de exploración en función de la necesidad de información, la acción –técnica– y el uso que se hace de la información recuperada (Tabla N° 3).

Tabla Nº 3: Modos de exploración (Choo, 1999)

Modos de exploración Necesidad de información

Acción –técnica–

Uso de información

Visión sin dirección - undirected viewing-

No hay necesidad específica

"Sweeping" –barrido- Exploración amplia de diversidad

de fuentes, tomando aquellas fácilmente accesibles.

Serendipia

“Browsing" -exploración- Indagación

Visión condicionada -conditioned viewing-

Temas generales de interés

"Discriminating" –discriminación- Ojear en fuentes

preseleccionadas sobre tópicos de interés

"Learning" -aprendizaje-incrementar el

conocimiento sobre tópicos de interés

Búsqueda informal -informal search-

"Satisfying" –Satisfacción-

La búsqueda se focaliza en áreas, pero una búsqueda sencilla es

satisfactoria

"Selecting" -selección-

incrementar el conocimiento en un área

(con algunos límites)

Búsqueda formal -formal search-

Entender y profundizar sobre temas específicos

"Optimizing"

–optimización- Reunión sistemática de la

información sobre una entidad, después de utilizar un cierto

método o procedimiento

"Retrieving" -recuperación-

uso formal de la información para la toma de decisiones

Mientras que Ellis (1989) plantea un modelo conductual de búsqueda de

información con seis categorías (Tabla N° 4): Tabla Nº 4: Modelo de búsqueda (Ellis, 1989. Fuente, Choo, 1999)

“Starting” iniciación

Identificar fuentes de interés que sirven como punto de partida. Su exploración, probablemente sugieran referencias adicionales.

“Chaining” vinculación

Proseguir con los indicios dados por la fuente inicial.

“Browsing” examen superficial

Búsqueda semidirigida en áreas de posible interés.

“Differentiating” diferenciación

Filtrar y seleccionar entre las fuentes exploradas a partir del reconocimiento de la calidad de la información.

“Monitoring” supervisión

Inspeccionar en forma sistemática las fuentes de interés.

“Extracting” extracción

Trabajar metódicamente a través de las fuentes particulares a fin de identificar material de interés.

Page 36: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

36

En una propuesta interesante, Choo (1999) combina el modo de exploración de Aguilar y el modelo conductual de búsqueda de Ellis, en un nuevo modelo de que refleja el comportamiento de búsqueda de información en la Web (Tabla N° 5):

Tabla Nº 5: Modelo de búsqueda de información (Choo, 1999)

Starting Chaining Browsing Differentiating Monitoring Extracting

Visión sin dirección

Identificar y/o

seleccionar páginas de

inicio

Seguir los vínculos de las páginas de inicio a otras con

contenidos relacionados (aunque no verifique la predicción)

Visión condicionada

Explorar en listas, mapas

de contenidos,

índices, directorios,

etc.

Búsqueda informal

Filtrar y seleccionar sitios útiles a través

de “favoritos”, impresión, copiado

y pegado, etc. Ir directamente a Sitios conocidos

Búsqueda formal

Recibir la actualización

de sitios utilizando agentes,

suscripciones, listas, etc. Re-visitar los sitios

“favoritos”.

Utilizar herramientas de búsqueda parar extraer

información de útil.

El conocimiento de los modos de exploración y de las categorías de conducta en

la búsqueda de información son aspectos esenciales que deben analizarse e investigarse, a fin de tenerlos en cuenta en el diseño de los sistemas de recuperación de la Web para que éstos mejoren su funcionamiento y aumenten su utilidad –la percibida por el usuario- al apoyarse en estas características conductuales. Sin embargo, el modelado con control preciso y consciente del proceso congnitivo enmarcado en la recuperación de información de la red hipermedial que es la Web, no es una tarea sencilla. 6.3.1 Serendipia

El término serendipia procede de la palabra serendipity y hace referencia al modo en que se produce un descubrimiento que se realiza de repente gracias a un accidente o una casualidad. No existe traducción al español de esta palabra. Royston Roberts en su libro “Serendipity. Accidental Discoveries in Science” (1989) introduce la definición del término como “hallazgo inesperado de cosas o ideas interesantes en el proceso de búsqueda de otras”. Podemos pensar a la palabra “serendipia” como un neologismo del término en inglés.

Para Olivier Ertzcheid y Gabriel Gallezot, existen tres estados iniciales que favorecen la serendipia y que se asocian a tres procesos relacionados con la Recuperación de Información:

- Sé lo que busco: el usuario sabe ya (en parte) lo que busca. Por tanto

Page 37: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

37

realizará una búsqueda clásica según los modelos clásicos de los sistemas de documentales (booleanos, lenguajes documentales, etc). El usuario se encuentra en una lógica de consulta y búsqueda que le proporciona resultados (matching) sabiendo, aproximadamente, lo que puede aportar el sistema de información. Este usuario utiliza un razonamiento hipotético-deductivo. Aquí la serendipia es prácticamente nula o no conlleva ninguna acción voluntaria consciente.

- No sé lo que busco: el usuario se embarca en un proceso exploratorio (browsing). El usuario va, a partir de lo que sabe, a razonar por inferencia y abducción en función de su duda o de su perfil. La serendipia, en este caso, es de tipo estructural.

- Sé que no sé lo que busco: es el que más se puede beneficiar del fenómeno de la serendipia. El usuario suele adoptar un comportamiento muy simple, muy asociativo y muy intuitivo, sea cual sea la complejidad del sistema que vaya a consultar. Sobre los resultados de la búsqueda, el usuario irá descubriendo, de manera asociativa, nuevas palabras clave, nuevos nombres de personas, nuevas pistas de investigación, etc, que van a ayudar a constituir una respuesta/solución a la pregunta/problema. Aquí la serendipia es asociativa.

En definitiva, la serendipia durante un proceso de búsqueda de información puede ser pasajera, dependerá del momento en que los modelos mentales se impongan, o convertirse en un modo privilegiado de acceso a la información. La serendipia aplicada a la Recuperación de la Información pone de manifiesto que no es necesariamente más fácil encontrar la información en un sistema ordenado, estructurado y formateado que en un sistema de información caracterizado por una entropía fuerte y que no dispone de ningún nivel de control único.

Por tanto, deberemos tener en cuenta, a la hora de hablar de Recuperación de Información, los fenómenos de serendipia en complemento a las preguntas (querying) y a la exploración (browsing). 6.4 Guía para la búsqueda de información

Los siguientes párrafos proponen un proceso de recuperación; pero debe recordarse que la recuperación de información no es un proceso y una actividad exacta: pueden haber varios procesos y varias soluciones distintas para el mismo problema (adaptado de Tramullas, 2001).

1. Planteamiento del tema y nivel de conocimientos: debe establecer claramente cuál es el objetivo de su interés. Hay objetivos que pueden parecer adecuados, pero que en realidad necesiten un refinamiento; plantee todas las situaciones posibles que pueden darse, y piense en varias tácticas para acercarse al problema. Si prepara estas tácticas alternativas, las respuestas que obtenga durante una consulta, sobre temas relacionados con lo que está buscando, pueden servirle como punto de partida para buscar por exploración (procesos basados en la navegación.). Debe establecer cuál es su propio nivel de conocimientos sobre el tema. Si su nivel de conocimientos es adecuado, podrá abordar el problema de la fiabilidad con mayores garantías. En cualquier situación, esta fase debe dar como resultado una formulación clara e inequívoca del objetivo de su búsqueda.

2. Identificación de los tipos de información: la web contiene diferentes tipos de información, tanto por el tipo de fichero que los contiene, como por el objetivo y finalidad de las páginas web y de los creadores de las mismas. Debe establecer

Page 38: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

38

la posible utilidad de cada una de estos tipos de documentos, y no descartar ninguno a priori, ya que por exploración puede encontrar información complementaria que le sea de utilidad.

3. Selección de los recursos de información y de las herramientas de consulta: La selección de los recursos de información, es decir, índices, directorios y motores de búsqueda a utilizar, es de suma importancia. Continuamente están apareciendo directorios especializados en los temas más diversos; en numerosas ocasiones, ofrecen coberturas muy parciales, aunque los índices que ofrecen tienen un alto nivel de fiabilidad. Si no conoce estos directorios, debe recurrir a los motores. Si desea comparar los resultados ofrecidos por varios de éstos, lo más recomendable es utilizar un metabuscador. La segunda parte de esta fase definirá que herramienta utilizará para consultar los recursos de información.

4. Redacción de la expresión lógica (de búsqueda). Ejecución. Recepción de respuestas. Debe introducir en la interface o herramienta que haya seleccionado para desarrollar la búsqueda, la expresión que reúne los términos elegidos, y los operadores que establecen las relaciones existentes entre aquellos. Los motores ofrecen siempre páginas de ayuda, en las que explican las posibilidades del lenguaje de interrogación que usan, y suelen incluir ejemplos. También ofrecen interfaces simples y avanzadas para formular las expresiones. Es preferible utilizar las interfaces avanzadas, ya que ofrecen más potencial y parámetros que ayudan a perfeccionar las expresiones y a obtener resultados ajustados.

5. Preselección de respuestas pertinentes. Exploración de los documentos originales: lea los datos que ofrece el listado para desechar aquellos que no sean adecuados. Presione en el enlace que le lleva al documento original. Para aligerar el trabajo, y evitar la sobrecarga cognitiva, use el menú emergente (botón derecho: Abrir en ventana nueva). De esta forma podrá explorar el documento, y otros relacionados con el mismo, sin perder la ventana con el listado de respuestas, lo que facilitará nuevas exploraciones. Si el documento, o documentos a los que ha accedido le interesan, márquelos. En caso contrario, cierre la ventana y vuelva al listado respuestas.

6. Replanteamiento de estrategias. Si tras analizar las quince o veinte primeras respuestas no ha obtenido algún resultado satisfactorio, es necesario cambiar la táctica. El cambio puede referirse a las expresiones utilizadas, o al motor seleccionado. Si el número de respuestas obtenido es muy elevado, y los primeros resultados son poco pertinentes o muy generales, formule una nueva expresión de búsqueda, con más condiciones y limitaciones. En el caso contrario, es decir con nulo o escaso número de resultados, puede suceder que: a) si la expresión no es restrictiva, entonces no hay documentos, o los documentos no contienen esos términos; b) que la expresión sea demasiado restrictiva, con demasiadas condiciones. Para estos casos, debe probar con una expresión con menos condiciones, y usar términos sinónimos o similares a los usados en la primera formulación.

7. En el proceso de recuperación de información en Internet, el usuario siempre debe pensar que no es suficiente con seguir los resultados obtenidos de un motor de búsqueda: hay que explorarlos, analizarlos, valorarlos, y seleccionarlos como adecuados, o desecharlos como no pertinentes. Las herramientas de recuperación de información en la Web son un medio más, una fase intermedia, no un fin.

Page 39: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

39

Los resultados proporcionados por un motor de búsqueda, no son sólo el resultado de un cruce combinatorio entre páginas que responden a una determinada demanda y las que corresponden menos o nada. La neutralidad está claramente ausente, en realidad se nos está proporcionando una visión sobre el mundo que no es nada inocente. Con una lista de resultados nos llega, al mismo tiempo, toda una jerarquía de principios de clasificación del saber, y otros más implícitos todavía, de organización del conocimiento.

Por ello, es preciso insistir que “no hay una sola herramienta ni un único método que asegure encontrar resultados óptimos en todos los casos”.

Una vez alcanzados los resultados: ¿qué información seleccionamos? ¿cómo reconocemos las configuraciones que aseguran la “calidad” de la información? ¿qué entendemos por información de calidad?

Sin duda el concepto de calidad de la información depende del uso que se haga de la información en la práctica. Es posible que lo que se entiende como buena información en un caso concreto sea insuficiente para otros casos. Para Harris (1997) determinar la calidad de la información es un arte, ya que hay que inferir a partir de un conjunto de indicadores, basados en el propósito con el que se quiera utilizar la información.

Siguiendo algunos autores (Tramullas, 2000; Cooke, 2001) podemos listar algunos criterios tradicionales de calidad:

1. Autoridad: quién es el autor/es y cuál es su competencia (autoridad) sobre el tema

2. Fiabilidad: confianza en que la información es cierta, creíble y libre de errores 3. Objetividad: nivel de expresión de la información sin distorsiones personales,

falta de sesgo 4. Actualidad: estado de actualización de la información (inclusión de la fecha de

creación, revisión o última actualización) 5. Cobertura y audiencia: nivel de temas y profundidad de tratamiento, ¿es

información primaria o secundaria?; quienes son los destinatarios. 6. Validez: indicación de fuentes y documentación de apoyo 7. Escritura y sintaxis: buena gramática, sin faltas de ortografía 8. Metainformación: resúmenes, sumarios, revisiones y comentarios 9. Relevancia: pertinencia para las necesidades del usuario –criterio subjetivo- En síntesis, podemos decir que existen dos maneras de evaluar la calidad de la

información: 1) objetivamente determinando la autoridad, fiabilidad, objetividad, actualidad, etc.

y 2) subjetivamente determinando si la información recuperada es pertinente a la

necesidad. Establecer criterios que filtren la información encontrada es un buen comienzo

para convertirse en un consumidor crítico de información.

Page 40: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

40

7. Competencias para el manejo de la información Las competencias necesarias para la comprensión y procesamiento de

información, constituidas en gran parte por la competencia lingüística, posibilitan una serie de procesos de distinto nivel de complejidad (A. Rivière, 1992):

a) procesos básicos de reconocimiento y elaboración semántico-sintáctica de los elementos del mensaje (palabras, imagen, sonido, etc.). b) procesos superiores de elaboración semántica que van más allá de la información representada en la búsqueda.

Es importante distinguir entre (Baxley, 2003): a) el modelo conceptual, la descripción de cómo una persona puede buscar información, y b) el modelo mental que caracteriza cómo una persona espera buscar información. El modelo conceptual nos permite formar expectativas exactas y útiles sobre qué

tipo de funcionalidad o de contenido está disponible. Complementariamente, los modelos mentales describen cómo esperamos que ese sistema o servicio esté organizado. Siempre un modelo mental es individual –varía de una persona a otra–, y frente a la misma actividad de búsqueda pueden plasmarse varios modelos mentales posibles. Para Mc Daniel (2003), un modelo mental posee las siguientes características:

1) incluye lo que la persona piensa que es verdad, y no necesariamente lo que es verdad, 2) es similar en estructura al objeto o concepto que representa, 3) permite predecir a la persona los resultados de su acción, y 4) es lo más simple que el objeto o concepto representa, incluyendo la información suficiente para permitir predicciones exactas.

Por ello, desde la óptica de poseer competencias para el acceso y uso de la información –entendida éstas como la función de "reconocer cuándo se necesita información y poseer la capacidad de localizar, evaluar y utilizar eficazmente la información requerida" (American Library Association, 1989)– tiene sentido preguntarnos cómo buscaremos la información. Dentro de esta configuración, las competencias para el manejo de la información (Grau, 1995), serían:

1) explorar, 2) percibir nexos y relaciones, 3) captar y desentrañar estructuras conceptuales, 4) almacenar el significado, 5) condensar la información, 6) adoptar lógicas diferentes al sí-no, 7) tratar la complejidad, 8) moverse intuitivamente, 9) capacidad de síntesis, 10) albergar incertidumbres, 11) capacidad de transferencia, y 12) tomar decisiones a partir de información incompleta.

Page 41: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

41

A su vez, toda esta información está determinada por un esquema semántico –el estudio de los signos en relación con los objetos designados– que nos lleva a la idea transmitida, al mensaje, o al dato.

Las competencias para el manejo de la información constituyen la base para el aprendizaje continuo, son comunes a todas las disciplinas, a todos los entornos de aprendizaje y a todos los niveles de educación.

Un informe del National Research Council (1999) enumera varios rasgos distintivos útiles a la hora de comprender las relaciones entre las competencias para el acceso y uso de la información, las competencias en el uso de computadoras y las destrezas tecnológicas más amplias. El informe señala que la "competencia en computadoras" tiene que ver con el aprendizaje rutinario de aplicaciones informáticas específicas, mientras que el "dominio de las tecnologías" se centra en la comprensión de los conceptos básicos de la tecnología y en la aplicación de técnicas de solución de problemas y pensamiento crítico para el uso de la misma. Por el contrario, las competencias para el acceso y uso de la información constituyen un marco intelectual para la comprensión, hallazgo, evaluación y utilización de la información –actividades todas ellas que pueden ser llevadas a cabo en parte gracias al dominio de tecnologías de la información pero sobre todo por medio del discernimiento crítico y el raciocinio–. Las competencias para el manejo de la información se valen de la tecnología pero, en última instancia, son independientes de ella. (Ver Anexo) 7.1 PIM –Personal Information Management-

Documentos, libros, música, fotos, videos, emails, contactos, calendario, registros, recibos, etc.: ¿cómo podemos mantener nuestra información bajo control? Necesitamos de la información para tomar buenas decisiones, hacer cosas, aprender, actuar en en el mundo que nos reodea y también para reflexionar y recordar. Pero no siempre tenemos control sobre la misma. El crecimiento de la información, así como el aumento de los dispositivos tecnológicos que permiten crearla, almacenarla, recuperarla, distribuirla y usarla es asombroso y a la vez desconcertante.

El abaratamiento de los dispositivos de almacenamiento ha alentado los malos hábitos de los usuarios, pues no hay necesidad de limpiar y filtrar nuestros archivos dado que es más fácil mantener información que tomar una decisión –y acción– sobre su utilidad o valor potencial. Con el paso del tiempo solemos olvidar lo que poseemos y no distinguimos lo inútil de lo importante. En el mejor de los casos, realizamos copias de seguridad, pero no una conservación sistemática de la información que puede tener valor para un uso futuro.

Antes de avanzar definamos “información personal”. Jones (2008) destaca 6 tipos: 1. Controlada por “mi”: Archivos en nuestras computadoras, mensajes en

nuestra cuenta de correo, papeles en nuestro cajón, etc. 2. Sobre “mi” y posiblemente bajo control de otros: Ficha médica, registro de

impuestos, historial crediticio, sitios web visitados, etc. 3. Dirigida a “mi” y no necesariamente relevante pero que puede distraer,

hacer perder tiempo, etc: Spam que llega a nuestro correo, publicidad en páginas web, televisión o radio, una carta, la cuenta de un servicio, etc.

4. Enviada, publicada o provista por “mi”: En la que tenemos control (a veces) sobre quién ve, qué información y cuándo.

5. Conocida por “mi”: Libros que están en la biblioteca, páginas web que permanecen en la web (como artículos de diarios), programas de TV. Es

Page 42: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

42

información sobre la cuál volvemos en algún momento pero no está bajo nuestro control.

6. Relevante (útil) para “mi”: Esta categoría incluye información que poseemos y controlamos, que conocemos y también información que aún no hemos visto. ¡Tan sólo necesitamos encontrarla!

Hoy en día esta información personal está disponible no sólo en papel sino en documentos digitales, emails, páginas web, mensajes de texto, fotografías digitales, música, video y otras formas adicionales de información digital. La dificultad de gestionar la información se incrementa si una persona tiene múltiples cuentas de email, usa varios dispositivos tecnológicos –tablet, netbook, teléfonos inteligentes, notebook, etc.- Todos estos dispositivos, así como nos ayudan en diferentes situaciones, también aumentan el problema de la “fragmentación de la información”. Por otra parte, varios estudios han demostrado (Barreau, 2009) que los usuarios suelen estar demasiados ocupados o ser un tanto desorganizados para estructurar a conciencia su información, así como también son poco precisos cuando definen el tipo, tamaño y extensión de sus ficheros. Además las herramientas de gestión de contenidos digitales suelen ser limitadas e insastifactorias: sólo podemos descubrir el contenido de un objeto digital si lo abrimos.

Frente a esta situación nos preguntamos, ¿qué significa gestionar adecuadamente la información personal?

Cabe distinguir “organizar” de “gestionar”, “gestionar de utilizar”; pero, además, para ser efectivos la gestión y el uso de la información deben estar interrelacionadas. La gestión de la información personal debe permitirnos responder preguntas como: ¿Es la información potencialmente útil? Si lo es: ¿cómo la guardo?, ¿dónde?, ¿en qué dispositivo?, ¿en qué formato? Para ser recuperada, ¿cuándo?

Barreau (2009) describe a la PIM como un sistema desarrollado para uso personal en un ambiente de trabajo. Tal sistema incluye “las reglas y métodos personales para adquirir información […] los mecanismos para organizar y almacenar la información, las reglas y procedimientos para mantener el sistema, los mecanismos para la recuperación y los procedimientos para producir variadas salidas”.

Desde esta perspectiva Jones (2008) define a la PIM con tres operaciones escenciales (Figura Nº 6):

1. Finding y re-finding: De la necesidad a la información. En nuestros esfuerzos por reconocer la información relacionada a nuestra necesidad, buscamos, exploramos, escaneamos a través de una lista de resultados o carpetas. Estas actividades son ejemplos de Finding –encontrar-. Re-finding incluye otro paso: recordar lo que vimos en primer lugar. 2. Keeping: De la información a la necesidad. En vez de tener una necesidad para la que buscamos información, tenemos información y debemos determinar qué hacer con ella. ¿Podemos anticipar una necesidad para esa información?, ¿cuál es el costo de no tenerla? Gracias a las tecnologías de almacenamiento, algunas decisiones de “mantener” la información no son tomadas en cuenta. Si tenemos espacios, entonces ¡guardemos! Luego, el problema será la recuperación. 3. Mantenimiento y organización: ¿Cómo organizar la informaión para su uso? ¿Etiquetado, categorización, clasificación, agrupamiento? ¿Cómo actualizarla?, ¿y resguardarla? ¿Cómo actualizar sus formatos de manera que esté disponible en otros estándares tecnológicos? ¿Cómo asegurarse que la información vieja sea borrada o archivada? ¿Cómo localizar la información duplicada? ¿Cómo asegurar la privacidad de nuestros contenidos?

Page 43: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

43

Figura Nº 6: Actividades en la PIM (adaptado de Jones, 2008)

Se destaca la necesidad de abordar, sobre todo en entornos educativos, buenas

prácticas de la gestión personal de la información, con buenas herramientas y buenas estrategias para apoyar la interacción y la reflexión sobre nuestro material digital. 7.2 Acotando el problema

Ya hace varios años, Peter Drucker planteaba que antes de iniciar cualquier tarea de búsqueda, teníamos que aprender a plantear las siguientes preguntas:

¿Qué información necesito, en qué forma y cuándo? ¿A quién debo qué información y cuándo y dónde?

Cabe agregar: ¿Cómo buscar información, razonablemente? ¿Al no consultar todas las fuentes de información disponibles, es completa

mi búsqueda de información? Esta característica se hace palpable con el empleo de las herramientas

tradicionales –como las consultas a bibliotecas–, las cuales sólo dan como resultado unos pocos libros o referencias al tema.

¿La incorporación de nuevas herramientas de búsqueda, mejorará nuestra capacidad para la obtención eficaz de datos relevantes?

El problema no es solamente correr los riesgos de no ser efectivo transfiriendo información sino, antes que eso, dilucidar cuál es la información útil y relevante para nosotros, nuestros alumnos o colegas y para los procesos de enseñanza y transferencia de información relevante. Y ésta es una tarea que requiere cuidado.

Para Cornellá (2000), conseguir una mejora en el proceso de informarse pasa por recibir la información adecuada de forma que se pueda usar, y esto se conseguiría con saber, cada uno de nosotros, cuáles son:

Page 44: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

44

- los cinco temas fundamentales en los que estamos trabajando, - los cinco temas secundarios, - cuál es la lista de información crítica para los cinco temas fundamentales, y - la lista de información secundaria para los cinco temas secundarios. Frente a esta tarea de dilucidar información es interesante el modelo TRAF –del

inglés: Throw, Refer, Act, File → Tirar, Remitir, Actuar y Fichar–, propuesto por Quinn (1990) que sugiere que ante cualquier entrada –input- de información, sólo es posible una de las siguientes cuatro acciones (Figura Nº 7):

Tirar, si no está en una de mis 10 áreas básicas Remitir (transferir), si puede interesar a alguien del entorno Actuar (utilizar), si está en la lista de las áreas críticas Fichar (guardar) si está en la lista de las 5 áreas secundarias

Figura Nº 7: Modelo TRAF (Quinn, 1990)

Este método nos ayuda a gestionar el tráfico de la información que nos llega, pero

en este proceso de gestión aplicamos criterios de evaluación de la calidad de información que son subjetivos y que tienen en cuenta si la información nos es realmente útil, es interesante, o no nos interesa en absoluto.

Desafortunadamente, precisar la información y los recursos disponibles en Internet en una determinada área de conocimiento, como paso previo a la evaluación de su calidad, no es un proceso tan sencillo. Por ello, debemos avanzar unos pasos más allá de las búsquedas informales basadas en las ocurrencias de términos, explotando todas las posibilidades que ofrecen las distintas herramientas de búsqueda en Internet, acercándonos así (en nuestro caso) a los objetivos de la investigación académica.

Page 45: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

45

8. Algunas reflexiones… Los aportes realizados hasta el momento, nos permiten ir apuntando una serie de

hechos: - la carencia de información ha dejado de ser un problema en el terreno

educativo debido a la amplitud de fuentes (Figura Nº 8) y posibilidades que se le ofrecen tanto al profesor como al estudiante,

- la potenciación de la interactividad no sólo entre las personas sino también con una diversidad de códigos y sistemas simbólicos para el procesamiento de la información,

- la pluralidad de contenidos de carácter abierto y dinámico, - la dificultad que se presenta en la búsqueda, recuperación, acceso y manejo

de las fuentes de información disponibles en la Web, - la insatisfacción de los usuarios con el funcionamiento de la generación actual

de los motores de búsqueda (mala calidad de los resultados, escasa relevancia en relación a la necesidad, etc.), y

- la posibilidad para que los sujetos se conviertan en procesadores activos de información y no en meros receptores de la misma.

Figura Nº 8: Posibles fuentes de información

Todo indica que en Internet los flujos de conocimiento están renovándose

continuamente, lo que ayer era actualidad hoy es pasado. Se accede a la información en forma hipertextuada y recorriendo caminos sin conocer la meta, aprendiendo en el camino a abrir “ventanas”, a conocer “portales” y motores de búsqueda y navegadores. Nos encontramos ante una manera diferente de “in-formar”, un espacio dónde la información se reorganiza constantemente. Y este orden ha sido impuesto por la mediatización tecnológica, que nos obliga a recorrer otros espacios y otros tiempos.

Page 46: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

46

Bajo esta perspectiva, buscar información para acceder a la información que necesitamos resulta un reto complejo. La persona que protagonice una búsqueda por Internet no sólo debe identificar las condiciones de búsqueda y planificar sus acciones, sino también conocer, gestionar y regular su propio proceso de navegación, habilidad que puede favorecer la búsqueda. Así como desarrollar las competencias necesarias para el manejo de la información.

Acceder a la información significa relacionar: 1) nuestras estrategias de búsqueda –nuestro estilo cognitivo–, con 2) el diseño de los sitios de búsqueda y su interacción telemática –la capacidad de comunicación que genera ese espacio interactivo–.

Una estrategia de búsqueda de información se define con acciones u operaciones lógicas que resuelven cosas como:

- Sobre qué buscar información: definir necesidades. - Cuál es el ámbito de relaciones (o de información) del tema principal: definir el

tema general, los subtemas, los temas relacionados y los equivalentes. - Dónde buscar: responder a: ¿quién tiene o dónde está la información? - Con qué herramientas buscar: determinar cómo llegar donde se encuentra la

información. - Cómo hacerlo: definir con qué criterios, acotaciones, indicadores, palabras

claves. - En qué puntos o ámbitos temáticos: definir desde qué otros temas

relacionados y subtemas se puede llegar a la información. Esto implica tener en cuenta que hay un enriquecimiento de los modos

tradicionales de rastrear y buscar información, como consecuencia de: 1) el impacto de las ya no tan nuevas tecnologías sobre el procesamiento y la transmisión de información, 2) las nuevas modalidades de organización y acceso a la información, 3) la permanente reubicación de la información disponible y la detección de su existencia y el acceso a la misma, y 4) la aparente dilución de la figura del mediador tradicional de la información –el clásico bibliotecario–,

que contribuye a repensar competencias, habilidades y estrategias para rastrear y recuperar información.

¿La incorporación de nuevas herramientas de recuperación, mejorará nuestra capacidad para la obtención eficaz de datos relevantes?

Por último, recordar que a la limitación material para acceder a la mayoría de los libros existentes en el mundo –condición natural del lector hasta hoy–, le reemplaza la ilusión de tener a su alcance, desde su escritorio o su biblioteca y gracias a las posibilidades de Internet, a todos los libros del mundo. Como contrapartida, sabemos que las personas enfrentadas a procesar cantidades excesivas de información, distinguirla, seleccionarla y comprenderla, necesitan más tiempo, más esfuerzo de atención, más concentración y más capacidad.

En palabras del escritor Antonio Skármeta: “....Hay gente que deambula sin ton ni son porque no sabe, ya no el lugar donde está lo que busca, sino qué es lo que busca...”

Page 47: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

47

9. Bibliografía Barreau, D. (2009). “Gestión” de información personal, no solo recuperación de

información personal. El profesional de la información, 2009, julio-agosto, v.18, n.4, pp361-364. Doi: 10.3145/epi.2009.jul.01

Bergman, M. (2001). “The Deep Web: Surfacing Hidden Value”. The Journal of Electronic Publishing, August, 2001 Volume 7, Issue 1. Recuperado http://www.press.umich.edu/jep/07-01/bergman.html

Blair, D.C. (1990). Language and representation in information retrieval. Amsterdam: Elsevier Science Publishers.

Burbules, N. y Callister, T. (2001). Educación. Riesgos y promesas de las nuevas tecnologías de la información. Barcelona: Granica.

Cornella, A. (2000). Infonomia.com! La empresa es información. Bilbao: Deusto. Currás, E. (1991). Tesauros, lenguajes terminológicos. Madrid: Paraninfo. Chang, G., Healey, M.J., McHugh, J.A.M. y Wang, J.T.L. (2001). Mining the World Wide

Web: an information search approach. Norwell, MA: Kluwer Academic Publishers. Choo, Ch. (1999). La organización inteligente. México: D.F.: Oxford. Cove, J.F. y Walsh, B.C. (1988). On-Line Text Retrieval via Browsing. Information

Processing and Management, 24(1):31-37. Davenport, T. (1997). Ecología de la información. New York: Oxford University Press. Grau, J. (2013). Módulo 5: Tecnologías de la Información y de la Comunicación: las

TIC’s -2da parte-. Buenos Aires: Fundec. Gómez Reyes M. Arquitectura de información. La Habana: INFO 2002, IDICT, 2002 Gulli, A. y Signorini, A. (2005). The Indexable Web is More than 11.5 billion pages.

WWW 2005, May 10–14, 2005, Chiba, Japan. Huang, T. (1999). Calidad de la información y gestión del conocimiento. Madrid: AENOR. Internet World Stats. (2013). World Internet Users and Population Stats. Recuperado de

http://www.internetworldstats.com/stats.htm Jones W. (2008). Keeping found things found. The study and practice of personal

information management. Massachusetts: Morgan Kaufmann. Lyman, P. y Varian, H. (2003). How Much Information. Recuperado de

http://www.sims.berkeley.edu/how-much-info-2003. Martínez Tamayo, A. M. (1999). Tesauro. Cátedra de Organización del Conocimiento I,

Departamento de Bibliotecología, Facultad de Humanidades y Ciencias de la Educación, Universidad Nacional de La Plata.

Murray, B. (2000). Sizing the Internet. Cyveillance, Inc. Netcraft (2013). Web Server Survey. Recuperado de

http://news.netcraft.com/archives/category/web-server-survey/ Sherman, C. y Price, G. (2001). The Invisible Web. CyberAge Books Tramullas Saz, J. (2001). “La recuperación de información en el World Wide Web”. En J.

López Yepes (coord.) Manual de Ciencias de la Documentación. Madrid: Síntesis.

Page 48: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

48

UNESCO (2011). Contenidos locales, desarrollo de Internet y precios del acceso. Recuperado de http://www.unesco.org/new/es/communication-and-information/resources/news-and-in-focus-articles/all-news/news/local_content_internet_development_and_access_prices_new_study_presented_at_igf_2011/

UNESCO (2005). Hacia las sociedades del conocimiento. París: Ediciones UNESCO W3techs (2013). Usage of content languages for websites. Recuperado de http://w3techs.com/technologies/overview/content_language/all WorldWidewebSize. http://www.worldwidewebsize.com

Page 49: Gestión de la Información: organización, búsqueda y ... personal_E… · Los lenguajes documentales tienen en cuenta: a) las referencias al tema, y b) la manera en que es empleado

fundec- 2013 ISBN: 987 - 9225 - 30 - 3 – Hecho el depósito que marca la Ley 11.723

El editor se reserva todos los derechos sobre esta obra, la que no puede reproducirse total o parcialmente por ningún método gráfico, electrónico o mecánico, incluyendo los de fotocopiado, registro magnético o de almacenamiento de datos, sin su consentimiento.

49

10. Anexo Los Nueve Estándares de la Competencia en Manejo de Información (1)

Competencia en el Manejo de Información Estándar 1: El estudiante competente en el manejo de información accede a la

información de manera eficiente y efectiva. Estándar 2: El estudiante competente en el manejo de información evalúa la información

crítica e idóneamente. Estándar 3: El estudiante competente en el manejo de información utiliza la información

de manera creativa y precisa. Aprendizaje Independiente Estándar 4: El estudiante que aprende independientemente es competente en el manejo

de información y se interesa por información relacionada con sus intereses personales.

Estándar 5: El estudiante que aprende independientemente es competente en el manejo de información y valora la literatura y las otras formas de expresión creativa.

Estándar 6: El estudiante que aprende independientemente es competente en el manejo de información y se esfuerza por alcanzar la excelencia en la búsqueda y generación de conocimiento.

Responsabilidad Social

Estándar 7: El estudiante que contribuye positivamente a la comunidad de aprendizaje y a la sociedad es competente en el manejo de información y reconoce la importancia de la información en una sociedad democrática.

Estándar 8: El estudiante que contribuye positivamente a la comunidad de aprendizaje y a la sociedad es competente en el manejo de información y se comporta de manera ética en lo que respecta a la información y a las Tecnologías (TICs)

Estándar 9: El estudiante que contribuye positivamente a la comunidad de aprendizaje y a la sociedad es competente en el manejo de información y participa efectivamente en grupos que buscan y generan información.

(1) American Association for School Librarians (AASL). Extractado del capítulo 2 dellibro "Information Literacy Standards for Student Learning" Copyright 2002.