La Web Semántica, Una Visión Crítica

4
149 El profesional de la información, vol. 12, nº 2, marzo–abril 2003 La web semántica: una visión crítica 1 Por Lluís Codina DADO QUE UNO DE LOS TÉRMINOS DE MODA para los próximos años en relación con internet va ser la web se- mántica, en este pequeño texto nos proponemos 3 cosas: expo- ner las razones que la justifican y orientan, informar sobre la in- fraestructura que se supone que la hará posible y dar nuestra propia interpretación sobre sus posibilidades reales a corto y me- dio plazo. Qué pueden hacer los ordenadores La web semántica (o semantic web) es, de momento, el nombre de una aspiración y el de un objetivo muy ambicioso que, de cumplirse, cambiaría de forma radical la web tal como la conocemos hoy. ¿En qué consiste esta aspiración? Ni más ni menos que en conseguir que las páginas que la forman dejen de ser simples cadenas de caracteres para los ordenadores y se convier- tan en textos con sentido, es decir, con semántica tal como, de hecho, lo son para los seres humanos. «Los metadatos son información sobre la información y son, en realidad, una antigua fórmula. Los catálo- gos de las bibliote- cas son metadatos» ¿Por qué un objetivo semejan- te? Tal como se codifican las pági- nas actuales, principalmente me- diante hmtl, tienen muy poco sen- tido para las máquinas. En efecto, si vemos sus códigos fuentes ac- tuales encontramos, por ejemplo, algo como lo siguiente: ... <b><i>Cómo conseguir la paz mundial</i></b> ... cuando el ordenador lo interprete, a través del programa navegador, aparecerá como un texto en negrita y cursiva, como éste: ... Cómo conseguir la paz mun- dial ... Con esto casi se acaba todo lo que es capaz de hacer un orde- nador con las páginas html. Otra cosa que pueden hacer es construir índices con las palabras que apare- cen en las páginas web. Después, cuando alguien envía una pregunta a un motor de búsqueda, lo que ha- ce este último es comparar las pa- labras de la pregunta con las de su índice. Por ejemplo, supongamos que a un gobernante, a punto de embarcarse en una peligrosa aven- tura militar, le embargan las dudas a causa de la decidida oposición ciudadana a la guerra y decide in- dagar en internet para ver si en- cuentra documentos sobre temas de guerra y paz. Pongamos que accede a Goo- gle y pone la siguiente pregunta: “guerras inevitables”. Esto hará que Google compare las palabras de la pregunta con las de su índice. Si encuentra un documento que tenga “guerras” e “inevitables” lo devolverá como respuesta. Si no, pues nada. Ya está, ahora si que ya hemos visto prácticamente todo lo que pueden hacer los ordenadores y que tenga que ver con procesa- miento de información textual en páginas web. ¿Un nuevo objetivo? Con estas limitaciones, la bús- queda en internet, como todo el mundo sabe, está repleta de frus- traciones. Si alguien busca por “ca- ballos” no encontrará nada que tra- te sobre “yeguas”. Si alguien con- sulta sobre cómo evitar la guerra, no encontrará un documento sobre cómo conseguir la paz, etc. La web semántica quiere solucionar esto. ¿Les suena? A mí sí, a mí me sue- na a inteligencia artificial. Por tan- to, aunque no quieran llamarlo así, con la web semántica se está bus- cando el mismo objetivo, a saber, que los ordenadores entiendan que un documento sobre “yeguas” pue- de ser muy relevante para una ne- cesidad de información sobre “ca- ballos”, y que la semántica de la pregunta “¿es posible evitar la gue- rra?” es la misma que la de “¿es posible conseguir la paz?”. Además, y aquí es donde sue- len poner más énfasis los propagan- distas de la web semántica, inclui- do el mismo creador de la web Tim Berners-Lee, se espera que los or- denadores puedan desarrollar tare- as de gestión que requieran inter- pretar información y tomar decisio- nes adaptándolas al contexto. Por ejemplo, supongamos que yo sé que necesitaré tomar un vuelo para, digamos una bella ciudad de Gali- cia el día tal dentro de dos semanas, y que necesitaré regresar a Barcelo- na 3 días después. En lugar de bus- car en la web de diversas compañí- as aéreas para encontrar las mejores ofertas y horarios, y después en otras páginas para buscar un hotel, hacer las reservas, etc., lo que se es- pera que pueda hacer gracias a la web semántica en el futuro es en- trar en mi asistente digital personal y encargarle la tarea. Mi asistente digital, nos dicen los propagandistas de la web se- mántica, será un programa que co- nocerá mis preferencias. Sabrá, por ejemplo, que no me hace feliz tirar el dinero así que elegirá la mejor oferta económica, pero tendrá en cuenta que no soy masoquista y no me reservará un vuelo que salga a las 4 de la mañana, etc. Tomará los datos personales que necesite de mi cuenta y cerrará las transacciones

description

Sobre web semántica

Transcript of La Web Semántica, Una Visión Crítica

Page 1: La Web Semántica, Una Visión Crítica

149El profesional de la información, vol. 12, nº 2, marzo–abril 2003

La web semántica: una visión crítica1

Por Lluís Codina

DADO QUE UNO DE LOSTÉRMINOS DE MODA paralos próximos años en relacióncon internet va ser la web se-mántica, en este pequeño textonos proponemos 3 cosas: expo-ner las razones que la justifican yorientan, informar sobre la in-fraestructura que se supone quela hará posible y dar nuestrapropia interpretación sobre susposibilidades reales a corto y me-dio plazo.

Qué pueden hacer losordenadores

La web semántica (o semanticweb) es, de momento, el nombre deuna aspiración y el de un objetivomuy ambicioso que, de cumplirse,cambiaría de forma radical la webtal como la conocemos hoy. ¿Enqué consiste esta aspiración? Nimás ni menos que en conseguir quelas páginas que la forman dejen deser simples cadenas de caracterespara los ordenadores y se convier-tan en textos con sentido, es decir,con semántica tal como, de hecho,lo son para los seres humanos.

«Los metadatos soninformación sobre lainformación y son, enrealidad, una antiguafórmula. Los catálo-gos de las bibliote-cas son metadatos»

¿Por qué un objetivo semejan-te? Tal como se codifican las pági-nas actuales, principalmente me-diante hmtl, tienen muy poco sen-tido para las máquinas. En efecto,si vemos sus códigos fuentes ac-tuales encontramos, por ejemplo,algo como lo siguiente:...<b><i>Cómo conseguir la pazmundial</i></b>...

cuando el ordenador lo interprete,a través del programa navegador,aparecerá como un texto en negritay cursiva, como éste:...

Cómo conseguir la paz mun-dial

... Con esto casi se acaba todolo que es capaz de hacer un orde-nador con las páginas html. Otracosa que pueden hacer es construiríndices con las palabras que apare-cen en las páginas web. Después,cuando alguien envía una preguntaa un motor de búsqueda, lo que ha-ce este último es comparar las pa-labras de la pregunta con las de suíndice. Por ejemplo, supongamosque a un gobernante, a punto deembarcarse en una peligrosa aven-tura militar, le embargan las dudasa causa de la decidida oposiciónciudadana a la guerra y decide in-dagar en internet para ver si en-cuentra documentos sobre temasde guerra y paz.

Pongamos que accede a Goo-gle y pone la siguiente pregunta:“guerras inevitables”. Esto haráque Google compare las palabrasde la pregunta con las de su índice.Si encuentra un documento quetenga “guerras” e “inevitables” lodevolverá como respuesta. Si no,pues nada. Ya está, ahora si que yahemos visto prácticamente todo loque pueden hacer los ordenadoresy que tenga que ver con procesa-miento de información textual enpáginas web.

¿Un nuevo objetivo?

Con estas limitaciones, la bús-queda en internet, como todo elmundo sabe, está repleta de frus-traciones. Si alguien busca por “ca-ballos” no encontrará nada que tra-te sobre “yeguas”. Si alguien con-sulta sobre cómo evitar la guerra,no encontrará un documento sobre

cómo conseguir la paz, etc. La websemántica quiere solucionar esto.¿Les suena? A mí sí, a mí me sue-na a inteligencia artificial. Por tan-to, aunque no quieran llamarlo así,con la web semántica se está bus-cando el mismo objetivo, a saber,que los ordenadores entiendan queun documento sobre “yeguas” pue-de ser muy relevante para una ne-cesidad de información sobre “ca-ballos”, y que la semántica de lapregunta “¿es posible evitar la gue-rra?” es la misma que la de “¿esposible conseguir la paz?”.

Además, y aquí es donde sue-len poner más énfasis los propagan-distas de la web semántica, inclui-do el mismo creador de la web TimBerners-Lee, se espera que los or-denadores puedan desarrollar tare-as de gestión que requieran inter-pretar información y tomar decisio-nes adaptándolas al contexto. Porejemplo, supongamos que yo séque necesitaré tomar un vuelo para,digamos una bella ciudad de Gali-cia el día tal dentro de dos semanas,y que necesitaré regresar a Barcelo-na 3 días después. En lugar de bus-car en la web de diversas compañí-as aéreas para encontrar las mejoresofertas y horarios, y después enotras páginas para buscar un hotel,hacer las reservas, etc., lo que se es-pera que pueda hacer gracias a laweb semántica en el futuro es en-trar en mi asistente digital personaly encargarle la tarea.

Mi asistente digital, nos dicenlos propagandistas de la web se-mántica, será un programa que co-nocerá mis preferencias. Sabrá, porejemplo, que no me hace feliz tirarel dinero así que elegirá la mejoroferta económica, pero tendrá encuenta que no soy masoquista y nome reservará un vuelo que salga alas 4 de la mañana, etc. Tomará losdatos personales que necesite de micuenta y cerrará las transacciones

Page 2: La Web Semántica, Una Visión Crítica

El profesional de la información, vol. 12, nº 2, marzo–abril 2003150

Lluís Codina

con los agentes de software de laempresa de aviación y del hotel y,por último, realizará las anotacio-nes correspondientes en mi agendapara que no se me olvide nada y nollegue tarde al aeropuerto. ¿Qué lesparece?, ¿fácil, no? Ni hablar. Setrata, ni más ni menos que de unobjetivo en el que la informática hafracasado en los últimos 40 años, lainteligencia artificial, ¿por qué va afuncionar ahora?

Infraestructura

Los medios con los cuales sesupone que se conseguirá la websemántica son los siguientes: pri-mero, un nuevo lenguaje de codifi-cación de páginas, un nuevo len-guaje de marcado que, como es sa-bido, se denomina xml. Con él sepueden diseñar lenguajes de eti-quetado muy estructurados y muyexplícitos en los cuales, en lugar deetiquetas como <b> e <i>, serían<título>, <subtítlo>, <autor>,<ciudad>, etc.

Como para cada tipo de infor-mación o de documento harán fal-ta etiquetas específicas —porejemplo, las páginas web de lascompañías aéreas necesitarán algu-nas como <vuelo>, <hora de sali-da>, <destino>, etc.— se ha crea-do un lenguaje, el xml. En realidades un metalenguaje puesto que per-mite definir lenguajes específicos,es decir conjuntos de etiquetas de-terminados para cada necesidad deinformación. Por ejemplo, los edi-tores de diarios disponen ya de supropio conjunto de etiquetas, asícomo los matemáticos para expre-sar ecuaciones, etc.

El segundo elemento con elque se cuenta son los metadatos.Es decir, tenemos aquí otro térmi-no-fetiche formado con el prefijometa. Como saben muy bien losdocumentalistas, los metadatos soninformación sobre la informacióny son, en realidad, una antigua fór-mula. Los catálogos de las biblio-tecas son metadatos. La venerable

norma Isbd es una norma sobremetadatos, los descriptores asigna-dos a un documento son metada-tos, los tesauros y clasificacionesson lo que ahora en la jerga de losmetadatos se denominan schemes,etc.

La cuestión es que las páginasweb ya tienen metadatos. Al me-nos, suelen tener el metadato títu-lo, en forma de etiqueta <title> enuna zona de las páginas web invisi-ble para las personas, pero visiblepara los ordenadores. Además, al-gunas páginas, muy pocas, suelentener otros como <keyword>,<description>, etc.

Como saben bien los docu-mentalistas, existe una ambiciosanorma de alcance internacional,Dublin Core, que proporciona unalista unificada y normalizada dehasta 15 metadatos del tenor de losya comentados para que los edito-res y autores que lo deseen las in-cluyan en sus páginas web. La ideaes simple: si las páginas web tuvie-ran metadatos del tipo <título>,<autor>, <tema>, <lugar de pu-blicación>, etc., los usuarios po-dríamos hacer preguntas muchomás precisas a los motores de bús-queda. Podríamos, por ejemplo,hacer peticiones de información deeste tipo: “búscame documentospublicados en tal o cual lugar y quetraten de este y este tema, bajo es-te punto de vista”.

Pero los metadatos actuales notienen ni semántica ni sintaxis niestán unificados bajo una normacomún que agrupe la diversidad deplataformas de metadatos existen-tes. Para dotarlos de esas 3 cosas,se han desarrollado otras normas.La más importante se denominadardf (resource description frame-work), que especifica una gramáti-ca lógica para que los autores depáginas web puedan describir laspropiedades semánticas de los do-cumentos en una notación estándary común para cualquier tipo de me-tadatos y basada en nociones fun-

damentales. Básicamente: hay ob-jetos, tales como páginas web, quetienen propiedades tales como unresponsable intelectual o una fechade publicación. Así mismo, hay re-laciones entre los objetos, comouna página web forma parte o esuna versión de otra, etc.

«¿Por qué razón, mi-llones de creadoresde páginas web se

van a poner a publi-car sus documentosen el lenguaje xml,

difícil, farragoso y ab-surdamente abstractosi pueden publicar enel sencillísimo html?»

Para describir el contenido deuna página web, entonces, se puedeutilizar la norma rdf mediante elprocedimiento de etiquetado xmlpara expresar los temas de un docu-mento entre otras cosas. Así que lagran esperanza de la web semánticase basa, al menos, en 3 cosas: xmlpara hacer los documentos más ex-plícitos; metadatos (expresadostambién en xml) para hacerlos másfáciles de representar, indizar ybuscar; y finalmente (se desprendede lo anterior, aunque nunca se di-ce) una nueva generación de soft-ware (programas y métodos de re-presentación del conocimiento) quesepa explotar las dos cosas prece-dentes. Esta última necesitará pro-cedimientos normalizados para re-presentar conocimiento, ya seacomplejo o de sentido común, lascuales suelen denominarse ontolo-gías. Un campo interdisciplinariodonde suelen confluir diversas dis-ciplinas cognitivas, desde la inteli-gencia artificial hasta la lingüística.

¿Cuál es el problema? Puesque en el majestuoso esquema dela web semántica se supone que losmetadatos los ponen (y aquí está eldetalle) los propios autores de losdocumentos. ¿Y qué pasa con losautores de los documentos? Varias

Page 3: La Web Semántica, Una Visión Crítica

151El profesional de la información, vol. 12, nº 2, marzo–abril 2003

La web semántica: una visión crítica

cosas: primero, no están entrena-dos para poner metadatos y se ne-cesita mucho entrenamiento parasaber elegir buenas palabras clave.

En segundo lugar, los autores(no todos, ni mucho menos) mien-ten. Así de sencillo. Quieren quesus páginas web den muy alto enlos buscadores, de manera que co-locan 30 veces la misma palabra,con pequeñas variantes, para queobtengan un buen lugar en los ran-kings de los motores de búsquedaen los temas que a ellos les intere-sa, aunque su página no tenga enrealidad mucho (o nada) que vercon él.

En tercer lugar, las personasnos equivocamos, y los autores delas páginas web se equivocan: seolvidan de poner metadatos, losponen mal, lo hacen en unas pági-nas sí y en otras no, se equivocanen la ortografía, etc. Conclusión:casi ningún motor de búsqueda sefía de los metadatos para generarlos resultados de sus rankings.

Posibilidades reales acorto y a medio plazo

El lector ya habrá deducidoque, según la opinión de quien es-to escribe, las posibilidades a cortoy medio plazo de la web semánticason muy reducidas. Efectivamente.Una cosa es que se trate de un ob-jetivo que vale la pena perseguir yotra que sea factible. Permítanmeun ejemplo muy significativo. Laspersonas, los gobiernos y las ONGdeben perseguir erradicar la pobre-za en el mundo y la instauraciónplena de los derechos humanos entodos los rincones del planeta. Esun ejemplo de un fin loable, con elque todos debemos comprometer-nos, pero no parece alcanzable ni amedio ni corto plazo. ¿Debe porello abandonarse? Ni mucho me-nos. Todo lo contrario. Debe perse-guirse con ahínco, porque es laúnica forma de conseguir progre-sos en tales terrenos, aunque seanparciales.

El problema con la web semán-tica tal como la presentan algunosde sus publicistas es la inmensacantidad de ingenuidad o de igno-rancia que destila (descartamos lamala fe). En comparación, los pro-gramas contra la pobreza y a favorde los derechos humanos son obrasmaestras de pragmatismo (y sabi-duría). Se marcan objetivos ambi-ciosos pero realistas y, sobre todomedibles; se buscan alicientes paralos actores implicados, se cuentacon las limitaciones reales delmundo real y no con comporta-mientos imaginarios de seres ima-ginarios; etc. En resumen: se reali-za un esfuerzo basado en el com-promiso y no en la mera propagan-da. De este modo, los progresos,aunque muy parciales, son posi-bles, sostenidos y constatables ycientos de miles de personas connombres y apellidos se han benefi-ciado en todo el mundo.

¿Qué sucede con la web se-mántica tal como la presentan susdefensores más dados a la fantasíao a la repetición tipo “la voz de suamo”? Pues que no hay por dondecogerla si uno se empeña en dotarde sentido al discurso oficial, léaseel discurso del, por otro lado admi-rable W3 Consortium, dirigido porel creador de la web, Tim Ber-ners-Lee. Empecemos por el eti-quetado xml. ¿Porqué razón, mi-llones de creadores de páginas webse van a poner a publicar sus docu-mentos en el lenguaje xml, difícil,farragoso y absurdamente abstrac-to si pueden publicar en el sencillí-simo html?

Sigamos con los metadatos: sicasi nadie usa metadatos ahora,¿por qué razón, de pronto, todo elmundo va a enloquecer de deseosde ponerlos en sus páginas? Parapeor, si los autores de páginas webhan demostrado su incapacidadpara usar una norma relativamentesimple como era la primera ver-sión de Dublin core, ¿por qué vana hacerlo ahora que ha llevado sucomplejidad al límite de lo im-practicable?

Por último, respecto a las onto-logías. Si la inteligencia artificialsuma ya varias décadas de fraca-sos, por lo menos en la hipótesisfuerte, o sea en lograr que los orde-nadores se acerquen a algo seme-jante a pensar, ¿por qué va a teneréxito ahora, así, de repente?, ¿cuáles el cambio de paradigma que seha producido en las ciencias de lacomputación y del que, por lo vis-to nadie se ha enterado, para supo-ner que los ordenadores ya poseensentido común? Si usted revisa li-bros o revistas sobre inteligenciaartificial de los años 70 y 80 correpeligro de sufrir un ataque de risaincontenible a la vista de lo que da-ban por cierto en aquellos años ylos magros resultados de ahora. Pe-ro mejor, no lo haga, porque correel riesgo de perder el respeto a unanoble ciencia que tantos logros re-ales y tanto bienestar ha aportado ala humanidad como es la informá-tica.

Por tanto, las posibilidades deque la web semántica sea una rea-lidad, sin que se produzca antes, almenos un cambio de paradigma degran calado en las ciencias de lacomputación, son ridículas. Ade-más, necesitaremos en paralelocambios no menos importantes enotras áreas incluyendo, por supues-to, en las ciencias de la documen-tación.

Pero, no se preocupen, graciasa la forma absurdamente triunfalis-ta como se está presentando la websemántica, en los próximos años

Los contenidos de El

profesional de la informa-

ción están protegidos por

copyright. Pueden ser repro-

ducidos hasta un máximo de

dos por número (total o par-

cialmente), siempre que se ci-

te la procedencia.

Page 4: La Web Semántica, Una Visión Crítica

El profesional de la información, vol. 12, nº 2, marzo–abril 2003152

dispondremos a cambio de un testmuy eficiente para detectar a quié-nes gusta hablar por hablar.

Sin embargo, no nos engañe-mos: el objetivo de la web semán-tica es magnífico, producirá impor-tantes avances en algunos o en to-dos los terrenos relacionados conla representación y el acceso al co-nocimiento y todos debemos apo-yarlo. Pero, aunque solamente fue-ra por estética, ni siquiera ya porética, habría que evitar volver a lairracionalidad de los primeros añosde la web. Fueron unos tiempos deplomo en lo que se refiere al pen-samiento crítico: no había día quealguien no anunciara una supuesta

ley histórica, económica, social opolítica que internet no rompiera.Eso produjo, entre otras cosas, laburbuja de internet, mucha especu-lación y muchos recursos tiradospor la ventana.

Pero, sobre todo, fue un peque-ño fracaso de la razón. No volva-mos a caer otra vez en lo mismo.No es necesario. Principalmenteporque hace décadas que los docu-mentalistas ya estamos constru-yendo la web semántica.

Nota

1. Versión ampliada y adaptada para EPI. Ver-sión anterior publicada en Biomedia, 2003, fe-brero.

Fuentes seleccionadasBerners-Lee, T.; Hendler, J.; Lassila, O.“The semantic web: a new form of web contentthat is meaningful to computers will unleash arevolution of new possibilities”. En: ScientificAmerican, 2001, May. Se puede consultar a tra-vés de la página web de la revista:http://www.sciam.com

Geroimenko, V.; Chen, C. Visualizing the se-mantic web: xml-based internet and informa-tion visualization. London: Springer, 2002.

Semantic web.http://www.semanticweb.org/

W3 Consortium. Semantic web.http://www.w3.org/2001/sw/

Lluís Codina, profesor titular deciencias de la documentación en laUniversitat Pompeu Fabra y miembrodel Observatorio de la ComunicaciónCientí[email protected]