Algoritmo big data

2
B @ LEÓPOLIS EL SUPLEMENTO DE LA INNOVACIÓN EN LAS ISLAS EL MUNDO NÚMERO 215 / MARTES 10 DE SEPTIEMBRE DE 2013 www.elmundo.es/baleares >Emprendedores/ TIC El ‘TripAdvisor’ de los animales de compañía PÁGINA 3 Diariamente se publican unos 350 millones de tuits, a la hora una gran empresa puede proce- sar alrededor de un millón de transacciones comerciales, de forma continuada los sensores conectados en red capturan y al- macenan cantidades ingentes de datos; esta avalancha constante y masiva de bytes (Big Data) es la materia prima de la nueva revo- lución que se avecina y que, se- gún apuntan los expertos, trans- formará radicalmente nuestra manera de ver el mundo, permi- tiendo, entre otras cosas, tomar decisiones efectivas y rápidas ca- si en tiempo real. Pero ¿cómo de- senterrar ese ‘tesoro’ oculto? Disponer de una masa de infor- mación desordenada no tiene de- masiado valor si no se es capaz de extraer lo más relevante, aquello que explique de alguna manera el qué y el porqué de las cosas. El ‘tesoro’, en este caso, se esconde en las constantes que se repiten, en los patrones que ni siquiera se habían sospechado o en las corre- laciones que no son evidentes y que permitirían predecir y dar un sentido más completo al mundo que nos rodea. Las bases de datos contienen la información, pero pueden ser muy confusas y no aportar mu- chas pistas ¿Cómo interpretar co- rrectamente este oráculo de bytes y que sus respuestas expliquen de forma meridianamente clara el comportamiento de los datos en un determinado contexto? La irrupción del Big Data está permitiendo avances en áreas de lo más heterogéneas que van des- de el marketing, a la investigación pasando por la política o el depor- te y su análisis, gestión y visuali- zación es uno de los grandes de- safíos a los que se enfrenta tanto la ciencia y las empresas como el conjunto de la sociedad. El traba- jo Fast visualisation of relevant portions of large dynamic Net- works (Visualización rápida de las partes relevantes de las grandes redes dinámicas), desarrollado por Przemyslaw A. Grabowicz, in- vestigador del IFISC (CSIC-UIB), contribuye de forma notable a la exploración y visualización de re- des dinámicas. Esta investigación acaba de ser galardonada con el premio CAD WICI Data Challen- ge, dotado con 10.000 dólares, que otorga el Instituto Waterloo para la Complejidad y la Innova- ción de la Universidad de Water- loo (Ontario, Canadá), que desta- ca su novedad y utilidad especial- mente para la futura labor de la comunidad científica en la red. El estudio propone un algorit- mo rápido que toma datos de una red dinámica grandísima (de mi- llones de nodos) extrae y enlaza los más relevantes y los guarda en un fichero que, posteriormente puede visualizarse con diferentes herramientas, permitiendo la creación de una película o su re- producción en tiempo real, permi- tiendo ver la relación entre datos y su evolución, agrupando con- juntos o definiendo jerarquías. Una de las aportaciones más novedosas de este método es que es flexible y versátil, por lo que es fácil de usar en numerosos contextos, pudiéndose aplicar a diferentes tipos de redes dinámi- cas que van desde las sociales a las biológicas pasando por las de transportes o las económicas. SIGUE EN PÁGINA 2 El ‘oráculo’ de los bytes > Redes / La Universidad de Waterloo (Canada) premia un trabajo en el que participa el IFISC (CSIC-UIB) y que desarrolla una herramienta para procesar y visualizar gráficamente grandes bases de datos. Elena Soto

description

Algoritmo que toma datos de una red dinámica extrae y enlaza los más relevantes y los guarda en un fichero que, posteriormente, puede visualizarse con diferentes herramientas.

Transcript of Algoritmo big data

B@LEÓPOLIS EL SUPLEMENTO DE LA INNOVACIÓN EN LAS ISLASEL MUNDO

NÚMERO 215 / MARTES 10 DE SEPTIEMBRE DE 2013 www.elmundo.es/baleares

>Emprendedores/ TIC

El ‘TripAdvisor’ de los animales de compañía PÁGINA 3

Diariamente se publican unos 350 millones de tuits, a la hora una gran empresa puede proce-sar alrededor de un millón de transacciones comerciales, de forma continuada los sensores conectados en red capturan y al-macenan cantidades ingentes de datos; esta avalancha constante y masiva de bytes (Big Data) es la materia prima de la nueva revo-lución que se avecina y que, se-gún apuntan los expertos, trans-formará radicalmente nuestra manera de ver el mundo, permi-tiendo, entre otras cosas, tomar decisiones efectivas y rápidas ca-si en tiempo real. Pero ¿cómo de-senterrar ese ‘tesoro’ oculto?

Disponer de una masa de infor-mación desordenada no tiene de-masiado valor si no se es capaz de extraer lo más relevante, aquello que explique de alguna manera el qué y el porqué de las cosas. El ‘tesoro’, en este caso, se esconde en las constantes que se repiten, en los patrones que ni siquiera se habían sospechado o en las corre-laciones que no son evidentes y que permitirían predecir y dar un sentido más completo al mundo que nos rodea.

Las bases de datos contienen la información, pero pueden ser muy confusas y no aportar mu-chas pistas ¿Cómo interpretar co-rrectamente este oráculo de bytes

y que sus respuestas expliquen de forma meridianamente clara el comportamiento de los datos en un determinado contexto?

La irrupción del Big Data está permitiendo avances en áreas de lo más heterogéneas que van des-de el marketing, a la investigación pasando por la política o el depor-te y su análisis, gestión y visuali-zación es uno de los grandes de-safíos a los que se enfrenta tanto la ciencia y las empresas como el conjunto de la sociedad. El traba-jo Fast visualisation of relevant portions of large dynamic Net-works (Visualización rápida de las partes relevantes de las grandes redes dinámicas), desarrollado

por Przemyslaw A. Grabowicz, in-vestigador del IFISC (CSIC-UIB), contribuye de forma notable a la exploración y visualización de re-des dinámicas. Esta investigación acaba de ser galardonada con el premio CAD WICI Data Challen-ge, dotado con 10.000 dólares, que otorga el Instituto Waterloo para la Complejidad y la Innova-ción de la Universidad de Water-loo (Ontario, Canadá), que desta-ca su novedad y utilidad especial-mente para la futura labor de la comunidad científica en la red.

El estudio propone un algorit-mo rápido que toma datos de una red dinámica grandísima (de mi-llones de nodos) extrae y enlaza

los más relevantes y los guarda en un fichero que, posteriormente puede visualizarse con diferentes herramientas, permitiendo la creación de una película o su re-producción en tiempo real, permi-tiendo ver la relación entre datos y su evolución, agrupando con-juntos o definiendo jerarquías.

Una de las aportaciones más novedosas de este método es que es flexible y versátil, por lo que es fácil de usar en numerosos contextos, pudiéndose aplicar a diferentes tipos de redes dinámi-cas que van desde las sociales a las biológicas pasando por las de transportes o las económicas.

SIGUE EN PÁGINA 2

El ‘oráculo’ de los bytes > Redes / La Universidad de Waterloo (Canada) premia un trabajo en el que participa el IFISC (CSIC-UIB) y que desarrolla una herramienta para procesar y visualizar gráficamente grandes bases de datos. Elena Soto

EL MUNDO / AÑO XXII / MARTES 10 DE SEPTIEMBRE DE 20132 B@LEÓPOLIS

VIENE DE PORTADA «Esta estructurado en dos partes», explica Grabowicz, «la primera es el algoritmo y la segunda la visua-lización que el usuario puede per-sonalizar con sus propias herra-mientas o con las que considere más atractivas».

Para ilustrar sus posibilidades en este trabajo aparecen cuatro casos de estudio; los dos prime-ros están relacionados con la red social Twitter y realizan el seguimiento de los hashtag (eti-quetas) publicados durante la Super Bowl y la muerte de Bin Laden; los dos últimos toman las palabras clave de las bases de datos IMDb (las siglas en in-glés de base de datos de pelícu-las en Internet) y US Patentes.

En el primer caso se represen-ta la actividad en Twitter duran-te la Super Bowl de 2013. El al-

goritmo crea automáticamente un gráfico que permite visualizar en un videoclip como se desarro-lla el evento en la red en un pe-ríodo de tiempo concreto, mos-trando los momentos de mayor concentración de etiquetas, có-mo evolucionan y se relacionan y a través de qué usuarios se propaga más la información.

En el caso de Bin Laden se muestra el estallido inicial que se produjo en la red cuando Keith Urbahn –jefe de personal del ex-secretario de Defensa Rumsfeld– publicó que «una fuente fiable le había confirmado su muerte». En este caso concreto, la animación revela como este usuario @ keithurbahn se convirtió en uno de los nodos más relevantes a la hora de expandirse la noticia. En el gráfico generado por el algorit-

mo pueden visualizarse los mo-mentos de mayor tráfico, la evolu-ción de la noticia y cómo comen-zaron a relacionarse las diferentes etiquetas tras el anuncio oficial.

En los dos últimos ejemplos las redes están formadas por las pala-bras claves empleadas para descri-bir las películas y las que aparecen en los títulos de las patentes regis-tradas en Estados Unidos. En am-bos casos el videoclip muestra la evolución de un siglo de la historia del cine y de 35 años de invencio-nes respectivamente, pudiendo verse como cambian las tenden-cias cinematográficas a lo largo de las décadas o hacia dónde se diri-ge la ciencia y la tecnología.

Hashtags, etiquetas o palabras clave, este método permite crear una red actualizada de datos rela-cionados seleccionando dinámica-mente para la visualización los no-dos más relevantes de la misma y

las conexiones entre ellos, además de diferenciar entre los más anti-guos y los de reciente actividad; La secuencia cronológica puede ser de tres minutos o de cien años. Si el archivo generado se conecta a una interfaz gráfica como Gephi puede visualizarse en vivo el grá-fico en evolución, y puede ser apli-cado a grandes flujos de datos en línea y visualizar su representa-ción en forma de red.

En un mundo que no cesa de generar datos de forma masiva la capacidad para interpretarlos y plasmarlos en una interfaz inte-ractiva y en tiempo real podría ser una valiosa herramienta para me-jorar el rendimiento o los proce-sos de innovación y de toma de decisiones. La minería de datos no ha hecho más que empezar.

Por E. S.

>PROYECTOS CON FUTURO

Tecnorrevolución, las tecnologías que están cambiando el mundo

Robots que imitan comportamien-tos animales, un simulador de realidad a escala nanométrica, una máquina que detecta el esta-do de relajación del cerebro, ojos robóticos que siguen a las perso-nas o predecir mediante un orde-nador cómo se propaga un virus y se produce una pandemia, son al-gunos de los módulos interactivos que encontrarán los visitantes en ExpoCaixa Tecnorrevolución, una muestra interactiva que quiere dar a conocer tecnologías conver-gentes, como la nanotecnología,

la biotecnología, las tecnologías de la información y de las comu-nicaciones (TIC) y las ciencias cognitivas (NBIC).

Las tecnologías convergentes se han hecho famosas por ser fuente de inspiración de nume-rosas películas, como el Viaje fantástico o Cariño, he encogido a los niños, pero lo más impor-tante es que su aplicación ha transformado radicalmente to-dos los campos.

A través de seis módulos inte-ractivos los visitantes pueden co-

nocer las numerosas posibilidades que presentan las aplicaciones de las tecnologías convergentes en la vida cotidiana en áreas tan diver-sas como la construcción, el trans-porte, la agricultura, la medicina, la educación o el arte.

En el apartado de nanotecnolo-gía, por ejemplo, una pantalla multitáctil permite al visitante experimentar como trabaja está tecnología, escogiendo un trata-miento contra el cáncer y arras-trándolo hasta el tumor para ob-servar qué pasa.

La exposición organizada por la Obra Social La Caixa se podrá visitar hasta el 29 de setiembre de 2013 en ExpoCaixa, ubicada en la Plaza de Ramon Llull s/n de Manacor.

La secuencia cronológica del vídeo puede ser de tres minutos o de cien años.

Permite visualizar los nodos más relevantes de la red y las conexiones entre ellos

REDES DE BASES DE DATOS EN UN VIDEOCLIP

Przemyslaw A. Grabowicz, investigador del IFISC (CSIC-UIB), autor del estudio. / ELENA SOTO

ExpoCaixa Tecnorrevolución, exposición interactiva en Manacor.

CCasos de estudio. Capturas de pantalla de las animaciones generadas por las bases de datos: (A) Super Bowl 2013 en Twitter. (B) La muerte de

Bin Laden. (C) Las palabras claves usadas para describir las películas en Internet Movie Database (D) Los títulos de las patentes de US Patentes.