Astronomía y Big Data. Estrellas en la era del Petabyte
-
Upload
juan-ignacio-perez-sacristan -
Category
Science
-
view
399 -
download
2
Transcript of Astronomía y Big Data. Estrellas en la era del Petabyte
![Page 1: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/1.jpg)
Astronomía
y Big Data
Juan Ignacio Pérez Sacristánlinkedin.com/in/semanticwebarchitect
![Page 2: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/2.jpg)
¿Qué es Big Data?
● Big Data son PB, PetaBytes.
● Bytes, KB, MB, GB, TB, PB, EB
● 1 foto = 1 MB
● 1.000 fotos = 1 GB
● 1.000.000 fotos = 1 TB
![Page 3: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/3.jpg)
![Page 4: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/4.jpg)
Ejemplos de Big Data
● Al usar un buscador de Internet10^10 páginas web
● Al escribir en redes sociales10^12 mensajes
● Google Knowledge Vault, una Wikipedia
hecha por robots10^9 hechos
![Page 5: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/5.jpg)
![Page 6: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/6.jpg)
Hype CycleCiclo de sobreexpectación
● El proceso de asimilación de las nuevas tecnologías en la sociedad casi
siempre sufre un período inicial de gran emoción y crecimiento,
alcanzando un máximo para después desinflarse al no cumplir las
exageradas expectativas que se prometían al principio. Por último, se
alcanza un estado de equilibrio cuando la sociedad convive con
normalidad con dicha tecnología.
● Ejemplos: Inteligencia Artificial, Ordenadores Cuánticos, ...
![Page 7: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/7.jpg)
![Page 8: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/8.jpg)
![Page 9: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/9.jpg)
La ley de Moore
● Cada 2 años la capacidad de un ordenador
(memoria y velocidad) se multiplica por 2.
● ¿El Big Data cumple esta ley?
![Page 10: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/10.jpg)
![Page 11: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/11.jpg)
¿Qué es Cloud Computing?
● El Cloud (Nube) son enormes datacenters
donde es fácil montar un cluster, o
superordenador paralelo.
● Si el Cloud es el hardware del Big Data
¿cuál es su software?
![Page 12: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/12.jpg)
![Page 13: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/13.jpg)
¿Qué es Data Science?
● Los Data Scientists aplican sofisticados
algoritmos estadísticos y de Inteligencia
Artificial (Machine Learning) para extraer
conclusiones de los datos.
● Es el software del Big Data.
![Page 14: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/14.jpg)
![Page 15: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/15.jpg)
Adquisición de Datos
● Evolución histórica de los catálogos que
contienen datos astronómicos
● ¿Nos acercamos al Big Astronomy / Big
Science?
![Page 16: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/16.jpg)
![Page 17: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/17.jpg)
Sala de los Toros
Cueva de Lascaux, Francia, (15.000 a.C.)
Alcance: 10 estrellas
Magnitud límite: 2
![Page 18: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/18.jpg)
![Page 19: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/19.jpg)
Catálogo Estelar Babilónico
La astronomía babilónica recoge observaciones de
estrellas y constelaciones, durante y después de la
dinastía Kassite (en torno al año 1750 a.C.) en Babilonia
en una serie de catálogos estelares en escritura
cuneiforme. En ellos figuran listas de constelaciones
(antiguas), planetas y estrellas.
Alcance: 75 estrellas
Magnitud límite: 3
![Page 20: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/20.jpg)
![Page 21: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/21.jpg)
Carta estelar de Dunhuang
China, Dinastía Tang (940 a.C.)
Alcance: 1.300 estrellas
Magnitud límite: 6
![Page 22: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/22.jpg)
![Page 23: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/23.jpg)
Almagesto
Nombre árabe del tratado astronómico escrito en el siglo II por Claudio
Ptolomeo de Alejandría, Egipto (¿plagio de Hiparco 300 años antes?).
Contiene el catálogo estelar más completo de la antigüedad que fue utilizado
ampliamente por los árabes y luego los europeos hasta la alta Edad media, y
en el que se describen el sistema geocéntrico y el movimiento aparente de las
estrellas y los planetas. Contiene más de 1.000 estrellas hasta magnitud 6,
límite visual sin telescopio.
Alcance: 1.022 estrellas
Magnitud límite: 6
![Page 24: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/24.jpg)
![Page 25: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/25.jpg)
Catálogo de Bayer, Uranometría
Realizado por Johann Bayer en el año 1.603,
incorpora la nomenclatura del tipo "alfa Orionis"
=> Betelgeuse
Alcance: 788 estrellas
Magnitud límite: 5
![Page 26: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/26.jpg)
![Page 27: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/27.jpg)
LAL
Jérôme Lalande y sus ayudantes, publicaron
"Histoire Céleste Française" en 1801 desde el
Observatorio de París con las posiciones de
47.390 estrellas hasta magnitud 9.
Alcance: 47.390 estrellas
Magnitud límite: 9
![Page 28: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/28.jpg)
![Page 29: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/29.jpg)
Smithsonian Astrophysical Observatory.
Realizado en 1966, es un catalogo fotográfico.
Introduce la nomenclatura SAO NNNNNN,
donde NNNNNN es un número comprendido
entre 1 y 258.997.
Alcance: 258.997 estrellas
Magnitud límite: 10
SAO
![Page 30: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/30.jpg)
![Page 31: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/31.jpg)
Creado en el año 1989 a partir de la misión
astrométrica Hipparcos de la Agencia Espacial
Europea (ESA).
Alcance: 2,5 millones de estrellas
Magnitud límite: 13
Catálogo Hipparcos
![Page 32: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/32.jpg)
![Page 33: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/33.jpg)
Hubble Space Telescope Guide Star
Catalogue.
Alcance: 19 millones de estrellas
Magnitud límite: 16
GSC
![Page 34: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/34.jpg)
![Page 35: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/35.jpg)
Naval Observatory Merged Astrometric Dataset: Derivado
de otros catálogos como Hipparcos, Tycho-2, UCAC2,
Yellow-Blue 6, USNO-B y 2MASS.
Alcance: 1.100 millones de estrellas
Magnitud límite: 18 (~ 1.5m OTA)
Archivo total: 100 GB==> Stellarium.org (resumido a 1 GB y 100M de estrellas)
Catálogo NOMAD
![Page 36: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/36.jpg)
![Page 37: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/37.jpg)
The INT Photometric H-alpha Survey of the Northern
Galactic Plane
Isaac Newton Telescope (INT) en la isla de La Palma,
Canarias, España
Alcance: 219 millones de estrellas
Magnitud límite: 20 (~ 2.5m OTA)
Archivo total: 2,5 TB
Catálogo IPHAS DR2
![Page 38: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/38.jpg)
![Page 39: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/39.jpg)
Sloan Digital Sky Survey, Telescopio en Nuevo México de 2,5 m de apertura.
Fotografió 1,3 millones de imágenes astronómicas, cubriendo 1/4 del cielo.
Alcance: 360M objs, 930K galaxias, 100K cuásares
Magnitud límite: 22 (~ 10m OTA)
Flujo de datos: 0,2 TB/día.
Archivo total: 80 TB
==> Sky-map.org, Google Sky
The SDSS (1999-2005)
![Page 40: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/40.jpg)
![Page 41: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/41.jpg)
La Mars Reconnaissance Orbiter (MRO) es una nave espacial, lanzada el 12
de agosto de 2005 para el avance del conocimiento de Marte.
Los datos se almacenan en una grabadora de estado sólido que usa más de
700 chips de memoria de 256MB, en total su capacidad es de 160GB.
Archivo total: 200 TB
NASA Mars Reconnaissance Orbiter
![Page 42: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/42.jpg)
![Page 43: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/43.jpg)
La Dark Energy Camera (DECam) es uno de los sensores del Dark Energy
Survey (DES).
Mediante técnicas de Advanced Machine Learning (Data Science) se realizan
clasificaciones automáticas de objetos astronómicos, usando los algoritmos
MCMC (Markov chain Monte Carlo).
Alcance: 300 millones de galaxias
Flujo de datos: 0,4 TB/día.
Archivo total: 1 PB
Dark Energy Camera, Chile
![Page 44: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/44.jpg)
![Page 45: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/45.jpg)
Centro de Estudios de Física del Cosmos de Aragón, Javalambre, Teruel,
España. Telescopio JST/T250 de 2,55m de diámetro y cámara panorámica
científica. La JPCam tiene 1.300 Megapixels, compuesta por un mosaico de 14
CCD.
Alcance: 100 millones de galaxias
Magnitud límite: 22 (~ 10m OTA)
Tecnología: 300 cores cluster
Flujo de datos: 2 TB/día.
Archivo total: 2,5 PB
CEFCA
![Page 46: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/46.jpg)
![Page 47: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/47.jpg)
Wal-Mart Stores, Inc., marcada como Walmart, es una corporación
multinacional de minoristas de origen estadounidense, que opera cadenas de
grandes almacenes.
Archivo total: 2,5 PB
Off-topic: Walmart
![Page 48: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/48.jpg)
Diez radiotelescopios con reflectores de 25
metros.
Tecnología: Linux Beowulf cluster
Flujo de datos: 100 TB/día.
Archivo total: 10 PB
Very Long Baseline Array (VLBA)
![Page 49: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/49.jpg)
![Page 50: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/50.jpg)
El Panoramic Survey Telescope and Rapid Response System, son dos
telescopios de 1.8 m tipo Ritchey-Chretien en Hawaii. Es el mayor survey
operativo del mundo y su misión principal es la detección de asteroides
potencialmente peligrosos. Un sensor mosaico de CCD, en total 1.400
megapixels.
Magnitud límite: 24 (~ 40m OTA, como el European Extremely Large
Telescope)
Tecnología: PSPS
Flujo de datos: 5 TB/día.
Archivo total: 20 PB
Pan-STARRS
![Page 51: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/51.jpg)
![Page 52: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/52.jpg)
En construcción y operativo hacia el 2020, el Large Synoptic Survey Telescope
será un telescopio de 8.4 metros equipado con una cámara digital de 3.200
Megapixels. La cámara digital más grande del mundo tomará 800 imágenes
cada noche.
Alcance: 4.000 millones de galaxias
Magnitud límite: 24 (~ 40m OTA, como el European Extremely Large
Telescope)
Flujo de datos: 10 TB/día.
Archivo total: 60 PB
LSST, Chile
![Page 53: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/53.jpg)
![Page 54: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/54.jpg)
Large Hadron Collider: 150 millones de sensores ofreciendo datos 40 millones
de veces por segundo.
Experimento ATLAS, Higgs boson
Tecnología: MongoDB/CouchDB
Flujo de datos: 100 TB/día.
Archivo total: 140 PB
Off-topic: CERN, LHC
![Page 55: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/55.jpg)
Proyecto de radiotelescopio ubicado en Australia y
Sudáfrica, con 3.000 antenas haciendo interferometría,
operativo en el 2024.
"Massive Processing: 10^9 top range PCs" (como 1.000 Googles)
Flujo de datos: 10 EB(exabytes)/día, aunque la mayoría se descarta...
Archivo total: 200 PB (todo lo impreso en el mundo)
Square Kilometer Array (SKA)
![Page 56: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/56.jpg)
![Page 57: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/57.jpg)
Tecnología: Apache Hadoop/MapReduce
Flujo de datos: 500 TB/día.
Archivo total: 300 PB
Off-topic: Facebook
![Page 58: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/58.jpg)
Tecnología: BigTable, Mesa
Flujo de datos: 25 PB/día.
Archivo total: 2 EB (exabyte, 10^18 bytes)
Off-topic: Google
![Page 59: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/59.jpg)
Flujo de datos: 5 EB/día.
Archivo total: 250 EB
Off-topic: Internet
![Page 60: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/60.jpg)
Archivo total: 1 ZB (zettabyte, 10^21 bytes)
Off-topic: Información digital en todo el mundo
![Page 61: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/61.jpg)
Información que contiene el Universo entero según un
cálculo de Seth Lloyd, investigador de Complex Systems
en el MIT.
Archivo total: 10^91 bytes
Universo
![Page 62: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/62.jpg)
Procesamiento de Datos
● ¿Cómo son los datos astronómicos?
● ¿Cómo se almacenan?
● ¿Qué podemos hacer con ellos?
![Page 63: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/63.jpg)
Ficheros FITS
● Flexible Image Transport System
● Cabeceras ASCII de metadatos: ubicación, condiciones
ambientales, instrumentación, etc.
● Caben imágenes (visible, infrarrojos, rayos X),
espectros electromagnéticos, listas de fotones, cubos
de datos, incluso tablas de datos.
![Page 64: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/64.jpg)
![Page 65: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/65.jpg)
Soluciones de Archivo
En Big Data / Cloud se usan sistemas distribuidos de
archivo:
● Google File System (GFS)
● Hadoop Distributed File System (HDFS), Yahoo
● Amazon S3 (Simple Storage Service)
● Windows Azure Storage
![Page 66: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/66.jpg)
![Page 67: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/67.jpg)
Soluciones de Procesamiento
● ¿Cómo sumar imágenes?
● ¿Cómo reducir/transformar datos?
● ¿Cómo ordenar los objetos detectados?
![Page 68: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/68.jpg)
Coaddition mediante MapReduce
● MapReduce es multiplicar una orden en el
cluster.
● La solución de código abierto más extendida
de MapReduce es Hadoop.
● Amazon EC2 ofrece un servicio de Hadoop.
![Page 69: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/69.jpg)
Coaddition mediante MapReduce
Ejemplo de co-addition:
Región del cielo: SDSS Stripe
82, R bandpass. Tras sumar
79 exposiciones el ratio S/N
(signal/noise) mejora en un
factor 9, y se detectan nuevos
objetos.
![Page 70: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/70.jpg)
Selección de imágenes: Apache Pig
Con Pig Latin, al igual que usa Yahoo para
gestionar su enorme cantidad de datos, es
posible ejecutar operaciones de Hadoop con
un lenguaje de alto nivel, similar a SQL.
![Page 71: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/71.jpg)
![Page 72: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/72.jpg)
Reducción de datos
● Imágenes FITS
● magnitudes, variabilidad, espectro
● curva de luz, corrimiento al rojo, líneas de
emisión
![Page 73: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/73.jpg)
Clasificación de objetos
● Técnicas de Advanced Machine Learning
(Data Science)
● Por ejemplo, la DECam usa MCMC (Markov
chain Monte Carlo) para diferenciar galaxias
![Page 74: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/74.jpg)
Support Vector Machines (SVM)
● Algoritmo de clasificación que encuentra el “hiperborde” entre distintos
tipos de datos.
● Reconocimiento de habla y escritura, visión artificial,...
● Mediante lenguaje R y librerías CRAN
función svm ( install.packages('e1071') )
● Es el método que mejor funciona para discernir estrellas de la secuencia
principal, de enanas blancas y de cuásares, respecto a otros como LDA,
k-Nearest-neighbor, Regression Trees.
● ¿Cómo hacer esto con Big Data? ... Existen librerías de código abierto
que implementan Support Vector Machines (SVM) paralelizado en GPUs,
sistemas multinúcleo en CPU y también sistemas distribuidos tipo Cloud.
![Page 75: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/75.jpg)
The SVM must be trained, just as Artificial Neural
Networks. It maps training data in the "input
space" into a high dimensional "feature space". It
determines a linear decision boundary in the
feature space by constructing the "optimal
separating hyperplane" distinguishing the classes.
This allows the SVM to achieve a nonlinear
boundary in the input space. The "support
vectors" are those points in the input space which
best define the boundary between the classes.
Work on SVMs began in the 1960s but recent
developments in the 1990s have made SVMs
much more useful for application to real-world
problems.
![Page 76: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/76.jpg)
Plataformas comerciales Cloud
● Google Compute Engine
● Amazon Elastic Compute Cloud (EC2)
● Microsoft Azure
● Rackspace
● Salesforce
● IBM
![Page 77: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/77.jpg)
![Page 78: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/78.jpg)
Creating A Galactic Plane Atlas
● Ejemplo de Big Data en Astronomía
● Amazon EC2
● Un cluster de máquinas Unix
● Equivalente a 30 años de ejecución en CPU.
● "Creating A Galactic Plane Atlas With Amazon Web
Services" por G. Bruce Berriman, Ewa Deelman, John
Good, Gideon Juve, Jamie Kinney, Ann Merrihew,
Mats Rynge.
![Page 79: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/79.jpg)
Galaxy Zoo Supernovae
● Ejemplo de Big Data en Astronomía
● Amazon EC2 y Amazon S3 como almacenamiento
● "Galaxy Zoo Supernovae", A. M. Smith, et all.
● Se han descubierto asteroides, supernovas y estrellas variables.
![Page 80: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/80.jpg)
LSST
● Ejemplo de Big Data en Astronomía
● Google Exacycle
● "Simulating a Dynamic Universe with the Large Synoptic Sky Survey" por
Jeff Gardner, University of Washington, Seattle, WA
![Page 81: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/81.jpg)
Unificando el Big Data astronómico
Los Observatorios Virtuales son centros abiertos de datos
donde se aglutinan las observaciones realizadas en
distintos observatorios a lo largo del planeta.
● International Virtual Observatory Alliance (IVOA)
ivoa.net
● The European Virtual Observatory Euro-VO
euro-vo.org
● Spanish Virtual Observatory
svo.cab.inta-csic.es
![Page 82: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/82.jpg)
Citizen Science, eScienceCiencia Ciudadana: investigación científica llevada a cabo por una suma de colaboradores, en su totalidad
o en parte por científicos, profesionales junto a gente común.
● Galaxy Zoo: Creado en el 2007 con el objeto de clasificar 900.000 galaxias, explorando visualmente
los últimos surveys disponibles.
● Stardust@home: Se estudian el polvo recogido del Cometa Wild2 por la sonda espacial Stardust.
Aquél que realice un descubrimiento co-firmará los artículos científicos del proyecto Stardust@home.
● SETI@home: científicos utilizan los ordenadores de voluntarios conectados a Internet para la
búsqueda de inteligencia extraterrestre: setiathome.berkeley.edu
● Otros: asteroids@home, cosmology@home, einstein@home, milkyway@home, SETIlive, …
● Off-topic: Mención especial a ibercivis.es, proyecto aragonés de ciencia ciudadana, desarrollado en el BIFI.
![Page 83: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/83.jpg)
Pregunta Abierta
● ¿Cómo serán los telescopios de
aficionados del futuro?
● ¿Se comercializará en el año
2020 el C14 series Big Data?
● ¿Qué sorprendentes
funcionalidades incluirá?
Juan Ignacio Pérez Sacristán
linkedin.com/in/semanticwebarchitect
![Page 84: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/84.jpg)
Bibliografía
* Big Data en la Astronomía: Una copia digital del universo, Sara Zambrano,
blog.nul-unu.com/2013/10/08/big-data-en-la-astronomia-una-copia-digital-del-universo/
* The Observatorio Astrofísico de Javalambre: current status and future developments, A.J. Cenarro, M. Moles, D. Cristóbal-Hornillos, et all.
sea-astronomia.es/drupal/sites/default/files/archivos/proceedings10/instrumentacion/ORALES/cenarroaj.pdf
* Large Scale Data Processing and Astronomy: Mashups, Widgets, and Custom Configurable Data Applications, Andrew Connolly
escience.washington.edu/get-help-now/astronomy-large-scale-data-processing
* Astronomical Image Processing with Hadoop, Keith Wiley
escience.washington.edu/get-help-now/astronomical-image-processing-hadoop
* Big data challenges in astronomy, Juande Santander-Vela
slideshare.net/juandesant/10-astronomy-bigdatachallenges
![Page 85: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/85.jpg)
Bibliografía
* From Big Bang to Big Data, wordlessTech
wordlesstech.com/2012/04/04/from-big-bang-to-big-data/
* Analytics Astronomy: Unlocking the Physics of the Web, Kris Bishop
exchanges.wiley.com/blog/2013/06/06/analytics-astronomy-unlocking-the-physics-of-the-web/
* Putting Astronomy's Head in the Cloud, CluE
ssg.astro.washington.edu/clue.shtml?clue/CluE1
* Wiley, Keith, et al. "Astronomy in the cloud: using mapreduce for image co-addition." Astronomy 123.901 (2011): 366-380.
* Loebman, Sarah, et al. "Analyzing massive astrophysical datasets: Can Pig/Hadoop or a relational DBMS help?." Cluster Computing and
Workshops, 2009. CLUSTER'09. IEEE International Conference on. IEEE, 2009.
* Ekanayake, Jaliya, Shrideep Pallickara, and Geoffrey Fox. "Mapreduce for data intensive scientific analyses." eScience, 2008. eScience'08.
IEEE Fourth International Conference on. IEEE, 2008.
![Page 86: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/86.jpg)
Bibliografía
* Tim Adams, Galaxy Zoo and the New Dawn of Citizen Science, The Guardian, Mar. 17, 2012
guardian.co.uk/science/2012/mar/18/galaxy-zoo-crowdsourcing-citizen-scientists
* Space telescopes and human genomes: How researchers share petabyte data sets, Sean Gallagher
arstechnica.com/information-technology/2013/04/the-troubles-with-storing-and-sharing-the-universe-and-our-dna/
* 219 million stars: a detailed catalogue of the visible Milky Way
ras.org.uk/news-and-press/2507-219-million-stars
* Prolific NASA Mars Orbiter Passes Big Data Milestone
jpl.nasa.gov/news/news.php?release=2013-324
* Students tackle astronomically big data challenges in Chile
iacs.seas.harvard.edu/news/students-tackle-astronomically-big-data-challenges-chile
![Page 87: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/87.jpg)
Bibliografía
* Google's fact-checking bots build vast knowledge bank, 20 August 2014, Hal Hodson
newscientist.com/article/mg22329832.700-googles-factchecking-bots-build-vast-knowledge-bank.html
* How to Manage Exabytes of Distributed Data?, Rich Brueckner
insidehpc.com/2014/03/manage-exabytes-distributed-data/
* NASA uses big data to confirm 715 strange new exoplanets
geek.com/science/nasa-uses-big-data-to-confirm-715-strange-new-exoplanets-1586061/
* Astronomy and Big Data: A Data Clustering Approach to Identifying Uncertain Galaxy Morphology by Kieran Jay Edwards and Mohamed
Medhat Gaber
ISBN: 331906598X, 2014
![Page 88: Astronomía y Big Data. Estrellas en la era del Petabyte](https://reader034.fdocuments.es/reader034/viewer/2022042511/55a274d01a28ab08058b468e/html5/thumbnails/88.jpg)
Bibliografía
* Advances in Machine Learning and Data Mining for Astronomy by Michael J. Way, Jeffrey D. Scargle, Kamal M. Ali and Ashok N. Srivastava
* Machine Learning Algorithm Cheat Sheet
lauradhamilton.com/machine-learning-algorithm-cheat-sheet
* Sakr, S., Liu, A., & Fayoumi, A. G. (2013). The family of MapReduce and large-scale data processing systems. ACM Computing Surveys
(CSUR), 46(1), 11.
* Scientists show what 100M computing hours on Google’s cloud can do
gigaom.com/2012/12/17/scientists-show-what-100m-computing-hours-on-googles-cloud-can-do/
googleresearch.blogspot.com.es/2012/12/millions-of-core-hours-awarded-to.html