Architecture, techniques and models for enabling Data Science in the Gaia Mission Archive
Loading...
Download
Official URL
Full text at PDC
Publication date
2018
Defense date
26/05/2017
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid
Citation
Abstract
The massive amounts of data that the world produces every day pose new challenges to modern societies in terms of how to leverage their inherent value. Social networks, instant messaging, video, smart devices and scientific missions are just mere examples of the vast number of sources generating data every second. As the world becomes more and more digitalized, new needs arise for organizing, archiving, sharing, analyzing, visualizing and protecting the ever-increasing data sets, so that we can truly develop into a data-driven economy that reduces inefficiencies and increases sustainability, creating new business opportunities on the way. Traditional approaches for harnessing data are not suitable any more as they lack the means for scaling to the larger volumes in a timely and cost efficient manner. This has somehow changed with the advent of Internet companies like Google and Facebook, which have devised new ways of tackling this issue. However, the variety and complexity of the value chains in the private sector as well as the increasing demands and constraints in which the public one operates, needs an ongoing research that can yield newer strategies for dealing with data, facilitate the integration of providers and consumers of information, and guarantee a smooth and prompt transition when adopting these cutting-edge technological advances. This thesis aims at providing novel architectures and techniques that will help perform this transition towards Big Data in massive scientific archives. It highlights the common pitfalls that must be faced when embracing it and how to overcome them, especially when the data sets, their transformation pipelines and the tools used for the analysis are already present in the organizations. Furthermore, a new perspective for facilitating a smoother transition is laid out. It involves the usage of higher-level and use case specific frameworks and models, which will naturally bridge the gap between the technological and scientific domains. This alternative will effectively widen the possibilities of scientific archives and therefore will contribute to the reduction of the time to science. The research will be applied to the European Space Agency cornerstone mission Gaia, whose final data archive will represent a tremendous discovery potential. It will create the largest and most precise three dimensional chart of our galaxy (the Milky Way), providing unprecedented position, parallax and proper motion measurements for about one billion stars. The successful exploitation of this data archive will depend to a large degree on the ability to offer the proper architecture, i.e. infrastructure and middleware, upon which scientists will be able to do exploration and modeling with this huge data set. In consequence, the approach taken needs to enable data fusion with other scientific archives, as this will produce the synergies leading to an increment in scientific outcome, both in volume and in quality. The set of novel techniques and frameworks presented in this work addresses these issues by contextualizing them with the data products that will be generated in the Gaia mission. All these considerations have led to the foundations of the architecture that will be leveraged by the Science Enabling Applications Work Package. Last but not least, the effectiveness of the proposed solution will be demonstrated through the implementation of some ambitious statistical problems that will require significant computational capabilities, and which will use Gaia-like simulated data (the first Gaia data release has recently taken place on September 14th, 2016). These ambitious problems will be referred to as the Grand Challenge, a somewhat grandiloquent name that consists in inferring a set of parameters from a probabilistic point of view for the Initial Mass Function (IMF) and Star Formation Rate (SFR) of a given set of stars (with a huge sample size), from noisy estimates of their masses and ages respectively. This will be achieved by using Hierarchical Bayesian Modeling (HBM). In principle, the HBM can incorporate stellar evolution models to infer the IMF and SFR directly, but in this first step presented in this thesis, we will start with a somewhat less ambitious goal: inferring the PDMF and PDAD. Moreover, the performance and scalability analyses carried out will also prove the suitability of the models for the large amounts of data that will be available in the Gaia data archive.
Las grandes cantidades de datos que se producen en el mundo diariamente plantean nuevos retos a la sociedad en tĆ©rminos de cómo extraer su valor inherente. Las redes sociales, mensajerĆa instantĆ”nea, los dispositivos inteligentes y las misiones cientĆficas son meros ejemplos del gran nĆŗmero de fuentes generando datos en cada momento. Al mismo tiempo que el mundo se digitaliza cada vez mĆ”s, aparecen nuevas necesidades para organizar, archivar, compartir, analizar, visualizar y proteger la creciente cantidad de datos, para que podamos desarrollar economĆas basadas en datos e información que sean capaces de reducir las ineficiencias e incrementar la sostenibilidad, creando nuevas oportunidades de negocio por el camino. La forma en la que se han manejado los datos tradicionalmente no es la adecuada hoy en dĆa, ya que carece de los medios para escalar a los volĆŗmenes mĆ”s grandes de datos de una forma oportuna y eficiente. Esto ha cambiado de alguna manera con la llegada de compaƱĆas que operan en Internet como Google o Facebook, ya que han concebido nuevas aproximaciones para abordar el problema. Sin embargo, la variedad y complejidad de las cadenas de valor en el sector privado y las crecientes demandas y limitaciones en las que el sector pĆŗblico opera, necesitan una investigación continua en la materia que pueda proporcionar nuevas estrategias para procesar las enormes cantidades de datos, facilitar la integración de productores y consumidores de información, y garantizar una transición rĆ”pida y fluida a la hora de adoptar estos avances tecnológicos innovadores. Esta tesis tiene como objetivo proporcionar nuevas arquitecturas y tĆ©cnicas que ayudarĆ”n a realizar esta transición hacia Big Data en archivos cientĆficos masivos. La investigación destaca los escollos principales a encarar cuando se adoptan estas nuevas tecnologĆas y cómo afrontarlos, principalmente cuando los datos y las herramientas de transformación utilizadas en el anĆ”lisis existen en la organización. AdemĆ”s, se exponen nuevas medidas para facilitar una transición mĆ”s fluida. Ćstas incluyen la utilización de software de alto nivel y especĆfico al caso de uso en cuestión, que haga de puente entre el dominio cientĆfico y tecnológico. Esta alternativa ampliarĆ” de una forma efectiva las posibilidades de los archivos cientĆficos y por tanto contribuirĆ” a la reducción del tiempo necesario para generar resultados cientĆficos a partir de los datos recogidos en las misiones de astronomĆa espacial y planetaria. La investigación se aplicarĆ” a la misión de la Agencia Espacial Europea (ESA) Gaia, cuyo archivo final de datos presentarĆ” un gran potencial para el descubrimiento y hallazgo desde el punto de vista cientĆfico. La misión crearĆ” el catĆ”logo en tres dimensiones mĆ”s grande y preciso de nuestra galaxia (la VĆa LĆ”ctea), proporcionando medidas sin precedente acerca del posicionamiento, paralaje y movimiento propio de alrededor de mil millones de estrellas. Las oportunidades para la explotación exitosa de este archivo de datos dependerĆ”n en gran medida de la capacidad de ofrecer la arquitectura adecuada, es decir infraestructura y servicios, sobre la cual los cientĆficos puedan realizar la exploración y modelado con esta inmensa cantidad de datos. Por tanto, la estrategia a realizar debe ser capaz de combinar los datos con otros archivos cientĆficos, ya que esto producirĆ” sinergias que contribuirĆ”n a un incremento en la ciencia producida, tanto en volumen como en calidad de la misma. El conjunto de tĆ©cnicas e infraestructuras innovadoras presentadas en este trabajo aborda estos problemas, contextualizĆ”ndolos con los productos de datos que se generarĆ”n en la misión Gaia. Todas estas consideraciones han conducido a los fundamentos de la arquitectura que se utilizarĆ” en el paquete de trabajo de aplicaciones que posibilitarĆ”n la ciencia en el archivo de la misión Gaia (Science Enabling Applications). Por Ćŗltimo, la eficacia de la solución propuesta se demostrarĆ” a travĆ©s de la implementación de dos problemas estadĆsticos que requerirĆ”n cantidades significativas de cómputo, y que usarĆ”n datos simulados en el mismo formato en el que se producirĆ”n en el archivo de la misión Gaia (la primera versión de datos recogidos por la misión estĆ” disponible desde el dĆa 14 de Septiembre de 2016). Estos ambiciosos problemas representan el Gran Reto (Grand Challenge), un nombre grandilocuente que consiste en inferir una serie de parĆ”metros desde un punto de vista probabilĆstico para la función de masa inicial (Initial Mass Function) y la tasa de formación estelar (Star Formation Rate) dado un conjunto de estrellas (con una muestra grande), desde estimaciones con ruido de sus masas y edades respectivamente. Esto se abordarĆ” utilizando modelos jerĆ”rquicos bayesianos (Hierarchical Bayesian Modeling). Enprincipio,losmodelospropuestos pueden incorporar otros modelos de evolución estelar para inferir directamente la función de masa inicial y la tasa de formación estelar, pero en este primer paso presentado en esta tesis, empezaremos con un objetivo algo menos ambicioso: la inferencia de la función de masa y distribución de edades actual (Present-Day Mass Function y Present-Day Age Distribution respectivamente). AdemĆ”s, se llevarĆ” a cabo el anĆ”lisis de rendimiento y escalabilidad para probar la idoneidad de la implementación de dichos modelos dadas las enormes cantidades de datos que estarĆ”n disponibles en el archivo de la misión Gaia...
Las grandes cantidades de datos que se producen en el mundo diariamente plantean nuevos retos a la sociedad en tĆ©rminos de cómo extraer su valor inherente. Las redes sociales, mensajerĆa instantĆ”nea, los dispositivos inteligentes y las misiones cientĆficas son meros ejemplos del gran nĆŗmero de fuentes generando datos en cada momento. Al mismo tiempo que el mundo se digitaliza cada vez mĆ”s, aparecen nuevas necesidades para organizar, archivar, compartir, analizar, visualizar y proteger la creciente cantidad de datos, para que podamos desarrollar economĆas basadas en datos e información que sean capaces de reducir las ineficiencias e incrementar la sostenibilidad, creando nuevas oportunidades de negocio por el camino. La forma en la que se han manejado los datos tradicionalmente no es la adecuada hoy en dĆa, ya que carece de los medios para escalar a los volĆŗmenes mĆ”s grandes de datos de una forma oportuna y eficiente. Esto ha cambiado de alguna manera con la llegada de compaƱĆas que operan en Internet como Google o Facebook, ya que han concebido nuevas aproximaciones para abordar el problema. Sin embargo, la variedad y complejidad de las cadenas de valor en el sector privado y las crecientes demandas y limitaciones en las que el sector pĆŗblico opera, necesitan una investigación continua en la materia que pueda proporcionar nuevas estrategias para procesar las enormes cantidades de datos, facilitar la integración de productores y consumidores de información, y garantizar una transición rĆ”pida y fluida a la hora de adoptar estos avances tecnológicos innovadores. Esta tesis tiene como objetivo proporcionar nuevas arquitecturas y tĆ©cnicas que ayudarĆ”n a realizar esta transición hacia Big Data en archivos cientĆficos masivos. La investigación destaca los escollos principales a encarar cuando se adoptan estas nuevas tecnologĆas y cómo afrontarlos, principalmente cuando los datos y las herramientas de transformación utilizadas en el anĆ”lisis existen en la organización. AdemĆ”s, se exponen nuevas medidas para facilitar una transición mĆ”s fluida. Ćstas incluyen la utilización de software de alto nivel y especĆfico al caso de uso en cuestión, que haga de puente entre el dominio cientĆfico y tecnológico. Esta alternativa ampliarĆ” de una forma efectiva las posibilidades de los archivos cientĆficos y por tanto contribuirĆ” a la reducción del tiempo necesario para generar resultados cientĆficos a partir de los datos recogidos en las misiones de astronomĆa espacial y planetaria. La investigación se aplicarĆ” a la misión de la Agencia Espacial Europea (ESA) Gaia, cuyo archivo final de datos presentarĆ” un gran potencial para el descubrimiento y hallazgo desde el punto de vista cientĆfico. La misión crearĆ” el catĆ”logo en tres dimensiones mĆ”s grande y preciso de nuestra galaxia (la VĆa LĆ”ctea), proporcionando medidas sin precedente acerca del posicionamiento, paralaje y movimiento propio de alrededor de mil millones de estrellas. Las oportunidades para la explotación exitosa de este archivo de datos dependerĆ”n en gran medida de la capacidad de ofrecer la arquitectura adecuada, es decir infraestructura y servicios, sobre la cual los cientĆficos puedan realizar la exploración y modelado con esta inmensa cantidad de datos. Por tanto, la estrategia a realizar debe ser capaz de combinar los datos con otros archivos cientĆficos, ya que esto producirĆ” sinergias que contribuirĆ”n a un incremento en la ciencia producida, tanto en volumen como en calidad de la misma. El conjunto de tĆ©cnicas e infraestructuras innovadoras presentadas en este trabajo aborda estos problemas, contextualizĆ”ndolos con los productos de datos que se generarĆ”n en la misión Gaia. Todas estas consideraciones han conducido a los fundamentos de la arquitectura que se utilizarĆ” en el paquete de trabajo de aplicaciones que posibilitarĆ”n la ciencia en el archivo de la misión Gaia (Science Enabling Applications). Por Ćŗltimo, la eficacia de la solución propuesta se demostrarĆ” a travĆ©s de la implementación de dos problemas estadĆsticos que requerirĆ”n cantidades significativas de cómputo, y que usarĆ”n datos simulados en el mismo formato en el que se producirĆ”n en el archivo de la misión Gaia (la primera versión de datos recogidos por la misión estĆ” disponible desde el dĆa 14 de Septiembre de 2016). Estos ambiciosos problemas representan el Gran Reto (Grand Challenge), un nombre grandilocuente que consiste en inferir una serie de parĆ”metros desde un punto de vista probabilĆstico para la función de masa inicial (Initial Mass Function) y la tasa de formación estelar (Star Formation Rate) dado un conjunto de estrellas (con una muestra grande), desde estimaciones con ruido de sus masas y edades respectivamente. Esto se abordarĆ” utilizando modelos jerĆ”rquicos bayesianos (Hierarchical Bayesian Modeling). Enprincipio,losmodelospropuestos pueden incorporar otros modelos de evolución estelar para inferir directamente la función de masa inicial y la tasa de formación estelar, pero en este primer paso presentado en esta tesis, empezaremos con un objetivo algo menos ambicioso: la inferencia de la función de masa y distribución de edades actual (Present-Day Mass Function y Present-Day Age Distribution respectivamente). AdemĆ”s, se llevarĆ” a cabo el anĆ”lisis de rendimiento y escalabilidad para probar la idoneidad de la implementación de dichos modelos dadas las enormes cantidades de datos que estarĆ”n disponibles en el archivo de la misión Gaia...
Description
Tesis inĆ©dita de la Universidad Complutense de Madrid, Facultad de InformĆ”tica, Departamento de Arquitectura de Computadores y AutomĆ”tica, leĆda el 26/05/2017.













