El Instituto de Astrofísica de Canarias forma parte del equipo internacional que ha impulsado el proyecto "Universo Multimodal", accesible desde hoy. Se trata de un innovador conjunto de datos de 100 terabytes que reúne cientos de millones de observaciones astronómicas con un nivel de detalle y escala sin precedentes. Esta enorme colección de datos espaciales pretende revolucionar la forma de aplicar la Inteligencia Artificial para desvelar los misterios del Cosmos.
“El Universo Multimodal hace que acceder a conjuntos de datos astronómicos preparados para machine learning sea tan fácil como escribir una sola línea de código”, afirma Helen Qu, investigadora postdoctoral del Flatiron Institute. “Me entusiasma ver cómo esto puede acelerar nuevos desarrollos tanto en astronomía como en machine learning”, añade la investigadora.
Durante décadas, la Astronomía ha llevado al límite las tecnologías de vanguardia en muchos campos para poder observar el Universo y sus componentes en múltiples modos, como las imágenes de luz infrarroja cercana con el telescopio espacial James Webb (JWST, en sus siglas en inglés) o las mediciones de exoplanetas con el satélite TESS de la NASA.
El Universo Multimodal combina observaciones de muchos de los instrumentos, proyectos y telescopios más importantes de la astronomía, incluyendo el Instrumento Espectroscópico de Energía Oscura (DESI), el Sloan Digital Sky Survey (SDSS) y otros grandes observatorios espaciales y terrestres para incrementar el conocimiento científico.
En total, contiene:
Más de 120 millones de imágenes de galaxias
Más de 5 millones de espectros estelares y galácticos
Curvas de luz de más de 3,5 millones de objetos astronómicos
Mediciones detalladas de casi 220 millones de estrellas captadas por el satélite Gaia de la ESA
Y un compendio de otros objetos como clasificaciones de supernovas y galaxias.
“Una de las características clave de Multimodal Universe es su capacidad para combinar datos de múltiples estudios astronómicos”, afirma Liam Parker, doctorando en Berkeley y miembro del grupo de Polymathic AI, quien añade que “esto será fundamental a medida que el aprendizaje supervisado multimodal vaya ganando popularidad en todas las ciencias físicas”.
Una de las singularidades más importantes de este proyecto es que los datos se publican en formatos optimizados para la investigación en machine learning. Esto es un paso importante para permitir amplias aplicaciones del machine learning en Astronomía, ya que hasta ahora cada investigador a menudo tenía que recrear sus propios conjuntos de datos, lo que supone un coste enorme tanto para los proyectos pequeños como para los grandes.
Junto con los datos, el equipo publica algunos resultados de pruebas comparativas que demuestran sus aplicaciones potenciales, que van desde la clasificación de galaxias para comprender mejor su evolución hasta la mejora de los sistemas de alerta temprana de explosiones de supernovas para que los astrónomos no se pierdan acontecimientos únicos.
“Nuestro trabajo, realizado por una docena de institutos y dos docenas de investigadores, allana el camino para que el machine learning se convierta en un componente esencial de la Astronomía moderna”, afirma Micah Bowles, miembro de Polymathic AI y de Schmidt AI in Science en la Universidad de Oxford. “Reunir este conjunto de datos solo fue posible gracias a una amplia colaboración no solo del equipo de Polymathic AI, sino de muchos astrónomos expertos de todo el mundo”, afirma Bowles.
El Universo Multimodal está disponible gratuitamente para investigadores de todo el mundo a través de múltiples puntos de acceso, incluido Hugging Face. El equipo también ha publicado una amplia documentación y herramientas para ayudar a los científicos a trabajar con los datos de forma eficaz.
“Estamos presenciando un cambio de paradigma en la forma de aplicar la IA a la astronomía y a la ciencia en general”, afirma Marc Huertas-Company, investigador científico del Instituto de Astrofísica de Canarias (IAC) y miembro del equipo de coordinación de la colaboración MMU. “Los modelos supervisados entrenados para una tarea específica están siendo sustituidos por grandes modelos polivalentes entrenados con grandes cantidades de datos heterogéneos y sin etiquetar. El conjunto de datos de MMU jugará un papel clave en esta transición.”
“Al facilitar el acceso a los datos astronómicos, esperamos crear nuevas oportunidades de polinización cruzada entre la Astronomía y el machine learning”, afirma Michael J. Smith, miembro de UniverseTBD y director de IA en Aspia Space. “Los conjuntos de datos abiertos como el Universo Multimodal ayudarán a la comunidad a construir modelos de base mejores y más transparentes. Esto es esencial a medida que avanzamos hacia aplicaciones de IA más sofisticadas en astronomía”, añade Smith.
Este proyecto representa un paso importante hacia aplicaciones más sofisticadas de la IA en Astronomía, que podrían acelerar los descubrimientos sobre la evolución de las galaxias y la física estelar, así como sobre la propia naturaleza del Universo.
Para más información, visite https://github.com/MultimodalUniverse y encuentre la ponencia, el póster y la grabación de vídeo en https://neurips.cc/virtual/2024/poster/97791