
Обсерватория Веры К. Рубин (Vera C. Rubin Observatory), опубликовавшая на этой неделе свои великолепные «первые снимки», соберет объем данных, который намного превзойдет достижения всех предыдущих телескопов. Это заставило астрономов шагнуть в мир облачных вычислений и прибегнуть к помощи семи «брокеров» и «Датского Батлера».
Когда обсерватория Рубин (финансируемая совместно Национальным научным фондом США и Министерством энергетики США) выйдет на полную мощность, она будет собирать по 20 терабайт данных каждую ночь. Обрабатывая эту информацию, она будет генерировать до 10 миллионов оповещений для астрономов. Управлять этим потоком призваны специальные системы – «брокеры», которые отфильтруют огромное количество сигналов до приемлемого уровня.
«По объему данных мы как минимум на порядок превосходим предыдущие телескопы», — заявил Space.com Джордж Беккет, специалист по информатике из Эдинбургского университета и координатор британского центра обработки данных для проекта Rubin.
В течение следующих 10 лет Обзор пространства и времени (Legacy Survey of Space and Time, LSST) обсерватории Рубин соберет около 500 петабайт данных. Это эквивалентно полумиллиону дисков Blu-ray в формате 4K-UHD! Собранные в Чили данные будут передаваться по выделенной линии связи в Центр обработки данных Национальной ускорительной лаборатории SLAC в Калифорнии. Оттуда полная копия «сырых» данных отправится в вычислительный центр IN2P3 в Лионе (Франция), а часть информации также поступит в распределенную вычислительную сеть в Великобритании.
Обработка данных будет распределена между этими тремя центрами: SLAC возьмет на себя 35%, IN2P3 – 40%, а Великобритания – 25%. (Есть также небольшой центр в Чили для поддержки местных астрономов). Множественность центров обеспечивает не только резервирование на случай аварии, но и взаимопомощь: если один центр отстает, другие могут подхватить его нагрузку. Для астрономов критически важно получать важную информацию как можно быстрее, чтобы успеть исследовать интересные явления.

«Моя самая большая проблема – постоянные требования астрономов предоставить им данные!» — пошутил Беккет.
Этот огромный массив данных станет бесценным ресурсом не только для современных ученых, но и для будущих поколений исследователей.
Но как искать в этом океане?
Беккет приводит аналогию с поиском фотографии на смартфоне: «Ваш телефон, вероятно, забит снимками за последние 5-10 лет. Чтобы найти одну конкретную фотографию двухлетней давности, обычно приходится листать – это довольно утомительно. А теперь представьте, что на вашем телефоне 1,5 миллиона фотографий, каждая шириной 10 000 пикселей. Просто пролистать их все нереально».
Возвращаясь к данным Рубин, решение, по словам Беккета, заключается в создании доступных описаний для всех изображений, чтобы астрономы могли относительно легко находить то, что им нужно. Это одна из причин, почему подход Рубин отличается от работы с предыдущими телескопами, где ученые могли просто скачать нужный им небольшой набор данных. Архив Рубина просто слишком велик для скачивания целиком – все данные хранятся и обрабатываются в «облаке».
Управляет этим архивом сервис под названием «Датский Батлер» (Data Butler). Он записывает все метаданные – информацию о данных: время, дату, координаты на небе, содержание изображения и так далее.
«Астроном может сформулировать практически любой запрос на языке астрономии – об объектах, временных интервалах или системах координат – и «Батлер» найдет и предоставит нужные данные», — пояснил Беккет.
Оповещения и «Брокеры»: Фильтруя миллионы сигналов
«Батлер» идеален для долгосрочных исследований. Но есть и транзиентные явления – движущиеся объекты и внезапные вспышки, которые требуют немедленного внимания, пока не исчезли. Это сверхновые, килоновые (источники гравитационных волн), новые звезды, вспыхивающие звезды, затменные двойные системы, вспышки магнитаров, астероиды и кометы, квазары и, возможно, совершенно новые, неизвестные типы объектов. Рубин будет выдавать около 10 миллионов оповещений каждую ночь, публикуя каждое в течение двух минут после обнаружения телескопом. Даже с «Батлером», как астрономы смогут выловить самые важные сигналы?
Здесь вступают в игру семь «брокеров» (alert brokers). Эти системы, управляемые учеными в разных странах, будут обрабатывать все 10 миллионов оповещений (плюс еще два «брокера» с узкоспециализированными задачами будут работать с подмножеством оповещений). Среди них:
-
ALeRCE (Чили, Automatic Learning for the Rapid Classification of Events — Автоматическое обучение для быстрой классификации событий)
-
ANTARES (Аризона–NOIRLab, Arizona–NOIRLab Temporal Analysis and Response to Events Systems — Система временного анализа и реагирования на события)
-
Lasair (Великобритания, произносится «ЛА-сур», означает «пламя» или «вспышка» на шотландском и ирландском гэльском; фокусируется на транзиентах).
Представьте «брокеров» как набор интеллектуальных фильтров, которые астрономы могут настраивать под свои нужды. Они используют машинное обучение, искусственный интеллект и традиционные методы моделирования для быстрой обработки потока.
«Астрономы могут подписаться на «брокера», описать, какие объекты их интересуют, и, если все настроено правильно, 10 миллионов ночных оповещений будут отфильтрованы до, возможно, двух или трех», — сказал Беккет.
Остальные 9 999 998 оповещений не бесполезны – они просто не соответствуют текущим интересам конкретного ученого или не уникальны для срочного наблюдения, но вносят вклад в статистику по каждому типу объектов.
Будущее: Есть ли предел?
Рубин будет сканировать четверть южного неба каждую ночь, ничего не упуская. Может показаться, что это последний и самый грандиозный обзор. Однако Беккет также работает над управлением данными для проекта Square Kilometre Array (SKA) – гигантской сети радиотелескопов в ЮАР и Австралии. Опыт и технологии, разработанные для Рубина, помогут справиться с данными SKA.
«Объем данных Рубина будет просто затмеваться SKA, который превзойдет его еще на порядок величины», — предупредил Беккет.
Как говорится, всегда найдется рыбка покрупнее! Обсерватория Рубин открывает новую эру в астрономии – эру «больших данных», где успех зависит не только от мощности телескопа, но и от изощренности алгоритмов, распределенных вычислений и умения эффективно искать иголку в цифровом стоге сена.