
Это перевод работы группы астрономов и астробиологов, в которой рассматривается потенциал фундаментальных моделей (крупных нейросетей, обученных на больших массивах данных) для астробиологических исследований по итогам семинара, проведенного в феврале 2025 года Исследовательским центром Эймса NASA и Институтом SETI. Отмечается, что такие гибкие модели уже разрабатываются в NASA и ESA, они открывают новые возможности для быстрого создания приложений, интегрирующих разнородные мультимодальные данные. В статье представлены выводы семинара и описаны ключевые направления для создания специализированной фундаментальной модели, для таких задач, как поиск биосигнатур, планирование космических миссий и обработка научной информации для нужд астробиологии.
Authors: Ryan Felton (NASA ARC), Caleb Scharf (NASA ARC), Stuart Bartlett
(California Institute of Technology/SETI Institute), Nathalie A. Cabrol (SETI Institute),
Victoria Da Poian (Tyto Athene LLC/NASA GSFC), Diana Gentry (NASA ARC), Jian
Gong (University of Wyoming), Adrienne Hoarfrost (University of Georgia), Manil
Maskey (NASA MSFC), Floyd Nichols (Virginia Tech), Conor A. Nixon (NASA GSFC),
Tejas Panambur (University of Massachusetts, Amherst), Joseph Pasterski (NASA
GSFC), Anton S. Petrov (Georgia Institute of Technology), Anirudh Prabhu (Carnegie
Science), Brenda Thomson (Rensselaer Polytechnic Institute), Hamed Valizadegan
(NASA ARC / KBR), Kimberley Warren-Rhodes (SETI Institute/NASA ARC), David
Wettergreen (Carnegie Mellon University), Michael L. Wong (Carnegie Science),
Anastasia Yanchilina (SETI Institute).
Ryan Felton и др.
Ключевые слова: базовые модели, машинное обучение, астробиология, семинары
Достижения в области машинного обучения за последнее десятилетие привели к распространению алгоритмических приложений для кодирования, описания и обработки сложных данных, которые могут содержать множество высокоразмерных признаков. В последнее время появление моделей глубокого обучения, обученных на очень больших наборах данных, создало новую парадигму машинного обучения в виде фундаментальных моделей (Foundation Models). Фундаментальные модели — это программы, обучаемые на очень больших и разнообразных наборах данных с обширным количеством параметров. Будучи созданными, эти чрезвычайно мощные и гибкие модели могут использоваться менее ресурсоёмкими способами для создания множества различных последующих приложений, способных интегрировать ранее разрозненные, многомодальные данные. Разработка таких приложений может осуществляться быстро и с гораздо меньшими требованиями к экспертизе в области машинного обучения. Кроме того, необходимая инфраструктура и сами модели уже создаются в таких агентствах, как НАСА и ЕКА. В НАСА эта работа ведётся в нескольких подразделениях Директората научных миссий. Примеры включают большие языковые модели NASA Goddard и INDUS, а также геопространственную фундаментальную модель Prithvi. Инициативы ЕКА по внедрению фундаментальных моделей в наблюдения Земли привели к разработке TerraMind. В феврале 2025 года Исследовательским центром НАСА в Эймсе и Институтом SETI был проведён воркшоп для изучения потенциала фундаментальных моделей в астробиологических исследованиях и определения шагов, необходимых для создания и использования такох моделей. В данной статье представлены выводы и рекомендации этого воркшопа, а также описаны чёткие краткосрочные и долгосрочные возможности в разработке фундаментальной модели (или моделей) для приложений в области астробиологии. Эти приложения включают задачу обнаружения биосигнатур или характеристик жизни, задачу разработки и проведения миссий, а также задачу обработки естественного языка для интеграции и поддержки исследовательских потребностей астробиологии.
Поиск свидетельств жизни за пределами Земли остаётся центральной целью астробиологии (National Academies of Sciences, Engineering, and Medicine, 2023). Считается, что живые системы возникают как динамическое взаимодействие неравновесных процессов, функционирующих на множестве масштабов сложности, размерности и времени. Следовательно, чтобы распознавать проявления жизни в неожиданных контекстах и формах (которые могут существовать как на Земле, так и за её пределами), имеет смысл рассматривать жизнь как сложный мультимодальный, многомерный универсальный процесс, а не как единичное состояние, как это обычно понимается на Земле.
Многомерность жизни, то есть множество атрибутов или переменных, определяющих свойства живой системы, становится очевидной, когда мы рассматриваем её одновременное функционирование на разных масштабах (Рисунок 1). На атомном и молекулярном уровне процессы задействуют (или «используют») фундаментальные свойства материи, включая, например, эффекты квантового туннелирования, которые обеспечивают эффективное функционирование ферментов (Bothma et al, 2010). На клеточном уровне возникающие сети химических реакций создают автокаталитические системы, поддерживающие физические границы, оставаясь при этом термодинамически открытыми. На уровне организмов и экосистем сложные обратные связи создают устойчивые, адаптивные структуры, сохраняющиеся при колебаниях окружающей среды. Наконец, на планетарном уровне жизнь проявляется во взаимовыгодной коэволюции гео- и биохимических процессов. Каждый масштаб представляет собой различное выражение феномена, который мы называем «жизнь, какой мы её знаем на Земле».

В результате астробиологические исследования опираются на корпус разнообразных мультимодальных, многомасштабных данных, способных характеризовать тонкие и высокоразмерные особенности живых систем, обычно называемые биосигнатурами (см. например, Des Marais et al, 2008). Поэтому усилия по идентификации и интерпретации биосигнатур представляют собой область исследований, где могут быть полезны новые подходы искусственного интеллекта (ИИ) и, в частности, машинного обучения (ML) (Scharf et al, 2024).
В то время как ИИ — это общая область использования компьютерных программ, имитирующих человеческий интеллект, ML является подмножеством, ориентированным на вычислительные методы обнаружения закономерностей и прогнозирования. ИИ/ML могут быть использованы для помощи в идентификации и интерпретации биосигнатур из сложных и высокоразмерных данных. В частности, ИИ/ML могут выявлять низкоразмерное представление (латентное пространство) таких данных, которое может кодировать фундаментальные свойства жизни. Существующие применения ИИ в астробиологии варьируются от изучения молекулярной сложности (Cleaves et al, 2023) и экологических биосигнатур (Warren-Rhodes et al, 2023) до обнаружения и анализа экзопланет и планетарных атмосфер (Valizadegan et al, 2022; Gharib-Nezhad et al, 2025; Cobb et al, 2019).
По мере увеличения объёма астробиологически значимых данных благодаря полевым, лабораторным, экспериментальным и симуляционным исследованиям, подходы ИИ будут становиться всё более важными для интеграции различных наборов данных и извлечения наиболее достоверных свидетельств жизни (Theiling et al, 2022). Аналогично, уже существует богатый набор разрозненных, многомасштабных, мультимодальных потоков астробиологических данных, которые прямо сейчас доступны для анализа, интеграции и обработки с помощью имеющихся и будущих инструментов и моделей ИИ/ML (Таблица 2).
Ключевые преимущества подходов ИИ/ML включают разработку фреймворков для автоматизации сложного анализа очень больших наборов данных и способность предоставлять независимые и потенциально непредвиденные инсайты о лежащих в основе закономерностях в астробиологически релевантных данных. Эти фреймворки могут включать машинную классификацию, обнаружение паттернов или аномалий, а также распознавание нелинейных, многопараметрических и/или мультиколлинеарных свойств в данных, а также генеративное моделирование или симуляцию на основе обучения. В последнее время возникла особенно важная концепция ML — фундаментальные модели (ФМ, см. Раздел 3 ниже), представляющие собой крупномасштабные системы ML, обычно обучаемые на огромных наборах данных для кодирования информативных признаков и взаимосвязей данных. Это позволяет ФМ служить основой для различных последующих приложений, иногда при относительно небольшом количестве дополнительных данных, необходимых для достижения высокой производительности (Bommasani et al, 2021). ФМ выходят за рамки многих традиционных приложений ML, будучи способными обрабатывать большие объёмы разнообразных (т.е. многомодальных) данных, одновременно выявляя результаты из более специфичных и сложных взаимосвязанных подмножеств данных. Примером типа ФМ, становящегося повсеместным, являются большие языковые модели (LLM). Эти ФМ обучаются на массивных объёмах общедоступных данных и способны генерировать текстовый, аудио- и визуальный вывод.
Для оценки потенциала ФМ в астробиологии программа НАСА «Тематические воркшопы, симпозиумы и конференции» (TWSC) профинансировала воркшоп, проведённый в феврале 2025 года. Основные цели воркшопа заключались в следующем:
A) определить потенциальные возможности и направления для астробиологических ФМ (т.е. какие тематические области и какие данные будут релевантны);
B) изучить и описать, что потребуется для создания ФМ и как могут выглядеть варианты их использования;
C) составить короткий список потенциальных ФМ (или единой фреймворк-модели ФМ) с акцентом на потребность, своевременность, текущие технологические и данные возможности, экспертизу в сообществе и будущие инновации;
D) довести рекомендации и выводы воркшопа до сведения астробиологического сообщества.
Общий вывод воркшопа (подробнее раскрытый в остальной части данной статьи) — это рекомендация по разработке многомодальной фундаментальной модели для астробиологии, ориентированной на обнаружение жизни, принятие решений в рамках миссий и имеющей интерфейс на основе междисциплинарной текстовой большой языковой модели (Рисунок 2).
Актуальность воркшопа и его выводов для стратегических целей НАСА и сообщества подчёркивается ниже. В Разделах 2 и 3 более подробно рассматриваются проблемы, специфичные для текущих астробиологических исследований, и то, как ФМ могут решать эти проблемы, а также приводятся дополнительные технические детали о ФМ. Раздел 4 посвящён описанию воркшопа, его общей структуры и пути к полученным выводам. В Разделах 5.1, 5.2 и 5.3 более детально рассматриваются три основных вывода воркшопа; намечаются научные обоснования и дорожные карты для каждого из них. Раздел 6 завершает статью резюме ключевых потребностей и возможностей для ФМ и приложений ИИ в астробиологических исследованиях. Включены комментарии о согласованности данных и экосистеме астробиологических данных, а также представлена более широкая дорожная карта внедрения ФМ для астробиологии в краткосрочной и долгосрочной перспективе.

На изображении представлена схема, иллюстрирующая концепцию Фундаментальной модели астробиологии (Astrobiology Foundation Model).
Рисунок вертикально разделен на три основные стадии:
Исходные данные (Raw Data):
В верхней части перечислены источники информации, используемые для обучения модели. К ним относятся:
- Данные о составе и структуре (Compositional, structural);
- Данные дистанционного зондирования (Remote sensing);
- Базы данных миссий и инструментов (Mission, instrument databases);
- Научная литература (Research literature).
Фундаментальная модель (Astrobiology Foundation Model):
Центральный блок, который объединяет все разнородные исходные данные. Над ним указан этап Предварительного обучения (Pretraining), что означает создание базовой модели на основе больших массивов неразмеченных данных.
Прикладные задачи (Downstream tasks):
Нижняя часть схемы показывает этап Файнтюнинга (донастройки) и развертывания (Finetuning and deployment). На выходе модель используется для решения конкретных задач:
- Обнаружение признаков жизни (Detection of Life);
- Поддержка принятия решений в миссиях (Mission Decisions);
- Обработка текстов и литературы (Text & Literature);
- Будущие приложения (Future applications).
Проведённый воркшоп и его выводы имеют прямое отношение к программам Директората научных миссий (SMD) НАСА в области планетарных наук и астробиологии, а также к направлению «Технологии, обеспечивающие научные исследования» (Science-enabling Technology) в рамках SMD. Результаты воркшопа соответствуют рекомендациям нескольких отчётов и стратегических документов НАСА. В Таблице 1 выводы воркшопа сопоставлены с рекомендациями №5 и №11 из отчёта «Стратегия управления данными и вычислительными ресурсами для прорывных научных исследований, 2019–2024» (SMD's Strategy for Data Management and Computing for Groundbreaking Science 2019-2024), а также с рекомендациями из десятилетней стратегии «Истоки, миры и жизнь» (Origins, Worlds, and Life — OWL): Стратегия планетарных наук и астробиологии на 2023–2032 годы» (Национальные академии наук, инженерии и медицины, 2023).
Таблица 1: Сопоставление целей и рекомендаций стратегических отчётов НАСА с выводами воркшопа по фундаментальным моделям.Документ | Цель/Задача/Рекомендация | Подробности | Соответствие результатам семинара |
|---|---|---|---|
Стратегия SMD по управлению данными и вычислениями для прорывной науки 2019–2024 | №5 | «[…]настоятельно рекомендовать сотрудничество и кооперацию специалистов по работе с данными в академических кругах, промышленности и других сферах для обеспечения междисциплинарных научных открытий.» | Наши участники представляют собой смесь астробиологов и специалистов по обработке данных. Мы считаем такое сотрудничество необходимым для полного понимания проблем и решений, связанных с реализацией фундаментальных моделей. |
Стратегия SMD по управлению данными и вычислениями для прорывной науки 2019–2024 | №11 | «[…]стимулировать и обучать сообщество использованию ИИ/МО для нового подхода к науке[…]» | Фундаментальные модели представляют собой новый подход на основе ИИ/МО к астробиологии, который может применяться к различным методам анализа и инструментам (например, масс-спектрометрия, газовые хроматографы). |
«Истоки, миры и жизнь»: Десятилетняя стратегия по планетологии и астробиологии 2023–2032 | Область технологий общего назначения: автономность | «[…]выполнять запланированные операции в рамках удаленных, но сложных планетологических и астробиологических миссий. Машинное обучение и искусственный интеллект могут поддержать внедрение автономности в таких условиях.» | Одним из потенциальных применений фундаментальной модели является принятие решений и их выполнение на месте в ходе планетарных миссий. |
Астробиологические потоки данных (см, например, Рисунок 2) часто требуют значительных затрат для их получения, а также нуждаются в экспертизе предметной области для их создания и использования. В результате многочисленные астробиологические наборы данных содержат лишь небольшое количество точек данных и могут быть очень разреженными, а также ограниченными в геопространственном и временном отношении. Более того, различные модальности данных, релевантные для инструментального обеспечения миссий (Таблица 2), редко интегрируются между собой и ещё реже комбинируются с лабораторными исследованиями и измерениями, полученными в земных аналогах.
Дисциплина | Типы/потоки данных |
|---|---|
Геоморфология | Изображения ландшафта, топография высокого разрешения |
Дистанционное зондирование | Минералогия, состав элементных концентраций |
Водная геохимия | Физико-химический состав |
Геомикробиология | Геномика |
Органическая геохимия | Липидные биомаркеры |
Таблица 2: Некоторые примеры типичных модальностей астробиологических данных. Геоморфология (Palucis et al, 2014; Rogers et al, 2023), Дистанционное зондирование (Warren-Rhodes et al, 2023; Nichols et al, 2024; Harris et al, 2022), Водная геохимия (Tosca et al, 2008), Геомикробиология (Li et al, 2023; Pontefract et al, 2017), Органическая геохимия (Wilhelm et al, 2017; Nichols et al, 2023; Georgiou and Deamer, 2014).
Данные, указанные в Таблице 2, имеют различные форматы и стандарты форматов, пространственные масштабы и разрешения, временные шкалы, широкое разнообразие типов, и редко комбинируются при использовании традиционных методов анализа. Хотя существуют несколько признанных сообществом репозиториев данных и предлагаемых стандартов метаданных (таких как База данных обитаемых сред астробиологии — AHED, https://ahed.nasa.gov/, и Wolfe et al, 2024), сейчас крайне мало исследований, в которых использовались измерения из множества разнородных наборов данных с приложениями к астробиологии (Warren-Rhodes et al, 2023). Поскольку уверенность в обнаружении, идентификации и характеристике любой потенциальной внеземной жизни должна, в принципе, возрастать при использовании множественных комбинированных измерений (Neveu et al, 2018), и поскольку любое потенциальное обнаружение внеземной жизни должно подвергаться высочайшему уровню проверки, интеграция информационных признаков, содержащихся в множественных измерениях, имеет существенное значение для окончательного подтверждения обнаружения внеземной жизни.
В этом контексте машинное обучение (ML) в целом, и фундаментальные модели (ФМ) в частности (см. Раздел 3 ниже), могут помочь оптимизировать и упростить аналитический конвейер, необходимый для обработки и интеграции сложных мультимодальных наборов данных, требуемых для астробиологии. Доступность достаточно больших одномодальных потоков данных, релевантных для астробиологии, ограничена с учётом объёмов данных, обычно требуемых для эффективной работы моделей глубокого ML, и это особенно верно для мультимодальных потоков данных, которые ещё реже собираются в единый корпус данных.
Таким образом, задача обнаружения или прогнозирования обитаемости и потенциальных биологических явлений за пределами Земли по-прежнему представляет значительные трудности для ИИ/ML, которые потребуют тщательной обработки данных, разработки моделей, проектирования и настройки, а также стратегий обучения для наилучшего выявления признаков, релевантных для астробиологии.
Более того, измеренные внеземные условия неизбежно будут новыми, то есть с распределением, отличным от диапазона наблюдаемых условий на Земле, что потребует от моделей ИИ/ML способности к обобщению в условиях, выходящих за границы известных параметров. Критически важно, чтобы любые прогнозы, сделанные моделью, обученной на земных образцах, могли экстраполироваться и адаптироваться в случае новых и уникальных сред, которые могут быть обнаружены на других мирах, представляющих «жизнь, какой мы её не знаем».
Построение обобщаемых ФМ, способных экстраполироваться на условия, релевантные для астробиологии, вероятно, потребует критериев оценки и наборов данных, отличных от тех, которые обычно используются в ML, и может происходить за счёт прогнозной эффективности при применении в земных условиях (то есть способность к обобщению может снижать эффективность для специфичных земных условий). Разработчикам моделей следует учитывать эту потребность в адаптации и её последствия для проектирования наборов данных для валидации/тестирования, а также использование подходов к моделированию для минимизации переобучения (то есть снижения эффективности обобщения на невидимые данные) с целью обеспечения реалистичных оценок степени обобщения, ожидаемой при развёртывании. Архитектуры моделей и подходы к обучению, улучшающие производительность в условиях малого количества примеров (few-shot, где используются очень маленькие размеченные обучающие данные) и нулевого количества примеров (zero-shot, где модель обобщает на новые, не видимые ею ранее классы), имеют первостепенное значение, учитывая небольшие наборы данных в области астробиологии. Кроме того, эти проблемы предоставят возможность оценить ограничения ФМ и способствовать совершенствованию модели.
Напомним, что фундаментальная модель (ФМ) определяется как крупномасштабная система машинного обучения, обученная на огромных наборах данных для кодирования фундаментальной, общей информации и взаимосвязей, что позволяет ей служить основой для различных последующих приложений при минимальном дополнительном обучении и дообучении (Bommasani et al, 2021). Закодированная информация может принимать форму сложных корреляций и закономерностей, которые, будучи усвоенными моделью, позволяют выполнять быстрые и сложные запросы и анализ исходных данных и (что критически важно) быструю доработку модели для конкретных, специализированных задач без затрат, связанных с первоначальным обучением.
Работу ФМ также можно рассматривать и использовать как своего рода сжатие данных, которое не только сохраняет значимую информацию, но и структурирует её таким образом, чтобы она была оптимальной для дальнейшего использования. Большие языковые модели (LLM) являются наиболее известным примером ФМ и используются в последующих приложениях для создания чат-ботов, ассистентов по написанию кода, «экспертных систем» и т.д., ориентированных на язык как на основной источник данных для ввода и вывода. ФМ могут быть дообучены на меньших, специализированных наборах данных (например, результатах конкретного исследования или использования нового измерительного прибора) для предоставления более точных и релевантных анализов за счёт использования предварительных знаний, закодированных во внутреннем представлении данных модели.
Хотя создание таких крупномасштабных ФМ требует значительной экспертизы в области машинного обучения, усилий и ресурсов, их адаптация для конкретных последующих задач часто происходит быстро и требует меньшей степени экспертизы в области ML, что делает их отличными инструментами для быстрой разработки в областях, требующих широкого спектра приложений. В последние годы ФМ возникли как новая парадигма, способная радикально ускорить применение ML к специализированным задачам и более широкому диапазону и типам данных (Szwarcman et al, 2024; Shinde et al, 2024).
Для астробиологии ФМ могут предоставить уникальные и критически важные возможности для обнаружения и фиксации характеристик жизни. Например, ФМ могут быть полезны для извлечения любой информации (в виде признаков внутри данных), которая может интерпретироваться как отклонение от абиотического базового уровня, который сам по себе может быть корректно количественно определён только после анализа больших наборов данных или комбинаций разрозненных переменных, не очевидных, не интуитивных в рамках традиционных дисциплин (Раздел 5.1).
Эта универсальность делает ФМ крайне важными в ряде научных областей, включая молекулярную биологию (свёртывание/предсказание белков; Nussinov et al, 2022), метагеномику (Mathieu et al, 2022; Tonkovic et al, 2020), микробную экологию (Warren-Rhodes et al, 2023; Roussel and Bohm, 2023), а также климатические науки и моделирование (Mukkavilli et al, 2023), где одни и те же наборы данных используются для множества различных задач.
В последнее время NASA и IBM создали гармонизированную геопространственную ФМ на основе данных Landsat и Sentinel-2 (HLS), которая использует обширные данные визуализации HLS поверхности Земли для выполнения геопространственного анализа (Jakubik et al, 2023). Эта ФМ кодирует информативные признаки во внутреннем (латентном) представлении поверхности Земли, которое является широким по охвату, но фиксирует все корреляционные и обусловленные законами взаимосвязи состава суши и океана, оптических свойств, топографии и т.д.
Впоследствии, после обучения, ФМ (которая полностью описывается своими многочисленными внутренними параметрами) может быть быстро и легко воспроизведена и дообучена для таких задач, как оценка рисков пожаров или наводнений на основе данных более высокого разрешения или новых данных. Эти возможности, как и возможности многих ФМ, стали возможны благодаря достижениям в области глубокого обучения (в частности, благодаря механизмам самовнимания, используемым в архитектурах Transformer), которые позволяют моделям выявлять и кодировать семантические взаимосвязи в данных. Это позволяет ФМ строить внутренние представления, которые не только являются всеобъемлющими, но и переносимыми на различные задачи.
ФМ начинают использоваться и в областях, более непосредственно связанных с астробиологией. Например, была предложена и создана астрономическая ФМ для звёздной астрономии (Leung and Bovy, 2024), которая может применяться к таким данным, как данные миссии Gaia, для генерации спектров по звёздным параметрам и выполнения различных дискриминационных и выводных задач, включая предсказание кривых межзвёздного поглощения и заполнение пробелов в спектрах.
Модель ClimaX была разработана как фундаментальная модель, специфичная для прогнозирования погоды и климата, позволяющая моделировать и прогнозировать погодные и климатические проекции (Nguyen et al, 2023). Примером миссии с наборами данных, охватывающими как одномодальную, так и мультимодальную среду и разделы астрофизики и астробиологии, является новая обсерватория Веры Рубин (Vera C. Rubin Observatory, 2025). В ходе своего 10-летнего обзора пространства и времени (Legacy Survey of Space and Time) Rubin будет генерировать исключительно большие объёмы изображений в различных масштабах и вести к последующим спектроскопическим исследованиям. Такой тип экосистемы данных выиграет от использования ФМ для координации и приоритезации различных многомасштабных исследований.
Критически важно, что ФМ не обязательно требуют огромных наборов данных (хотя их область применения может быть более ограниченной при небольших наборах), и они могут быть явно «мультимодальными» за счёт использования разрозненных наборов данных. Более того, для новых задач, охватывающих разные типы данных, можно комбинировать несколько видов ФМ. Например, белково-языковая модель (которая фиксирует информацию о функциональных синтаксисах белков) может быть объединена с такой моделью, как AlphaFold (которая фиксирует физику сворачивания белков), и с LLM для обеспечения интерфейса на естественном языке для анализа структуры и функции белков (Xiao et al, 2024).
Однако, как и все аналитические методы в науке, и особенно методы ИИ/ML, ФМ представляют собой многочисленные проблемы в области воспроизводимости и обобщаемости результатов и поведения, прослеживаемости причинно-следственных связей в данных, а также смещений, обусловленных либо явными решениями при маркировке данных, либо скрытыми выборами в немаркированных данных на самом начальном этапе сбора данных или даже при проектировании приборов или экспериментов. Для астробиологии, где обнаружение жизни является центральной задачей, такие вопросы могут быть особенно важны для характеристики любой ФМ или её последующего, дообученного приложения. Это особенно критично, поскольку ФМ могут использоваться не только для обнаружения жизни, но и для оценки обитаемости после характеристики локальных микро-сред в ходе планирования и исследования миссий (например, Раздел 5.2).
Для формирования доверия к ФМ и её связанным мультимодальным модулям мы предлагаем комплексную систему валидации и бенчмаркинга, тесно согласованную с лучшими практиками исследований фундаментальных моделей. Эта система имеет модульную конструкцию: каждая модальность сначала проходит целевой бенчмаркинг (например, реконструкция гипотез по результатам миссий, точность интерпретации спектров, устойчивость к пропускам в предметной области). Затем, чтобы каждая модальность могла работать с другой модальностью (кросс-модальные процессы), выходной результат связывания (кросс-модальная интеграция) отдельно оценивается на предмет согласованности и совместной синергии. Задачи с «истинными значениями» (ground-truth), определённые априори экспертами в предметной области, служат опорными точками. Люди, оперируя базовыми показателями, экспертные группы оценивают интерпретируемость, правдоподобие гипотез, точность цитирования и эпистемическую надёжность, обеспечивая прозрачное сравнение с выходными данными модели. Чтобы избежать переобучения и «утечки» бенчмарков, протоколы опираются на воспроизводимые разбиения данных, чётко документированные настройки гиперпараметров и статистически репрезентативную выборку. Устойчивость тестируется с помощью состязательных и выходящих за пределы распределения запросов, которые исследуют пределы интерпретации. Эта оценка встроена в цикл обратной связи по оценке производительности, позволяя итеративную доработку системы для укрепления ориентированного на человека цикла контроля качества.
Воркшоп «Фундаментальные модели для астробиологии» был структурирован как мероприятие из двух частей, состоящее из однодневного виртуального вводного курса, за которым последовала трехдневная очная часть.
Учитывая разнообразие дисциплин, представляющих участников воркшопа (от науки о данных до астробиологии), заранее были прочитаны онлайн-доклады, чтобы обеспечить участников общей базой междисциплинарных знаний. Это позволило участникам установить базовый уровень понимания между различными областями и облегчить обсуждение. Этот виртуальный вводный курс охватывал: основы машинного обучения, фундаментальные модели, лучшие практики использования ИИ/ML, основы биосигнатур, характеристику экзопланет и обитаемость, технологии автономности на месте (in-situ) и состав астробиологических образцов.
Очная часть воркшопа прошла в Институте SETI в Маунтин-Вью, Калифорния, с 24 по 26 февраля 2025 года.
Подробнее о воркшопеЧтобы помочь сформировать первоначальные обсуждения, представители всех Исследовательских координационных сетей (RCN) NASA по астробиологии представили вводную информацию о RCN и обсудили текущие исследовательские приоритеты и случаи их применения к ИИ/ML. RCN включают: Nexus for Exoplanet System Science (NExSS), Network for Life Detection (NfoLD), Network for Ocean Worlds (NOW), LIFE: Early Cells to Multicellularity и Консорциум пребиотической химии и сред ранней Земли (PCE3).
Затем на воркшопе был составлен список предложений и потребностей для астробиологии, которые ИИ/ML (и в частности ФМ) могли бы поддержать. Вокруг трех первоначальных категорий быстро возник набор тем и критических вопросов: паттерны и интерпретации, миссии и наука, движимая гипотезами. Были сформированы рабочие группы вокруг этих категорий, и категории были подробно обсуждены.
Группа «Паттерны и интерпретации» сосредоточилась на вопросах, касающихся паттернов и фундаментальных взаимосвязей при попытке идентифицировать биотические образцы в противовес абиотическим. В конечном итоге это привело к обсуждению границы между жизнью и не-жизнью и ее контраста с идеей континуума между живыми и неживыми системами, причем группа определила необходимость разработки ML-приложения для обнаружения биосигнатур и потенциала ФМ служить базовым приложением для этой работы (Раздел 5.1).
Темы и вопросы группы «Миссии» были сосредоточены на дизайне миссий и операциях миссий, а также на том, как ИИ/ML могли бы дополнить эти задачи. Например, использование ИИ/ML для получения ответов на запрос типа: «Учитывая текущие измерения тела Солнечной системы, какое место на нем имеет наибольший доверительный интервал наличия обнаруживаемых биосигнатур?» Это привело ко второму выводу воркшопа: необходимости вовлечения ИИ/ML на всех этапах дизайна и операций миссии, это стимулировало предложения о создании Модели Астробиологической Миссии (AMM) для выполнения этих задач (Раздел 5.2 ниже).
Третья и последняя рабочая группа, «Гипотеза», была сосредоточена вокруг идеи использования ИИ/ML для помощи ученым во время их исследований. После обсуждения различных ситуаций использования, включая генерацию гипотез, эта группа пришла к выводу, что текстовая модель, обученная на корпусе исследовательской литературы, документации миссий и смежных материалах, имеет значительный потенциал. Гипотетический «Astrobiology-Chat» или AB-Chat LLM мог бы поддержать как исследовательские потребности, так и потребности в коммуникации и быть интегрированным с другими производными приложениями ФМ (см. Раздел 5.3 ниже).
Общим выводом воркшопа (Раздел 6) было то, что мультимодальная ФМ для астробиологии имеет большой потенциал. В дополнение к продвижению конкретных научных целей (например, обнаружение жизни) такая модель потребовала бы развития экосистемы астробиологических данных и соответствовала бы целям как роботизированного, так и человеческого исследования. В равной степени, конкретная архитектура астробиологической ФМ требует дальнейшего изучения.
Хотя указана мультимодальная модель, другие варианты включают набор унимодальных ФМ, построенных вокруг различных структур моделей (например, архитектуры GPT против BERT для обработки естественного языка).
В следующих разделах эти выводы описаны подробно, основываясь на трех областях фокуса/вариантах использования, определенных на воркшопе.
Определение существенных свойств жизни и критериев доказательства её существования — это два взгляда на одну и ту же проблему. Хотя в прошлом предпринималось множество попыток сформулировать универсальные определения жизни (такой, какой мы её знаем), исходя из базовых принципов, ни одна из них не смогла убедительно разрешить все остающиеся вопросы (Neveu et al., 2018; Cleland, 2019). Эта трудность обусловлена как минимум двумя причинами. Первая — отсутствие на сегодняшний день примера нетеррестриальной жизни; отличные биохимические системы могут возникать в результате коэволюции инопланетной жизни и нетеррестриальных сред, что может потребовать стратегий обнаружения, выходящих за рамки земных предположений. Вторая причина заключается в том, что различие между биотическими и абиотическими процессами может быть нечётко очерченным (Рисунок 3), а представлять собой зависящий от контекста континуум (Jheeta et al., 2021; Ratliff et al., 2023).
В рамках каждой из исследуемых в настоящее время модальностей биосигнатур (например, изотопный состав, молекулярные виды или геномика) доступные обучающие данные обычно охватывают лишь узкий диапазон биологических и абиотических параметров, причём первые ограничены хорошо изученной современной земной биологией. Например, в этих наборах данных отсутствует важная информация о различных состояниях материи, таких как древние геохимические состояния, пребиотические системы или самые ранние признаки коэволюции. Более того, они в большинстве случаев не содержат представлений о потенциальных альтернативных биохимиях (см., однако, Chandru et al., 2024). Такое неполное и ориентированное на Землю покрытие может серьёзно ограничить нашу способность обобщать методы обнаружения биосигнатур, особенно в отношении жизни, такой, какой мы её ещё не знаем.
Предполагается, что ИИ/ML, обладающие способностью обрабатывать многомерные данные (см. Раздел 1 выше), могут помочь преодолеть эти ограничения (по крайней мере, в рамках известного ландшафта сложных химических систем) и расширить возможности предвидения, прогнозирования и/или обнаружения внеземной жизни во всём разнообразии её потенциальных проявлений. Основная возможность заключалась бы в создании ФМ, интегрирующей наборы данных по различным модальностям (например, информационным, молекулярным, структурным, метаболическим, коэволюционным) для формирования надёжной основы интегрированных биосигнатур. Такой подход повысил бы уверенность в обнаружении внеземной жизни, даже когда отдельные унимодальные сигнатуры остаются смещёнными и неполными.
Конечной целью стало бы создание соответствующих механизмов, которые объединяют различные модальности и обучающие наборы данных в единое пространство представлений, где становятся очевидными корреляции между модальностями. Этот интеграционный слой должен быть достаточно совершенным, чтобы взвешивать различные модальности в соответствии с их надёжностью и релевантностью в конкретных контекстах, решая проблему неполноты или смещённости отдельных сигнатур.
Новые инструменты ИИ/ML (Cleaves et al., 2023) предлагают потенциально новый подход не только к выявлению сложных комбинаций сигнатур данных, которые могут быть диагностическими для жизни, но и к определению того, какие именно комбинации являются диагностическими (и даже к улучшению нашего понимания того, что представляет собой жизнь на Земле), по сути, это эмпирическое определение жизни. Поэтому предлагается, чтобы в рамках начального этапа разработки и применения астробиологической ФМ была создана мультимодальная база данных абиотических и биотических образцов с конкретной целью обнаружения биосигнатур в качестве последующей задачи.
Создание этой базы данных и ФМ для обнаружения биосигнатур потребует итеративного подхода: начиная с проверки концепции на существующих данных, затем уточнения предсказательной способности модели путём устранения ключевых пробелов в знаниях и, в конечном итоге, интеграции разнородных наборов данных из миссий и исследований земной биосферы для создания масштабируемой, адаптивной основы для обнаружения жизни.
Такая работа позволила бы ответить на ряд нерешённых вопросов. Например, какие данные наиболее ценны для обучения ФМ или его последующих применений для обнаружения жизни? Один из подходов мог бы заключаться в обучении нескольких ФМ (при наличии достаточного объёма данных) с использованием различных комбинаций входных данных и последующей донастройке этих ФМ для прогнозирования биосигнатур с целью выявления того, какие входные данные действительно необходимы для достижения наилучшей производительности.
Альтернативный подход для достижения той же цели — это обучение одной ФМ всеми входными данными с последующим анализом важности признаков, с применением методов прунинга или объяснимого ИИ. Или же можно обучить множество унимодальных ФМ и объединить их в несколько мультимодальных ФМ с помощью адаптеров, контрастивного обучения и т.п. В целом такая работа позволила бы научному сообществу решать важные вопросы, связанные с данными о жизни и не-жизни (Рисунок 3). Каковы оптимальные признаки/измерения для различения жизни и не-жизни? Можем ли мы выявить потенциально аномальные биосигнатуры с помощью подходов без учителя? Существует ли эмпирическая, многомерная граница/градиент между жизнью и не-жизнью, и если да, то какова она? Снижение размерности и кластеризация — это лишь некоторые из методов машинного обучения без учителя, помогающих находить скрытые структуры и паттерны. Во всех этих случаях общий вопрос звучит так: как оценивать такие (донастроенные) модели ФМ, чтобы определить, какие из них более предсказательны, чем другие.

На изображении представлена схема, иллюстрирующая сдвиг в постановке фундаментальных вопросов астробиологии под влиянием методов искусственного интеллекта и машинного обучения.
В верхней части рисунка показан классический вопрос: «Где провести границу между живым и неживым?»
Приведена шкала с континуумом объектов от «менее похожих на жизнь» (слева) до «более похожих на жизнь» (справа):
аминокислота → прион/РНК → вирус → митохондрия → бактерия → человек
Это отражает традиционную сложность — отсутствие четкой дискретной границы между живым и неживым, скорее наличие непрерывного спектра сложности.
Ниже представлены три переформулированных вопроса, каждый из которых сопровождается схематичными визуализациями пространства признаков:
Вопрос: «Какое представление признаков с помощью ИИ/ML является оптимальным для различения жизни и нежизни?»
Сравниваются два варианта:
Неполезное представление признаков — признаки (a, c… x) не образуют разделимых кластеров.
Полезное представление признаков — признаки (2, 3… n) формируют четкие разделимые группы (синий и оранжевый кластеры).
Вопрос: «С помощью обучения без учителя, можем ли мы идентифицировать аномальные биосигнатуры за пределами Земли (или даже на Земле)?»
Распознавание известных категорий: данные образуют два четких кластера (синий и оранжевый).
Выявление аномалий: появляется третий, отдельно расположенный кластер (зеленый), представляющий неизвестную ранее аномалию.
Вопрос: «Существует ли эмпирическая многомерная граница между жизнью и нежизнью? Если да, то какова она?»
Сравниваются два подхода:
Строгое разделение (Strict divide): четкая граница между двумя группами.
Многомерный градиент (Multidimensional gradient): группы соединены переходной областью, отражающей континуальность и постепенность переходов.
Схема демонстрирует, как ИИ и машинное обучение трансформируют классические вопросы астробиологии:
Вместо поиска единственной дискретной границы предлагается поиск оптимального многомерного пространства признаков, где живое и неживое могут быть различимы статистически.
Обучение без учителя позволяет выявлять аномалии, выходящие за рамки известных категорий, что критически важно для поиска внеземной жизни.
Результатом может оказаться не жесткая граница, а многомерный градиент — что более адекватно отражает сложность и непрерывность явлений в природе.
Требования для разработки варианта использования ФМ «Обнаружение жизни»:
(1) Разработка доказательства концепции путём повторного анализа данных миссий, экспериментальных работ и земных аналогов. Разработка надёжной ФМ, ведущей к последующей задаче обнаружения биосигнатур, начинается с использования существующих наборов данных для создания первоначального доказательства концепции, которое может включать сравнение схожих наборов данных между земными аналогами/Марсом и Луной/астероидами в качестве «абиотических» конечных элементов.
Существующие наборы данных включают AHED (органические вещества и минералогия), Planetary Data System (PDS, спутниковые изображения и данные отражательной способности, https://pds.nasa.gov), Sedimentary Geochemistry and Paleoenvironments Project (SGP, седиментационная геохимия, https://sgp.stanford.edu), репозитории данных пиролизной газовой хроматографии-масс-спектрометрии (Cleaves et al., 2023) и изображения Lunar Reconnaissance Orbiter Camera (LROC) (Lesnikowski et al., 2024). Выделено несколько типов данных, для которых, как считается, в литературе имеется достаточная широта для использования при разработке доказательства концепции. К ним относятся: видимые изображения, отражательная способность в видимом и ближнем ИК-диапазоне (VNIR), элементный и изотопный состав, ГХ-МС, Раман-спектроскопия, РФА/РФА-дифракция и топография. Это подмножество представляет собой «низко висящие фрукты», с потенциалом добавления дополнительных типов данных в зависимости от прогресса инициатив открытой науки и стандартизации данных. Следующие шаги затем будут заключаться в расширении модели путём:
(2) Интеграция наборов данных и устранение пробелов в знаниях. Интегрированный подход обеспечит гибкое обнаружение биосигнатур, позволяя создать итеративную, масштабируемую основу, адаптирующуюся к новым открытиям. Одной из целей могла бы быть синхронизация сбора данных в рамках планетарных миссий и земных наборов данных, обеспечивая, чтобы все данные основывались на одних и тех же измерениях (например, композиционных, структурных, метеорологических) и были стандартизированы.
Другой целью было бы устранение ключевых пробелов в данных, особенно тех, которые наиболее актуальны в краткосрочной перспективе и непосредственно связаны с предстоящими астробиологическими миссиями (например, прогресс в различении биотических и абиотических сигнатур, а также их имитаций). Заполнение этих пробелов позволит:
(i) укрепить предсказательную способность модели и расширить её возможности распознавать коэволюции за пределами Земли (т.е. биотические, абиотические сигнатуры и их имитации, генерируемые специфическими физическими и биологическими ограничениями конкретного мира);
(ii) использовать мультимодальную природу ФМ.
Для обеспечения достоверности такой ФМ (или варианта использования ФМ) необходимо комбинировать несколько уровней измерений/данных, что может привести к новым выводам, корреляциям и паттернам. Эти комбинации могут включать:
Химические и морфологические корреляции;
Биологические и экологические взаимосвязи;
Пространственно-временные паттерны;
Контекстуальный анализ (необходимый для оценки потенциальных биосигнатур в рамках их планетарной среды);
Перекрёстную валидацию с помощью нескольких независимых методов обнаружения.
Объединяя эти элементы в мультимодальную структуру обнаружения, такая модель представляла бы наиболее комплексную и адаптивную стратегию для выявления потенциальных биосигнатур и исключения абиотических альтернатив, предлагая наиболее эффективный путь в поисках жизни за пределами Земли и углубляя наше понимание жизни на Земле.
(3) Обобщённые и целевые стратегии исследования. Расширение прикладных задач параллельно с этой работой обеспечило бы эволюцию модели с учётом реальных ограничений миссий. Целью стала бы синхронизация сбора данных в рамках планетарных миссий и работ с земными аналогами, обеспечивая совместимость и взаимодополняемость всех данных миссий и аналогов. Такой интегрированный подход позволил бы создать гибкое, адаптивное обнаружение биосигнатур, создавая масштабируемую основу, динамически подстраивающуюся под новые открытия. По-настоящему комплексная ФМ потребовала бы всех доступных данных (химия, геология и биология) для максимизации потенциала обнаружения жизни за пределами Земли. Конечным продвижением стало бы то, что ФМ (или вариант использования ФМ) могла бы кодировать или формулировать базовые принципы жизни и помогать уточнять концепции биосигнатур, абиотических и имитирующих материалов и процессов, а также разрабатывать целевые стратегии исследования (например, научные вопросы, гипотезы, эксперименты, инструменты, технологии) для конкретных миров.
Анализ данных о других планетарных телах предоставляет прямые оценки внеземных сред, делая полетные миссии чрезвычайно ценными для обнаружения не основанных на Земле форм жизни и связанных с ними процессов. Однако полетные миссии ограничены ресурсами и временем по сравнению с земными лабораторными анализами из-за ограничений по размерам, весу и энергопотреблению, а также задержек связи и ограничений скорости передачи данных. По мере того как миссии отправляются дальше в Солнечную систему, включая миссию Juice для исследования ледяных лун Юпитера (Fletcher et al, 2023), Europa Clipper (Pappalardo et al, 2024) и миссию Dragonfly к Титану (Barnes et al, 2021), ограничения полетных миссий будут усиливаться. Связь, потребление энергии, сжатие данных, масса и способность реагировать на данные для приоритезации образцов в реальном времени — это лишь некоторые из параметров, которые становится все сложнее балансировать с потребностями миссии, что создает стимул для большей автономности и прогнозной аналитики и способности принятия решений. Поэтому мы предлагаем, чтобы вторым последующим приложением астробиологической ФМ стала специализированная Модель Астробиологической Миссии (Astrobiology Mission Model, AMM) для максимизации научной отдачи всех планетарных миссий. AMM будет использоваться как на этапе проектирования миссии, так и на этапе операций миссии, чтобы ограничить потенциал неубедительных измерений и увеличить вероятность обнаружения внеземной жизни посредством анализа на месте (in-situ).
Приложения AMM: AMM будет доступна для команд по проектированию миссий для полной оптимизации полезной нагрузки миссии на этапе проектирования. Основной целью оптимизации будет оценка потенциальных ограничений набора инструментов в данной планетарной среде и определение дополнительных измерений, которые потребуются для повышения уверенности в интерпретации астробиологически релевантного измерения в конкретном месте на планетарном теле (Рисунок 4). Важно, что это приложение будет использоваться для максимизации объема информации и ресурсов, доступных команде по проектированию миссии; при этом вся информация от AMM все равно будет перекрестно проверяться экспертами в предметной области. Другими словами, функция AMM будет заключаться в том, чтобы быть дополнительным агентом для помощи человеческим ученым, инженерам и членам проектного управления в проектировании миссии (Рисунок 4).
Во время операций миссии AMM будет использовать точные спецификации оптимизированной инструментальной полезной нагрузки вместе с фоновыми знаниями о конкретном месте на целевом планетарном теле, чтобы помогать в принятии решений во время операций, ограниченных временем и ресурсами (Рисунок 4). AMM может помочь командам операций миссии в оценке и синхронизации полученных данных и доступных земных данных для быстрой оптимизации последующих измерений для достижения научных целей миссии. Как вариант, в долгосрочной перспективе бортовая AMM может способствовать агентному ИИ во время операций миссии, обеспечивая автономное принятие решений и реакцию в реальном времени на измерения на месте (Рисунок 4; см. Chien et al, 2024), даже для миссий во внешней Солнечной системе с относительно длительным временем передачи данных (см. Theiling et al. 2022). Степень автономности, предоставленная AMM, будет курироваться командой миссии для конкретной миссии.

Представлена блок-схема, описывающая жизненный цикл космической миссии, разделенный на два основных этапа: Проектирование миссии (Mission Design) и Операции миссии (Mission Operations). Схема также демонстрирует взаимодействие между человеком, Моделью Астробиологической Миссии (AMM) и искусственным интеллектом.
1. Проектирование миссии (Mission Design) описывает подготовку к запуску.
Процесс: Начинается с «Принятия решений под руководством человека» (Human-led Decision Making). Далее следует «Формулирование научных задач миссии» (Mission Science Formulation), затем «Выбор полезной нагрузки» (Payload Selection) и завершается «Проектированием космического аппарата» (Spacecraft Design).
Роль AMM: Блок «Ввод/вывод AMM» (AMM Input/Output) (оранжевый) взаимодействует с людьми, принимающими решения, и получает обратную связь от этапов формулирования задач, выбора нагрузки и проектирования аппарата (серые стрелки идут назад к AMM).
Связь: Синяя стрелка ведет от «Проектирования космического аппарата» вниз к этапу операций.
2. Операции миссии (Mission Operations) описывает работу миссии после запуска.
Процесс: Снова начинается с «Принятия решений под руководством человека». Далее следует «Управление космическим аппаратом» (Spacecraft Operation), затем «Анализ на месте, управляемый данными» (Data-Directed in situ Analysis) и завершается «Результатами миссии» (Mission Results) (опубликованными и неопубликованными).
Роль AMM и ИИ:
Блок «Ввод/вывод AMM» взаимодействует с людьми и получает данные от управления аппаратом и анализа (серые стрелки).
Звездочки (*) указывают на «Бортовой ИИ реального времени» (Real-time Onboard AI). Эти связи показывают, что AMM напрямую влияет на управление аппаратом и анализ данных через искусственный интеллект.
Обратная связь: Синяя стрелка от «Результатов миссии» ведет обратно в самый верх схемы к «Проектированию миссии», замыкая цикл (итеративный процесс).
Легенда (внизу схемы)
Серая стрелка: Ввод данных AMM (AMM Input).
Оранжевая стрелка: Вывод данных AMM (AMM Output).
Синяя стрелка: Принятие решений под руководством человека (Human-led Decision Making).
Звездочка (*): Бортовой ИИ реального времени (Real-time Onboard AI).
Схема показывает гибридную модель управления, где человек принимает ключевые стратегические решения, но опирается на систему AMM, которая, в свою очередь, использует бортовой искусственный интеллект для оперативных задач во время полета.
Применения AMM будут обширными и не ограничатся этим начальным сценарием использования. При наличии надлежащих данных AMM может помочь и оптимизировать распространенное и часто сложное решение задач, связанных с миссией, таких как неисправности инструментов, которые могут затрагивать несколько подсистем, или проблемы с калибровкой, не распознанных ранее на этапе разработки миссии. Такая AMM также будет ценна для оценки наборов данных, собранных во время предыдущих миссий, кампаний земных аналогов и лабораторных исследований, чтобы помочь выявить закономерности в данных и/или создать взвешенные вероятности, которые могут указывать на жизнь, биотические или абиотические процессы или обитаемые среды, включая те, которые не были обнаружены во время первоначальной интерпретации данных.
Кроме того, AMM может быть развернута в сочетании с другими доступными технологиями для помощи в сортировке образцов и выборе образцов для локальных целей с наибольшей вероятностью обнаружения биосигнатур в сотрудничестве с командой миссии, потенциально используя дополненную реальность (AR). Технология AR может быть применена как в роботизированных, так и в возглавляемых человеком исследовательских миссиях для задач, требующих высокоспецифической экспертизы, которые улучшаются за счет увеличения контекстной информации, включая выбор образцов, интерпретацию места или обслуживание.
Подходы к разработке AMM: Для проектирования миссии инфраструктуры уже существуют, как для начала разработки AMM (Verma et al, 2023; Vaquero et al, 2024; Bowkett et al, 2025), так и для обработки соответствующих миссии защищенных данных, таких как основанная на LLM модель ChatGSFC, размещенная в Центре космических полетов имени Годдарда NASA (NASA IT Talk, апрель 2025; CAIO Team at GSFC, личное сообщение). Для разработки AMM мультимодальная астробиологическая ФМ будет донастроена с использованием знаний доступной базы данных, охватывающих предыдущие миссии, включая наборы инструментов, возможности инструментов, примеры соответствующих матриц прослеживаемости (STMs), когда они доступны, собранные измерения (например, данные масс-спектрометрии, данные XRF и т. д., все эти эксперименты включая метаданные), а также литературу, сообщающую о потенциальных проблемах с этими данными. Кроме того, обучение на возможностях лабораторий и полевых кампаниях аналогов будет критически важным для настройки AMM.
Модель будет включать возможности коммерческих и прототипных инструментов, ранее разработанные предложения и исследования концепций миссий, а также доступные исследования аналогов, включая законы и нормативные акты, которые могут повлиять на полевые кампании. Сбор данных, необходимых для обучения AMM, может начаться сейчас, с добавлением дополнительных данных во время разработки Астробиологической ФМ.
Для операций миссии AMM может быть дополнена конкретными деталями об инструментах конкретной миссии, включая возможности инструментов, коммерческие аналоги, соответствующие наборы данных, полученные на макетных и инженерных моделях для миссии, ограничения передачи данных и ограничения по массе и мощности для оптимизации использования инструментов. Кроме того, могут быть предоставлены детали о конкретных биосигнатурах, потенциально релевантных для выбранного планетарного тела и места, которые еще не были включены в AMM (также синергетически с вариантом использования обнаружения жизни). Исследования аналогов также могут быть проведены во время подготовки миссии для повышения производительности и достижения определенных целей миссии. В совокупности внедрение ML в проектирование и операции миссии неизбежно. AMM может улучшить операции миссии во время полета, а также интерпретацию научных данных, обеспечивая более успешную миссию от концепции до операции, которая максимизирует шанс достижения целей миссии.
Барьеры для внедрения AMM: Хотя большая часть данных, необходимых для разработки AMM, существует, необходимо преодолеть несколько барьеров. Наиболее осязаемые барьеры включают отсутствие доступного финансирования для необходимой работы, ограничения платного доступа у конкретных журналов, необходимость «токенизировать» данные измерений, чтобы сделать их передаваемыми в качестве входных данных для ФМ, готовность доступных данных к ML и синхронизацию различных наборов данных вместе.
Кроме того, все чувствительные для миссии данные, включая схемы, спецификации инструментов, внутреннюю документацию по процедурам тестирования и данные, собранные для миссии, могли бы быть включены в AMM только в том случае, если бы она размещалась на защищенном сервере.
Потенциальные пути демонстрации ценности AMM будут включать внедрение уроков, извлеченных из миссий, которые либо развертывают, либо планируют развернуть автономность во время операции миссии (см. Nesnas et al, 2021; Theiling et al, 2022; Verma et al, 2023). Хотя есть тонкость в различии между автономностью и ИИ (автономность фокусируется на выполнении задач, ИИ часто фокусируется на решении проблем), порог риска/вознаграждения для передачи контроля над космическими миссиями компьютерам во время операций был пройден (Nesnas et al, 2021; Verma et al, 2023). По мере того как потребность в такой автономности и ИИ возрастает для миссий с разнообразными целями, унифицированная архитектура типа AMM имеет потенциал увеличить скорость и снизить стоимость и ограничения ресурсов (время, аналитическая мощность) разработки миссии.
Примечательно, что, хотя колебания в принятии системы типа AMM могут представлять понятный барьер для удаления людей из контура управления во время операций миссии, мы уже видели, как программа марсоходов успешно увеличивала объем автономности в каждой новой итерации марсохода, при этом все еще требуя человеческого ввода и руководства в критических ситуациях (Verma et al, 2023). Также существует необходимость укрепить взгляд на AMM как на инструмент, который будет использоваться рука об руку с людьми, а не как устройство, которое полностью удаляет их из процесса. Включение людей в контуре управления (humans-in-the-loop, HITL) с развернутой AMM могло бы обеспечить точную интерпретацию ИИ-агентом задач, определенных человеком, когда выполнение этих задач этично и безопасно, при этом увеличивая скорость и эффективность операции и научную отдачу миссии по сравнению с тем, что могло бы быть достигнуто только с помощью человеческих операторов. AMM должна будет быть серьёзно протестирована перед развертыванием.
Предполетные тесты для AMM типа HITL должны будут исследовать крайние границы параметров AMM, используя точные представления определенных операций миссии, так же как и любая технология, включенная в полетную миссию.
Предлагается, что AMM должна первоначально использоваться командами по разработке миссий для увеличения объема доступной информации, помощи в распознавании закономерностей и связей, которые не сразу доступны командам миссий, как это типично для ИИ, и для обеспечения того, чтобы базовые цели миссии могли быть достигнуты с предложенным набором инструментов.
Для миссий, разработанных с использованием AMM, будет обязательным адекватно сообщать об использовании AMM. Кроме того, в обозримом будущем все миссии все равно будут проверяться и выбираться в рамках традиционной, управляемой человеком, проверки миссий, независимо от использования AMM. Кроме того, чтобы увеличить надежность и доверие к AMM во время операций миссии, тесты должны быть проведены на похожих на миссию симуляциях и полевых кампаниях, чтобы проверить операционные пределы принятия решений в реальном времени в релевантных для миссии условиях и распознать любые потенциальные слабости, которые необходимо будет устранить до использования агентного ИИ, облегченного AMM. Конечной целью будет создание для AMM надежной архитектуры, готовой к полету, способной поддерживать разнообразные автономные миссии внутри Солнечной системы как с людьми в контуре управления, так и без них.
Астробиология — это междисциплинарная область, требующая экспертизы в химии, биологии, планетологии и вычислительных методах. Однако огромный объём научной литературы и данных космических миссий создаёт для исследователей трудности в эффективном синтезе информации. Астробиологические исследования требуют обширных знаний из разнообразной научной литературы и специализированного понимания многогранных данных из различных традиционных областей.
Например, поиск марсианских биосигнатур требует экспертизы, охватывающей всё: от пребиотической химии до геохимии и микробного метаболизма, а также знания детального анализа планетарных данных, таких как изображения и спектральные данные с орбитальных аппаратов или марсоходов. Эта междисциплинарность создаёт уникальные вызовы: статьи по пребиотической химии обычно представляют собой текстовые материалы, описывающие экспериментальные установки и химический анализ, тогда как данные о планетарных средах, такие как спектральные данные, часто архивируются в виде числовых массивов, требующих специализированного программного обеспечения и знаний планетологии для интерпретации. Эти различия в форматах и требуемой экспертизе усложняют синтез информации, выявление пробелов в знаниях и коммуникацию между дисциплинарными границами.
Для решения этих проблем предлагается разработать специализированную текстово-ориентированную большую языковую модель (LLM), включающую междисциплинарные астробиологические знания (Рисунок 5). Эта модель поможет выявлять критические пробелы в исследованиях, способствовать генерации и проверке гипотез, а также поддерживать взаимодействие с другими моделями, представляя собой ключевой пример либо автономной ФМ, либо варианта последующей донастройки в рамках мультимодальной астробиологической ФМ.
Признавая ценность ИИ, ориентированного на конкретную предметную область, NASA уже инвестировало в модель INDUS (название созвездия, набранное заглавными буквами), набор эффективных LLM, адаптированных для различных научных областей, включая планетологию и астрофизику (Bhattacharjee et al, 2024). Разработка INDUS также познакомит широкие слои научного сообщества с научными ФМ и улучшит принятие и восприятие этих инструментов и концепций. Энкодеры INDUS, основанные на архитектуре RoBERTa, были обучены на значительном корпусе из 60 миллиардов токенов, охватывающих эти релевантные научные области. Такое предметно-ориентированное обучение обеспечивает INDUS превосходную производительность в понимании научного языка и концепций по сравнению с общими LLM, что делает её потенциально подходящей моделью для донастройки в специализированную текстовую ФМ по астробиологии.
Кроме того, ориентированная на астробиологию LLM может служить интерфейсом к описанным выше мультимодальным вариантам использования (т.е. характеристике жизни и задачам миссий), помогая с инженерией промптов для этих моделей и поддерживая использование выходных данных (см. Раздел 1 и Рисунок 2). Однако усилия по разработке автономного AB-Chat (т.е. независимого от мультимодальной астробиологической ФМ) могут быстро продвигаться как последующее приложение модели типа INDUS LLM, и несколько приложений и начальных шагов описаны здесь более подробно.

Схема иллюстрирует архитектуру и рабочий процесс системы AB-Chat (Advanced Reasoning & Multimodal interface, продвинутый интерфейс рассуждений и мультимодальный интерфейс), предназначенной для задач в области астробиологии.
1. Источники данных (Входные данные слева)
В центральный блок поступают данные из шести различных источников:
- Astrobiology Literature: Литература по астробиологии (научные публикации).
- Prebiotic Chemistry Experiments: Эксперименты по пребиотической химии (лабораторные данные).
- Planetary Spectral Data: Планетарные спектральные данные (данные дистанционного зондирования).
- Mission Technical Reports: Технические отчеты космических миссий.
- Environmental Omics Data: Данные экологической составляющей (комплексный анализ биологических молекул в среде).
- Earth Analog Biosignature Databases: Базы данных биосигнатур земных аналогов (данные о местах на Земле, похожих на другие планеты).
2. Центральная система и Результаты (Центр и справа)
Все данные обрабатываются системой AB-Chat. Система генерирует три типа результатов (блоки справа):
- Knowledge Gaps: Выявление пробелов в существующих знаниях (поиск того, что еще не изучено).
- Hypotheses: Генерация новых научных гипотез.
- Mission & Model Integration: Интеграция результатов в моделирование и планирование космических миссий.
3. Цикл обратной связи (Внизу)
В нижней части схемы показан «Performance Feedback Loop» (Цикл обратной связи по производительности). Он обеспечивает постоянное улучшение модели через замкнутый круг из четырех этапов:
- Validation: Валидация (проверка достоверности результатов).
- Model Refinement: Уточнение модели.
- Retraining: Дополнительное обучение (обновление модели на новых данных).
- Benchmarking: Бенчмаркинг (сравнительный анализ эффективности).
Краткий итог:
Схема показывает, как система AB-Chat собирает разнородные научные данные (от химии до спектрального анализа), анализирует их с помощью ИИ, выдвигает гипотезы и находит пробелы в знаниях, при этом постоянно самообучаясь и улучшаясь через цикл валидации и переобучения.
Приложения AB-Chat: Потенциальные применения модели AB-Chat обширны. Во-первых, это возможность систематического анализа астробиологической литературы, включая аннотации, рецензируемые журналы и препринты. Эту деятельность можно расширить, включив более глубокие материалы из технических отчётов и документов миссий, руководств пользователей баз данных и даже метаданных из архивов наборов данных (в синергии с моделью AMM, Раздел 5.2). Затем AB-Chat можно будет использовать для генерации терминологически-независимых результатов поиска и резюме. Создание широко понятного контента из технической и специализированной литературы может способствовать более широкой научной коммуникации, просвещению и обучению студентов. А разработка миссий и исследований может быть улучшена за счёт синтеза исследовательских или проектных предложений и технических отчётов.
Чтобы действительно превратить AB-Chat из сложного инструмента поиска и суммирования в активного, управляемого гипотезами научного сотрудника, будет важно разработать выделенный продвинутый модуль логического вывода, вдохновлённый передовыми системами, такими как OpenAI o4 и Google Gemini 2.5 Deep Research. Этот движок логического вывода, разработанный полностью с нуля, будет интегрировать многошаговый логический вывод, планирование по цепочке рассуждений и возможности контрфактуальной оценки, жизненно важные для строгого формулирования и оценки астробиологических гипотез. В тесной связке с методами генерации с дополнением извлечения (RAG) из донастроенной языковой модели на базе INDUS, этот компонент логического вывода позволит AB-Chat динамически строить логические цепочки аргументов, оценивать альтернативные интерпретации и итеративно уточнять гипотезы по мере поступления новых планетарных данных и научных открытий. Таким образом, AB-Chat не просто синтезирует существующие знания, но и активно стимулирует процессы исследования и открытий, фундаментальные для междисциплинарных астробиологических исследований.
Потенциальные этапы пути разработки AB-Chat:
(1) Сбор и управление данными: Разработка начнётся с дальнейшей агрегации астробиологически релевантной литературы/данных из ключевых журналов и дополнительных ресурсов, ещё не охваченных обучающим корпусом INDUS (например, с акцентом на бионауки, происхождение жизни), а также документов, связанных с миссиями и наборами данных. Эти усилия необходимо будет сочетать с разработкой структурированных онтологий и таксономий (например, Environment Ontology (ENVO), Chemical Entities of Biological Interest (ChEBI), Planetary Ontology и т.д.) для критически важных поддоменов астробиологии, таких как пребиотическая химия, биосигнатуры, обитаемость и планетарные среды.
(2) Разработка и обучение модели: Будет необходима донастройка LLM (которой может быть либо мультимодальная астробиологическая ФМ, либо LLM типа INDUS) с использованием курированных наборов данных, специфичных для астробиологии, и внедрение методов генерации с дополнением извлечения для повышения точности и полноты воспроизведения знаний. Эти усилия потребуют непрерывной валидации и калибровки выходных данных модели на основе рецензируемой экспертами литературы и проверенных научных баз данных.
(3) Полная валидация и бенчмаркинг: Выходные данные модели необходимо будет протестировать на реальных исследовательских задачах, например, сравнение гипотез по данным миссий на Марс и Европу или интерпретация биосигнатур из планетарно-аналоговых сред на Земле. Производительность будет оцениваться с использованием бенчмарков, определённых экспертной проверкой, релевантных для предметной области метрик (например, междоменная устойчивость) и стресс-тестирования через запросы для оценки интерпретируемости, точности цитирования и эпистемологической надёжности.
(4) Развёртывание и расширение: Функциональная модель AB-Chat будет интегрирована в существующие исследовательские инфраструктуры и базы данных (например, Планетную систему данных NASA). Ориентированный на пользователя дизайн обеспечит исследование гипотез, синтез литературы и динамическое взаимодействие с запросами. Постоянное поступление новых публикаций и наборов данных поддержит непрерывное обучение. Долгосрочное обслуживание будет включать контроль версий, учёт обратной связи и расширение для поддержки дополнительных последующих задач и типов данных по мере продолжения развития и роста астробиологических исследований.
AB-Chat будет служить навигатором знаний, снижая когнитивную нагрузку за счёт суммирования сложных тем, выявления пробелов в исследованиях и облегчения проверки гипотез. Как и все текущие LLM и последующие модели, от него не ожидается замена оригинального человеческого контента. Скорее, он будет поддерживать и ускорять исследования, беря на себя рутинные задачи. Подобно тому, как современные поисковые системы в значительной степени заменили прошлые практики исследования материалов, значительно повысив эффективность поиска и систематизации, модель AB-Chat улучшит эффективность, понимание и коммуникацию в междисциплинарной области астробиологии.
Существующие универсальные LLM не обладают специализированной подготовкой, необходимой для задач, специфичных для астробиологии, что делает модель, ориентированную на предметную область, незаменимой для ускорения открытий и улучшения сотрудничества между дисциплинами. Включая структурированные онтологии и проверенные наборы данных, AB-Chat повысит точность и релевантность исследований в астробиологии с помощью ИИ.
В данной книге участники семинара по фундаментальным моделям для астробиологии представили результаты для сообщества астробиологов и их исследовательских программ. Были определены три ключевые области (разделы 5.1, 5.2, 5.3), в которых фундаментальные модели (ФМ) могут быть использованы для продвижения в этой области и решения центральной задачи астробиологии — обнаружения свидетельств прошлой или настоящей жизни за пределами Земли.
На протяжении очной части семинара неоднократно поднималась тема экосистем данных и их роли в разработке ФМ или более узких инструментов машинного обучения. Впервые это было отмечено во время презентаций Исследовательских координационных сетей (RCN), когда обсуждалось, как сети обрабатывают разнородные данные по всем проектам своих участников и какие типы данных при этом используются. Участники семинара единогласно пришли к выводу, что, несмотря на богатый объём данных в сообществе астробиологов и усилия NASA в области открытой науки, по-прежнему существует барьер в виде идентификации и стандартизации данных, препятствующий объединению больших пакетов мультимодальных данных для обучения с учителем и без учителя. Таким образом, стандартизация данных является важным следующим шагом для разработки ФМ, описанных в данной работе. Более подробная информация содержится в отчёте, представленном в рамках инициативы DARES 2025: «Экосистема данных астробиологии, открытая наука и эра ИИ», а также в предстоящей белой книге по экосистемам данных. Перечень выявленных потребностей на высоком уровне выглядит следующим образом:
Выявление, локализация и унификация всех доступных данных, связанных с астробиологией.
Получение необходимых данных, которые в настоящее время недоступны.
Улучшение доступа к уникальным ресурсам (например, историческим печатным данным).
Снижение барьеров для внедрения за счёт оптимизации процессов и поддержки.
Ещё одной важной темой, возникшей в ходе семинара, стал общий вопрос о том, должна ли астробиологическая ФМ быть построена на основе единой мультимодальной архитектуры (см. Рис. 2) или может потребоваться несколько архитектур. Например, AB-Chat потенциально может требовать специфической основы на базе большой языковой модели (например, INDUS, основанная на BERT), тогда как ориентированные на данные прикладные задачи нижнего уровня могут требовать иной архитектуры, хотя ФМ на основе больших языковых моделей способны к широкому использованию при правильной токенизации данных (например, GPT, работающая с изображениями или видео). Семинар выявил эти вопросы и необходимость детальной технической оценки возможностей современных архитектур ФМ для конкретных целей астробиологии.
Кроме того, три прикладные задачи нижнего уровня (разделы 5.1, 5.2, 5.3), которые были определены и рассмотрены на семинаре, вероятно, представляют лишь часть потенциальных вариантов использования астробиологической ФМ или набора ФМ. Другие возможности могут включать модели, специально предназначенные для функциональной биохимии, моделирования окружающей среды, планирования экспериментов, обеспечения безопасности астронавтов и планетарной защиты (прямое/обратное загрязнение). Потребуется дополнительная работа для разработки набора надёжных вариантов использования и определения их приоритетов.
На Рисунке 6 обобщены несколько ключевых действий или целей, которые могут стать частью дорожной карты и видения усилий по разработке астробиологической ФМ, отражающих результаты семинара. Одна из конечных, амбициозных целей заключается в том, чтобы астробиологическая ФМ (или набор ФМ) действовала как эффективный «ИИ-астробиолог», работающий вместе с исследователями-людьми в любом аспекте астробиологических исследований, потенциально в качестве агентного ИИ.

Дорожная карта разработки фундаментальной модели (FM) по астробиологии
Ближайшая перспектива
Модернизация экосистемы данных
Техническая оценка, использование существующих данных для создания прототипа FM
Разработка AB-Chat
Следующие шаги
Синхронный сбор всех данных, специфичных для миссий, с биологическими данными для гибкого и надежного обнаружения биосигнатур, генеративного использования и последующих приложений
Разработка модели обнаружения жизни и автономного научного руководителя (AMM)
Активное использование FM в сообществе
Конечные цели
Заполнение легкодоступных пробелов в данных, актуальных для предстоящих миссий, для улучшения FM и прикладных задач
Сквозное использование FM в миссиях
Мультимодальное обнаружение жизни и ее характеристика
Функциональный ИИ-астробиолог
Потенциальная поддержка со стороны NASA и других организаций
Лучшая интеграция с требованиями открытой науки по сбору и представлению данных
Рекомендуемый репозиторий и/или форматы для данных, генерируемых существующими программами
Приоритизация инициативы по курированию и созданию данных, готовых для ИИ/МО
Источники финансирования для ИИ/МО, применяемых в астробиологии
Выделенные линии в существующих программах ИЛИ новые программы по направлению ИИ+астробиология
Обучение астробиологов в области ИИ/МО
Р. Фелтон и К. Шарф выражают благодарность программе NASA Astrobiology TWSC (заявка № 24-TWSC24-0046) за поддержку факультативных мероприятий в рамках семинара по астробиологии, а также Л. Хейсу, Р. Макколи Ренч и Б. Бёркар за ценные советы и руководство; отдельно благодарим М. Войтек и М. Кирвен-Брукс из NASA Ames за существенную поддержку и координацию. М. Ансделл благодарят за ранние обсуждения и советы. Институт SETI предоставил помещение для проведения семинара, а также оказал поддержку в разработке программы и решении множества организационных вопросов до, во время и после мероприятия. Без советов и самоотверженной работы Дебби Койер (SETI) семинар не смог бы состояться успешно; мы благодарим её, а также президента и генерального директора Института SETI Билла Даймонда за их огромную щедрость, время и внимание. К. Никсон признаёт финансовую поддержку со стороны Управления стратегических научных исследований Центра космических полётов имени Годдарда (NASA GSFC) и Управления астробиологии штаб-квартиры NASA (NASA HQ Astrobiology). М. Л. Вонг получает финансирование от NASA через стипендиальную программу NASA Hubble Fellowship (грант HST-HF2-51521.001-A), присуждённый Институтом науки космического телескопа (Space Telescope Science Institute), который управляется Ассоциацией университетов по исследованию астрономии (Association of Universities for Research in Astronomy, Inc.) по контракту с NASA № NAS5-26555.
Мы также благодарим за важный вклад исследовательские координационные сети (RCNs) в области астробиологии, в частности: Тори Холер (NfOLD), Ники Паренто (LIFE), Элисон Мюррей (NOW), Лорена Уильямса (PCE3) и Линду Золь (NeXSS). Наконец, мы благодарим участников команды Prithvi Geospatial FM: Рахула Рамачандрана (NASA-MSFC) и Манила Маски (NASA-MSFC) за выступления на семинаре и ценные рекомендации на различных этапах работы.
Райан Фелтон: концептуализация (ведущая роль), получение финансирования (ведущая роль), администрирование проекта (ведущая роль), руководство (ведущая роль), визуализация (ведущая роль), написание — подготовка оригинального черновика (ведущая роль), написание — рецензирование и редактирование (ведущая роль).
Калеб Шарф: концептуализация (ведущая роль), получение финансирования (ведущая роль), администрирование проекта (ведущая роль), руководство (ведущая роль), визуализация (ведущая роль), написание — подготовка оригинального черновика (ведущая роль), написание — рецензирование и редактирование (ведущая роль).
Стюарт Бартлетт: концептуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Натали А. Каброль: концептуализация (поддерживающая роль), получение финансирования (поддерживающая роль), администрирование проекта (поддерживающая роль), руководство (поддерживающая роль), визуализация (поддерживающая роль), написание — подготовка оригинального черновика (поддерживающая роль), написание — рецензирование и редактирование (поддерживающая роль).
Виктория Да Пуан: концептуализация (поддерживающая роль), администрирование проекта (поддерживающая роль), визуализация (поддерживающая роль), написание — подготовка оригинального черновика (поддерживающая роль), написание — рецензирование и редактирование (поддерживающая роль).
Диана Джентри: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Цзянь Гун: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Адриенн Хоарфрост: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Манил Маски: концептуализация, визуализация.
Флойд Николс: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Конор А. Никсон: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Теджас Панамбур: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Джозеф Пастерски: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Антон С. Петров: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Анируд Прабху: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Бренда Томсон: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Хамед Вализадеган: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Кимберли Уоррен-Роудс: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Дэвид Веттергрин: концептуализация (поддерживающая роль), администрирование проекта (поддерживающая роль), визуализация (поддерживающая роль), написание — подготовка оригинального черновика (поддерживающая роль), написание — рецензирование и редактирование (поддерживающая роль).
Майкл Л. Вонг: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Анастасия Янчилина: концептуализация, визуализация, написание — подготовка оригинального черновика, написание — рецензирование и редактирование.
Организацией семинара занимался научный организационный комитет (SOC) в составе шести человек: Райан Фелтон, Калеб Шарф, Натали Каброль, Дэвид Веттергрин, Виктория Да Пуан и Дебби Койер. Комитет распространил заявку на участие через различные рассылки, связанные с астробиологией, а также направил её во все пять исследовательских координационных сетей (RCN) для дальнейшего распространения среди их участников. Заявители отвечали на вопросы анкеты, предоставляли свои резюме и отбирались на основе занимаемой должности, научного бэкграунда и соответствия представленных материалов тематике семинара. Для комитета было важно обеспечить широкий охват участников из разных областей — астробиологии, науки о данных, а также с разным уровнем карьерного опыта. В итоге комитет отобрал 16 заявителей (22 человека с учётом членов самого комитета), представляющих федеральные центры, университеты и частные учреждения; среди участников были как аспиранты, так и учёные с многолетним опытом работы на руководящих должностях.
Семинар состоял из однодневного виртуального вводного модуля и трёхдневной очной части. Полный логистический график виртуального модуля и очной части представлен в Дополнительных файлах 1 и 2, а записи сессий семинара доступны на следующем веб-сайте: https://astrobio-fm2025.github.io/index.html.
1. Барнс Дж.В., Тёртл Э.П., Трейнер М.Г. и др. — Научные цели и задачи для роторного посадочного аппарата Dragonfly на Титане с возможностью перемещения / Science Goals and Objectives for the Dragonfly Titan Rotorcraft Relocatable Lander
2. Бхаттачарджи Б., Триведи А., Мураока М. и др. — INDUS: Эффективные и действенные языковые модели для научных приложений / INDUS: Effective and Efficient Language Models for Scientific Applications
3. Боммасани Р., Хадсон Д.А., Адели Э. и др. — О возможностях и рисках фундаментальных моделей / On the Opportunities and Risks of Foundation Models
4. Ботма Дж.П., Гилмор Дж.Б., Маккензи Р.Х. — Роль квантовых эффектов в реакциях переноса протона в ферментах: квантовое туннелирование в шумной среде? / The Role of Quantum Effects in Proton Transfer Reactions in Enzymes: Quantum Tunneling in a Noisy Environment?
5. Боукетт Дж.Дж., Чьен С.А., Маркетти Й. и др. — Автономный отбор проб с поверхности для концепции миссии посадочного аппарата на Европу / Autonomous Surface Sampling for the Europa Lander Mission Concept
6. Чандру К., Потисзил К., Цзя Т.З. — Альтернативные пути в астробиологии: обзор и синтез контингентных и небиомолекулярных истоков земной и внеземной жизни / Alternative Pathways in Astrobiology: Reviewing and Synthesizing Contingency and Non-Biomolecular Origins of Terrestrial and Extraterrestrial Life
7. Чьен С.А., Визентин Дж., Басич К. — Исследование за пределами Земли с помощью космической робототехники / Exploring beyond Earth Using Space Robotics
8. Кливз Х.Дж., Хайстэд Г., Прабху А. и др. — Надёжная, агностическая молекулярная биосигнатура на основе машинного обучения / A Robust, Agnostic Molecular Biosignature Based on Machine Learning
9. Клелэнд К.И. — Выход за рамки определений в поисках внеземной жизни / Moving Beyond Definitions in the Search for Extraterrestrial Life
10. Кобб А.Д., Хаймс М.Д., Собоченски Ф. и др. — Ансамбль байесовских нейронных сетей для восстановления параметров атмосфер экзопланет / An Ensemble of Bayesian Neural Networks for Exoplanetary Atmospheric Retrieval
11. Комитет по десятилетнему обзору планетологии и астробиологии, Совет по космическим исследованиям и др. — Истоки, миры и жизнь: десятилетняя стратегия планетологии и астробиологии на 2023–2032 годы / Origins, Worlds, and Life: A Decadal Strategy for Planetary Science and Astrobiology 2023-2032
12. Де Маре Д.Дж., Нат Дж.А., Алламоленда Л.Дж. и др. — Дорожная карта НАСА по астробиологии / The NASA Astrobiology Roadmap
13. Флетчер Л.Н., Кавалье Т., Грасси Д. и др. — Научные исследования Юпитера, ставшие возможными благодаря миссии ESA Jupiter Icy Moons Explorer / Jupiter Science Enabled by ESA's Jupiter Icy Moons Explorer
14. Георгиу К.Д., Димер Д.В. — Липиды как универсальные биомаркеры внеземной жизни / Lipids as Universal Biomarkers of Extraterrestrial Life
15. Гариб-Нежад Э. (Сэм), Вализадеган Х., Баталха Н.Е. и др. — TelescopeML. II. Свёрточные нейронные сети для предсказания параметров атмосфер коричневых карликов / TelescopeML. II. Convolutional Neural Networks for Predicting Brown Dwarf Atmospheric Parameters
16. Харрис К.М., Маклей М.Т., Лутц К.А. и др. — Дистанционная и непосредственная характеристика марсианских аналогов: сопряжение масштабов для улучшения поиска микробных сигнатур на Марсе / Remote and In-Situ Characterization of Mars Analogs: Coupling Scales to Improve the Search for Microbial Signatures on Mars
17. Якубик Дж., Рой С., Филлипс К.Е. и др. — Фундаментальные модели для универсального геопространственного искусственного интеллекта / Foundation Models for Generalist Geospatial Artificial Intelligence
18. Джхита С., Хатзитеодоридис Э., Девайн К. и др. — Путь вперёд для исследования происхождения жизни: гипотеза «прионы и прионоподобные молекулы — в первую очередь» / The Way Forward for the Origin of Life: Prions and Prion-Like Molecules First Hypothesis
19. Лесниковски А., Бикель В., Ангерхаузен Д. — Автоматизированное обнаружение аномальных признаков в сверхбольших наборах данных дистанционного зондирования планет с использованием вариационных автоэнкодеров / Automated Discovery of Anomalous Features in Ultralarge Planetary Remote-Sensing Datasets Using Variational Autoencoders
20. Лён Х.В., Бови Дж. — К астрономической фундаментальной модели для звёзд на основе трансформер-архитектуры / Towards an Astronomical Foundation Model for Stars with a Transformer-Based Model
21. Ли К., Десаи Р., Скотт Р.Т. и др. — Интерпретируемое машинное обучение выявляет мульти-омиксные сигнатуры мышечного ответа на космический полёт у мышей / Explainable Machine Learning Identifies Multi-Omics Signatures of Muscle Response to Spaceflight in Mice
22. Матьё А., Леклерк М., Санабрия М. и др. — Применение машинного и глубокого обучения в метагеномной таксономии и функциональной аннотации / Machine Learning and Deep Learning Applications in Metagenomic Taxonomy and Functional Annotation
23. Муккавилли С.К., Чивитарезе Д.С., Шмуде Дж. и др. — Фундаментальные модели ИИ для погоды и климата: применение, проектирование и внедрение / AI Foundation Models for Weather and Climate: Applications, Design, and Implementation
24. Неснас И.А.Д., Хокман Б.Дж., Бандопадхьяй С. и др. — Автономное исследование малых тел для повышения автономности миссий в глубокий космос / Autonomous Exploration of Small Bodies Toward Greater Autonomy for Deep Space Missions
25. Невё М., Хейз Л.Е., Войтек М.А. и др. — Лестница обнаружения жизни / The Ladder of Life Detection
26. Нгуен Т., Брандштеттер Дж., Капур А. и др. — ClimaX: фундаментальная модель для погоды и климата / ClimaX: A Foundation Model for Weather and Climate
27. Николс Ф., Понтефракт А., Дион-Киршнер Х. и др. — Липидные биосигнатуры из богатых сульфатами гиперсолёных озёр плато Карибу / Lipid Biosignatures From SO₄‐Rich Hypersaline Lakes of the Cariboo Plateau
28. Николс Ф., Понтефракт А., Мастерсон А.Л. и др. — Использование подходов машинного обучения для предсказания содержания органического углерода в осадках гиперсолёных озёр — аналогов Марса / Leveraging Machine Learning Approaches to Predict Organic Carbon Abundance in Mars‐Analog Hypersaline Lake Sediments
29. Нуссинов Р., Чжан М., Лю Й. и др. — AlphaFold, искусственный интеллект (ИИ) и аллостерия / AlphaFold, Artificial Intelligence (AI), and Allostery
30. Палуцис М.К., Дитрих В.Е., Хейз А.Г. и др. — Происхождение и эволюция веерной системы Пис Вэлли, дренирующей район посадки марсохода Curiosity в кратере Гейл, Марс / The Origin and Evolution of the Peace Vallis Fan System That Drains to the Curiosity Landing Area, Gale Crater, Mars
31. Паппалардо Р.Т., Буратти Б.Дж., Корт Х. и др. — Научный обзор миссии Europa Clipper / Science Overview of the Europa Clipper Mission
32. Понтефракт А., Чжу Т.Ф., Уокер В.К. и др. — Микробное разнообразие в гиперсолёном сульфатном озере: земной аналог древнего Марса / Microbial Diversity in a Hypersaline Sulfate Lake: A Terrestrial Analog of Ancient Mars
33. Ратлифф Л.Е., Фулфорд А.Х., Позарицки К.И. и др. — Пересмотр пустой ниши: использование отрицательных результатов для уточнения пределов обитаемости / The Vacant Niche Revisited: Using Negative Results to Refine the Limits of Habitability
34. Роджерс Э.Р., Куализа Б.Р., Хайденрайх Дж.Р. и др. — Кремнезёмсодержащие холмы и пласты в юго-западной части бассейна Мелас, Долины Маринер, Марс: свидетельства гидротермального происхождения / Silica‐Bearing Mounds and Strata in the Southwest Melas Basin, Valles Marineris, Mars: Evidence for a Hydrothermal Origin
35. Руссель К., Бём К. — Геопространственный объяснимый ИИ (XAI): обзор / Geospatial XAI: A Review
36. Шарф К.А., Майер М.Х., Бостон П.Дж. — Использование искусственного интеллекта для трансформации астробиологии / Using Artificial Intelligence to Transform Astrobiology
37. Шинде Р., Филлипс К.Е., Анкур К. и др. — WxC-Bench: новый набор данных для последующих задач в области погоды и климата / WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks
38. Шварцман Д., Рой С., Фраккаро П. и др. — Prithvi-EO-2.0: универсальная мультитемпоральная фундаментальная модель для приложений наблюдения Земли / Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
39. Тайлинг Б.П., Чоу Л., Да Поян В. и др. — Научная автономия для астробиологии океанических миров: перспектива / Science Autonomy for Ocean Worlds Astrobiology: A Perspective
40. Тонкович П., Калайдзийски С., Здравевски Э. и др. — Литература по прикладному машинному обучению в метагеномной классификации: обзорный анализ / Literature on Applied Machine Learning in Metagenomic Classification: A Scoping Review
41. Тоска Н.Дж., Нолл А.Х., Макленнан С.М. — Активность воды и вызов для жизни на раннем Марсе / Water Activity and the Challenge for Life on Early Mars
42. Вализадеган Х., Мартинью М.Ж.С., Уилкенс Л.С. и др. — ExoMiner: высокоточный и интерпретируемый классификатор глубокого обучения, подтвердивший 301 новую экзопланету / ExoMiner: A Highly Accurate and Explainable Deep Learning Classifier That Validates 301 New Exoplanets
43. Вакуэро Т.С., Дадди Дж., Таккер Р. и др. — EELS: автономный змееподобный робот с возможностями планирования задач и движений для исследования ледяных миров / EELS: Autonomous Snake-like Robot with Task and Motion Planning Capabilities for Ice World Exploration
44. Обсерватория им. Веры К. Рубин — Предварительный просмотр данных 1 / The Vera C. Rubin Observatory Data Preview 1
45. Верма В., Маймоун М.В., Гейнс Д.М. и др. — Автономная робототехника обеспечивает прогресс марсохода Perseverance на Марсе / Autonomous Robotics Is Driving Perseverance Rover's Progress on Mars
46. Уоррен-Роудс К., Каброль Н.А., Филлипс М. и др. — Фреймворк «от орбиты к поверхности» для декодирования и предсказания паттернов биосигнатур в земных аналогах / Orbit-to-Ground Framework to Decode and Predict Biosignature Patterns in Terrestrial Analogues
47. Вильгельм М.Б., Давила А.Ф., Айгенброуд Дж.Л. и др. — Ксеросохранение функционализированных липидных биомаркеров в гиперзасушливых почвах пустыни Атакама / Xeropreservation of Functionalized Lipid Biomarkers in Hyperarid Soils in the Atacama Desert
48. Вулф С.Р., Лафуэнте Б., Келлер Р.М. и др. — Обеспечение обнаружения данных с помощью стандарта метаданных ресурсов по астробиологии / Enabling Data Discovery with the Astrobiology Resource Metadata Standard49. Сяо Й., Чжао В., Чжан Дж. и др. — Большие языковые модели для белков: комплексный обзор / Protein Large Language Models: A Comprehensive Survey
Agentic AI (Агентный ИИ) — системы искусственного интеллекта, способные планировать и выполнять автономные задачи при ограниченном контроле со стороны человека, демонстрируя тем самым определённую степень независимого принятия решений и агентности.
Bespoke datasets (Специализированные наборы данных) — индивидуально созданные или узкоспециализированные наборы данных, разработанные под конкретную предметную область.
Curated data (Курируемые данные) — данные, которые были отобраны, организованы и предварительно обработаны людьми.
Federated datasets (Объединенные наборы данных) — наборы данных, собранные из различных организаций, но доступные через единый центральный узел.
Few-shot learning (Обучение на малом числе примеров) — метод контролируемого машинного обучения, при котором модель учится делать прогнозы на основе очень небольшого количества размеченных примеров (иногда всего 2–3 из одной категории), когда возможно делать выводы на основе другой контекстной информации.
Foundation Model (FM, Фундаментальная модель) — модель, обучаемая с частичным привлечением разметки (semi-supervised), как правило, на очень больших наборах данных, которая служит универсальной («фундаментальной») основой и может быть адаптирована для широкого спектра последующих задач или приложений.
Large Language Models (LLMs, Большие языковые модели) — разновидность фундаментальных моделей, обучаемых на массивных текстовых данных с использованием методов глубокого обучения для понимания и генерации естественного языка.
Self-supervised learning (Самоконтролируемое обучение) — разновидность контролируемого машинного обучения для задач классификации, при которой для обучения не используются размеченные данные: модель самостоятельно генерирует свои собственные метки или прогнозные задачи, что позволяет ей выявлять значимые закономерности.
Semi-supervised learning (Полуконтролируемое обучение) — подход к машинному обучению, при котором в процессе обучения сочетаются небольшой объём размеченных данных и большой объём неразмеченных данных, что позволяет повысить эффективность обучения и работать в условиях дефицита разметки.
Zero-shot learning (Обучение без примеров) — метод машинного обучения, при котором модель не получает никаких размеченных тренировочных данных по определённой категории и делает прогнозы по новым задачам, перенося знания из предварительно обученных моделей на больших и разнообразных наборах данных; например, распознавание зебры при первой встрече как «лошади в полоску».